Loading...
FacebookMercados

Un nuevo modelo de separación de voz de última generación que distingue a varios altavoces simultáneamente

¿Qué es la investigación?

Estamos presentando un nuevo método para separar hasta cinco voces que hablan simultáneamente en un solo micrófono.

Nuestro método supera el rendimiento previo de última generación en varios puntos de referencia de separación de fuentes de voz, incluidos los que tienen un ruido y reverberaciones desafiantes.

Utilizando los conjuntos de datos WSJ0-2mix y WSJ0-3mix, junto con variaciones recientemente creadas con cuatro y cinco altavoces simultáneos, nuestro modelo logró una mejora SI-SNR*  invariante en escala de más de 1.5 dB (decibelios) sobre los modelos actuales de vanguardia.

Para construir nuestro modelo, utilizamos una nueva arquitectura de red neuronal recurrente que funciona directamente en la forma de onda de audio sin formato.

Los modelos anteriormente mejor disponibles usan una máscara y un decodificador para ordenar la voz de cada hablante.

El rendimiento de este tipo de modelos se degrada rápidamente cuando el número de altavoces es alto o desconocido.

Al igual que con los sistemas de separación de voz estándar, nuestro modelo requiere conocer el número total de hablantes por adelantado.

Pero para manejar los desafíos cuando se desconoce la cantidad de altavoces, creamos un sistema novedoso que detecta automáticamente la cantidad de altavoces y selecciona el modelo más relevante.

Video: https://ai.facebook.com/blog/a-new-state-of-the-art-voice-separation-model-that-distinguishes-multiple-speakers-simultaneously

¿Cómo funciona?

El objetivo principal de los modelos de separación de voz es estimar las fuentes de entrada, dada una mezcla de entrada de señales de voz, y generar una salida de canales aislados para cada hablante.

Nuestro modelo utiliza una red de codificador que asigna la señal de entrada a una representación latente.

Aplicamos una red de separación de voz compuesta por varios bloques, donde la entrada es la representación latente y la salida es una señal estimada para cada hablante.

Los métodos anteriores generalmente usan una máscara cuando se realiza la separación, lo cual es problemático cuando la máscara no está definida y alguna información de señal puede perderse en el proceso.

Video: https://ai.facebook.com/blog/a-new-state-of-the-art-voice-separation-model-that-distinguishes-multiple-speakers-simultaneously

Entrenamos el modelo y optimizamos directamente el SI-SNR utilizando varias funciones de pérdida a través del entrenamiento invariante de permutación.

Insertamos una función de pérdida después de cada bloque de separación para mejorar aún más el proceso de optimización.

Finalmente, para garantizar que cada altavoz se asigne de manera consistente a un canal de salida en particular, agregamos una función de pérdida de percepción utilizando un modelo de reconocimiento de altavoz previamente entrenado.

También construimos un nuevo sistema para manejar la separación de números desconocidos de múltiples altavoces.

Lo hicimos entrenando diferentes modelos para separar dos, tres, cuatro y cinco hablantes.

Alimentamos la mezcla de entrada al modelo diseñado para acomodar hasta cinco altavoces simultáneos para que detecte la cantidad de canales activos (no silenciosos) presentes.

Luego, repetimos el mismo proceso con un modelo entrenado para la cantidad de altavoces activos y verificamos si todos los canales de salida estaban activos.

Repetimos este proceso hasta que se activaron todos los canales o encontramos el modelo con el menor número de altavoces de destino.

¿Por que es importante?

La capacidad de separar una sola voz de las conversaciones entre muchas personas puede mejorar y mejorar la comunicación en una amplia gama de aplicaciones que usamos en nuestra vida diaria, como mensajes de voz, asistentes y herramientas de video, así como innovaciones de AR / VR.

También puede mejorar la calidad de audio para las personas con audífonos, por lo que es más fácil escuchar a otros claramente en entornos abarrotados y ruidosos, como fiestas, restaurantes o grandes videollamadas.

Más allá de separar diferentes voces, nuestro novedoso sistema también se puede aplicar para separar otros tipos de señales de voz de una mezcla de sonidos como el ruido de fondo.

Nuestro trabajo también se puede aplicar a grabaciones de música, mejorando nuestro trabajo anterior sobre la separación de diferentes instrumentos musicales de un solo archivo de audio.

Como siguiente paso, trabajaremos para mejorar las propiedades generativas del modelo hasta que logre un alto rendimiento en condiciones reales.

*(relación señal-ruido, una medida común de calidad de separación)

Fuente y foto: https://ai.facebook.com/blog/a-new-state-of-the-art-voice-separation-model-that-distinguishes-multiple-speakers-simultaneously