Quién participa en el audio profundo y por qué es necesario

Desde principios de año, han aparecido varios sistemas nuevos de IA que son capaces de sintetizar una grabación de video con una persona que habla basada en audio. Le diremos quién y para qué se dedica a desarrollos similares. También hablaremos sobre otras herramientas que le permiten editar grabaciones de audio.


Foto Erik-Jan Leusink / Unsplash

Qué hacer


En diciembre de 2019, especialistas de la Universidad Técnica de Munich y el Instituto de Informática de la Sociedad Max Planck publicaron un artículo científico sobre el sistema de marionetas de voz neural .

Para generar una grabación de video, solo necesita un archivo de audio con la voz de una persona y su foto. El proceso consta de tres etapas. Primero, una red neuronal recurrente analiza el discurso en el registro y crea un modelo logit que refleja las características de la pronunciación del hablante. Se envía a una red neuronal generalizada, que calcula los coeficientes para construir un modelo tridimensional de la cara. Luego, entra en juego un módulo de renderizado, que genera el registro final.

Los desarrolladores dicen que Neural Voice Puppetry reproduce videos de alta calidad, pero aún tienen que resolver algunos problemas asociados con la sincronización del sonido.

Los ingenieros de la Universidad de Nanyang en Singapur están desarrollando una tecnología similar . Su sistema le permite combinar la grabación del discurso de una persona con el video de otra. En primer lugar, forma un modelo 3D de la cara para cada cuadro en el video de destino. Además, la red neuronal analiza los puntos faciales clave y modifica el modelo tridimensional para que sus expresiones coincidan con los fonemas del archivo de audio original. Según los autores, su herramienta supera los análogos en calidad. Durante las pruebas a ciegas, los encuestados marcaron el 55% de los registros como "reales".

Donde aplicar


En el futuro, los dipfakes permitirán crear avatares de video realistas, personalidades para asistentes de voz. En 2017, el entusiasta Jarem Archer implementó el asistente Cortana de Windows 10 como un holograma. Los sistemas de inteligencia artificial para la formación de dipfakes llevarán tales soluciones a un nuevo nivel. Otra área de aplicación de tales algoritmos es la industria del juego. Generar animaciones faciales por banda sonora simplificará el trabajo de los diseñadores de juegos que personalizan las expresiones faciales de los personajes virtuales.

Los desarrolladores de la tecnología diphake señalan que sus sistemas son solo una herramienta. Y desafortunadamente, inevitablemente se utilizará con fines ilegales. El primer delito de este tipo fue cometidoen 2019 El director de una compañía energética inglesa transfirió $ 240,000 a un estafador. Imitó la voz del jefe de la preocupación de Alemania utilizando redes neuronales y pidió completar la transacción. Por lo tanto, los expertos de las universidades están trabajando activamente con las agencias policiales y los políticos para prevenir tales situaciones. Por ejemplo, la Universidad de Colorado en Denver está desarrollando herramientas para reconocer grabaciones falsas de audio y video. En el futuro, solo habrá más proyectos de este tipo.

¿Qué otros proyectos hay?


Existen herramientas que le permiten editar grabaciones de audio tan fácilmente como el texto ordinario. Por ejemplo, Descript ofrece un editor de audio que transcribe las palabras del hablante y le permite editarlas en forma de texto. Puede agregar pausas, reorganizar los fragmentos en lugares: todas las ediciones se sincronizan con la grabación de audio. Los desarrolladores dicen que el sistema procesa archivos en .m4a, .mp3, .aiff, .aac y .wav, y la precisión de la transcripción supera el 93% .


Foto de Yohann LIBOT / Unsplash.

Otros proyectos aparecieron al mismo tiempo que Descript. Ingenieros de la Universidad de Princeton introdujeron"Photoshop para audio": el sistema VoCo. No solo permite editar registros en forma de texto, sino también sintetizar frases con la voz del hablante (teniendo en cuenta las entonaciones).

En el futuro, dichos servicios serán útiles para periodistas y compañías de medios que creen contenido de audio. También ayudarán a las personas con enfermedades específicas que se comunican mediante sistemas de síntesis del habla. VoCo y sus contrapartes harán que su voz sea menos "robótica".



Lectura adicional en nuestro blog Hi-Fi World:

"Bitchy Betty" e interfaces de audio: por qué hablan con una voz femenina
Interfaces de audio: el sonido como fuente de información en la carretera, en la oficina y en el cielo
El primer asistente de voz "sin género" del mundo
Historia del sintetizador de habla: la primera instalación mecánica
Cómo apareció la síntesis de voz en una PC



All Articles