Quem se envolve em áudio profundo e por que é necessário

Desde o início do ano, surgiram vários novos sistemas de inteligência artificial capazes de sintetizar uma gravação de vídeo com uma pessoa que fala com base em áudio. Nós lhe diremos quem e com qual objetivo está envolvido em desenvolvimentos semelhantes. Também falaremos sobre outras ferramentas que permitem editar gravações de áudio.


Foto Erik-Jan Leusink / Unsplash

Fazer o que


Em dezembro de 2019, especialistas da Universidade Técnica de Munique e do Instituto de Informática da Sociedade Max Planck publicaram um artigo científico sobre o sistema de marionetes por voz neural .

Para gerar uma gravação de vídeo, ela precisa apenas de um arquivo de áudio com a voz e a foto de uma pessoa. O processo consiste em três etapas. Primeiro, uma rede neural recorrente analisa o discurso no registro e cria um modelo de logit que reflete as características da pronúncia do falante. É enviado para uma rede neural generalizada, que calcula os coeficientes para a construção de um modelo tridimensional da face. Em seguida, um módulo de renderização entra em ação, o que gera o registro final.

Os desenvolvedores dizem que o Neural Voice Puppetry reproduz vídeos de alta qualidade, mas ainda precisam resolver alguns problemas associados à sincronização do som.

Uma tecnologia semelhante está sendo desenvolvida por engenheiros da Universidade Nanyang, em Cingapura. O sistema deles permite combinar a gravação do discurso de uma pessoa com o vídeo de outra. Primeiro, ele forma um modelo 3D da face para cada quadro no vídeo de destino. Além disso, a rede neural analisa os principais pontos faciais e modifica o modelo tridimensional para que suas expressões coincidam com os fonemas do arquivo de áudio original. Segundo os autores, sua ferramenta supera os análogos em qualidade. Durante os testes às cegas, os entrevistados marcaram 55% dos registros como "reais".

Onde aplicar


No futuro, os dipfakes permitirão criar avatares em vídeo realistas - personalidades para assistentes de voz. Em 2017, o entusiasta Jarem Archer implementou o assistente Cortana do Windows 10 como um holograma. Os sistemas de inteligência artificial para a formação de dipfakes levarão essas soluções a um novo nível. Outra área de aplicação de tais algoritmos é a indústria de jogos. A geração de animações faciais pela trilha sonora simplificará o trabalho dos designers de jogos que personalizam as expressões faciais dos personagens virtuais.

Os desenvolvedores da tecnologia diphake observam que seus sistemas são apenas uma ferramenta. E, infelizmente, será inevitavelmente usado para fins ilegais. O primeiro crime desse tipo foi cometidoem 2019. O diretor de uma empresa de energia inglesa transferiu US $ 240.000 para um fraudador. Ele imitou a voz do chefe da preocupação da Alemanha usando redes neurais e pediu para concluir a transação. Portanto, especialistas de universidades estão trabalhando ativamente com agências policiais e políticos para evitar tais situações. Por exemplo, a Universidade do Colorado, em Denver, está desenvolvendo ferramentas para reconhecer falsas gravações de áudio e vídeo. No futuro, haverá apenas mais projetos desse tipo.

Que outros projetos existem


Existem ferramentas que permitem editar gravações de áudio tão facilmente quanto o texto comum. Por exemplo, o Descript oferece um editor de áudio que transcreve as palavras do orador e permite que você as edite em forma de texto. Você pode adicionar pausas, reorganizar os fragmentos em alguns lugares - todas as edições são sincronizadas com a gravação de áudio. Os desenvolvedores dizem que o sistema processa arquivos em .m4a, .mp3, .aiff, .aac e .wav, e a precisão da transcrição excede 93% .


Foto de Yohann LIBOT / Unsplash

Outros projetos apareceram ao mesmo tempo que o Descrito. Engenheiros da Universidade de Princeton introduziram"Photoshop para áudio" - o sistema VoCo. Ele permite não apenas editar registros em forma de texto, mas também sintetizar frases com a voz do interlocutor (levando em consideração entonações).

No futuro, esses serviços serão úteis para jornalistas e empresas de mídia que criam conteúdo de áudio. Eles também ajudarão pessoas com doenças específicas que se comunicam usando sistemas de síntese de fala. A VoCo e seus colegas tornarão a voz menos "robótica".



Leituras adicionais em nosso blog Hi-Fi World:

“Bitchy Betty” e interfaces de áudio: por que falam com uma voz feminina
Interfaces de áudio: soam como fonte de informações na estrada, no escritório e no céu
O primeiro assistente de voz “neutro em gênero” do mundo
História do sintetizador da fala: a primeira instalação mecânica
Como a síntese da fala apareceu em um PC



All Articles