Qui s'engage dans l'audio profond et pourquoi est-il nécessaire

Depuis le début de l'année, plusieurs nouveaux systèmes d'intelligence artificielle sont apparus, capables de synthétiser un enregistrement vidéo avec une personne parlante sur la base de l'audio. Nous vous dirons qui et dans quel but est engagé dans des développements similaires. Nous parlerons également d'autres outils qui vous permettent de modifier des enregistrements audio.


Photo Erik-Jan Leusink / Unsplash

Qu'est-ce que


En décembre 2019, des spécialistes de l'Université technique de Munich et de l'Institut d'informatique de la Max Planck Society ont publié un article scientifique sur le système de marionnettes neuronales .

Pour générer un enregistrement vidéo, elle n'a besoin que d'un fichier audio avec la voix d'une personne et sa photo. Le processus comprend trois étapes. Tout d'abord, un réseau de neurones récurrent analyse la parole sur l'enregistrement et construit un modèle logit qui reflète les caractéristiques de la prononciation du locuteur. Il est envoyé à un réseau neuronal généralisant, qui calcule les coefficients de construction d'un modèle tridimensionnel du visage. Ensuite, un module de rendu entre en jeu, ce qui génère l'enregistrement final.

Les développeurs disent que Neural Voice Puppetry joue des vidéos de haute qualité, mais ils doivent encore résoudre certains problèmes liés à la synchronisation du son.

Une technologie similaire est en cours de développement par des ingénieurs de l'Université de Nanyang à Singapour. Leur système vous permet de combiner l'enregistrement du discours d'une personne avec la vidéo d'une autre. Tout d'abord, il forme un modèle 3D du visage pour chaque image de la vidéo cible. De plus, le réseau neuronal analyse les points faciaux clés et modifie le modèle tridimensionnel de sorte que ses expressions coïncident avec les phonèmes du fichier audio d'origine. Selon les auteurs, leur outil dépasse la qualité des analogues. Lors des tests à l'aveugle, les répondants ont marqué 55% des enregistrements comme «réels».

Où postuler


À l'avenir, les dipfakes permettront de créer des avatars vidéo réalistes - des personnalités pour les assistants vocaux. En 2017, le passionné Jarem Archer a implémenté l' assistant Cortana à partir de Windows 10 sous forme d'hologramme. Les systèmes d'intelligence artificielle pour la formation de dipfakes porteront ces solutions à un nouveau niveau. Un autre domaine d'application de ces algorithmes est l'industrie du jeu. La génération d'animations faciales par bande sonore simplifiera le travail des concepteurs de jeux qui personnalisent les expressions faciales des personnages virtuels.

Les développeurs de la technologie diphake notent que leurs systèmes ne sont qu'un outil. Et malheureusement, il sera inévitablement utilisé à des fins illégales. Le premier crime de ce type a été commisen 2019. Le directeur d'une société énergétique anglaise a transféré 240 000 $ à un fraudeur. Il a imité la voix du chef de la firme allemande en utilisant des réseaux de neurones et a demandé de conclure la transaction. Par conséquent, les experts des universités travaillent activement avec les organismes d'application de la loi et les politiciens pour prévenir de telles situations. Par exemple, l'Université du Colorado à Denver développe des outils pour reconnaître les faux enregistrements audio et vidéo. À l'avenir, il n'y aura plus que de tels projets.

Quels sont les autres projets


Il existe des outils qui vous permettent de modifier des enregistrements audio aussi facilement que du texte ordinaire. Par exemple, Descript propose un éditeur audio qui transcrit les mots du locuteur et vous permet de les modifier sous forme de texte. Vous pouvez ajouter des pauses, réorganiser les fragments - toutes les modifications sont synchronisées avec l'enregistrement audio. Les développeurs disent que le système traite les fichiers en .m4a, .mp3, .aiff, .aac et .wav, et que la précision de la transcription dépasse 93% .


Photo de Yohann LIBOT / Unsplash

D'autres projets sont apparus en même temps que Descript. Les ingénieurs de l' Université de Princeton a présenté"Photoshop pour l'audio" - le système VoCo. Il permet non seulement de modifier des enregistrements sous forme de texte, mais également de synthétiser des phrases avec la voix du locuteur (en tenant compte des intonations).

À l'avenir, ces services seront utiles aux journalistes et aux sociétés de médias qui créent du contenu audio. Ils aideront également les personnes atteintes de maladies spécifiques à communiquer à l'aide de systèmes de synthèse vocale. VoCo et ses homologues rendront leur voix moins «robotique».



Lectures supplémentaires sur notre blog Hi-Fi World:

«Bitchy Betty» et interfaces audio: pourquoi elles parlent d'une voix féminine
Interfaces audio: le son comme source d'information sur la route, au bureau et dans le ciel
Le premier assistant vocal «neutre en termes de genre» au monde
Historique du synthétiseur de la parole: la première installation mécanique
Comment la synthèse vocale est apparue sur un PC



All Articles