Wer beschäftigt sich mit Deep Audio und warum wird es benötigt

Seit Anfang des Jahres sind mehrere neue KI-Systeme erschienen, die in der Lage sind, eine Videoaufnahme mit einer sprechenden Person basierend auf Audio zu synthetisieren. Wir werden Ihnen sagen, wer und zu welchem ​​Zweck an ähnlichen Entwicklungen beteiligt ist. Wir werden auch über andere Tools zum Bearbeiten von Audioaufnahmen sprechen.


Foto Erik-Jan Leusink / Unsplash

Was tun?


Im Dezember 2019 veröffentlichten Fachleute der Technischen Universität München und des Instituts für Informatik der Max-Planck-Gesellschaft eine wissenschaftliche Arbeit zum Neural Voice Puppetry-System .

Um eine Videoaufnahme zu erstellen, benötigt sie nur eine Audiodatei mit der Stimme einer Person und ihrem Foto. Der Prozess besteht aus drei Schritten. Zunächst analysiert ein wiederkehrendes neuronales Netzwerk die Sprache in der Aufzeichnung und erstellt ein Logit-Modell , das die Merkmale der Aussprache des Sprechers widerspiegelt. Es wird an ein verallgemeinerndes neuronales Netzwerk gesendet, das die Koeffizienten zum Erstellen eines dreidimensionalen Gesichtsmodells berechnet. Als nächstes kommt ein Render-Modul ins Spiel, das den endgültigen Datensatz generiert.

Die Entwickler sagen, dass Neural Voice Puppetry qualitativ hochwertige Videos wiedergibt, aber sie müssen noch einige Probleme lösen, die mit der Synchronisation von Ton verbunden sind.

Eine ähnliche Technologie wird von Ingenieuren der Nanyang University in Singapur entwickelt. Ihr System ermöglicht es Ihnen, die Aufzeichnung der Sprache einer Person mit dem Video einer anderen Person zu kombinieren. Zunächst wird für jedes Bild im Zielvideo ein 3D-Modell des Gesichts erstellt. Darüber hinaus analysiert das neuronale Netzwerk wichtige Gesichtspunkte und modifiziert das dreidimensionale Modell so, dass seine Ausdrücke mit den Phonemen der ursprünglichen Audiodatei übereinstimmen. Laut den Autoren übertrifft ihr Tool analoge Qualitätsmerkmale. Bei Blindtests haben die Befragten 55% der Datensätze als „echt“ markiert .

Wo bewerben?


Mit Dipfakes können in Zukunft realistische Video-Avatare erstellt werden - Persönlichkeiten für Sprachassistenten. 2017 implementierte der Enthusiast Jarem Archer den Cortana-Assistenten von Windows 10 als Hologramm. Künstliche Intelligenzsysteme zur Bildung von Dipfakes werden solche Lösungen auf ein neues Niveau heben. Ein weiterer Anwendungsbereich solcher Algorithmen ist die Spieleindustrie. Das Generieren von Gesichtsanimationen per Soundtrack vereinfacht die Arbeit von Spieledesignern, die die Gesichtsausdrücke virtueller Charaktere anpassen.

Entwickler der Diphake-Technologie stellen fest, dass ihre Systeme nur ein Werkzeug sind. Und leider wird es unweigerlich für illegale Zwecke verwendet. Das erste derartige Verbrechen wurde begangenim Jahr 2019. Der Direktor eines englischen Energieunternehmens überwies 240.000 US-Dollar an einen Betrüger. Er ahmte die Stimme des Unternehmensleiters aus Deutschland über neuronale Netze nach und bat um den Abschluss der Transaktion. Daher arbeiten Experten von Universitäten aktiv mit Strafverfolgungsbehörden und Politikern zusammen, um solche Situationen zu verhindern. Zum Beispiel ist die University of Colorado in Denver Entwicklungstools zur Erkennung von gefälschten Audio- und Videoaufnahmen. In Zukunft wird es nur noch solche Projekte geben.

Welche anderen Projekte gibt es


Es gibt Tools, mit denen Sie Audioaufnahmen so einfach wie normalen Text bearbeiten können. Beispielsweise bietet Descript einen Audio-Editor, der die Wörter des Sprechers transkribiert und es Ihnen ermöglicht, sie in Textform zu bearbeiten. Sie können Pausen hinzufügen und die Fragmente an bestimmten Stellen neu anordnen - alle Änderungen werden mit der Audioaufnahme synchronisiert. Die Entwickler sagen, dass das System Dateien in .m4a, .mp3, .aiff, .aac und .wav verarbeitet und die Genauigkeit der Transkription 93% überschreitet .


Foto von Yohann LIBOT / Unsplash

Andere Projekte erschienen zur gleichen Zeit wie Descript. Ingenieure der Princeton University vorgestellt"Photoshop für Audio" - das VoCo-System. Es ermöglicht nicht nur das Bearbeiten von Datensätzen in Textform, sondern auch das Synthetisieren von Phrasen mit der Stimme des Sprechers (unter Berücksichtigung von Intonationen).

In Zukunft werden solche Dienste für Journalisten und Medienunternehmen nützlich sein, die Audioinhalte erstellen. Sie werden auch Menschen mit bestimmten Krankheiten helfen, die über Sprachsynthesesysteme kommunizieren. VoCo und seine Kollegen werden ihre Stimme weniger "roboterhaft" machen.



Zusätzliche Lektüre in unserem Hi-Fi World-Blog:

„Bitchy Betty“ und Audio-Interfaces: Warum sie mit weiblicher Stimme sprechen
Audio-Interfaces: Sound als Informationsquelle auf der Straße, im Büro und am Himmel
Die weltweit erste „geschlechtsneutrale“
Synthesizer-Geschichte für Sprachassistenten of language: die erste mechanische Installation
Wie die Sprachsynthese auf einem PC erschien



All Articles