Siapa yang terlibat dalam audio yang dalam dan mengapa itu diperlukan

Sejak awal tahun, beberapa sistem AI baru telah muncul yang mampu mensintesis rekaman video dengan orang yang berbicara berdasarkan audio. Kami akan memberi tahu Anda siapa dan untuk tujuan apa terlibat dalam perkembangan serupa. Kami juga akan berbicara tentang alat lain yang memungkinkan Anda untuk mengedit rekaman audio.


Foto Erik-Jan Leusink / Unsplash

Apa yang harus dilakukan


Pada Desember 2019, spesialis dari Universitas Teknik Munich dan Institut Informatika Max Planck Society menerbitkan sebuah makalah ilmiah tentang sistem Neural Voice Puppetry .

Untuk menghasilkan rekaman video, ia hanya membutuhkan file audio dengan suara seseorang dan fotonya. Prosesnya terdiri dari tiga tahap. Pertama, jaringan saraf berulang menganalisis pidato pada rekaman dan membangun model logit yang mencerminkan fitur pengucapan pembicara. Ini dikirim ke jaringan saraf generalisasi, yang menghitung koefisien untuk membangun model wajah tiga dimensi. Selanjutnya, modul render ikut bermain, yang menghasilkan catatan akhir.

Para pengembang mengatakan bahwa Neural Voice Puppetry memutar video berkualitas tinggi, tetapi mereka masih harus menyelesaikan beberapa masalah yang terkait dengan sinkronisasi suara.

Teknologi serupa sedang dikembangkan oleh para insinyur dari Nanyang University di Singapura. Sistem mereka memungkinkan Anda untuk menggabungkan rekaman pidato satu orang dengan video orang lain. Pertama-tama, ia membentuk model wajah 3D untuk setiap frame pada video target. Selanjutnya, jaringan saraf menganalisis titik-titik wajah kunci, dan memodifikasi model tiga dimensi sehingga ekspresinya bertepatan dengan fonem dari file audio asli. Menurut penulis, alat mereka melampaui kualitas analog. Selama tes buta, responden menandai 55% dari catatan sebagai "nyata".

Tempat melamar


Di masa depan, dipfake akan memungkinkan pembuatan avatar video yang realistis - kepribadian untuk asisten suara. Pada 2017, penggila Jarem Archer mengimplementasikan asisten Cortana dari Windows 10 sebagai hologram. Sistem kecerdasan buatan untuk pembentukan dipfake akan membawa solusi semacam itu ke tingkat yang baru. Bidang lain penerapan algoritma tersebut adalah industri game. Menghasilkan animasi wajah dengan soundtrack akan menyederhanakan pekerjaan desainer game yang menyesuaikan ekspresi wajah karakter virtual.

Pengembang teknologi diphake mencatat bahwa sistem mereka hanyalah alat. Dan sayangnya, itu pasti akan digunakan untuk tujuan ilegal. Kejahatan pertama seperti itu dilakukanpada tahun 2019. Direktur sebuah perusahaan energi Inggris mentransfer $ 240.000 ke penipu. Dia meniru suara kepala kekhawatiran dari Jerman menggunakan jaringan saraf dan meminta untuk menyelesaikan transaksi. Oleh karena itu, para ahli dari universitas secara aktif bekerja dengan lembaga penegakan hukum dan politisi untuk mencegah situasi seperti itu. Misalnya, Universitas Colorado di Denver sedang mengembangkan alat untuk mengenali rekaman audio dan video palsu. Di masa depan, hanya akan ada lebih banyak proyek semacam itu.

Apa proyek lain di sana


Ada alat yang memungkinkan Anda untuk mengedit rekaman audio semudah teks biasa. Misalnya, Deskripsi menawarkan editor audio yang menyalin kata-kata pembicara dan memungkinkan Anda untuk mengeditnya dalam bentuk teks. Anda dapat menambahkan jeda, mengatur ulang fragmen di tempat - semua suntingan disinkronkan dengan rekaman audio. Para pengembang mengatakan bahwa sistem memproses file dalam .m4a, .mp3, .aiff, .aac dan .wav, dan akurasi transkripsi melebihi 93% .


Foto oleh Yohann LIBOT / Unsplash

Proyek lain muncul bersamaan dengan Descript. Insinyur dari Universitas Princeton diperkenalkan"Photoshop for audio" - sistem VoCo. Ini memungkinkan tidak hanya mengedit catatan dalam bentuk teks, tetapi juga mensintesis frasa dengan suara pembicara (dengan mempertimbangkan intonasi akun).

Di masa depan, layanan tersebut akan berguna bagi jurnalis dan perusahaan media yang membuat konten audio. Mereka juga akan membantu orang dengan penyakit tertentu yang berkomunikasi menggunakan sistem sintesis bicara. VoCo dan rekan-rekannya akan membuat suara mereka kurang "robot."



Bacaan tambahan di blog Hi-Fi World kami:

"Bitchy Betty" dan antarmuka audio: mengapa mereka berbicara dengan suara wanita
Antarmuka audio: terdengar sebagai sumber informasi di jalan, di kantor dan di langit
Asisten suara "netral gender" pertama di dunia
Sejarah synthesizer suara of speech: instalasi mekanis pertama
Bagaimana sintesis pidato muncul pada PC



All Articles