من يشارك في الصوت العميق ولماذا هو مطلوب

منذ بداية العام ، ظهرت العديد من أنظمة الذكاء الاصطناعي الجديدة القادرة على توليف تسجيل فيديو مع شخص يتحدث بناءً على الصوت. سنخبرك من ولأي غرض يشارك في تطورات مماثلة. سنتحدث أيضًا عن أدوات أخرى تتيح لك تعديل التسجيلات الصوتية.


Photo Erik-Jan Leusink / Unsplash

ماذا


في ديسمبر 2019 ، نشر متخصصون من جامعة ميونيخ التقنية ومعهد المعلوماتية التابع لجمعية ماكس بلانك ورقة علمية حول نظام الدمى الصوتي العصبي .

لإنشاء تسجيل فيديو ، تحتاج فقط إلى ملف صوتي بصوت شخص وصورته. تتكون العملية من ثلاث مراحل. أولاً ، تقوم الشبكة العصبية المتكررة بتحليل الكلام الموجود على السجل وإنشاء نموذج لوجستي يعكس خصائص نطق المتحدث. يتم إرسالها إلى شبكة عصبية عامة ، والتي تحسب معاملات بناء نموذج ثلاثي الأبعاد للوجه. بعد ذلك ، يتم تشغيل وحدة العرض ، مما يؤدي إلى إنشاء السجل النهائي.

يقول المطورون أن Neural Voice Puppetry تقوم بتشغيل مقاطع فيديو عالية الجودة ، ولكن لا يزال عليهم حل بعض المشاكل المرتبطة بمزامنة الصوت.

يقوم مهندسون من جامعة نانيانغ في سنغافورة بتطوير تقنية مماثلة . يسمح لك نظامهم بدمج تسجيل خطاب شخص ما مع فيديو شخص آخر. بادئ ذي بدء ، فإنه يشكل نموذجًا ثلاثي الأبعاد للوجه لكل إطار على الفيديو الهدف. علاوة على ذلك ، تقوم الشبكة العصبية بتحليل نقاط الوجه الرئيسية ، وتعديل النموذج ثلاثي الأبعاد بحيث تتوافق تعابيرها مع الصوتيات للملف الصوتي الأصلي. وفقا للمؤلفين ، تفوق أداتهم نظائرها في الجودة. أثناء الاختبارات العمياء ، قام المستجيبون بوضع علامة 55٪ من السجلات على أنها "حقيقية".

مكان تقديم الطلب


في المستقبل ، ستسمح dipfakes بإنشاء صور فيديو واقعية - شخصيات لمساعدين صوتيين. في عام 2017، متحمس Jarem آرتشر نفذت مساعد مايكروسوفت كورتانا من ويندوز 10 كما صورة ثلاثية الأبعاد. سوف تأخذ أنظمة الذكاء الاصطناعي لتشكيل dipfakes هذه الحلول إلى مستوى جديد. مجال آخر لتطبيق مثل هذه الخوارزميات هو صناعة الألعاب. سيؤدي إنشاء رسوم متحركة للوجه عن طريق الموسيقى التصويرية إلى تبسيط عمل مصممي الألعاب الذين يقومون بتخصيص تعابير الوجه للشخصيات الافتراضية.

لاحظ مطورو تقنية diphake أن أنظمتهم ليست سوى أداة. ولسوء الحظ ، سيتم استخدامه حتمًا لأغراض غير قانونية. في هذه الجريمة الأولى ملتزمفي عام 2019. قام مدير شركة طاقة إنجليزية بتحويل 240 ألف دولار إلى محتال. قام بتقليد صوت رئيس القلق من ألمانيا باستخدام الشبكات العصبية وطلب استكمال الصفقة. لذلك ، يعمل الخبراء من الجامعات بنشاط مع وكالات إنفاذ القانون والسياسيين لمنع مثل هذه الحالات. على سبيل المثال ، تقوم جامعة كولورادو في دنفر بتطوير أدوات للتعرف على تسجيلات الصوت والفيديو المزيفة. في المستقبل ، لن يكون هناك سوى المزيد من هذه المشاريع.

ما المشاريع الأخرى هناك


هناك أدوات تسمح لك بتحرير التسجيلات الصوتية بسهولة مثل النص العادي. على سبيل المثال ، يقدم Descript محررًا صوتيًا ينسخ كلمات المتحدث ويسمح لك بتحريرها في شكل نصي. يمكنك إضافة فترات توقف مؤقت ، وإعادة ترتيب الأجزاء في الأماكن - تتم مزامنة جميع التعديلات مع التسجيل الصوتي. يقول المطورون أن النظام يعالج الملفات بتنسيق .m4a و. mp3 و. aiff و. aac و. wav ، وتتجاوز دقة النسخ 93٪ .


تصوير يوهان ليبوت / Unsplash

ظهرت مشاريع أخرى في نفس وقت Descript. مهندسون من جامعة برينستون قدم"فوتوشوب للصوت" - نظام VoCo. لا يسمح فقط بتحرير السجلات في شكل نصي ، ولكن أيضًا تجميع العبارات بصوت المتحدث (مع مراعاة التجويد).

في المستقبل ، ستكون هذه الخدمات مفيدة للصحفيين والشركات الإعلامية التي تقوم بإنشاء محتوى صوتي. كما سيساعدون الأشخاص الذين يعانون من أمراض معينة يتواصلون باستخدام أنظمة تركيب الكلام. ستجعل شركة VoCo ونظرائها صوتهم أقل "روبوتية".



قراءة إضافية على مدونة Hi-Fi World الخاصة بنا:

"Bitchy Betty" والواجهات الصوتية: لماذا تتحدث بصوت أنثوي
الواجهات الصوتية: الصوت كمصدر للمعلومات على الطريق وفي المكتب والسماء
أول مساعد صوت "محايد جنسياً" في
العالم الكلام: التثبيت الميكانيكي الأول
كيف ظهر تركيب الكلام على جهاز الكمبيوتر



All Articles