WaveNetEQ के साथ Google डुओ ऑडियो गुणवत्ता में सुधार

इंटरनेट कॉल लाखों लोगों के जीवन का एक अभिन्न हिस्सा बन गया है - इसलिए वे अपने वर्कफ़्लो को सरल बनाते हैं और अपने प्रियजनों के साथ जुड़ते हैं। इंटरनेट पर कॉल को स्थानांतरित करने के लिए, कॉल डेटा को "पैकेज" नामक छोटे टुकड़ों में विभाजित किया जाता है। पैकेट नेटवर्क से प्रेषक से प्राप्तकर्ता के पास जाते हैं, जहां उन्हें निरंतर वीडियो और ऑडियो स्ट्रीम प्राप्त करने के लिए वापस एकत्र किया जाता है। हालांकि, अक्सर पैकेट गलत क्रम में और गलत समय पर प्राप्तकर्ता के पास पहुंच जाते हैं - इसे आमतौर पर घबराना कहा जाता है (कांपना) - या पूरी तरह से खो दिया है। ऐसी समस्याएं कॉल की गुणवत्ता को कम करती हैं, क्योंकि प्राप्तकर्ता को अंतराल में भरने की कोशिश करनी होती है, और यह ऑडियो और वीडियो दोनों को गंभीरता से प्रभावित करता है। उदाहरण के लिए, Google डुओ अनुभव पैकेट हानि, अत्यधिक घबराहट, या नेटवर्क विलंबता के माध्यम से 99% कॉल। इनमें से 20% कॉल नेटवर्क समस्याओं के कारण 3% से अधिक ऑडियो डेटा खोती हैं, और 10% कॉल 8% से अधिक डेटा खो देती हैं।


सरलीकृत नेटवर्क समस्या आरेख

वास्तविक समय में संचार को अधिक विश्वसनीय बनाने के लिए, आपको किसी तरह आवश्यक पैकेजों से निपटना होगा जो कि पते तक नहीं पहुंचे हैं। उदाहरण के लिए, यदि आप लगातार ऑडियो सिग्नल नहीं देते हैं, तो आप रुकावट और हकलाना सुनेंगे, लेकिन आप इसे बार-बार एक ही संकेत दोहराने की कोशिश करने के लिए एक आदर्श समाधान नहीं कह सकते हैं - इससे कलाकृतियों को बढ़ावा मिलेगा और समग्र कॉल गुणवत्ता कम हो जाएगी। पैकेट की अनुपस्थिति के साथ स्थिति को संभालने के लिए प्रौद्योगिकी को "पैकेट हानि छिपाना" (पीएलसी) कहा जाता है। रिसीवर का पीएलसी मॉड्यूल ऑडियो (या वीडियो) बनाने के लिए जिम्मेदार है जो पैकेट हानि, मजबूत घबराहट, या नेटवर्क समस्याओं के कारण होने वाली रुकावटों को भरता है - ऐसी समस्याएं जो किसी भी मामले में आवश्यक डेटा की कमी की ओर ले जाती हैं।

इन ऑडियो मुद्दों से निपटने के लिए, हमने डुओ में वेवनेटईक्यू नामक एक नया पीएलसी सिस्टम पेश किया। यह एक है उत्पादक मॉडल के आधार पर WaveRNN प्रौद्योगिकी से DeepMind , वास्तविक पूरक भाषण क्षेत्रों के लिए भाषण डेटा की एक बड़ी शरीर पर प्रशिक्षित किया। वह भाषण के लापता टुकड़ों के ध्वनि संकेत को पूरी तरह से संश्लेषित करने में सक्षम है। चूंकि डुओ को कॉल एंड-टू-एंड एन्क्रिप्शन से गुजरती है, इसलिए सभी प्रसंस्करण डिवाइस पर ही किए जाने चाहिए। वेवनेटईक्यू मॉडल एक टेलीफोन के लिए पर्याप्त तेज है, जबकि अन्य मौजूदा प्रणालियों की तुलना में अभी भी उत्कृष्ट ऑडियो गुणवत्ता और अधिक प्राकृतिक-साउंडिंग पीएलसी प्रदान करता है।

डुओ के लिए नई पीएलसी प्रणाली


कई अन्य वेब-आधारित संचार कार्यक्रमों की तरह, डुओ ओपन सोर्स वेबआरटीसी प्रोजेक्ट पर आधारित है । पैकेट हानि के परिणामों को छुपाने के लिए, नेटईक्यू सिस्टम घटक सिग्नल प्रोसेसिंग विधियों का उपयोग करता है जो भाषण का विश्लेषण करते हैं और निरंतर निरंतरता पैदा करते हैं - यह छोटे नुकसान (20 एमएस तक) के लिए अच्छी तरह से काम करता है, लेकिन यह तब बुरा लगने लगता है जब पैकेट हानि 60 एमएस के संचार विराम की ओर जाता है। या लंबे समय तक। ऐसे मामलों में, भाषण रोबोट के दोहराव वाले भाषण के समान हो जाता है - यह विशेषता ध्वनि, दुर्भाग्य से, इंटरनेट पर कॉल करने के कई प्रशंसकों के लिए अच्छी तरह से जाना जाता है।

पैकेट हानि प्रसंस्करण की गुणवत्ता में सुधार करने के लिए, हमने नेटआरक्यू पीएलसी को वेवआरएनएन के संशोधित संस्करण के साथ बदल दिया। यह एक आवर्तक तंत्रिका नेटवर्क है जिसे भाषण संश्लेषण के लिए डिज़ाइन किया गया है, जिसमें दो भाग होते हैं - ऑटोरेस्पेक्टिव और कंडीशनल न्यूरल नेटवर्क। ऑटोरेग्रेसिव न्यूरल नेटवर्क सिग्नल की निरंतरता के लिए जिम्मेदार है और एक अल्पकालिक और मध्यम अवधि के भाषण संरचना का निर्माण करता है। इसके संचालन की प्रक्रिया में, प्रत्येक उत्पन्न टुकड़ा नेटवर्क के पिछले परिणामों पर निर्भर करता है। एक वातानुकूलित तंत्रिका नेटवर्क ऑटोरेग्रेसिव को प्रभावित करता है जिससे कि यह धीमी आवक डेटा के अनुरूप एक ऑडियो सिग्नल का उत्पादन करता है।

हालाँकि, WaveRNN, अपने पूर्ववर्ती की तरह, WaveNet, पाठ को भाषण में परिवर्तित करने (टेक्स्ट-टू-स्पीच, टीटीएस) के लक्ष्य के साथ बनाया गया था। चूंकि WaveRNN एक TTS मॉडल है, इसलिए इस बारे में जानकारी दी जाती है कि क्या कहा जाना चाहिए और कैसे। एयर-कंडीशनिंग नेटवर्क सीधे इनपुट पर यह सूचना प्राप्त करता है कि फोनेम्स के रूप में शब्द और फीचर्स के फीचर्स (जैसे गैर-पाठीय जानकारी पिच या इंटोनेशन के रूप में) बनाते हैं। एक अर्थ में, एक वातानुकूलित नेटवर्क "भविष्य की ओर देखने" में सक्षम है, और फिर इसके अनुरूप ध्वनियों के लिए ऑटोरेर्गिव नेटवर्क को पुनर्निर्देशित करता है। पीएलसी प्रणाली और वास्तविक समय संचार के मामले में, हमारे पास ऐसा कोई संदर्भ नहीं होगा।

एक कार्यात्मक पीएलसी-सिस्टम बनाने के लिए, आपको वर्तमान भाषण (यानी, अतीत से) से संदर्भ निकालने की आवश्यकता है, और इसकी निरंतरता के लिए एक स्वीकार्य ध्वनि उत्पन्न करें। हमारा समाधान, WaveNetEQ, दोनों करता है। यह एक ऑटोरेस्पिरेटिव नेटवर्क का उपयोग करता है, जो पैकेट खो जाने की स्थिति में ध्वनि करता रहता है, और एक वातानुकूलित तंत्रिका नेटवर्क है जो लंबी अवधि के लक्षणों, जैसे आवाज की विशेषताओं का अनुकरण करता है। पिछले ऑडियो सिग्नल के स्पेक्ट्रोग्राम को वातानुकूलित तंत्रिका नेटवर्क के इनपुट से खिलाया जाता है, जिसमें से सीमित मात्रा में जानकारी निकाली जाती है जो प्रोसिडरी और टेक्स्ट कंटेंट का वर्णन करती है। यह ध्यान केंद्रित जानकारी एक ऑटोरेग्रेसिव न्यूरल नेटवर्क में खिलाया जाता है, इसे अगले ध्वनि टुकड़े की भविष्यवाणी करने के लिए हाल के ऑडियो के साथ जोड़ दिया जाता है।

यह वेवनेटईक्यू प्रशिक्षण के दौरान हमारे द्वारा अपनाई गई प्रक्रिया से थोड़ा अलग है। फिर ऑटोरेग्रेसिव न्यूरल नेटवर्क को पिछले नमूने का उपयोग करने के बजाय अगले चरण के लिए इनपुट के रूप में एक वास्तविक ध्वनि नमूना प्राप्त हुआ। इस तरह की प्रक्रिया में, शिक्षक मजबूर के रूप में जाना जाता है, यह गारंटी दी जाती है कि प्रशिक्षण के शुरुआती चरणों में भी मॉडल मूल्यवान जानकारी सीखता है, जब इसकी भविष्यवाणियां खराब गुणवत्ता की होती हैं। जब मॉडल पूरी तरह से प्रशिक्षित और ऑडियो या वीडियो कॉल में उपयोग किया जाता है, तो लगाए गए प्रशिक्षण का उपयोग केवल पहले नमूने पर मॉडल को "वार्म अप" करने के लिए किया जाता है, और उसके बाद यह पहले से ही अपना आउटपुट प्राप्त करता है।


WaveNetEQ वास्तुकला। एक ऑटोरेस्पिरेटिव न्यूरल नेटवर्क के संचालन के दौरान, हम इसे थोपने के साथ प्रशिक्षण के माध्यम से "वार्म अप" करते हैं। उसके बाद, वह पहले से ही प्रवेश द्वार के लिए अपने स्वयं के बाहर निकलती है। ऑडियो के लंबे खंडों से एक छोटे-आवृत्ति वाले स्पेक्ट्रोग्राम का उपयोग एक वातानुकूलित तंत्रिका नेटवर्क के लिए इनपुट के रूप में किया जाता है।

यह मॉडल एक डुओ जिटर बफर में ऑडियो डेटा पर लागू होता है। जब पैकेट नुकसान के बाद, संचार फिर से शुरू होता है और वास्तविक ऑडियो सिग्नल आता रहता है, तो हम सिंथेटिक और वास्तविक ऑडियो स्ट्रीम को ध्यान से जोड़ते हैं। इन दो संकेतों को सर्वश्रेष्ठ रूप से रचने के लिए, मॉडल आवश्यक से थोड़ा अधिक आउटपुट उत्पन्न करता है, और फिर एक से दूसरे में एक चिकनी संक्रमण बनाता है। यह संक्रमण को सुचारू और वस्तुतः मौन बनाता है।


60 एमएस स्लाइडिंग विंडो पर एक ऑडियो स्ट्रीम में पीएलसी घटनाओं का अनुकरण। ब्लू लाइन वास्तविक ऑडियो है, जिसमें पीएलसी के पिछले और भविष्य के हिस्से शामिल हैं। प्रत्येक माप में, नारंगी रेखा सिंथेटिक ऑडियो का प्रतिनिधित्व करती है जो कि वेवनेटईक्यू सिस्टम भविष्यवाणी करेगा कि क्या ध्वनि ऊर्ध्वाधर ग्रे लाइन के साथ कट गई थी।

60 एमएस पैकेट नुकसान

[ नोट perev।: ऑडियो के उदाहरण दिखने में इतने भद्दे होते हैं, क्योंकि Habr संपादक ऑडियो फ़ाइलों को एम्बेड करने की क्षमता प्रदान नहीं करता है। यह कैसे mp4 एक तस्वीर के साथ, एक ऑडियो के साथ दिखता है। ]

NetEQ


WaveNetEQ


NetEQ


WaveNetEQ


120 एमएस

नेटएक्यू पैकेट नुकसान


WaveNetEQ


NetEQ


WaveNetEQ


हम विश्वसनीयता की गारंटी देते हैं


पीएलसी में विचार करने के लिए महत्वपूर्ण कारकों में से एक तंत्रिका नेटवर्क की क्षमता है जो आने वाले संकेतों को चर में अनुकूलित कर सकता है, उदाहरण के लिए, जब कई बात करने वाले लोग होते हैं या जब पृष्ठभूमि शोर बदलता है। उपयोगकर्ताओं की एक विस्तृत श्रृंखला के लिए मॉडल की विश्वसनीयता की गारंटी देने के लिए, हमने 100 से अधिक विभिन्न लोगों से लिए गए वॉइस डेटा के सेट पर WaveNetEQ को प्रशिक्षित किया, जो 48 विभिन्न भाषाओं को बोलते हैं। इसने मॉडल को मानव भाषण की सामान्य विशेषताओं को सीखने की अनुमति दी, न कि किसी विशेष भाषा की विशेषताएं। पृष्ठभूमि में शोर की स्थिति में वेवनेटईक्यू के संचालन को सुनिश्चित करने के लिए, उदाहरण के लिए, जब आप किसी ट्रेन में या कैफे में कॉल का जवाब देते हैं, तो हम उन्हें एक व्यापक डेटाबेस से पृष्ठभूमि शोर के साथ मिलाकर डेटा को पूरक करते हैं।

और यद्यपि हमारा मॉडल यह जानने में सक्षम है कि अपने भाषण को कैसे जारी रखा जाए, यह केवल थोड़े समय के लिए काम करता है - यह शब्दांशों को समाप्त कर सकता है, लेकिन शब्दों की भविष्यवाणी नहीं कर सकता। लंबे समय तक पैकेट के नुकसान के मामले में, हम धीरे-धीरे मात्रा में कमी करते हैं, और 120 एमएस के बाद मॉडल केवल चुप्पी पैदा करता है। इसके अलावा, यह सुनिश्चित करने के लिए कि मॉडल गलत सिलेबल्स का उत्पादन नहीं करता है, हमने Google Cloud Speech-to-Text API का उपयोग करके WaveNetEQ और NetEQ से ध्वनि नमूनों की जांच कीऔर पाया कि मॉडल व्यावहारिक रूप से परिणामी पाठ में त्रुटियों का प्रतिशत नहीं बदलता है, अर्थात, भाषण मान्यता के दौरान होने वाली त्रुटियों की संख्या। हमने Duo में WaveNetEQ के साथ प्रयोग किया, और इसके उपयोग ने कॉल की गुणवत्ता और उपयोगकर्ता अनुभव को सकारात्मक रूप से प्रभावित किया। वेवनेटईक्यू पहले से ही पिक्सेल 4 फोन पर सभी डुओ कॉल पर काम करता है, और अब हम इसे अन्य फोन पर तैनात कर रहे हैं।

All Articles