المستقبل هنا: كيف تعمل الروبوتات الصوتية وما يمكنها القيام به

صورة

إن روبوتات العمليات الروتينية ، عندما يتم استخدام الروبوتات لحل المهام البسيطة والتي تتطلب عمالة كثيفة في الوقت نفسه ، بدلاً من الناس ، هو اتجاه نشط للغاية. يتم أتمتة العديد من الأشياء ، بما في ذلك المحادثات الهاتفية مع العملاء. تشارك شركة Neuro.net في إنشاء التقنيات التي توفر فرصة لتحسين قدرات الروبوتات.

في هذه المقالة ، يتحدث المطورون عن التقنيات والفروق الدقيقة في التعرف على جنس المحاور عن طريق الصوت والعمل على العناصر المهمة للحوار.

أولا قضية ، ثم انهيار التكنولوجيا


صورة

واحدة من الحالات الأكثر إثارة للاهتمام هي استبدال موظفي مركز الاتصال لشركة شريكة بروبوت صوتي. لم يتم استخدام إمكانات هذا الأخير في المواقف العادية ، مثل توضيح عنوان التسليم ، ولكن من أجل معرفة سبب انخفاض احتمال زيارة بعض العملاء لموقع الشركة على الويب.

استندت التكنولوجيا على استخدام شبكة عصبية كاملة ، بدلاً من النصوص الفردية. كانت الشبكة العصبية هي التي سمحت لنا بحل المشاكل التي عادة ما تربك الروبوتات. بادئ ذي بدء ، نحن نتحدث عن إجابات المحاور مثل "حسنًا ، لا أعرف حتى الآن ، ربما نعم ، على الرغم من لا" أو حتى "نعم لا". تصبح الكلمات الشائعة بين البشر عقبة لا يمكن التغلب عليها بالنسبة للروبوت.

صورة

أثناء التدريب ، بدأ الروبوت في فهم معنى المعنى في عبارة معينة ، وماذا يجب أن يكون الجواب. حصل الروبوت على عدة أصوات - من الذكور والإناث. كانت المهمة الرئيسية هي "إضفاء الطابع الإنساني" على الروبوت بحيث لا يقوم المحاور البشري باختبار قدرات الآلة ، لكنه أجرى حوارًا وفقًا للسيناريو المستهدف.

فيما يلي مثال على ما حدث.


يستمع الروبوت إلى المحاور ، ويعطي إجابة اعتمادًا على معنى ما قاله العميل. إجمالي عدد الفروع النصية التي يمكن استخدامها للمحادثة أكثر من ألف.
كان الهدف الرئيسي من هذا الروبوت هو فهم سبب انخفاض نشاط عميل الشركة على الموقع وتقديم عرض مثير للاهتمام للجميع. كانت هذه واحدة من أولى محاولات الشركة لأتمتة عمل مراكز الاتصال.

الروبوتات الجديدة أكثر مثالية. وفيما يلي بعض الأمثلة أكثر من كيفية التواصل مع البشر الروبوتات: أولا ، الثانية ، الثالثة الأمثلة.

الآن عن التكنولوجيا


هناك ثلاث ميزات تكنولوجية رئيسية تسمح للروبوت بالعمل:

  • الاعتراف بجنس المحاور عن طريق الصوت ،
  • التعرف على العمر
  • بناء حوار مع محاور بشري.

صورة

التعرف على جنس المحاور عن طريق الصوت


لماذا هذا مطلوب؟ في البداية ، تم إنشاء هذه الوظيفة لإجراء عمليات المسح باستخدام الروبوتات. في السابق ، تم تنفيذ أعمال المسح من قبل أشخاص قاموا بملء عدد من النقاط. على سبيل المثال ، أرضية المحاور. من الواضح أن الشخص لا يحتاج إلى أن يسأل مع من يتحدث - رجل أو امرأة ، لتحديد هذه المعلمة. في 99٪ ، كل شيء واضح. الروبوتات هي مسألة أخرى ، بحيث يتعلمون بشكل أو بآخر التعرف على الأصوات ، كان علي القيام بعمل واسع النطاق. ولم تذهب سدى ، والآن يتم استخدام التكنولوجيا لتخصيص العروض والمطالبات الصوتية اعتمادًا على الجنس.

نقطة مهمة - صوت الأنثى عالمي وقابل للتطبيق للعمل مع أكبر مجموعة من المنتجات ، وهو مهم بشكل خاص للمنتجات للنساء. وفقا لدراسات مختلفة ،ينظر أي جمهور بشكل إيجابي إلى صوت الإناث ، على التوالي ، في هذه الحالة ، يكون التحويل أكبر. استثناء - عند الترويج للمنتجات "الذكور" ، يفضل صوت الذكور.

كيف تعمل؟ أولاً ، تتم معالجة البيانات الأولية ، وتستند إلى معالجة التسجيلات الصوتية والأجزاء التي تستمر لمدة 20 مللي ثانية. تتم معالجة جميع الأجزاء الصوتية المجمعة مسبقًا في مكون VAD (اكتشاف نشاط الصوت). هذا ضروري لفصل "الحبوب عن القشر" ، أي الكلام عن الضوضاء. تتم إزالة جميع القمامة ، مما يزيد من دقة النماذج.

للاعتراف ، يتم استخدام ما يسمى الفضاء من معاملات cepstral ، الاختلافات الأولى والثانية. الأساس هو طريقة GMM - نماذج خليط Gauss.

لذلك ، في الفترة من 10-20 مللي ثانية ، يتم حساب طيف القدرة الحالي ، وبعد ذلك يتم تطبيق تحويل فورييه العكسي لوغاريتم الطيف ، مع البحث عن المعاملات الضرورية.

تم تكوين نماذج GMM الخاصة بنا بشكل منفصل لتدريس تعديل صوت الذكور والإناث ، ويتم استخدام النماذج أيضًا لتحديد أصوات البالغين والأطفال. بالطبع ، لا يمكنك تدريب النظام من الصفر ، فأنت بحاجة إلى تسجيلات صوتية مميزة.

من أجل زيادة كفاءة النظام ، يتم تطبيق معاملات نماذج صوت الجرس:

  • الحدة Timbral.
  • دفء تيمبرال.
  • سطوع Timbral.
  • عمق Timbral.
  • صلابة Timbral.
  • نمو Timbral.
  • تفاوت Timbral.
  • تردد تيمبر.

هناك حاجة إلى نماذج Timbre من أجل تحديد أصوات الأطفال بشكل صحيح - أي نماذج أخرى تقبل صوت الطفل على أنه أنثى. بالإضافة إلى ذلك ، تحتاج إلى التمييز بين أصوات الإناث الخشنة (على سبيل المثال ، امرأة مسنة تدخين) ، أصوات الذكور عالية ، إلخ. بالمناسبة ، إذا قال شخص "مرحبًا" ثم سعل - جميع النماذج السابقة التي لم تستخدم مرشحات الجرس ستعرف الصوت على أنه ذكر.



الجزء الرئيسي من النظام هو وحدة تصنيف البيانات على أساس منظور متعدد الطبقات ، MLP. ينقل البيانات من نماذج أصوات الذكور والإناث ، البيانات من نماذج timbral. عند مدخل النظام ، نحصل على مجموعة من القيم المصنفة ، وعند المخرجات ، نتيجة تحديد الجنس.

تُستخدم التكنولوجيا الموضحة هنا للعمل عبر الإنترنت (وفقًا للجملة الأولى للعميل) ووضع التصنيف بلا اتصال بالإنترنت (بعد محادثة). دقة التعرف على الجنس حوالي 95٪. نقطة مهمة هي أن التأخير عند العمل عبر الإنترنت لا يتجاوز 120-150 مللي ثانية ، وهو أمر مهم للغاية لإضفاء الطابع الإنساني على الروبوت. عادة ، لا يكون التوقف المؤقت في الاتصال بين الروبوت والشخص بالمللي ثانية ، ولكن الثواني ، والتي ، بالطبع ، تبدو غريبة بالنسبة لمحاور بشري ، ومن الواضح على الفور أن النظام الرقمي يتواصل.

تتضمن الخطط إضافة عمل مع النص ، بشكل أكثر دقة - النهايات. إذا قال المحاور "يمكنني" - بالتأكيد هذه امرأة. في المستقبل القريب ، سيتم الانتهاء من هذه التكنولوجيا وتنفيذها في نظام التعرف.

تحديد عمر المحاور


لماذا هذا مطلوب؟ بادئ ذي بدء ، من أجل عدم تقديم منتجات وخدمات مختلفة للقصر. بالإضافة إلى ذلك ، يعد تحديد العمر مفيدًا لتخصيص العروض حسب الفئات العمرية.

كيف تعمل؟ يتم استخدام نفس التقنيات بالضبط كما في الحالة السابقة. دقة النظام حوالي 90٪.

صورة

بناء الحوارات


والآن ننتقل إلى الأكثر إثارة للاهتمام - مبدأ إنشاء الحوارات.

لماذا هذا مطلوب؟ من أجل استبدال شخص ما بكفاءة ، يجب أن يكون الروبوت قادرًا على العمل في سيناريوهات الحوار الخطية وغير الخطية. في الحالة الأولى ، يمكن أن يكون استبيانًا ، في الحالة الثانية - العمل مع المشتركين في مركز الاتصال ، وخطوط الدعم الفني للشركة ، إلخ.

كيف يعمل؟ نستخدم محرك NLU ، وأساسه هو التحليل الدلالي للنص الذي تم تلقيه من أنظمة ASR. علاوة على ذلك ، يتم تمييز كائنات التعرف مثل الكيانات (المقاصد) والمقاصد (المقاصد) ، والتي تستخدم في منطق بناء تدفق المحادثات ، عن ذلك.

هنا مثال لكيفية عمل التكنولوجيا.

النص الوارد من نظام التعرف على الكلام (ASR):
"بشكل عام ، أنا مهتم باقتراحك ، لكني أرغب في أن يكون أرخص. والآن أنا مشغول قليلاً ، يمكنك الاتصال بي في السادسة صباح الغد ".

كائنات مليئة بمحرك NLU:

المقاصد:
التأكيد =
الاعتراض الحقيقي =
سؤال باهظ =
رد فارغ = صحيح
خطأ_وقت = صحيح

الكيانات:
التاريخ = 01/02/2019 (لنفترض أن تاريخ الاتصال هو 01/01/2019)
الوقت = 18: 00
المبلغ = 6

مبدأ التعبئة الكائنات في هذا المثال هي:

النوايا (النوايا):

  • تمت ترجمة النص "أنا مهتم بمقترحك" إلى "تأكيد" مقصود بقيمة "true".
  • تمت ترجمة النص "أريده أرخص" إلى "اعتراض" مقصود بقيمة "باهظة الثمن".
  • تمت ترجمة النص "أنا مشغول قليلاً الآن" إلى "الوقت الخاطئ" المقصود بقيمة "صحيح".
  • « » intent «call_back» «true».
  • , intent «question» null

Entities ():

  • «» entity «date» «02.01.2019», current_date + 1 (, 01.01.2019).
  • « » entity «time» «18:00»,
  • «» entity «amount» «6», , entities .

بالنسبة لقائمة المقاصد والكيانات بأكملها ، يتم تعيين قيم معينة ، والتي يتم استخدامها بعد ذلك لبناء تدفق المحادثات.

الآن لنتحدث عن خوارزميات العمل التي يدعمها نظام NLU Engine. يتضمن مستويين.

المستوى الأول - يعمل على عينة بيانات صغيرة نسبيًا من حوالي 600-1000 تسجيل. يتم استخدام خوارزميات ML هنا. دقة الاعتراف: 90-95٪.

المستوى الثاني - يتم الانتقال إليه بعد إطلاق المشروع وتراكم عينة كبيرة من البيانات ، بما في ذلك أكثر من مليون سجل. خوارزميات DL مستخدمة بالفعل هنا. دقة الاعتراف: 95-98٪.

يعمل الحل مع نظامين فرعيين:

  • النظام الفرعي لتصنيف البيانات النصية وتصنيفها ،
  • النظام الفرعي لتشكيل الحوار.

يعمل كلا النظامين الفرعيين بالتوازي. عند مدخل نظام التصنيف والتصنيف ، يتم إرسال نص المشترك المعترف به من العبارة الصوتية ؛ عند الإخراج ، يعطي القرار المعلمات المعبأة الكيان والقيمة لتشكيل الإجابة.

تم بناء النظام الفرعي لتكوين الحوار لبناء سيناريوهات غير خطية على شبكة عصبية. عند مدخل النظام ، يتم إرسال نص المشترك المعترف به من العبارة الصوتية ، عند الخروج ، يتم اتخاذ القرار بشأن ما يجب أن يفقده في اللحظة التالية.

يعد السيناريو غير الخطي مناسبًا لخط الدعم الأول - لا يعرف الروبوت الشخص الذي يتصل به ، وأي منتج معين وأي أسئلة. هنا ، يعتمد المزيد من بناء الحوار على استجابة العميل.

ولكن بالنسبة للمكالمات الصادرة ، سيكون الحل الأفضل هو السيناريو الخطي. تم تعيين مثاله في بداية المقال. هناك متغير آخر من السيناريو الخطي هو إجراء مسح عندما لا يهم ما يجيب العميل ، سيتم تحليل هذا من قبل المتخصصين. ولكن من المهم توجيه العميل من خلال جميع الأسئلة المدرجة في القائمة.

نتيجة لذلك ، أود أن أؤكد أن الروبوتات الصوتية لن تحل محل الناس. الآن يقومون بعمل ممتاز مع العمل الروتيني - استدعاء الناس من أجل طرح بعض الأسئلة عليهم والاستماع / تسجيل / تحليل الإجابات. وبالتالي ، يتم إعفاء مشغلي مركز الاتصال والدعم الفني من الحاجة إلى تنفيذ نفس الإجراءات الروتينية. بدلاً من ذلك ، يمكنهم التركيز على الأسئلة والتحديات المثيرة للاهتمام حقًا.

All Articles