صعوبات في رفع مساعد الصوت. نظرة لغوي ومطور

غالبًا ما تتم مقارنة العمل مع مساعد صوتي بتربية طفل. يتعلم شيئًا ما باستمرار ، ويكرر بعد "الشيوخ". يتقن اللغة والقدرة على بناء التواصل تدريجيًا. في بعض الأحيان يفهم كل شيء بشكل حرفي أو يعطي شيئًا محرجًا. وذلك لأن معالجة اللغة عملية معقدة وطويلة تتطلب اهتمام أكثر من متخصص. لقد طلبنا من زميلنا في التطوير اللغوي Ivan والمهندس الرئيسي Bassel مشاركة حالات مثيرة للاهتمام من تجربتهما مع Sky Voice Assistant. سألنا الخبيرين نفس الأسئلة من أجل معرفة لماذا لا يمكن أن تفوز الرياضيات وحدها عند معالجة اللغة ، وكيف يتعلم المساعد الصوتي المزاح ولماذا.

ما الذي أنت مسؤول عنه؟ ما هو مدرج في مجال مسؤوليتك؟


اللغوي

أنا مسؤول عن كل ما يتعلق بالجانب اللغوي لعمل المساعد الصوتي. هذا تحليل لأسئلة المستخدم ، والتخطيط لمنطق الجواب ، والبحث عنه أو إنشائه له. بالإضافة إلى ذلك ، قمت بتطوير بعض الخدمات التي كانت مرتبطة ارتباطًا وثيقًا بالنص (بما في ذلك الطقس والتذكيرات والأخبار والخبز المحمص وألعاب الكلمات) وجمع المحتوى للتدريب. وهذا يشمل ، على سبيل المثال ، تسجيل أصوات مختلفة لتنشيط عمود.

المطور

أنا مسؤول عن دماغ برنامج الدردشة لدينا. أنا أكتب منطقه: كيف يتلقى الأسئلة ، وكيف يجيب ، ومن أين يحصل على البيانات ، وما هي الخدمات التي ستعمل بداخله. هذه خدمة اتصالات وقاعدة معرفية بحيث يمكنها الإجابة على أي أسئلة. يمكنه اللجوء إليها وقول ما هو الطقس ، ما هو سعر صرف الدولار ، طلب سيارة أجرة لك ، ضبط المنبه ، إلخ.

هل تعتقد أن العمل مع مساعد صوتي يشبه تربية طفل؟


لغوي

فيما يتعلق بالأطفال والتعلم الآلي ، كان هناك مقال جيد جدًا عن حبري ، وهو بشكل عام تشبيه شائع.

لكن المشكلة هي أن الذكاء الاصطناعي ليس لديه أي فهم للسياق بخلاف ما هو مدرج في مجموعة التدريب ، حتى أكثر المعارف الأساسية للعالم خارج مهمة محددة وأن طرق التقييم المتأصلة مثل الذوق والحس السليم مفقودة. ولهذا السبب ، غالبًا ما تكون النتائج غير متوقعة.

المطور

لا يمكننا القول أن المساعد الصوتي طفل ، لأن الطفل لديه القدرة على التحليل والتعلم. مساعد الصوت هو شيء غبي إلى حد ما. تريد منه أن يفعل شيئًا ، ويعينه المهمة ، وهذا كل شيء - سيفعل ذلك.
لا يمكننا حتى اعتبار العصبون طفلاً - في حد ذاته ، لا يمكنه التعلم. يجب علينا دائما أن نريها الطريق. يلعب الذكاء الاصطناعي بهذا المعنى دورًا فقط عندما يتمكن العصبون من العثور على مواقف مشابهة لتلك التي علمتها إياها. لا أعتقد أن هذا هو عموماً ذكاء ، مجرد فرص عظيمة.

ما هي الحالات المضحكة التي تنشأ في عملية العمل معه؟


لغوي

سأجيب لمدة سنتين. بمجرد اختيار الكلمات للعبة الاسم المستعار ، والتي تعتمد على البحث عن كلمات مماثلة ("جمعيات") باستخدام نموذج word2vec. لقد اخترنا بعناية شديدة ، كان من المستحيل أن نتخيل أن ارتباطات كلمة "السرة" هي تعبيرات جنسية انتقائية تتجاوز حدود الرقابة. يبدو أن الكلمة طفولية جدًا ويتم استخدامها في سياقات مختلفة تمامًا.
يبدو أننا لا نعرف شيئًا عن مساعدنا أو عن جامع النصوص للحالة المستخدمة.

شيء اخر. بمجرد أن قررنا أن نضيف إلى قائمة التحية الروسية ونودع نظائرها من لغات مختلفة. من "البونجور" المعتاد إلى التعابير العربية واليهودية. تم فهرسة الكلمات الجديدة بواسطة خوارزمية البحث الخاصة بنا لتعبيرات مماثلة ، ولكن لم يكن هناك شيء قريب منها! ونتيجة لذلك ، رد العمود على أي طلب غير مفهوم أو مشوه إلى حد ما: "السلام عليكم ورحمة الله" . عندما تسمع هذا بصوت آلة مطاردة ردا على المعتاد "أين الولايات المتحدة الأمريكية؟" ، إنه أمر مربك.

ماذا عن التماثلية؟ عندما تبدو الكلمات متشابهة ، لكن هاتين الكلمتان مختلفتان تمامًا. على سبيل المثال ، فعل واسم


اللغوي

نعم ، إنه ألم لكل من يشارك في معالجة اللغة. يحدث هذا مع جمل كاملة ، لقد تم نحتها ببساطة في الحجر. أمثلة مثل "رأى أسرهم بعينيه". هل هو نوع من المخلوقات التي لها سبع عيون ، ويرها. إما أنه رأى عائلته. إما في لحظة ما بدا له أنهم كانوا عينيه السبعة.

مثال أبسط: "هذه الأنواع من الفولاذ موجودة في ورشة العمل." تتوفر عدة أنواع من المواد "الفولاذية" في ورشة العمل ، أو بدأ بعض العمال الموحلين في العمل ليس فقط في ورشة العمل ، ولكنهم موجودون أيضًا. أي أن التماثل هو مشكلة كبيرة للغاية ، ليس فقط على مستوى الكلمات ، ولكن أيضًا على مستوى الجمل بأكملها. هناك أيضًا مشكلة على مستوى تشابه أشكال الكلمة. لنفترض أن الحالات الترميزية والاتهامية لكلمة واحدة تبدو متشابهة. لذلك ، حتى هذه المهمة التي تبدو بسيطة مثل تحديد شكل كلمة تتطلب استخدام حزم معقدة للتحليل. ولا تقدم هذه الحزم إجابة محددة أبدًا. يمكنهم فقط إعطاء احتمالية شكل أو آخر.

كيف تحل مثل هذه المشاكل؟ شارك Lifehacks


لغوي

نعم ، لا حيل خاصة. حدد بعناية البيانات التي يتم تدريب النموذج عليها ، واختبر كل شيء بعناية.

أما بالنسبة للاختراق ، إذا حاولنا الآن إعادة تدريب النموذج بطريقة ما بحيث يحدد الشكل الصحيح لكلمة معينة ، فسيتم تعيين تصحيحات للحل غير الكامل الحالي. لتعلم كيفية التعامل مع الاختراق ، بالطبع ، هناك طرق لغوية ، لكنها لا تستخدم دائمًا وفي كل مكان. ولا يزالون يعملون عليها. بالنسبة للغة الروسية ، فإن الوضع أسوأ بكثير من اللغة الإنجليزية ، لأن لدينا أشكالًا أكثر بكثير من الكلمات.

مطور

نحن نراجع الحوار ، منطق الاعتراف ، نرى أن المساعد الصوتي لم يفهمه جيداً. في بعض الأحيان تحتاج إلى إضافة مربع حوار جديد. قد تكون هناك مواقف عندما أجاب على سؤال ، الإجابة التي لم يعرفها على الإطلاق. يساعد تاريخ التنمية.

هل صحيح أن أليس في روسيا تعمل بشكل أفضل من سابقاتها؟ لماذا ا؟


اللغوي

تقييم شخصي إلى حد كبير: يعمل Siri أيضًا بشكل جيد جدًا.

ومع ذلك ، تعد Alice الآن المساعد الصوتي الأكثر تنافسية ، لأن Yandex لديها كمية هائلة من الموارد والخدمات لتوسيع إمكاناتها. بالإضافة إلى ذلك ، لديهم بالفعل القدرة على إضافة خدمات طرف ثالث ، أي أنه يمكن لأي مطور أو فريق إضافة بعض وظائفهم. هذا يجعل فرصها واسعة حقا.

من ناحية ، المسألة هي موارد وتجربة Yandex: لقد انخرطوا في معالجة اللغة لفترة طويلة جدًا ، وقد طوروا هم أنفسهم العديد من الموارد لاستخراج البيانات وتحليلها وتحليل شكل الكلمات. جاء إليهم العديد من اللغويين الجيدين.

من ناحية أخرى ، فإنه يجمع بكفاءة ويكمل بعضها البعض خوارزميات الشبكة الكلاسيكية والعصبية. هذا هو السبب في أنها تستطيع فهم الطلبات الواضحة ، وإجراء محادثة حول أي شيء.

لا تنسوا أن هذا أمر جيد ، على الرغم من كونه تقليدًا للمحادثة.

المطور

بالطبع. لأن المنطق الرئيسي في Google يعتمد على اللغة الإنجليزية ، ونحن في روسيا. في Yandex ، يعمل الأشخاص على مساعد صوتي لغتهم الأم هي الروسية. يبدو لي أن أليس أفضل الآن وستكون أفضل. لأن الروس يعملون على المنطق.
هنا السؤال ليس في الخوارزمية ، وليس في التنمية. هنا هو السياق والمنطق وبشكل عام روح هذا التطور. يبدو أليس أكثر طبيعية.

لماذا لا تستطيع الرياضيات الفوز؟ كيف تساعدك المهارات اللغوية في العمل مع مساعدك الصوتي؟




ربما يكون لدى المبرمجين اللغويين ، مثل الفلاسفة ، وهم يمكن فهمه ، ولكن في بعض الأحيان خطير ، حيث يمكنهم فهم أي مجال آخر بمساعدة جهاز المعرفة الخاص بهم. أي أنه يكفيهم قراءة الوثائق لبعض وحدات معالجة اللغة ، وسوف يتعلمون كيفية العمل معها. لسوء الحظ ، هذا ليس صحيحًا تمامًا ، لأن اللغة معقدة للغاية. حتى اللغويين أنفسهم يفهمون الآن بشكل سيئ كيف يعمل.

إذا بحثنا في البحث ، يصبح من الواضح أن اللغة في الجانب المعرفي (الطريقة التي تعمل بها بشكل عام في الرأس ، وكيف تتحول الأفكار إلى خطابنا) يصعب فصلها عن جميع المستويات الأخرى. من أجل إنشاء أنظمة معالجة ذكية حقًا ، سنحتاج إلى تعلم كيفية إضفاء الطابع الرسمي على هذا الجانب والآخرين أيضًا.

غالبًا ما كان علينا اجتذاب أبحاث لغوية بحتة. على سبيل المثال ، عملنا على وحدة معالجة الوقت ، أي عندما يقول أحد الأشخاص: "ذكرني بالقيام بذلك في الطابق الأول." نشأت صعوبات في معالجة كلمة منتصف الليل. غدًا في منتصف الليل غدًا عند الساعة 0 أو غدًا عند الساعة 24؟ من المستحيل العثور على إجابة لهذا السؤال دون اللجوء إلى أساليب اللغويات أو فقه اللغة. يمكن للمرء أن يخمن فقط في أرض القهوة. يقولون ذلك أم لا. اشتملت الدراسة على أنني نظرت إلى الفيلق الوطني للغة الروسية في جميع حالات استخدام كلمة "منتصف الليل" بمراجع زمنية مختلفة ، أي اليوم / غدًا. نظرت إلى ما كان يفكر فيه الناس. كان الهامش 60٪ مقابل 40٪ لصالح حقيقة أن اليوم عند منتصف الليل - غدًا عند الساعة 0.

من المستحيل ، مجرد النظر في بعض حالات الاستخدام ، دون معرفة كيفية عمل اللغة ، لصياغة قاعدة وبعض القائمة النهائية لطرق قول شيء ما. لأي سبب ، يمكنك قول عدد لا نهائي من المقترحات. محاولة تعيين كل هذا مع بعض الخوارزميات المحدودة أمر صعب للغاية. لن تعطي الأنظمة التي لا تستخدم التحليل اللغوي الدقة بنسبة 100٪.

مطور

اللغوي يساعد كثيرا. يمكنه العثور على عدد كبير من الخيارات لكيفية سؤال الناس عن شيء ما. بالإضافة إلى ذلك ، فإن تشغيل الآلات أمر خطير. لا يمكننا قبول أي طلب. يساعدنا اللغوي في تحديد ما ستكون عليه هذه الأسئلة ، وبأي شكل ، فإنه يساعد على ترتيب الإجابات الصحيحة. كما يحلل النص ، ويزيل منه الموضوعات التي لا تستحق الحديث عنها: السياسة ، والملاحظات العنصرية ، وما إلى ذلك.

, ? , ?




بالطبع ، معالجة اللغة هي مشكلة متعددة التخصصات. والآن ، ودائمًا كان من الضروري جذب المتخصصين في علم النفس واللغويات النفسية ، الذين يحددون كيف يفهم الشخص اللغة. على مستوى أعمق ، هناك حاجة أيضًا إلى البحث المعرفي. لأنه لدينا الآن فقط تقنيات تسمح لنا بتتبع كيفية عمل دماغ الإنسان عند معالجة الأخطاء في بناء الجملة مثل ترتيب الكلمات الخاطئ والأخطاء الدلالية ، مثل عندما يقال شيء غير متوقع ، غير مناسب تمامًا في المعنى. وتلقي نتائج هذه الدراسات بظلال من الشك على كل شيء كان يُنظر إليه سابقًا على أنه معترف به عالميًا في علم اللغة. لأنه اتضح أن هذه الأخطاء يتم التعامل معها بطريقة متشابهة جدًا ، سواء بالنسبة للغة أو المعلومات الصوتية أو مقاطع الفيديو أو القصص المصورة ،أو حتى للموسيقى وأي تسلسلات صوتية. أي أن آلية البحث عن الأخطاء في البنية والمعنى هي شاملة لجميع المعلومات التي يدركها الشخص. هذا يشير إلى أنه من الضروري العمل على تحليل بناء الجملة والدلالات ليس في إطار اللغة ، ولكن في إطار التصور العام للمعلومات.



قال المطور تورينج: "الكمبيوتر يستحق أن يُدعى ذكيا إذا كان يمكن أن يخدع الإنسان ليصدق أنه كان بشرًا" - لا يمكن استدعاء الكمبيوتر بذكاء إلا إذا كنت لا تفهم أنه آلة ، وليس شخصًا.

في هذا سوف يساعد علماء النفس في المستقبل. نحن لا نعتمد على الكلمات فقط. العواطف ... كيف يفهم الشخص مهم أيضًا. الشخص لديه خمسة حواس ، يتم استخدام اثنين على الأقل أثناء المحادثة. ومساعد الصوت لديه مصدر واحد. هذه "آذانه".
يمكن لعلم النفس العمل مع المطورين الذين يحللون الإشارات الصوتية ويساعدوننا في تحديد العواطف عن طريق الصوت ، لفهم ما إذا كان الشخص غاضبًا أو في حالة مزاجية جيدة. واعتمادًا على ذلك ، حدد متى يجب أن يمزح المساعد الصوتي ، ومتى - أن يكون جادًا. كمبرمجين ، لا يمكننا التحكم في هذا. إذا قلنا "نكتة" للسيارة ، فستفعل ذلك في أي موقف غريب. على سبيل المثال ، علمها السؤال "ماذا تفعل؟" أجب "خلع سروالك واهرب." إذا قال المستخدم قبل هذا السؤال أن والده توفي أو انفصل عن الفتاة ، فهو ليس في مزاج جيد ، ولن تأخذ الآلة في الاعتبار كل هذه المعلومات وستعطي مزحة.

بما أننا نتحدث عن النكات ، كيف ننمي حس الفكاهة في المساعد الصوتي؟


اللغوي

إن حس الفكاهة هو ظاهرة بشرية متأصلة تساعد على التكيف مع التغيرات ، وتحمل الصعوبات ، وتقوية التفاعل الاجتماعي وأكثر من ذلك بكثير. في شكلها الدقيق ، أعتقد أنه ليس ضروريًا للذكاء الاصطناعي. البحث في هذا المجال مستمر ، لكنه يتعلق بفهم ومحاكاة الفكاهة. يجب علينا أن نوضح للسيارة بطريقة ما أن الحقائب الجلدية تؤدي أحيانًا أشياء غير مفهومة لها - فهي تمزح - وتتوقع النكات في المقابل.

مع الفهم ، كل شيء معقد للغاية ، لذلك سأجيب عن التقليد. هناك طريقتان للخروج:

  1. استخدام النكات التي يخلقها الناس - خاصة مكتوبة أو حصل عليها النظام نفسه من مجموعة النصوص ؛
  2. حاول فهم ما يجعل الناس يضحكون (الروابط الدلالية الخفية والمتوازية وغير المتوقعة ، مجموعة من الكلمات من المجالات الدلالية المختلفة ، قلب الحالة والمعاني) ، وإدراك ذلك.

هناك بالفعل حلول تقنية: يتم إنشاء نفس التورية ببساطة على أساس التسلسل المشترك للحروف. تكمن المشكلة دائمًا في تقييم نتيجة العمل بشكل موضوعي والتغلب بطريقة ما على عتبة 5-10 ٪ من الأمثلة السخيفة.

كقاعدة عامة ، الذكاء الاصطناعي لا يمزح أو ليس مضحكًا ، والبحوث المعقدة ضرورية لتغيير الوضع.
الطريقة الأسهل والأكثر موثوقية لإضافة الفكاهة إلى مساعدي الصوت هي ببساطة كتابة البرامج النصية أو ، في الحالات القصوى ، نوع من أنماط النكتة. ثم يمكننا توليدها بذكاء لسبب أو لآخر. أنا متأكد من أن Yandex Alice غالبًا ما يعمل بهذه الطريقة. لاحظ الكثير أن Alice تتفهم الأغاني والنكات من سلسلة The Witcher. يمكنك أن تسألها شيئًا مثل "كيف تدفع لـ Witcher؟" وستمزح شيئًا في المقابل. من المحتمل أن يتم تسجيل هذه الأشياء يدويًا.

مطور

يشارك اللغوي في جمع الإجابات التي يمكن أن تكون مضحكة. يبحث عنهم في حاوية اللغة ، ثم ينتهي بهم المطاف في قاعدة بيانات المساعد الصوتي. وعندما نطلب منه المزاح ، يجد الحق في قاعدة البيانات ويعطي مزحة. كما يمكنه المزاح تلقائيًا إذا رأى مواقف مشابهة لتلك التي تدرب عليها. كل هذا يتوقف على السياق.

لماذا تعتقد أن الناس يريدون مساعد صوت للمزاح؟


لغوي

يبدو لي أن هناك العديد من الأسباب التي تجعل الناس يرغبون في رؤية الفكاهة فيها. روح الدعابة هي صفة إنسانية بحتة. ما يجعلنا بشر. يريدون العثور على الإنسانية في الدردشة الآلية ، فهم يبحثون عن روح الدعابة فيها. يمكن ملاحظة ذلك ، حتى إذا نظرت إلى جميع أمثلة الذكاء الاصطناعي في الثقافة: أي روبوت ذكي حقًا من الفيلم سوف يمزح.

أي مساعد صوت برأيك هو الأكثر الكبار؟


اللغوي

إذا كان شخص بالغ كبير السن ، فمن الصعب القول. التحكم الصوتي هو تقريبًا نفس الشيء القديم مثل تركيب الكلام ، اخترع ، الغريب ، في القرن الثامن عشر. لقد تم التعامل معها منذ بداية القرن العشرين ، وظهرت حلول العمل الأولى في الستينيات وتتطور منذ ذلك الحين. تم إنشاء مساعدين صوتيين ذكيين في IBM في التسعينات ، ووصلوا إلى الهواتف الذكية في عام 2011.

إذا كان شخص بالغ مملًا ولكن يمكن الاعتماد عليه ، فإن Siri. يبدو أن نصوص الإجابات للغة الروسية قد تم تحديثها مؤخرًا ، وهي تعطي الإجابات الأكثر صحة وأمانًا للسمعة. ملائم لشركة كبيرة ، ولكن أيضًا لا تلعب. لا توجد طريقة للدردشة وجمع الحوارات المعقولة مثل Alice. لكنه ليس لديه مثل هذا الهدف ، لأنه مساعد صوت مدمج في الهاتف الذكي (أو في أي جهاز). لديها في المقام الأول وظيفة نفعية للسيطرة على كل شيء. أتذكر في البداية أن الإجابات كانت أكثر إثارة للاهتمام ومثيرة للجدل من الآن. ولكن ، على ما يبدو ، قرروا أن الناس قد لعبوا بالفعل ما يكفي مع مساعد صوت ، وقد حان الوقت ليصبح جادًا. فقط قم بعملك.

أليس موجود إما في التطبيق أو في منتج منفصل - في عمود. هناك وهناك من المهم أن تثير اهتمام الشخص حتى يريد شراء عمود أو فتح تطبيق. سيبدو التحكم الصوتي الجاف فقط مملاً.

المطور

لا البالغين. كل المساعدين الصوتيين لديهم القليل من المعرفة ، والآن هناك المزيد. لم يتعلموا أنفسهم. أتذكر كيف عملت أليس الغبية منذ حوالي 3-4 سنوات. ولكن كل يوم أصبحت أفضل. قام المطورون بمراقبة حالات معينة وتصحيح الأخطاء ، وعملوا حالات جديدة ، ومخطوطات. لاحظت بعض المستخدمين ساعدهم ، لاحظت بعض الفروق الدقيقة. تمتلك Yandex موارد رائعة: هناك محرك بحث ، وهناك خوادم وكل شيء لتخزين البيانات.

ومع ذلك ، هناك رأي مفاده أن Siri هو الأكثر الكبار ، لأنه غني بالمعلومات ، ولكن لديه عدد أقل من النكات والألعاب وما إلى ذلك. هل توافق؟



نعم. لأنهم يلعبون بما هو موثوق. هذا أفضل من الإجابة على 100 سؤال ، لكن 40 منها خاطئة. هم أنيقون جدا في التصميم. إنهم يريدون أن يقول المساعد دائمًا شيئًا صحيحًا ولا يكون سخيفًا مثل أليس من قبل.

كي تختصر


لا يدعم الجميع المقارنة بين التعلم الآلي والتربية.
اللغة لا حصر لها. يمكن للمتحدث الأصلي أن يعبر عن نفس الفكر في عدد لا نهائي من التصريحات. بدون استخدام طرق التحليل اللغوي ، لن تحصل على دقة 100٪.

تساعد المعرفة من المجالات الأخرى أيضًا في التعلم الآلي. سيساعد البحث المعرفي والنفسي في فهم كيفية معالجة الدماغ لمعالجة المعلومات ، على وجه الخصوص ، كيف يفهم الشخص اللغة من أجل نقل هذه المعرفة إلى التعلم الآلي. وفي حل القضايا الأخلاقية ، سيأتي علماء النفس إلى الإنقاذ.
عادة ما تكون النكات منظمة العفو الدولية ليست مضحكة أم لا ، ولكن الناس يحتاجون النكات! لذلك ، البحث في هذا المجال مستمر.

أقوى مساعد صوتي وتنافسي في روسيا هو أليس. محادثة معها قريبة من محادثة مع شخص. والأكثر البالغين (نعني بهذه الكلمة التركيز ليس على لحظات الألعاب ، ولكن على الموثوقية والدقة في معالجة الطلبات) - Siri.

All Articles