التعرف على الكلام: دورة تمهيدية قصيرة جدًا



يكاد يكون من المستحيل إخبار الشخص العادي بأبسط ما يمكن عن عمل التعرف على الكلام على الكمبيوتر وتحويله إلى نص. لا تكتمل قصة واحدة حول هذا الموضوع بدون صيغ معقدة ومصطلحات رياضية. سنحاول أن نوضح بأبسط صورة ممكنة وبسيطة قدر الإمكان كيف يفهم هاتفك الذكي الكلام ، عندما تتعلم السيارات التعرف على الصوت البشري وفي المجالات غير المتوقعة التي تستخدم فيها هذه التكنولوجيا.

تحذير ضروري: إذا كنت مطورًا ، أو خصوصًا عالم رياضيات ، فمن غير المحتمل أن تتعلم أي شيء جديد من المنشور وحتى تشتكي من عدم كفاية الطبيعة العلمية للمادة. هدفنا هو تقديم القراء غير المبتدئين لتقنيات الكلام بأبسط طريقة وإخبار كيف ولماذا تبنت توشيبا إنشاء صوتها AI.

معالم مهمة في تاريخ التعرف على الكلام


بدأ تاريخ التعرف على الكلام البشري بواسطة الآلات الإلكترونية في وقت أبكر قليلاً مما هو معتاد في التفكير: في معظم الحالات ، من المعتاد العد التنازلي من عام 1952 ، ولكن في الواقع كان أحد أول الأجهزة التي استجابت للأوامر الصوتية هو روبوت Televox ، الذي كتبنا عنه بالفعل . تم إنشاء الروبوت عام 1927 في الولايات المتحدة الأمريكية ، وكان الروبوت هربرت Televox جهازًا بسيطًا تتفاعل فيه المرحلات المختلفة مع أصوات الترددات المختلفة. كان لدى الروبوت ثلاثة شوكات ضبط ، كل منها مسؤول عن نبرته. اعتمادًا على الشوكة الرنانة التي تعمل ، تم تنشيط مرحل واحد أو آخر.

صورة
في الواقع ، تم وضع "ملء" Televox بالكامل ، بما في ذلك نظام التعرف على الأوامر ، على رف في منطقة جسم "الروبوت". كان من المستحيل إغلاق غطاءها ، وإلا لم تتمكن الشوكة الرنانة من "سماع" الأصوات بشكل صحيح. المصدر: Acme Telepictures / Wikimedia.

كان من الممكن التواصل مع Televox كإشارات منفصلة مع صافرة ، وفي إشارات لفظية قصيرة - تم وضع شوكات الضبط الخاصة بهم أيضًا في سلسلة من الأصوات. حتى أن مبتكر الروبوت ، روي وينسلي ، قام بمظاهرة رائعة لتلك الأوقات ، قائلاً الأمر "Sesame ، open" ، الذي من خلاله قامت Televox بتشغيل التتابع المسؤول عن فتح الباب. لا تكنولوجيا رقمية ، شبكات عصبية ، ذكاء اصطناعي وتعلم الآلة - تقنية تناظرية فقط!

كان الاختراع الرئيسي التالي الذي مهد الطريق للاعتراف الحقيقي للكلام البشري هو آلة أودري ، التي تم تطويرها في عام 1952 في Bell Labs Innovation Forge. استهلكت أودري الضخمة الكثير من الكهرباء وكانت بحجم خزانة جيدة ، لكن كل وظائفها جاءت للتعرف على الأرقام المنطوقة من صفر إلى تسعة. عشر كلمات فقط ، نعم ، ولكن دعونا لا ننسى أن أودري كانت آلة تناظرية.
صورة
لسوء الحظ ، لم تحافظ القصة على صور عامة لأودري ، هناك مفهوم فقط. بسيطة على الورق ، من الصعب ترجمتها - وفقًا لمذكرات المعاصرين ، احتلت مكونات أودري خزانة كاملة. المصدر: Bell Labs

لقد عملت على هذا النحو: تحدث المذيع أرقامًا في الميكروفون ، محدثًا فواصل زمنية لا تقل عن 350 مللي ثانية بين الكلمات ، وحول أودري الأصوات التي سمعها إلى إشارات كهربائية وقارنها بالعينات المسجلة في الذاكرة التناظرية. وفقا لنتائج المقارنة ، أبرزت السيارة الرقم على لوحة العدادات.

لقد كان إنجازًا كبيرًا ، ولكن لم تكن هناك فائدة حقيقية من Audrey - فقد اعترفت الآلة بصوت منشئها بدقة 97٪ ، وحصل المتحدثون الآخرون المدربون بشكل خاص على دقة 70-80٪. الغرباء الذين اتصلوا بأودري لأول مرة ، بغض النظر عن مدى محاولتهم ، رأوا رقمهم على لوحة النتائج في 50 ٪ فقط من الحالات.

على الرغم من النتائج الثورية لوقته ، لم تجد أودري ، ولم تجد تطبيقًا عمليًا. كان من المفترض أن النظام يمكن تكييفه بدلاً من مشغلي الهاتف ، ولكن مع ذلك ، كانت الخدمات البشرية أكثر ملاءمة وأسرع وأكثر موثوقية بكثير من أودري.

عرض تقديمي مماثل لآلات أودري ، فقط أصغر بكثير - IBM Shoebox. سرعة Shoebox مرئية بوضوح. يمكن للآلة أيضًا إجراء عمليات حسابية بسيطة للجمع والطرح

في أوائل الستينيات ، تم تنفيذ العمل على إنشاء آلات للتعرف على الكلام في اليابان والمملكة المتحدة والولايات المتحدة وحتى اتحاد الجمهوريات الاشتراكية السوفياتية ، حيث اخترعوا خوارزمية مهمة جدًا للتحول الديناميكي للجدول الزمني (DTW) ، بمساعدة من الممكن بناء نظام يعرف حوالي 200 كلمة. لكن كل التطورات كانت متشابهة مع بعضها البعض ، وأصبح مبدأ الاعتراف عيبًا شائعًا: تم النظر إلى الكلمات على أنها بصمات صوتية متكاملة ، ثم تم فحصها مقابل قاعدة العينات (القاموس). أي تغييرات في سرعة ونغمة ووضوح نطق الكلمات أثرت بشكل كبير على جودة التعرف. لدى العلماء مهمة جديدة: تعليم الآلة لسماع الأصوات الفردية ، أو الصوتيات أو المقاطع ، ثم جعل الكلمات منها. مثل هذا النهج سيجعل من الممكن تحديد تأثير تغيير السماعة ، عندما يختلف مستوى التعرف بشكل حاد ، اعتمادًا على السماعة.

— , . , « » «» «». «» « » « » «», — «». , , .

في عام 1971 ، أطلقت وكالة مشاريع البحوث المتقدمة التابعة لوزارة الدفاع (DARPA) برنامجًا لمدة خمس سنوات بميزانية قدرها 15 مليون دولار ، كانت المهمة فيها إنشاء نظام التعرف الذي يعرف 1000 كلمة على الأقل. بحلول عام 1976 ، قدمت جامعة كارنيجي ميلون Harpy ، قادرة على تشغيل قاموس من 1011 كلمة. لم يقارن هاربي الكلمات المسموعة تمامًا بالعينات ، ولكنه قسمها إلى ألوفونات (عينة من صوت صوتي اعتمادًا على الحروف المحيطة به). كان هذا نجاحًا آخر ، مما يؤكد أن المستقبل يكمن في التعرف على الصوتيات الفردية ، وليس الكلمات الكاملة. ومع ذلك ، من بين عيوب Harpy كان هناك مستوى منخفض للغاية من الاعتراف الصحيح بالألفون (نطق الصوتيات) - حوالي 47 ٪. مع مثل هذا الخطأ المرتفع ، زادت حصة الأخطاء بعد حجم القاموس.

وصف لكيفية عمل Harpy. فيديو البرنامج لم ينج.

أظهرت تجربة هاربي أن بناء قواميس البصمات الصوتية الشاملة لا فائدة منه - فهو يزيد فقط من وقت التعرف ويقلل من الدقة بشكل كبير ، لذلك اتخذ الباحثون في جميع أنحاء العالم مسارًا مختلفًا - التعرف على الصوتيات. في منتصف الثمانينيات ، استطاعت آلة IBM Tangora أن تتعلم فهم خطاب أي متحدث بأي لهجة ولهجة ونطق ، فقد تطلبت تدريبًا لمدة 20 دقيقة فقط ، تم خلالها تراكم قاعدة بيانات من الصوتيات وعينات اللفون. زاد استخدام نموذج ماركوف المخفي أيضًا من مفردات IBM Tangora إلى 20000 كلمة رائعة - 20 مرة أكثر من Harpy ، ويمكن مقارنته بالفعل بمفردات المراهق.

لم تكن جميع أنظمة التعرف على الكلام من الخمسينيات حتى منتصف التسعينات تعرف كيف تقرأ لغة الشخص الطبيعية المنطوقة - كان عليهم أن ينطقوا الكلمات بشكل منفصل ، ويتوقفون فيما بينها. كان الحدث الثوري الحقيقي هو إدخال نموذج ماركوف المخفي الذي تم تطويره في الثمانينيات - نموذج إحصائي بنى افتراضات دقيقة حول العناصر غير المعروفة بناءً على العناصر المعروفة. ببساطة ، مع وجود عدد قليل من الصوتيات المعترف بها في كلمة واحدة ، فإن نموذج ماركوف المخفي يختار بدقة الصوتيات المفقودة ، وبالتالي يزيد بشكل كبير من دقة التعرف على الكلام.

في عام 1996 ، ظهر أول برنامج تجاري ، قادر على التمييز ليس الكلمات الفردية ، ولكن التدفق المستمر للخطاب الطبيعي - IBM MedSpeak / Radiology. كان IBM منتجًا متخصصًا تم استخدامه في الطب لوصف اختزال نتائج الأشعة السينية التي قدمها الطبيب أثناء الدراسة. هنا ، أصبحت قوة أجهزة الكمبيوتر كافية أخيرًا للتعرف على الكلمات الفردية "بسرعة". بالإضافة إلى ذلك ، أصبحت الخوارزميات أكثر كمالًا ، وقد ظهر التعرف الصحيح على الإيقاف المؤقت الجزئي بين الكلمات المنطوقة.

كان أول محرك عالمي للتعرف على الكلام الطبيعي هو برنامج Dragon NaturallySpeaking في عام 1997. عند العمل معها ، لم يكن المذيع (أي المستخدم) بحاجة إلى الخضوع للتدريب أو العمل بمفردات معينة ، كما هو الحال في MedSpeak ، يمكن لأي شخص ، حتى طفل ، العمل مع NaturallySpeaking ، لم يقم البرنامج بتعيين أي قواعد نطق.

صورة
على الرغم من تفرد Dragon NaturallySpeaking ، لم تظهر متصفحات تكنولوجيا المعلومات الكثير من الحماس للتعرف على الكلام الطبيعي. من بين أوجه القصور ، لوحظت أخطاء التعرف والمعالجة غير الصحيحة للأوامر الموجهة إلى البرنامج نفسه. المصدر: itWeek

من الجدير بالذكر أن محرك التعرف كان جاهزًا في الثمانينيات ، ولكن نظرًا لقوة الكمبيوتر غير الكافية ، لم يكن لدى Dragon Systems (المملوكة حاليًا لـ Nuance Communications) الوقت لتحديد المسافات بين الكلمات أثناء التنقل ، وهو أمر ضروري للتعرف على الكلام الطبيعي. بدون هذا ، يمكن أن يسمع الكمبيوتر ، على سبيل المثال ، عبارة "أثناء العلاج" على أنها "مشلولة".

في المستقبل ، كانت الشعبية المتزايدة لأنظمة التعرف على الكلام والشبكات العصبية وظهور البحث الصوتي من Google على الأجهزة المحمولة ، وأخيرًا ، مساعد صوت Siri ، ليس فقط تحويل الكلام إلى نص ، ولكن أيضًا الرد بشكل كاف على الاستفسارات التي تم إنشاؤها بأي طريقة طبيعية.

كيف تسمع ما قيل وتفكر في ما هو غير مسموع؟


في الوقت الحاضر ، أفضل أداة لإنشاء محرك التعرف على الكلام هي الشبكة العصبية المتكررة (RNN) ، والتي يتم بناء جميع الخدمات الحديثة للتعرف على الصوت والموسيقى والصور والوجوه والأشياء والنص. يسمح لك RNN بفهم الكلمات بدقة بالغة ، وكذلك توقع الكلمة الأكثر احتمالا في سياق السياق إذا لم يتم التعرف عليها.

يختار التصنيف الزمني للشبكة العصبية للنموذج (CTC) الصوتيات الفردية في الدفق الصوتي المسجل (الكلمة ، العبارة) ويرتبها بالترتيب الذي تم نطقها به. بعد التحليل المتكرر ، تحدد CTC بوضوح شديد بعض الصوتيات ، ويقارن تسجيلها النصي بقاعدة بيانات الكلمات في الشبكة العصبية ثم يتحول إلى كلمة معروفة.

تسمى الشبكات العصبية بذلك لأن مبدأ عملها مشابه لعمل الدماغ البشري. يشبه تدريب الشبكات العصبية إلى حد كبير التدريب البشري. على سبيل المثال ، لكي يتعلم طفل صغير جدًا التعرف على السيارات وتمييزها عن الدراجات النارية ، تحتاج إلى لفت انتباهه عدة مرات على الأقل إلى سيارات مختلفة وفي كل مرة نطق الكلمة المقابلة: هذه كبيرة وحمراء هي السيارة وهذه الأسود المنخفضة هي السيارة ، ولكن هذا وهذه دراجات نارية. في مرحلة ما ، سيكتشف الطفل أنماطًا وإشارات شائعة لسيارات مختلفة ، وسيتعلم التعرف بشكل صحيح على مكان السيارة ، وأين الجيب ، وأين دراجة نارية ، وأين ATV ، حتى لو مررها يراها على ملصق إعلاني في الشارع. بنفس الطريقة ، تحتاج الشبكة العصبية إلى التدريب على قاعدة من الأمثلة - لجعل مئات وآلاف متغيرات النطق لكل كلمة ، حرف ، صوتي "تعلم".

تعد الشبكة العصبية المتكررة للتعرف على الكلام أمرًا جيدًا لأنه بعد تدريب طويل على قاعدة التلفظات المختلفة ، ستتعلم كيفية تمييز الصوتيات عن الكلمات وجعل الكلمات منها بغض النظر عن جودة وطبيعة النطق. وحتى "فكر" بدقة عالية ، في سياق الكلمة ، الكلمات التي لا يمكن التعرف عليها بشكل لا لبس فيه بسبب ضجيج الخلفية أو النطق الغامض.

ولكن هناك فارق بسيط في تنبؤات RNN - يمكن للشبكة العصبية المتكررة "التفكير" في كلمة مفقودة فقط من خلال الاعتماد على أقرب سياق من خمس كلمات. خارج هذه المساحة ، لن يتم إجراء التحليل. وأحيانًا يكون ضروريًا جدًا! على سبيل المثال ، للاعتراف ، قلنا عبارة "الشاعر الروسي العظيم ألكسندر سيرجيفيتش بوشكين"، حيث قيلت كلمة" بوشكين "(خاصة بالخط المائل) بشكل غير مسموع لدرجة أنه لم تستطع منظمة العفو الدولية التعرف عليها بدقة. لكن الشبكة العصبية المتكررة ، بناءً على الخبرة المكتسبة أثناء التدريب ، قد توحي بأن كلمة "بوشكين" غالبًا ما توجد بجوار الكلمات "الروسية" و "الشاعر" و "الإسكندر" و "سيرجييفيتش". هذه مهمة بسيطة إلى حد ما بالنسبة لشبكة RNN المدربة في النصوص الروسية ، لأن السياق المحدد للغاية يسمح لنا بعمل افتراضات بأعلى دقة.

وإذا كان السياق غامضا؟ خذ نصًا آخر لا يمكن التعرف فيه على كلمة واحدة: "مات كل شيء لدينا ، ألكسندر سيرجيفيتش بوشكين ، بشكل مأساوي في أوج حياته بعد مبارزة مع دانتس. تم تسمية مهرجان بوشكين المسرحي على اسم الشاعر ". إذا قمت بإزالة كلمة "Pushkinsky" ، فببساطة لا تستطيع RNN تخمينها ، بناءً على سياق الاقتراح ، لأنها تذكر فقط مهرجانًا مسرحيًا وإشارة إلى اسم شاعر غير معروف - هناك الكثير من الخيارات الممكنة!

هذا هو المكان الذي يتم فيه تشغيل بنية الذاكرة قصيرة المدى (LSTM) للشبكات العصبية المتكررة ، التي تم إنشاؤها في عام 1997 ( مقالة مفصلة عن LSTM ) .) تم تطويره خصيصًا من أجل إضافة قدرة RNN على مراعاة السياق البعيد عن الحدث الذي تتم معالجته - تمر نتائج حل المشكلات السابقة (أي التعرف على الكلمات) من خلال عملية التعرف بأكملها ، بغض النظر عن طول المونولوج ، ويتم أخذها في الاعتبار في كل حالة من الشك. علاوة على ذلك ، فإن مسافة الإزالة ليس لها أي تأثير تقريبًا على كفاءة الهندسة المعمارية. بمساعدة LSTM ، إذا لزم الأمر ، ستأخذ شبكة الكلمات في الاعتبار جميع الخبرة المتاحة في إطار المهمة: في مثالنا ، ستنظر RNN في الجملة السابقة ، وتجد أن بوشكين و دانتس قد ذُكروا سابقًا ، وبالتالي ، يشير مصطلح "باسم الشاعر" إلى أحدهم على الأرجح. نظرًا لعدم وجود دليل على وجود مهرجان مسرح دانتس ،نحن نتحدث عن Pushkinsky (أكثر من ذلك لأن بصمة الصوت لكلمة غير معترف بها متشابهة جدًا) - كان هذا المهرجان في الأساس لتدريب الشبكة العصبية.

"اعتراف مساعد صوت". عندما تدخل شبكة عصبية مدربة تدريباً جيداً ، يستطيع المساعد الصوتي أن يعرف بالضبط ما يجب القيام به باستخدام "النعال الخضراء"

كيف يجعل التعرف على الكلام العالم أفضل؟


في كل حالة ، يختلف التطبيق - فهو يساعد شخصًا على التواصل مع الأدوات ، ووفقًا لما يزيد عن نصف مستخدمي الهواتف الذكية في برايس ووترهاوس كوبر يقدمون أوامر صوتية للأجهزة - بين البالغين (من 25 إلى 49 عامًا) ، فإن النسبة المئوية لأولئك الذين يستخدمون واجهات الصوت باستمرار ، حتى أعلى من الشباب (18-25) - 65٪ مقابل 59٪. وفي روسيا مرة واحدة على الأقل ، تواصل 71٪ على الأقل من السكان مع Siri أو Google Assitant أو Alice. يتواصل 45 مليون روسي باستمرار مع Yandex من Alice ، ويمثل Yandex.Maps / Yandex.Navigator فقط 30 ٪ من الطلبات.

يساعد التعرف على الكلام حقًا شخصًا في العمل - على سبيل المثال ، كما قلنا أعلاه ، للأطباء: في الطب منذ عام 1996 (عندما ظهرت IBM MedSpeak) ، يتم استخدام التعرف لتسجيل الحالة عند فحص الصور - عند فحص الصور - يمكن للطبيب مواصلة العمل دون أن يشتت انتباهه التسجيلات في الكمبيوتر أو بطاقة الورق. بالمناسبة ، يتم إجراء الإملاء في الطب ليس فقط في الغرب - في روسيا هناك برنامج Voice2Med من "مركز تقنيات الكلام".

هناك أمثلة أخرى ، بما في ذلك أمثلةنا. يتضمن تنظيم أعمال شركة Toshiba الإدماج الكامل ، أي الحقوق والفرص المتساوية للأشخاص الذين يعانون من ظروف صحية مختلفة ، بما في ذلك للموظفين الذين يعانون من ضعف السمع. لدينا برنامج شركة يسمى Universal Advisor System ، حيث يشارك الأشخاص الذين يعانون من أنواع مختلفة من الإعاقات في تطوير منتجات Toshiba ، ويقدمون اقتراحات لتحسين ملاءمتهم لذوي الإعاقات - أي أننا لا نفترض كيف يمكننا أن نفعل أفضل ، ولكننا نعمل على تجربة حقيقية ومراجعات الموظفين.

قبل بضع سنوات ، في المقر الرئيسي لشركة Toshiba في اليابان ، واجهنا مهمة مثيرة للاهتمام للغاية ، تتطلب تطوير نظام جديد للتعرف على الكلام. أثناء تشغيل نظام مرشد التصميم العالمي ، تلقينا رؤية مهمة: يرغب الموظفون الذين يعانون من ضعف السمع في المشاركة في المناقشات في الاجتماعات والمحاضرات في الوقت الفعلي ، ولن يقتصروا على قراءة ساعات النسخ التي تمت معالجتها أو بعد ذلك بأيام. إن بدء التعرف على الصوت من خلال هاتف ذكي في مثل هذه الحالات يعطي نتيجة ضعيفة جدًا ، لذلك كان على متخصصي Toshiba البدء في تطوير نظام التعرف المتخصص. وبالطبع ، واجهنا مشاكل على الفور.

تختلف المحادثة اختلافًا كبيرًا عن الكلام المكتوب - فنحن لا نتحدث بالطريقة التي نكتب بها الرسائل ، وتبدو محادثة حقيقية مترجمة إلى نص قذرة جدًا وحتى غير قابلة للقراءة. أي أنه حتى إذا قمنا بتحويل المحادثات في خطة الصباح إلى نص بدقة عالية ، فسوف نحصل على تجزئة غير مترابطة مليئة بالطفيليات اللفظية والمقاطعات و "aaa" المدروسة و "uh" و "mmm". للتخلص من نسخ الأصوات والكلمات وتعبيرات العواطف غير الضرورية في النص ، قررنا تطوير ذكاء اصطناعي قادر على التعرف بدقة إلى أقصى حد ليس دائمًا العناصر الضرورية للكلام العامي ، بما في ذلك التلوين العاطفي لبعض الكلمات (على سبيل المثال ، "نعم ، حسنًا" قد يبدو وكأنه شكوك أو كيف مفاجأة صادقة ، وهذه معاني حرفيا متناقضة).


يبدو أن الكمبيوتر المحمول مزودًا بمجموعة من الأجهزة الطرفية للتعرف على الصوت باستخدام Toshiba AI (يسار) وتطبيق يحتوي على نتائج الأجهزة النهائية (يمين). المصدر:

جاء Toshiba LSTM في متناول اليد هنا ، والذي بدونه لم تكن دقة التعرف كافية لقراءة النص المستلم وفهمه بدون جهد. علاوة على ذلك ، كان LSTM مفيدًا ليس فقط للتنبؤ الأكثر دقة للكلمات في السياق ، ولكن أيضًا للمعالجة الصحيحة للإيقاف المؤقت في منتصف الجمل والطفيليات - لهذا قمنا بتدريس الشبكة العصبية هذه الطفيليات والإيقاف المؤقت التي تعتبر طبيعية للكلام العامي.

هل هذا يعني أنه الآن يمكن للشبكة العصبية إزالة المقاطعات من النصوص؟ نعم ، يمكن ، ولكن هذا ليس ضروريًا. والحقيقة هي أن (تم تلقي نظرة أخرى) يتم توجيه الأشخاص الذين يعانون من ضعف السمع ، بما في ذلك تحركات شفاه المتحدث. إذا تحركت الشفاه ، لكن النص المقابل لهذه الحركات لا يظهر على الشاشة ، فهناك شعور بأن نظام التعرف قد فات جزءًا من المحادثة. هذا يعني ، بالنسبة لشخص لا يمكنه سماعه ، من المهم الحصول على أكبر قدر ممكن من المعلومات حول المحادثة ، بما في ذلك فترات التوقف المشؤومة والميغوميتيا. لذلك ، يترك محرك Toshiba هذه العناصر في النص ، ولكن في الوقت الفعلي يخفف سطوع الحروف ، مما يجعل من الواضح أن هذه تفاصيل اختيارية لفهم النص.

هذه هي الطريقة التي تبدو بها نتيجة التعرف على الطاير على جهاز العميل. تم رسم أجزاء من المونولوج غير ذات معنى باللون الرمادي ،

والآن تعمل توشيبا AI مع اللغة الإنجليزية واليابانية والصينية ، وحتى الترجمة بين اللغات أثناء التنقل ممكنة. ليس من الضروري استخدامه للاختزال السريع - يمكن تكييف الذكاء الاصطناعي للعمل مع المساعدين الصوتيين ، الذين يتعلمون أخيرًا إدراك المداخلات ، والتوقف المؤقت والتلعثم عندما ينطق الشخص بأمر. في مارس 2019 ، تم استخدام النظام بنجاح لإضافة ترجمات إلى بث المؤتمر الوطني IPSJ في اليابان. في المستقبل القريب - تحويل Toshiba AI إلى خدمة عامة وتجارب في تنفيذ التعرف الصوتي في الإنتاج.

All Articles