ترجمة كتاب أندرو أون ، شغف التعلم الآلي ، الفصول 49 و 50

الفصول السابقة


49. إيجابيات وسلبيات التعلم نهاية إلى نهاية


نواصل النظر في نظام التعرف على الكلام:


صورة

يتم إنشاء معظم عناصر هذا الناقل دون استخدام التعلم الآلي (تم تطويره بواسطة الأشخاص أو المصمم يدويًا):


  • MFCC عبارة عن مجموعة من ميزات الصوت المستخرجة بواسطة التلاعبات الرياضية بترددات لا تتطلب خوارزميات التعلم. وهذا يوفر حلولا ملائما للإشارة الواردة مع فقدان المعلومات غير ذات الصلة.
  • الفونيمات - اختراع اللغويين. باستخدامها ، يتم إنشاء نموذج مبسط لأصوات الكلام المباشر. مثل أي نموذج لظاهرة معقدة ، فإن الصوتيات ليست مثالية ، وجودة النظام الذي هم جزء منه محدود بسبب انعكاسها غير الكامل للواقع.

فمن ناحية ، تحد الخوارزميات غير التعليمية (المكونات المصممة يدويًا) من الأداء المحتمل لنظام الكلام. من ناحية أخرى ، فإن استخدامها له مزايا معينة:


  • إن وظائف MFCC تقاوم بعض خصائص الكلام التي لا تؤثر على معنى ما قيل ، على سبيل المثال ، نغمة الصوت. يبسط تطبيقهم مهمة الخوارزمية المدربة.
  • الفونيمات ، إذا كانت تعكس أصوات الكلام الحقيقي بشكل صحيح ، تساعد خوارزمية التعلم على التقاط عناصر الصوت الأساسية ، وتحسين جودة عملها

:
صورة
, (hand-engineered), . , , , (hand-engineered pipeline).


, , MFCC . , , , , , .


, , , « » — . , ( , ). , , .


, , . . . , (hand engineering).


, , . .


50. :


? . .
:


صورة

. , , . (, Amazon Mechanical Turk) . , .


, :


صورة

, , (: , ). , . . , . . .


بشكل عام ، في حالة توفر عينات كبيرة لتدريب "الوحدات المتوسطة" للناقل (مثل كاشف السيارة أو كاشف المشاة) ، يمكنك التفكير في استخدام ناقل يتكون من عدة مكونات. سيكون مثل هذا النهج غير الشامل مفضلاً ، لأنه يسمح لك باستخدام جميع البيانات المتاحة.


أعتقد أنه حتى يتوفر المزيد من البيانات لتدريب الأنظمة من طرف إلى طرف ، فإن نهج خط الأنابيب (من غير طرف إلى طرف) يكون واعدًا جدًا لتطوير أنظمة القيادة المستقلة: فبنيته تتوافق بشكل أفضل مع البيانات المتاحة.


استمرار


All Articles