الفصول السابقة
49. إيجابيات وسلبيات التعلم نهاية إلى نهاية
نواصل النظر في نظام التعرف على الكلام:

يتم إنشاء معظم عناصر هذا الناقل دون استخدام التعلم الآلي (تم تطويره بواسطة الأشخاص أو المصمم يدويًا):
- MFCC عبارة عن مجموعة من ميزات الصوت المستخرجة بواسطة التلاعبات الرياضية بترددات لا تتطلب خوارزميات التعلم. وهذا يوفر حلولا ملائما للإشارة الواردة مع فقدان المعلومات غير ذات الصلة.
- الفونيمات - اختراع اللغويين. باستخدامها ، يتم إنشاء نموذج مبسط لأصوات الكلام المباشر. مثل أي نموذج لظاهرة معقدة ، فإن الصوتيات ليست مثالية ، وجودة النظام الذي هم جزء منه محدود بسبب انعكاسها غير الكامل للواقع.
فمن ناحية ، تحد الخوارزميات غير التعليمية (المكونات المصممة يدويًا) من الأداء المحتمل لنظام الكلام. من ناحية أخرى ، فإن استخدامها له مزايا معينة:
- إن وظائف MFCC تقاوم بعض خصائص الكلام التي لا تؤثر على معنى ما قيل ، على سبيل المثال ، نغمة الصوت. يبسط تطبيقهم مهمة الخوارزمية المدربة.
- الفونيمات ، إذا كانت تعكس أصوات الكلام الحقيقي بشكل صحيح ، تساعد خوارزمية التعلم على التقاط عناصر الصوت الأساسية ، وتحسين جودة عملها
:

, (hand-engineered), . , , , (hand-engineered pipeline).
, , MFCC . , , , , , .
, , , « » — . , ( , ). , , .
, , . . . , (hand engineering).
, , . .
50. :
? . .
:

. , , . (, Amazon Mechanical Turk) . , .
, :

, , (: , ). , . . , . . .
بشكل عام ، في حالة توفر عينات كبيرة لتدريب "الوحدات المتوسطة" للناقل (مثل كاشف السيارة أو كاشف المشاة) ، يمكنك التفكير في استخدام ناقل يتكون من عدة مكونات. سيكون مثل هذا النهج غير الشامل مفضلاً ، لأنه يسمح لك باستخدام جميع البيانات المتاحة.
أعتقد أنه حتى يتوفر المزيد من البيانات لتدريب الأنظمة من طرف إلى طرف ، فإن نهج خط الأنابيب (من غير طرف إلى طرف) يكون واعدًا جدًا لتطوير أنظمة القيادة المستقلة: فبنيته تتوافق بشكل أفضل مع البيانات المتاحة.
استمرار