ترجمة كتاب أندرو أون ، شغف التعلم الآلي ، الفصول 42 و 43

الفصول السابقة


42. المزيد حول عدم تطابق البيانات


لنفترض أنك طورت نظامًا للتعرف على الكلام يعمل بشكل جيد جدًا على عينة تدريب وعلى "عينة للتحقق من صحة التدريب". ومع ذلك ، فقد جودة رديئة في عينة التحقق من الصحة: ​​من الواضح أنك تتعامل مع مشكلة عدم تناسق البيانات. ما الذي يمكن فعله في هذه الحالة؟


أوصي بما يلي: (1) حاول فهم كيفية اختلاف توزيعات بيانات التدريب وعينات التحقق. (2) البحث عن أكبر عدد ممكن من أمثلة التدريب التي تتوافق مع أمثلة عينة التحقق والتي الخوارزمية خاطئة.


على سبيل المثال ، بالنسبة للتحليل اليدوي للأخطاء لجهاز التعرف على الكلام ، على سبيل المثال ، يمكنك تحليل 100 مثال ، في محاولة لفهم أي منها ترتكب الخوارزمية أخطاء. ونتيجة لذلك ، تجد أن النظام لا يعمل بشكل جيد ، لأن معظم مقاطع الصوت من عينة التحقق تم تسجيلها في الجهاز ، في حين أن جميع أمثلة عينة التدريب تقريبًا لا تحتوي على أصوات غريبة. صوت المحرك وضوضاء الطريق يقلل بشكل ملحوظ من جودة التعرف على الكلام. في هذه الحالة ، يمكنك محاولة إضافة المزيد من الأمثلة التدريبية المسجلة في السيارة. الغرض من تحليل الخطأ في الخوارزمية هو البحث عن الاختلافات بين عينات التدريب والاختبار ، مما يؤدي إلى عدم تناسق البيانات في هذه العينات.


إذا تضمنت عينة التدريب و "عينة للتحقق من صحة التدريب" أمثلة على الصوت المسجل في السيارة ، يجب عليك أيضًا التحقق جيدًا من جودة النظام في هذه المجموعة الفرعية من البيانات. إذا كانت الخوارزمية تعمل بشكل جيد مع الأمثلة المسجلة في السيارة من مجموعة التدريب ، ولكنها لا تتوافق مع الأمثلة من السيارة من "عينة للتحقق من صحة التدريب" ، فهذا يؤكد مرة أخرى الفرضية القائلة بأن إضافة المزيد من مقاطع الفيديو المسجلة في السيارة إلى مجموعة التدريب سيساعد على تحسين الجودة. هذا هو السبب في أننا ناقشنا في الفصل السابق الحاجة إلى تضمين مجموعة التدريب الخاصة بك كمية معينة من البيانات المأخوذة من نفس التوزيع مثل عينات التحقق والاختبار. هذا سيسمح لك بمقارنة جودة الخوارزمية مع الأمثلة ،مسجلة في السيارة من عينة التدريب مع جودة عملها على أمثلة التحقق من صحة وعينات الاختبار.


, . , , , , , .


43.


, , . , , .


, / . . , , . «» / , , , , . , «» , , .


, , , .


. , - , , . , .


, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .


, 1000 , 10 . «» 10 , , , . , , , .


صورة


. , . , . , . , ( ), , .


~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .


, , . , , , , 20 , 1 . .


أثناء العمل على تجميع البيانات ، أمضت فريقي أحيانًا أسابيع قبل أن نتمكن من إعادة إنتاج التفاصيل التي سمحت لنا بالاقتراب بشكل كافٍ من التوزيع الفعلي للأمثلة بحيث يمكن أن يكون للبيانات التي تم توليفها تأثير كبير. ولكن إذا كان بإمكانك إعادة إنتاج الأشياء التفصيلية القريبة من تلك التي يجب أن تُظهر الخوارزمية جودة عالية فيها بشكل صحيح ، فلديك فرصة للوصول إلى حجم أكبر بكثير من عينة التدريب عما كان لديك من قبل.


استمرار


All Articles