ترجمة كتاب أندرو أون ، شغف التعلم الآلي ، الفصول 36 و 37

الفصول السابقة


التدريب والاختبار على العينات بتوزيع مختلف


36. عندما يتعين عليك تدريب واختبار الخوارزميات على التوزيعات المختلفة


قام مستخدمو تطبيق الماكر بتحميل 10000 صورة ، وضعت عليها علامة كصور مع قطط وصور بدون قطط. لديك أيضًا مجموعة كبيرة من 200000 صورة تم جمعها عبر الإنترنت. ثم كيف تختار عينات التدريب والتحقق والاختبار؟


نظرًا لأن 10000 صورة تم تحميلها من قبل المستخدمين تعكس بدقة التوزيع الاحتمالي الفعلي للبيانات التي يجب أن تعمل عليها الخوارزمية بشكل جيد ، يمكنك استخدام هذه الصور للتحقق من العينات واختبارها. إذا كنت تتعلم خوارزمية تعلم عميقة تتطلب الكثير من البيانات ، فيمكنك استخدام 200.000 مثال إضافي من الإنترنت لتدريبها. في هذه الحالة ، سيكون لتدريباتك واختبارك مع عينة التحقق توزيع احتمالي مختلف. كيف سيؤثر هذا على عملك؟


بدلاً من التلاعب باختيار البيانات للتدريب والتحقق من الصحة والعينات الاختبارية ، يمكننا أن نأخذ جميع صورنا البالغ عددها 210.000 ، ونمزجها ، ونختار البيانات عشوائيًا لكل عينة. في هذه الحالة ، ستحتوي العينات الثلاثة على بيانات من نفس التوزيع.


لكني ضد هذا النهج. يرجع ذلك إلى حقيقة أن حوالي 97.6٪ من البيانات (205،000 / 210،000 ≈ 97.6٪) من عينات التحقق والاختبار سيتم أخذها من البيانات الموجودة على الإنترنت (غير المستلمة من المستخدمين) ولن تعكس التوزيع الحقيقي الذي من الضروري تحقيق جودة عالية عليه. تذكر توصيتنا لاختيار عينات التحقق والاختبار:


اختر عينات التحقق والاختبار التي تعكس البيانات التي ستتلقاها الخوارزمية بعد تشغيل التطبيق والتي يجب أن تعمل عليها بشكل جيد


تقترح معظم أدبيات التعلم الآلي الأكاديمية أن عينات التدريب والتحقق والاختبار مأخوذة من نفس التوزيع.


: . « », « » « ». . A B, . ( «» , , .) .


. , . , . , , .


, . , , , .


, 10000 , 5000 . 5000 . , 205 000, 5000 , 200 000 , . .


. , , . 20 000 , . 500 000 , . 10 000 10 000 500 000 .


, , , , .


37. ,


, 10 000 . . 20 000 , . 20 000 + 10 000 = 30 000 20 000 , ?


( , ), , . , , 20000 , .


, , . / , 20000 . , , .


, , x -> y, . , - , , , , , .


20000 :


  1. , . , , , . , .
  2. , (, , , . .). , , «» . , , , , . , .

, . , , , « - , . , »


, , , . , , , . «» , , .


( ), , .


, , , . , , , , , . , :


صورة


هذه المستندات لا تحتوي على أي شيء يشبه القطط. كما أنها تختلف تمامًا عن توزيعات عينات التحقق والاختبار. لا فائدة من تضمين هذه البيانات كأمثلة سلبية. لن تكون الفائدة من التأثير الأول الموصوف أعلاه ضئيلة - من غير المحتمل أن تتمكن الشبكة العصبية من استخراج أي شيء من هذه البيانات مما سيساعدها على العمل بشكل أفضل على عينات التحقق والاختبار لتطبيقك. سيؤدي إدراج هذه البيانات إلى فقدان موارد الحوسبة وربما يقلل من قدرة الشبكة العصبية على تقريب الوظائف (في النهاية تقليل قدرات التعرف عليها).


استمرار


All Articles