ترجمة كتاب أندرو أون ، شغف التعلم الآلي ، الفصول 38 و 39

الفصول السابقة


38. كيفية تحديد ما إذا كان سيتم إضافة البيانات بتوزيع مختلف


لنفترض أننا نريد معرفة كيفية التنبؤ بأسعار المساكن في نيويورك. بناءً على حجم المنزل (علامة الإدخال x ) ، من الضروري توقع سعره (القيمة المستهدفة y ).


أسعار المساكن في نيويورك مرتفعة للغاية. لنفترض أن لديك مجموعة بيانات ثانية لأسعار المساكن في ديترويت ، ميشيغان ، حيث العقارات أرخص بكثير. هل يجب إدراج هذه البيانات في مجموعة التدريب؟


مع نفس الحجم x ، يختلف سعر المنزل y تمامًا اعتمادًا على ما إذا كان في نيويورك أو في ديترويت. إذا كان من الضروري التنبؤ بأسعار المساكن في نيويورك ، فإن الجمع بين مجموعتي البيانات سيزيد من سوء النتائج. في هذه الحالة ، من الأفضل عدم إضافة بيانات خصائص ديترويت إلى مجموعة التدريب.


* ملاحظة للمؤلف إحدى طرق حل مشكلة عدم توافق بيانات ديترويت مع بيانات نيويورك هي إضافة معلمة إضافية إلى كل عينة بيانات تشير إلى المدينة. بالنظر إلى المعلمة x التي تشير إلى المدينة ، تصبح القيمة المستهدفة لـ y فريدة. ومع ذلك ، فإن هذا النهج نادر في الممارسة. *


كيف تختلف هذه الحالة مع البيانات عن أسعار العقارات في نيويورك وديترويت عن الحالة مع صور القطط التي تم الحصول عليها من تطبيقات الهاتف المحمول والإنترنت؟


والفرق الرئيسي هو أنه بالنظر إلى الصورة ، يمكنك دائمًا القول بثقة عن الفئة التي تنتمي إليها (مع أو بدون قطة). لا يهم ما إذا كانت هذه الصورة تأتي من تطبيق محمول أو تم العثور عليها على الإنترنت. وبالتالي ، يوجد في كاشف القط وظيفة f (x) ، والتي تعرض بشكل موثوق بيانات الإدخال x إلى فئات الإخراج (التسميات y) ، بغض النظر عن أصل الصور. لذلك ، فإن مهمة التعرف على الصور على الإنترنت "متوافقة" (متسقة) مع مهمة التعرف على الصور من تطبيقات الهاتف المحمول. لذلك ، لا ينبغي أن تكون هناك أي مشاكل خاصة عند تضمين جميع البيانات في مجموعة التدريب (دون احتساب الحاجة إلى زيادة القدرة الحاسوبية) ، في حين أن هناك فرصًا للحصول على فوائد كبيرة من التدريب على جميع البيانات.


في المقابل ، البيانات عن المنازل وأسعارها في نيويورك وديترويت ، ميشيغان غير متوافقة (متسقة). بنفس حجم المنزل x ، يختلف سعره تمامًا اعتمادًا على الحالة التي يقع فيها.


39. استخدام معلمة لموازنة البيانات من توزيعات مختلفة


, 200 000 5000 . 40:1. , 205 000 , , -, .


, 40 "-", , 40 ( ) , 5000 .


, .


, ( , ). , :


صورة


5000 , 200 000. β:


صورة


β = 1/40, 5000 200 000 -. β , , .


من خلال تقليل وزن الأخطاء في الصور التي يتم الحصول عليها من الإنترنت ، تختفي الحاجة إلى شبكة عصبية ضخمة ، وهي ضرورية للخوارزمية للتعامل مع توزيعي البيانات. هذا النهج لإعادة توزيع أوزان دالة الخطأ ضروري فقط إذا كان هناك شك في أن البيانات الإضافية (الصور من الإنترنت) لها توزيع مختلف تمامًا عن عينات التحقق والاختبار ، أو إذا تجاوزت كمية البيانات الإضافية بكثير مقدار البيانات من التوزيع الذي يتوافق مع التحقق واختبار عينات (صور من تطبيق محمول).


استمرار


All Articles