एंड्रयू अन की पुस्तक का अनुवाद, पैशन फॉर मशीन लर्निंग, अध्याय 40 और 41

पिछले अध्याय


40. सामान्यीकरण की समस्याएं: प्रशिक्षण के नमूने से लेकर सत्यापन तक


मान लीजिए कि आप उन परिस्थितियों में एमएल लागू करते हैं जहां प्रशिक्षण और सत्यापन के नमूनों का वितरण अलग है। उदाहरण के लिए, एक प्रशिक्षण नमूने में मोबाइल एप्लिकेशन से इंटरनेट + छवियां और केवल मोबाइल एप्लिकेशन से परीक्षण और सत्यापन नमूने शामिल हैं। हालांकि, एल्गोरिथ्म बहुत अच्छी तरह से काम नहीं करता है: यह सत्यापन और परीक्षण के नमूनों में बहुत अधिक त्रुटि है, जैसा हम चाहते हैं। यहाँ कुछ संभावित कारण दिए गए हैं:


  1. एल्गोरिथ्म परीक्षण नमूने पर खराब प्रदर्शन करता है और यह प्रशिक्षण नमूने के वितरण में उच्च (परिहार्य) पूर्वाग्रह की समस्या के कारण होता है।
  2. एल्गोरिथ्म प्रशिक्षण सेट पर उच्च गुणवत्ता का है, लेकिन प्रशिक्षण सेट के साथ समान वितरण वाले डेटा के लिए अपने काम को सामान्य नहीं कर सकता है, जिसे उसने पहले नहीं देखा था। यह उच्च बिखराव का मामला है।
  3. एल्गोरिथ्म प्रशिक्षण वितरण के समान वितरण से नए डेटा के लिए अपने काम को अच्छी तरह से सामान्य करता है, लेकिन सत्यापन और परीक्षण नमूनों के वितरण के लिए (सामान्यीकरण) का सामना नहीं कर सकता है जो किसी अन्य वितरण से प्राप्त किया जाता है। यह सत्यापन और परीक्षण नमूनों के वितरण से प्रशिक्षण नमूने के वितरण में अंतर के कारण उत्पन्न होने वाली डेटा असंगति को इंगित करता है

उदाहरण के लिए, मान लीजिए कि बिल्लियों की मान्यता का मानवीय स्तर लगभग आदर्श है। इसके बारे में आपका एल्गोरिथ्म दिखाता है:


  • प्रशिक्षण के नमूने में 1% त्रुटि
  • प्रशिक्षण के नमूने के समान वितरण से लिए गए डेटा के लिए 1.5% त्रुटि, लेकिन जो प्रशिक्षण के दौरान एल्गोरिदम को नहीं दिखाया गया था
  • सत्यापन और परीक्षण के नमूनों पर 10% त्रुटि

. , . , .


, , , . , , : , , « », .


:


  • . , ( + ). , ( ).
  • : , ( + ). , ; , .
  • : , , , . (, )
  • : . ( )

, :


  • , , , « ».
  • , , .

5-7 « ».


41. ,


( ≈0%) , , , 0%.


, :


  • 1% .
  • 5% « ».
  • 5% .

? , . , , .
, :


  • 10% .
  • 11% « ».
  • 12% .

, . .. . .


. , , , .
:


  • 10% .
  • 11% « ».
  • 20% .

. , .
, , :


छवि


, . Y : , , , , . , .


. ( , ), , . , ( B) , . . , ( A B).


यह निर्धारित करने के बाद कि एल्गोरिथ्म किस प्रकार की त्रुटियों के साथ सबसे अधिक कठिनाइयों का सामना कर रहा है, यह अधिक तर्कसंगत रूप से तय करना संभव है कि क्या पूर्वाग्रह को कम करने, बिखराव को कम करने पर ध्यान केंद्रित किया जाए या क्या आपको डेटा असंगतता के खिलाफ लड़ाई से हैरान होने की आवश्यकता है।


विस्तार


All Articles