"मशीन लर्निंग बिना शब्दों के"

छविहैलो, हब्रोज़िटेली! मशीन लर्निंग के बारे में जानने के लिए आपको जो कुछ भी वास्तव में जानने की ज़रूरत है वह सौ पृष्ठों के एक जोड़े में फिट हो सकता है।

आइए एक सरल सत्य से शुरू करें: कारें सीखती नहीं हैं। विशिष्ट मशीन लर्निंग में एक गणितीय सूत्र खोजना शामिल है, जो इनपुट डेटा (प्रशिक्षण डेटा कहा जाता है) के एक सेट पर लागू होने पर, वांछित परिणाम उत्पन्न करेगा।

आंद्रेई बुर्कोव ने सब कुछ आवश्यक देने की कोशिश की ताकि हर कोई एक उत्कृष्ट आधुनिक विश्लेषक या मशीन सीखने का विशेषज्ञ बन सके। क्या अन्य पुस्तकों में सौ पृष्ठों की एक जोड़ी में फिट करने में कामयाब हजारों तक फैली हुई है। मशीन लर्निंग पर विशिष्ट पुस्तकें रूढ़िवादी और अकादमिक हैं, यहां एल्गोरिदम और तरीकों पर जोर दिया गया है जो रोजमर्रा के काम में उपयोगी हैं।

अंश। 9.2.3। समूहों की संख्या का निर्धारण


सबसे महत्वपूर्ण प्रश्न यह है कि डेटासेट में कितने क्लस्टर हैं? जब फ़ीचर वैक्टर एक, दो, या तीन आयामी होते हैं, तो आप ग्राफ़ पर डेटा वितरण को आकर्षित कर सकते हैं और फ़ीचर स्पेस में पॉइंट्स के "क्लाउड" देख सकते हैं। प्रत्येक बादल एक संभावित क्लस्टर है। हालांकि, डी-आयामी डेटा के लिए, डी> 3 के साथ, ऐसा ग्राफ ड्राइंग समस्याग्रस्त है।

समूहों की उचित संख्या निर्धारित करने का एक तरीका पूर्वानुमानात्मक शक्ति के विचार पर आधारित है। लब्बोलुआब यह है कि डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करना है, जैसा कि एक शिक्षक के साथ शिक्षण में किया जाता है। प्रशिक्षण और परीक्षण सेट का चयन करने के बाद, आकार एनटीआर के साथ Ntr और Ste के साथ स्ट्रेट, क्रमशः Nte के साथ, आप समूहों की संख्या को ठीक करते हैं, सेट Str और Ste पर क्लस्टरिंग एल्गोरिथ्म चलाते हैं और C (Str, k) और C (Ste, k) क्लस्टरिंग के परिणाम प्राप्त करते हैं।

प्रशिक्षण सेट के लिए A को क्लस्टरिंग C (Str, k) का परिणाम माना जाता है। ए में समूहों को क्षेत्र के रूप में माना जा सकता है। यदि एक नमूना इन क्षेत्रों में से एक में गिरता है, तो इसका मतलब है कि यह कुछ विशिष्ट क्लस्टर से संबंधित है। उदाहरण के लिए, यदि हम k का अर्थ एल्गोरिदम को एक निश्चित डेटा सेट पर लागू करते हैं, तो परिणाम k polygonal क्षेत्रों में फीचर स्पेस का एक विभाजन है, जैसा कि अंजीर में दिखाया गया है। 9.2।

हम संयुक्त सदस्यता D [A, Ste] के Nte × Nte मैट्रिक्स को परिभाषित करते हैं, जिनके तत्व D [A, Ste] (i, i`) = 1 यदि और केवल यदि परीक्षण सेट से डेटा xi और xi` समान क्लस्टर के अनुसार हैं, तो विभाजन के लिए A. अन्यथा, D [A, Ste] (i, i`) = 0।

और अब बंद करो और देखो क्या हुआ। हमने k क्लस्टर में प्रशिक्षण डेटासेट का उपयोग करके एक विभाजन A बनाया। फिर हमने एक संयुक्त संबद्ध मैट्रिक्स का निर्माण किया जो यह बताता है कि परीक्षण सेट से दो नमूने ए क्लस्टर में एक क्लस्टर से संबंधित हैं या नहीं

, यदि k उचित है, तो समाधान C (Ste, k) में एक ही क्लस्टर से संबंधित दो नमूने सबसे अधिक संभावना है समाधान और C (Str, k) में एक क्लस्टर से संबंधित हैं। दूसरी ओर, यदि k का मान उचित नहीं है (बहुत अधिक या बहुत कम), तो प्रशिक्षण और परीक्षण डेटा पर आधारित विभाजन कम सुसंगत होने की संभावना है।

अंजीर में। 9.3 उपयोग किए गए डेटा और अंजीर को दिखाता है। 9.4 इस विचार को दर्शाता है। अंजीर में रेखांकन। 9.4a और 9.4b समूहों के संबंधित क्षेत्रों के साथ C (Str, 4) और C (Ste, 4) के परिणाम दिखाते हैं। अंजीर में। 9.4c परीक्षण डेटा के क्लस्टरिंग के दौरान प्राप्त समूहों के क्षेत्र पर प्लॉट किए गए डेटा को दिखाता है। अंजीर में। 9.4c, आप देख सकते हैं कि नारंगी परीक्षण डेटा अब प्रशिक्षण डेटा पर प्राप्त क्षेत्रों के अनुसार एक क्लस्टर से संबंधित नहीं है। परिणामस्वरूप, मैट्रिक्स Z [A, Ste] में कई शून्य दिखाई देते हैं, जो यह दर्शाता है कि k = 4 संभवतः समूहों की सबसे अच्छी संख्या नहीं है।

क्लस्टर k की संख्या का अधिक औपचारिक रूप से अनुमानित बल परिभाषित किया गया

छवि

है छविकि विभाजन C (Ste, k and) से jth क्लस्टर कहां है ? अज | क्लस्टर अज में डेटा की संख्या है।

छवि

प्रत्येक परीक्षण क्लस्टर के लिए विभाजन C (Str, k) को ध्यान में रखते हुए, इसमें जोड़े के अंश की गणना की जाती है, जो प्रशिक्षण सेट के लिए केंद्रक द्वारा निर्धारित एक ही क्लस्टर में गिर जाता है। प्रीडक्टिव स्ट्रेंथ का निर्धारण कम से कम इस वैल्यू के लिए k टेस्ट क्लस्टर्स के लिए किया जाता है।

जैसा कि प्रयोगों से पता चलता है, 0.8 से ऊपर ps (k) में क्लस्टर की एक उचित संख्या सबसे बड़ी k है। चित्र 9.5 दो, तीन और चार समूहों में विभाजित डेटा के लिए कश्मीर के विभिन्न मूल्यों की अनुमानित शक्ति निर्धारित करने के उदाहरण दिखाता है।

गैर-नियतात्मक क्लस्टरिंग एल्गोरिदम के लिए, जैसे कि का मतलब है, जो अलग-अलग विभाजन विकल्प उत्पन्न कर सकता है, जो सेंट्रोइड्स की प्रारंभिक स्थितियों के आधार पर, एक ही कश्मीर के लिए कई क्लस्टरिंग एल्गोरिथ्म चलाने और औसत पूर्वानुमान बल की गणना करने की सिफारिश की जाती है।छवि

छवि

गुच्छों की संख्या का अनुमान लगाने के लिए एक और प्रभावी तरीका गैप आँकड़े कहलाता है। अन्य, कम स्वचालित तरीके जो अभी भी कुछ विश्लेषकों द्वारा उपयोग किए जाते हैं उनमें कोहनी विधि और औसत सिल्हूट विधि शामिल है।

»किताब के बारे में अधिक जानकारी पर पाया जा सकता प्रकाशक की वेबसाइट
» सामग्री
» अंश

कूपन पर लिए Khabrozhiteley 25% छूट - मशीन लर्निंग

पुस्तक के कागज संस्करण के भुगतान करने पर, एक इलेक्ट्रॉनिक पुस्तक ई-मेल द्वारा भेजा जाता है।

All Articles