🌃 🍚 📼 ढाल के समान वंशज द्वारा k- निकटतम पड़ोसियों (अच्छी तरह से, या अन्य हाइपरपैरमीटर) के लिए सुविधाओं के महत्व का चयन 👄 🏇🏻 👼🏻

एक सच्ची बकवास न केवल असंभव को पूरा कर सकती है, बल्कि एक चेतावनी के उदाहरण के रूप में भी काम करती है

मशीन सीखने के सबसे सरल कार्य के साथ प्रयोग करते हुए, मैंने पाया कि एक ही समय में एक विस्तृत श्रृंखला में 18 हाइपरपैरमीटर का चयन करना दिलचस्प होगा। मेरे मामले में, सब कुछ इतना सरल था कि कार्य को क्रूर कंप्यूटर शक्ति के साथ लिया जा सकता था।

कुछ सीखते समय, किसी तरह की साइकिल का आविष्कार करना बहुत दिलचस्प हो सकता है। कभी-कभी यह वास्तव में कुछ नया लेकर आता है। कभी-कभी यह पता चलता है कि मेरे सामने सब कुछ आविष्कार किया गया था। लेकिन भले ही मैं सिर्फ मेरे लिए लंबे समय से पहले की गई यात्रा को दोहराता हूं, पुरस्कार के रूप में मुझे अक्सर उनकी क्षमताओं और आंतरिक सीमाओं के एल्गोरिदम के अंतर्निहित तंत्र की समझ मिलती है। जिसके लिए मैं आपको आमंत्रित करता हूं।

पायथन और डीएस में, इसे हल्के ढंग से रखने के लिए, मैं एक शुरुआती हूं, और मैं कई चीजें करता हूं जो कि मेरी पुरानी प्रोग्रामिंग की आदत के अनुसार एक टीम में लागू की जा सकती हैं, जिसे पायथन कई बार नहीं, बल्कि परिमाण के आदेशों से धीमा करके दंडित करता है। इसलिए, मैं अपना सारा कोड रिपॉजिटरी में अपलोड करता हूं। यदि आप जानते हैं कि इसे और अधिक कुशलता से कैसे लागू किया जाए - शर्मीली न हों, वहां संपादित करें या टिप्पणियों में लिखें। https://github.com/kraidiky/GDforHyperparameters

जो पहले से ही एक कूल डेटाटैनिस्ट हैं और इस जीवन में सब कुछ करने की कोशिश कर चुके हैं वह दिलचस्प होगा, मेरा मानना है कि सीखने की प्रक्रिया का एक दृश्य, जो न केवल इस कार्य के लिए लागू होता है।

समस्या का निरूपण

ODS.ai से इतना अच्छा DS कोर्स है और तीसरा लेक्चर क्लासिफिकेशन, डिसीजन ट्रीज़ और नजदीकी पड़ोसियों का तरीका है । वहां, यह अत्यंत सरल और संभवत: सिंथेटिक डेटा पर दिखाया गया है कि कैसे सबसे सरल निर्णय वृक्ष 94.5% की सटीकता देता है, और कश्मीर के निकटतम पड़ोसियों की एक ही अत्यंत सरल विधि किसी भी प्रीप्रोसेसिंग के बिना 89% देती है

डेटा आयात और लोड करें

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('data/telecom_churn.csv')
df['Voice mail plan'] = pd.factorize(df['Voice mail plan'])[0]
df['International plan'] = pd.factorize(df['International plan'])[0]
df['Churn'] = df['Churn'].astype('int32')
states = df['State']
y = df['Churn']
df.drop(['State','Churn'], axis = 1, inplace=True)
df.head()

लकड़ी की तुलना घुटने से करें

%%time
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import accuracy_score

X_train, X_holdout, y_train, y_holdout = train_test_split(df.values, y, test_size=0.3,
random_state=17)

tree = DecisionTreeClassifier(random_state=17, max_depth=5)
knn = KNeighborsClassifier(n_neighbors=10)

tree_params = {'max_depth': range(1,11), 'max_features': range(4,19)}
tree_grid = GridSearchCV(tree, tree_params, cv=10, n_jobs=-1, verbose=False)
tree_grid.fit(X_train, y_train)
tree_grid.best_params_, tree_grid.best_score_, accuracy_score(y_holdout, tree_grid.predict(X_holdout))

({'max_depth': 6, 'max_features': 16}, 0.944706386626661, 0.945)

knn के लिए ही

%%time
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

knn_pipe = Pipeline([('scaler', StandardScaler()), ('knn', KNeighborsClassifier(n_jobs=-1))])
knn_params = {'knn__n_neighbors': range(1, 10)}
knn_grid = GridSearchCV(knn_pipe, knn_params, cv=10, n_jobs=-1, verbose=False)

knn_grid.fit(X_train, y_train)
knn_grid.best_params_, knn_grid.best_score_, accuracy_score(y_holdout, knn_grid.predict(X_holdout))

({'knn__n_neighbors ’: 9}, 0.8868409772824689, 0.891)
इस बिंदु पर, मुझे लगता है कि जाहिर तौर पर बेईमान के साथ कोई काम नहीं था, क्योंकि मुझे घुटने के लिए खेद था। मैंने अपने मस्तिष्क के साथ नहीं सोचा था, मैंने पेड़ से feature_importances_ लिया और इसे इनपुट को सामान्य किया। इस प्रकार, यह विशेषता जितनी महत्वपूर्ण है, उतना ही बड़ा योगदान अंकों के बीच की दूरी है।

हम सुविधाओं के महत्व को सामान्यीकृत डेटा खिलाते हैं

%%time
feature_importances = pd.DataFrame({'features': df.columns, 'importance':tree_grid.best_estimator_.feature_importances_})
print(feature_importances.sort_values(by=['importance'], inplace=False, ascending=False))

scaler = StandardScaler().fit(X_train)
X_train_transformed = scaler.transform(X_train)
X_train_transformed = X_train_transformed * np.array(feature_importances['importance'])

X_holdout_transformed = scaler.transform(X_holdout)
X_holdout_transformed = X_holdout_transformed * np.array(feature_importances['importance'])

knn_grid = GridSearchCV(KNeighborsClassifier(n_jobs=-1), {'n_neighbors': range(1, 11, 2)}, cv=5, n_jobs=-1, verbose=False)
knn_grid.fit(X_train_transformed, y_train)
print (knn_grid.best_params_, knn_grid.best_score_, accuracy_score(y_holdout, knn_grid.predict(X_holdout_transformed)))

5	कुल दिन मिनट	0.270386
17	ग्राहक सेवा कॉल	0.147185
8	कुल पूर्व संध्या मिनट	0.135475
2	अंतर्राष्ट्रीय योजना	0.097249
सोलह	कुल इंटल चार्ज	0.091671
पंद्रह	कुल intl कॉल	09.090008
4	नंबर vmail संदेश	0.050646
10	कुल पूर्व संध्या शुल्क	0.038593
7	कुल दिन का प्रभार	0.026422
3	वॉयस मेल प्लान	0.017068
ग्यारह	कुल रात मिनट	0.014185
तेरह	कुल रात का चार्ज	0.005742
12	कुल रात की कॉल	0.005502
9	कुल पूर्व संध्या कॉल	0.003614
6	कुल दिन कॉल	0.002246
14	कुल अंतर मिनट	0.002009
0	Account length	0.001998
1	Area code	0.000000

{[n_neighbors ': 5} 0.909129875696528 0.913

पेड़ ने सिर्फ ज्ञान के साथ थोड़ा सा ज्ञान साझा किया और अब हम 91% देखते हैं। वैनिला के पेड़ के 94.5% से इतना दूर नहीं है। और फिर मुझे एक आइडिया आया। लेकिन कैसे, वास्तव में, क्या हमें इनपुट को सामान्य करने की आवश्यकता है ताकि knn सबसे अच्छा परिणाम दिखाता है?

सबसे पहले, हम अपने दिमाग में अनुमान लगाते हैं कि अब इसे "माथे" कितना माना जाएगा। 18 पैरामीटर, प्रत्येक के लिए हम कहते हैं, लॉगरिदमिक स्केल में कारकों के 10 संभावित चरण। हमें 10e18 विकल्प मिलते हैं। पड़ोसियों के सभी संभावित विषम संख्या के साथ एक विकल्प 10 से कम है और क्रॉस-सत्यापन भी 10 है, मुझे लगता है कि लगभग 1.5 सेकंड। यह 42 बिलियन वर्ष का है। शायद रात के लिए रेकिंग छोड़ने का विचार छोड़ना होगा। :) और इधर उधर मैंने सोचा, “अरे! तो मैं एक बाइक बनाऊंगा जो उड़ जाएगी! ”

ग्रेडिएंट सर्च

वास्तव में, इस कार्य में सबसे अधिक संभावना केवल एक अधिकतम उपलब्ध है। खैर, यह निश्चित रूप से अच्छे परिणामों के एक पूरे क्षेत्र में से एक नहीं है, लेकिन वे बहुत अधिक समान हैं। इसलिए, हम केवल ढाल के साथ चल सकते हैं और सबसे उपयुक्त बिंदु पा सकते हैं। पहले सोचा था कि आनुवंशिक एल्गोरिथ्म को सामान्य किया जाए, लेकिन यहां अनुकूली क्षेत्र बहुत अधिक पार नहीं लगता है, और यह थोड़ा अधिक ओवरकिल होगा।

मैं इसे मैन्युअल रूप से एक शुरुआत के लिए करने की कोशिश करूंगा। हाइपरपरमेटर्स के रूप में कारकों को आगे बढ़ाने के लिए, मुझे स्केलर से निपटने की आवश्यकता है। पिछले उदाहरण में, पाठ के रूप में, मैंने स्टैंडआर्टसल्कर का उपयोग किया, जो प्रशिक्षण के नमूने को औसत पर केंद्रित करता है और सिग्मा = 1. बनाता है ताकि पाइपलाइन के अंदर इसे अच्छी तरह से स्केल करने के लिए, हाइपरपरमीटर को थोड़ा पेचीदा बना दिया जाए। मैंने अपने मामले के लिए उपयुक्त कुछ के लिए sklearn.preprocessing में पड़े कन्वर्टर्स के बीच खोज करना शुरू किया, लेकिन कुछ भी नहीं मिला। इसलिए, मैंने इस पर कारकों के एक अतिरिक्त बंडल को लटकाकर स्टैंडआर्टस्कॉलर से विरासत में लेने की कोशिश की।

नाममात्रीकरण के लिए वर्ग और फिर स्केलेरन पाइपलाइन के साथ पैमाने पर थोड़ा गुणा करके

from sklearn.base import TransformerMixin
class StandardAndPoorScaler(StandardScaler, TransformerMixin):
    #normalization = None
    def __init__(self, copy=True, with_mean=True, with_std=True, normalization = None):
        #print("new StandardAndPoorScaler(normalization=", normalization.shape if normalization is not None else normalization, ") // ", type(self))
        self.normalization = normalization
        super().__init__(copy, with_mean, with_std)
    def fit(self, X, y=None):
        #print(type(self),".fit(",X.shape, ",", y.shape if y is not None else "<null>",")")
        super().fit(X, y)
        return self
    def partial_fit(self, X, y=None):
        #print(type(self),".partial_fit(",X.shape, ",", y.shape if y is not None else "<null>)")
        super().partial_fit(X, y)
        if self.normalization is None:
            self.normalization = np.ones((X.shape[1]))
        elif type(self.normalization) != np.ndarray:
            self.normalization = np.array(self.normalization)
        if X.shape[1] != self.normalization.shape[0]:
            raise "X.shape[1]="+X.shape[1]+" in equal self.scale.shape[0]="+self.normalization.shape[0]
    def transform(self, X, copy=None):
        #print(type(self),".transform(",X.shape,",",copy,").self.normalization", self.normalization)
        Xresult = super().transform(X, copy)
        Xresult *= self.normalization
        return Xresult
    def _reset(self):
        #print(type(self),"._reset()")
        super()._reset()
    
scaler = StandardAndPoorScaler(normalization = feature_importances['importance'])
scaler.fit(X = X_train, y = None)
print(scaler.normalization)

इस वर्ग को लागू करने की कोशिश की जा रही है

%%time
knn_pipe = Pipeline([('scaler', StandardAndPoorScaler()), ('knn', KNeighborsClassifier(n_jobs=-1))])

knn_params = {'knn__n_neighbors': range(1, 11, 4), 'scaler__normalization': [feature_importances['importance']]}
knn_grid = GridSearchCV(knn_pipe, knn_params, cv=5, n_jobs=-1, verbose=False)

knn_grid.fit(X_train, y_train)
knn_grid.best_params_, knn_grid.best_score_, accuracy_score(y_holdout, knn_grid.predict(X_holdout))

({'knn__n_neighbors ’: 5, __ scaler__normalization’: नाम: महत्व, dtype: float64}, 0.909558508358337, 0.913)

परिणाम मेरी अपेक्षाओं से थोड़ा भिन्न है। ठीक है, अर्थात्, सिद्धांत रूप में, सब कुछ काम करता है। बस इसे समझने के लिए, मुझे तीन घंटों में खरोंच से सभी हिम्मत के साथ इस वर्ग को फिर से तैयार करना था, और उसके बाद ही मुझे एहसास हुआ कि प्रिंट प्रिंट नहीं है क्योंकि स्केलेर को किसी तरह से गलत तरीके से बनाया गया है, लेकिन क्योंकि ग्रिडसर्चसीवी मुख्य धारा में क्लोन बनाता है , लेकिन उन्हें अन्य थ्रेड में कॉन्फ़िगर और प्रशिक्षित करता है। और जो कुछ आप अन्य धाराओं में प्रिंट करते हैं वह गुमनामी में गायब हो जाता है। लेकिन अगर आप n_jobs = 1 डालते हैं, तो ओवरराइड किए गए कार्यों के सभी कॉल को प्यारा दिखाया गया है। ज्ञान बहुत महंगा निकला, अब आपके पास भी है, और आपने एक थकाऊ लेख पढ़कर इसके लिए भुगतान किया।

ठीक है, चलो आगे बढ़ते हैं। अब मैं उनके प्रत्येक पैरामीटर के लिए कुछ भिन्नता देना चाहता हूं, और फिर इसे सर्वोत्तम मूल्य के आसपास थोड़ा कम देना, और इसी तरह जब तक मुझे वास्तविकता के समान परिणाम नहीं मिलता। यह पहली असभ्य आधार रेखा होगी जिसे अंततः मेरे सपनों का एल्गोरिदम मिलना चाहिए।

मैं कई मापदंडों में अलग करते हुए, वजन घटाने के लिए कई विकल्प तैयार करूंगा

feature_base = feature_importances['importance']
searchArea = np.array([feature_base - .05, feature_base, feature_base + .05])
searchArea[searchArea < 0] = 0
searchArea[searchArea > 1] = 1
print(searchArea[2,:] - searchArea[0,:])

import itertools

affected_props = [2,3,4]
parametrs_ranges = np.concatenate([
    np.linspace(searchArea[0,affected_props], searchArea[1,affected_props], 2, endpoint=False),
    np.linspace(searchArea[1,affected_props], searchArea[2,affected_props], 3, endpoint=True)]).transpose()

print(parametrs_ranges) #      .  125 
recombinations = itertools.product(parametrs_ranges[0],parametrs_ranges[1],parametrs_ranges[1])

variances = []
for item in recombinations: #          ,       Python .
    varince = feature_base.copy()
    varince[affected_props] = item
    variances.append(varince)
print(variances[0])
print(len(variances))
#  knn   ,               .

खैर, पहले प्रयोग के लिए निर्धारित डेटा तैयार है। अब मैं डेटा के साथ प्रयोग करने की कोशिश करूंगा, जिसके परिणामस्वरूप 15 विकल्पों की संपूर्ण खोज शुरू होगी।

हम लेख में के रूप में मापदंडों का एक परीक्षण चयन करते हैं

%%time
#scale = np.ones([18])
knn_pipe = Pipeline([('scaler', StandardAndPoorScaler()), ('knn', KNeighborsClassifier(n_neighbors = 7 , n_jobs=-1))])

knn_params = {'scaler__normalization': variances} # 'knn__n_neighbors': range(3, 9, 2), 
knn_grid = GridSearchCV(knn_pipe, knn_params, cv=10, n_jobs=-1, verbose=False)

knn_grid.fit(X_train, y_train)
knn_grid.best_params_, knn_grid.best_score_, accuracy_score(y_holdout, knn_grid.predict(X_holdout))

खैर, सब कुछ खराब है, समय एक सफलता पर खर्च किया गया था, और परिणाम बहुत अस्थिर है। यह एक्स_होउट चेक से भी देखा जाता है, परिणाम एक बहुरूपदर्शक की तरह नाचता है, जिसमें इनपुट डेटा में मामूली बदलाव होता है। मैं एक अलग दृष्टिकोण की कोशिश करूँगा। मैं एक समय में केवल एक पैरामीटर बदलूंगा, लेकिन बहुत अधिक विवेक के साथ।

मैं एक 4 गुण बदल देता हूं

%%time
affected_property = 4
parametrs_range = np.concatenate([
    np.linspace(searchArea[0,affected_property], searchArea[1,affected_property], 29, endpoint=False),
    np.linspace(searchArea[1,affected_property], searchArea[2,affected_property], 30, endpoint=True)]).transpose()

print(searchArea[1,affected_property])
print(parametrs_range) # C   ,  .


variances = []
for item in parametrs_range: #          ,       Python .
    varince = feature_base.copy()
    varince[affected_property] = item
    variances.append(varince)
print(variances[0])
print(len(variances))
#  knn   ,               .

knn_pipe = Pipeline([('scaler', StandardAndPoorScaler()), ('knn', KNeighborsClassifier(n_neighbors = 7 , n_jobs=-1))])

knn_params = {'scaler__normalization': variances} # 'knn__n_neighbors': range(3, 9, 2), 
knn_grid = GridSearchCV(knn_pipe, knn_params, cv=10, n_jobs=-1, verbose=False)

knn_grid.fit(X_train, y_train)
knn_grid.best_params_, knn_grid.best_score_, accuracy_score(y_holdout, knn_grid.predict(X_holdout))

({0.0 scaler__normalization ’: 4 0.079957 नाम: महत्व, dtype: float64}, 0.9099871410201458, 0.913)

खैर, हमारे पास हंस क्या है? क्रॉस-वेलिडेशन पर एक प्रतिशत के दो से दसवें भाग की शिफ्ट, और अगर आप अलग-अलग प्रभावित_प्रतिष्ठा को देखते हैं तो X_holdout पर आधा प्रतिशत की छलांग लगाते हैं। जाहिरा तौर पर यह स्थिति को बेहतर बनाने के लिए आवश्यक और सस्ता है यदि आप इस तथ्य से शुरू करते हैं कि पेड़ हमें देता है तो ऐसे आंकड़ों पर यह असंभव है। लेकिन मान लीजिए कि हमारे पास एक प्रारंभिक, ज्ञात वजन वितरण नहीं है, और छोटे चरणों के साथ चक्र में एक मनमाना बिंदु पर ऐसा करने का प्रयास करें। यह बहुत दिलचस्प है कि हम क्या करने आए हैं।

प्रारंभिक भरने

searchArea = np.array([np.zeros((18,)), np.ones((18,)) /18, np.ones((18,))])
print(searchArea[:,0])

history_parametrs = [searchArea[1,:].copy()]
scaler = StandardAndPoorScaler(normalization=searchArea[1,:])
scaler.fit(X_train)
knn = KNeighborsClassifier(n_neighbors = 7 , n_jobs=-1)
knn.fit(scaler.transform(X_train), y_train)
history_holdout_score = [accuracy_score(y_holdout, knn.predict(scaler.transform(X_holdout)))]

थोड़ा पैरामीटर को बदलने का कार्य (डिबग लॉग के साथ)

%%time
def changePropertyNormalization(affected_property, points_count = 15):
    test_range = np.concatenate([
        np.linspace(searchArea[0,affected_property], searchArea[1,affected_property], points_count//2, endpoint=False),
        np.linspace(searchArea[1,affected_property], searchArea[2,affected_property], points_count//2 + 1, endpoint=True)]).transpose()
    variances = [searchArea[1,:].copy() for i in range(test_range.shape[0])]
    for row in range(len(variances)):
        variances[row][affected_property] = test_range[row]
    
    knn_pipe = Pipeline([('scaler', StandardAndPoorScaler()), ('knn', KNeighborsClassifier(n_neighbors = 7 , n_jobs=-1))])
    knn_params = {'scaler__normalization': variances} # 'knn__n_neighbors': range(3, 9, 2), 
    knn_grid = GridSearchCV(knn_pipe, knn_params, cv=10, n_jobs=-1, verbose=False)

    knn_grid.fit(X_train, y_train)
    holdout_score = accuracy_score(y_holdout, knn_grid.predict(X_holdout))
    best_param = knn_grid.best_params_['scaler__normalization'][affected_property]
    print(affected_property,
          'property:', searchArea[1, affected_property], "=>", best_param,
          'holdout:', history_holdout_score[-1], "=>", holdout_score, '(', knn_grid.best_score_, ')')
    #             .
    before = searchArea[:, affected_property]
    propertySearchArea = searchArea[:, affected_property].copy()
    if best_param == propertySearchArea[0]:
        print('|<<')
        searchArea[0, affected_property] = best_param/2 if best_param > 0.01 else 0
        searchArea[2, affected_property] = (best_param + searchArea[2, affected_property])/2
        searchArea[1, affected_property] = best_param
    elif best_param == propertySearchArea[2]:
        print('>>|')
        searchArea[2, affected_property] = (best_param + 1)/2 if best_param < 0.99 else 1
        searchArea[0, affected_property] = (best_param + searchArea[0, affected_property])/2
        searchArea[1, affected_property] = best_param
    elif best_param < (propertySearchArea[0] + propertySearchArea[1])/2:
        print('<<')
        searchArea[0, affected_property] = max(propertySearchArea[0]*1.1 - .1*propertySearchArea[1], 0)
        searchArea[2, affected_property] = (best_param + propertySearchArea[2])/2
        searchArea[1, affected_property] = best_param
    elif best_param > (propertySearchArea[1] + propertySearchArea[2])/2:
        print('>>')
        searchArea[0, affected_property] = (best_param + propertySearchArea[0])/2
        searchArea[2, affected_property] = min(propertySearchArea[2]*1.1 - .1*propertySearchArea[1], 1)
        searchArea[1, affected_property] = best_param
    elif best_param < propertySearchArea[1]:
        print('<')
        searchArea[2, affected_property] = searchArea[1, affected_property]*.25 + .75*searchArea[2, affected_property]
        searchArea[1, affected_property] = best_param
    elif best_param > propertySearchArea[1]:
        print('>')
        searchArea[0, affected_property] = searchArea[1, affected_property]*.25 + .75*searchArea[0, affected_property]
        searchArea[1, affected_property] = best_param
    else:
        print('=')
        searchArea[0, affected_property] = searchArea[1, affected_property]*.25 + .75*searchArea[0, affected_property]
        searchArea[2, affected_property] = searchArea[1, affected_property]*.25 + .75*searchArea[2, affected_property]
    normalization = searchArea[1,:].sum() #,      .
    searchArea[:,:] /= normalization
    print(before, "=>",searchArea[:, affected_property])
    history_parametrs.append(searchArea[1,:].copy())
    history_holdout_score.append(holdout_score)
    
changePropertyNormalization(1, 9)
changePropertyNormalization(1, 9)

मैंने कहीं भी कुछ भी ऑप्टिमाइज़ नहीं किया, और परिणामस्वरूप, मैंने लगभग आधे घंटे के लिए अगला निर्णायक कदम उठाया:

छिपा हुआ पाठ

40 .

%%time
#   
searchArea = np.array([np.zeros((18,)), np.ones((18,)) /18, np.ones((18,))])
print(searchArea[:,0])

history_parametrs = [searchArea[1,:].copy()]
scaler = StandardAndPoorScaler(normalization=searchArea[1,:])
scaler.fit(X_train)
knn = KNeighborsClassifier(n_neighbors = 7 , n_jobs=-1)
knn.fit(scaler.transform(X_train), y_train)
history_holdout_score = [accuracy_score(y_holdout, knn.predict(scaler.transform(X_holdout)))]

for tick in range(40):
    for p in range(searchArea.shape[1]):
        changePropertyNormalization(p, 7)
    
print(searchArea[1,:])
print(history_holdout_score)

घुटने से परिणामी सटीकता: 91.9% जब हम पेड़ से डेटा फाड़ते हैं तो बेहतर होता है। और मूल संस्करण की तुलना में बहुत बेहतर है। निर्णय वृक्ष के अनुसार हमारे पास सुविधाओं के महत्व के साथ तुलना करें:

घुटने के अनुसार सुविधाओं के महत्व का विज़ुअलाइज़ेशन

feature_importances['knn_importance'] = history_parametrs[-1]
diagramma = feature_importances.copy()
indexes = diagramma.index
diagramma.index = diagramma['features']
diagramma.drop('features', 1, inplace = True)
diagramma.plot(kind='bar');
plt.savefig("images/pic1.png", format = 'png')
plt.show()
feature_importances

लगता है? हाँ, ऐसा लगता है। लेकिन समान से दूर। दिलचस्प अवलोकन। डेटा सेट में कई विशेषताएं हैं जो एक दूसरे को पूरी तरह से डुप्लिकेट करते हैं, उदाहरण के लिए, 'टोटल नाइट मिनट' और 'टोटल नाइट चार्ज'। तो ध्यान दीजिए, knn ने खुद को इस तरह की दोहराई गई विशेषताओं का एक महत्वपूर्ण हिस्सा देखा।

हम परिणामों को एक फ़ाइल में सहेजेंगे, अन्यथा यह काम पर लौटने के लिए कुछ हद तक असुविधाजनक है ...।

parametrs_df = pd.DataFrame(history_parametrs)
parametrs_df['scores'] = history_holdout_score
parametrs_df.index.name = 'index'
parametrs_df.to_csv('parametrs_and_scores.csv')

जाँच - परिणाम

खैर, परिणाम .919 प्रति sen knn के लिए बुरा नहीं है, वेनिला संस्करण की तुलना में 1.5 गुना कम त्रुटियां हैं और जब हम ड्राइव करने के लिए feature_importance ट्री लेते हैं तो 7% कम है। लेकिन सबसे दिलचस्प बात यह है कि अब हमारे पास knn के अनुसार feature_importance है। यह कुछ अलग है जो पेड़ ने हमें बताया था। उदाहरण के लिए, पेड़ और चाकू के बारे में अलग-अलग राय है कि हमारे लिए कौन से संकेत महत्वपूर्ण नहीं हैं।

खैर, अंत में। हमें

अजगर के बारे में सरल सवालों के जवाब देने के लिए तीन व्याख्यान mlcourse.ai ods और Google के ज्ञान का भंडार रखने वाले अपेक्षाकृत नए और असामान्य कुछ मिले । मेरी राय में, बुरा नहीं है।

अब स्लाइड

एल्गोरिथ्म के काम का एक बायप्रोडक्ट वह पथ है जो उसने यात्रा की है। पथ, हालांकि, 18-आयामी है, जो वास्तविक समय में एल्गोरिदम वहां क्या कर रहा है, सीखने या कचरे का उपयोग करने के लिए उसकी जागरूकता को थोड़ी-थोड़ी, अच्छी तरह से रोकता है, इतना सुविधाजनक नहीं है। त्रुटि अनुसूची के अनुसार, यह, वास्तव में, हमेशा दिखाई नहीं देता है। त्रुटि लंबे समय तक ध्यान से नहीं बदल सकती है, लेकिन एल्गोरिथ्म बहुत व्यस्त है, अनुकूली जगह में एक लंबी संकीर्ण घाटी के साथ रेंगते हुए। इसलिए, मैं शुरुआत के लिए आवेदन करूंगा, पहला सबसे सरल लेकिन काफी जानकारीपूर्ण दृष्टिकोण - मैं बेतरतीब ढंग से एक दो-आयामी स्थान पर एक 18-आयामी स्थान प्रोजेक्ट करता हूं ताकि सभी मापदंडों का योगदान, उनके महत्व की परवाह किए बिना, एकल हो। वास्तव में, 18-आयामी पथ बहुत छोटा है, हमारे लेख में एक तंत्रिका नेटवर्क के थ्रो पर झाँक रहा है मैं वैसे ही सभी पर्यायवाची के तराजू के स्थान की प्रशंसा करता हूं जो तंत्रिका नेटवर्क के पास था और यह अच्छा और जानकारीपूर्ण था।

मैंने फ़ाइल से डेटा पढ़ा है, अगर मैं काम पर लौटता हूं, तो प्रशिक्षण चरण खुद ही पास हो गया है

parametrs_df = pd.read_csv('parametrs_and_scores.csv', index_col = 'index')
history_holdout_score = np.array(parametrs_df['scores'])
parametrs_df.drop('scores',axis=1)
history_parametrs = np.array(parametrs_df.drop('scores',axis=1))

सत्यापन पर त्रुटि कुछ बिंदु से बदल जाती है। यहां यह सीखने के एक स्वचालित पड़ाव में पेंच करना और मेरे जीवन के बाकी हिस्सों के लिए प्राप्त फ़ंक्शन का उपयोग करना संभव होगा, लेकिन मेरे पास पहले से ही थोड़ा समय है। :(

हम निर्धारित करते हैं कि कितना अध्ययन करना है।

last = history_holdout_score[-1]
steps = np.arange(0, history_holdout_score.shape[0])[history_holdout_score != last].max()
print(steps/18)

35.5555555555555556
हमने एक समय में एक पैरामीटर को बदल दिया है, इसलिए एक अनुकूलन चक्र में 18 चरण होते हैं । यह पता चला है कि हमारे पास 36 सार्थक कदम थे, या ऐसा कुछ। अब आइए उस प्रक्षेप पथ की कल्पना करने की कोशिश करें जिसके साथ विधि को प्रशिक्षित किया गया था।

छिपा हुआ पाठ

%%time
#    :
import matplotlib.pyplot as plt
%matplotlib inline
import random
import math
random.seed(17)
property_projection = np.array([[math.sin(a), math.cos(a)] for a in [random.uniform(-math.pi, math.pi) for i in range(history_parametrs[0].shape[0])]]).transpose()
history = np.array(history_parametrs[::18]) #   - 18 .
#           . :(
points = np.array([(history[i] * property_projection).sum(axis=1) for i in range(history.shape[0])])
plt.plot(points[:36,0],points[0:36,1]);
plt.savefig("images/pic2.png", format = 'png')
plt.show()

यह देखा जा सकता है कि यात्रा का एक महत्वपूर्ण हिस्सा पहले चार चरणों में पूरा हुआ था। आइए बाकी हिस्सों को बढ़ते हुए देखें

पहले 4 अंकों के बिना

plt.plot(points[4:36,0],points[4:36,1]);
plt.savefig("images/pic3.png", format = 'png')

आइए पथ के अंतिम भाग पर करीब से नज़र डालें और देखें कि शिक्षक ने अपने गंतव्य तक पहुँचने के बाद क्या किया।

करीब आ रहे हैं

plt.plot(points[14:36,0],points[14:36,1]);
plt.savefig("images/pic4.png", format = 'png')
plt.show()
plt.plot(points[24:36,0],points[24:36,1]);
plt.plot(points[35:,0],points[35:,1], color = 'red');
plt.savefig("images/pic5.png", format = 'png')
plt.show()

यह देखा जा सकता है कि एल्गोरिथम को तीव्रता से प्रशिक्षित किया जा रहा है। जब तक उसे अपनी मंजिल नहीं मिल जाती। निश्चित रूप से, विशिष्ट बिंदु, क्रॉस-सत्यापन में यादृच्छिककरण पर निर्भर करता है। लेकिन विशिष्ट बिंदु की परवाह किए बिना, जो हो रहा है उसकी सामान्य तस्वीर समझ में आती है।

वैसे, मैंने सीखने की प्रक्रिया को प्रदर्शित करने के लिए इस तरह के शेड्यूल का उपयोग किया।
संपूर्ण प्रक्षेपवक्र नहीं दिखाया गया है, लेकिन पैमाने के चौरसाई के साथ अंतिम कुछ कदम। एक उदाहरण मेरे अन्य लेख, "वी स्पाई ऑन द थ्रो ऑन अ न्यूरल नेटवर्क" में पाया जा सकता है। और हां, निश्चित रूप से, हर कोई जो इस तरह के दृश्य का सामना करता है, तुरंत पूछता है कि सभी कारकों का वजन, महत्व समान है, फिर उनके पास अलग-अलग हैं। पिछली बार लेख में, मैंने सिनैप्स के महत्व को फिर से वजन करने की कोशिश की और यह कम जानकारीपूर्ण निकला।

इस बार, नए ज्ञान से लैस, मैं एक प्रक्षेपण में बहु-आयामी अंतरिक्ष को तैनात करने के लिए टी-एसएनई का उपयोग करने की कोशिश करूंगा जिसमें सब कुछ बेहतर हो सकता है।

टी SNE

%%time
import sklearn.manifold as manifold
tsne = manifold.TSNE(random_state=19)
tsne_representation = tsne.fit_transform(history)
plt.plot(tsne_representation[:, 0], tsne_representation[:, 1])
plt.savefig("images/pic6.png", format = 'png')
plt.show();

t-Sne को लगता है कि इसने अंतरिक्ष को प्रकट कर दिया है ताकि यह पूरी तरह से उन विशेषताओं के परिवर्तनों के पैमाने को खा जाए जो जल्दी से बदलना बंद कर देते हैं, जिससे तस्वीर पूरी तरह से अनियंत्रित हो गई। निष्कर्ष - एल्गोरिदम को उन स्थानों पर खिसकाने की कोशिश न करें जो उनके लिए अभिप्रेत नहीं हैं: \ _

आप आगे नहीं पढ़ सकते हैं

मैंने मध्यवर्ती अनुकूलन राज्यों की कल्पना करने के लिए अंदर tsne को इंजेक्ट करने की कोशिश की, इस उम्मीद में कि सुंदरता बाहर हो जाएगी। लेकिन यह सुंदरता नहीं, कुछ कचरा निकला। यदि रुचि है, तो देखें कि यह कैसे करना है। इंटरनेट इस तरह के इंजेक्शन कोड के उदाहरण हैं, लेकिन केवल कॉपी करने से वे पॉट नहीं करते हैं क्योंकि sklearn.manifold.t_sne आंतरिक फ़ंक्शन _gradient_descent में निहित विकल्प है , और यह संस्करण के आधार पर हस्ताक्षर और आंतरिक चर के उपचार में बहुत भिन्न हो सकता है। तो बस अपने आप में स्रोतों को ढूंढें, फ़ंक्शन के अपने संस्करण को वहां से

उठाएं और इसमें केवल एक पंक्ति डालें जो आपके खुद के चर में मध्यवर्ती डंप जोड़ता है: पदों ।append (p.copy ()) # हम वर्तमान स्थिति को बचाते हैं।

और फिर, जैसे, हम खूबसूरती से कल्पना करते हैं कि हमें क्या मिलता है:

इंजेक्शन कोड

from time import time
from scipy import linalg
# This list will contain the positions of the map points at every iteration.
positions = []
def _gradient_descent(objective, p0, it, n_iter,
                      n_iter_check=1, n_iter_without_progress=300,
                      momentum=0.8, learning_rate=200.0, min_gain=0.01,
                      min_grad_norm=1e-7, verbose=0, args=None, kwargs=None):
    # The documentation of this function can be found in scikit-learn's code.
    if args is None:
        args = []
    if kwargs is None:
        kwargs = {}

    p = p0.copy().ravel()
    update = np.zeros_like(p)
    gains = np.ones_like(p)
    error = np.finfo(np.float).max
    best_error = np.finfo(np.float).max
    best_iter = i = it

    tic = time()
    for i in range(it, n_iter):
        positions.append(p.copy()) # We save the current position.
        
        check_convergence = (i + 1) % n_iter_check == 0
        # only compute the error when needed
        kwargs['compute_error'] = check_convergence or i == n_iter - 1

        error, grad = objective(p, *args, **kwargs)
        grad_norm = linalg.norm(grad)

        inc = update * grad < 0.0
        dec = np.invert(inc)
        gains[inc] += 0.2
        gains[dec] *= 0.8
        np.clip(gains, min_gain, np.inf, out=gains)
        grad *= gains
        update = momentum * update - learning_rate * grad
        p += update

        if check_convergence:
            toc = time()
            duration = toc - tic
            tic = toc

            if verbose >= 2:
                print("[t-SNE] Iteration %d: error = %.7f,"
                      " gradient norm = %.7f"
                      " (%s iterations in %0.3fs)"
                      % (i + 1, error, grad_norm, n_iter_check, duration))

            if error < best_error:
                best_error = error
                best_iter = i
            elif i - best_iter > n_iter_without_progress:
                if verbose >= 2:
                    print("[t-SNE] Iteration %d: did not make any progress "
                          "during the last %d episodes. Finished."
                          % (i + 1, n_iter_without_progress))
                break
            if grad_norm <= min_grad_norm:
                if verbose >= 2:
                    print("[t-SNE] Iteration %d: gradient norm %f. Finished."
                          % (i + 1, grad_norm))
                break

    return p, error, i

manifold.t_sne._gradient_descent = _gradient_descent

`` तय '' टी-एसएनई लागू करें

tsne_representation = manifold.TSNE(random_state=17).fit_transform(history)
X_iter = np.dstack(position.reshape(-1, 2) for position in positions)
position_reshape = [position.reshape(-1, 2) for position in positions]
print(position_reshape[0].shape)
print('[0] min', position_reshape[0][:,0].min(),'max', position_reshape[0][:,0].max())
print('[1] min', position_reshape[1][:,0].min(),'max', position_reshape[1][:,0].max())
print('[2] min', position_reshape[2][:,0].min(),'max', position_reshape[2][:,0].max())

(41, 2)
[0] मिनट -०.०००१८१८८१२३ अधिकतम .०००२७२०७९५५
[1] मिनट -०.०५१३६२६९ अधिकतम .०३,२६,०७,६२२
[2] मिनट -४.३९२३०९ अधिकतम ७.९०,७४,५२६
मूल्यों, एक बहुत विस्तृत श्रृंखला में नृत्य तो मैं उन्हें निकालने से पहले पैमाने पर होगा। चक्रों पर, यह सब धीरे-धीरे केपेट किया जाता है। :(

मैं पैमाने पर

%%time
from sklearn.preprocessing import MinMaxScaler
minMaxScaler = MinMaxScaler()
minMaxScaler.fit_transform(position_reshape[0])
position_reshape = [minMaxScaler.fit_transform(frame) for frame in position_reshape]
position_reshape[0].min(), position_reshape[0].max()

चेतन

%%time

from matplotlib.animation import FuncAnimation, PillowWriter
#plt.style.use('seaborn-pastel')

fig = plt.figure()

ax = plt.axes(xlim=(0, 1), ylim=(0, 1))
line, = ax.plot([], [], lw=3)

def init():
    line.set_data([], [])
    return line,
def animate(i):
    x = position_reshape[i][:,0]
    y = position_reshape[i][:,1]
    line.set_data(x, y)
    return line,

anim = FuncAnimation(fig, animate, init_func=init, frames=36, interval=20, blit=True, repeat_delay = 1000)
anim.save('images/animate_tsne_learning.gif', writer=PillowWriter(fps=5))

यह कौशल के मामले में शिक्षाप्रद है, लेकिन इस कार्य और बदसूरत में बिल्कुल बेकार है।

इस पर मैं आपको अलविदा कहता हूं। मुझे उम्मीद है कि इस बात से भी कि घुटने से भी आपको कुछ नया और दिलचस्प लग सकता है, साथ ही कोड के टुकड़े भी आपको प्लेग के दौरान इस बौद्धिक दावत में डेटा के साथ मज़ा करने में मदद करेंगे।

ढाल के समान वंशज द्वारा k- निकटतम पड़ोसियों (अच्छी तरह से, या अन्य हाइपरपैरमीटर) के लिए सुविधाओं के महत्व का चयन

समस्या का निरूपण

ग्रेडिएंट सर्च

जाँच - परिणाम

अब स्लाइड

आप आगे नहीं पढ़ सकते हैं

More articles: