Le livre "Machine Learning sans mots"

imageBonjour, habrozhiteli! Tout ce que vous devez vraiment savoir sur l'apprentissage automatique peut tenir sur quelques centaines de pages.

Commençons par une simple vérité: les voitures n'apprennent pas. L'apprentissage automatique typique consiste à trouver une formule mathématique qui, lorsqu'elle est appliquée à un ensemble de données d'entrée (appelées données d'apprentissage), produira les résultats souhaités.

Andrei Burkov a essayé de donner tout ce qui était nécessaire pour que chacun puisse devenir un excellent analyste moderne ou spécialiste de l'apprentissage automatique. Ce qui a réussi à tenir dans quelques centaines de pages dans d'autres livres s'étalait à des milliers. Les livres typiques sur l'apprentissage automatique sont conservateurs et académiques, ici l'accent est mis sur les algorithmes et les méthodes utiles dans le travail quotidien.

Extrait 9.2.3. Déterminer le nombre de clusters


La question la plus importante est le nombre de clusters dans l'ensemble de données? Lorsque les vecteurs d'entités sont à une, deux ou trois dimensions, vous pouvez dessiner la distribution des données sur le graphique et voir les «nuages» de points dans l'espace d'entités. Chaque cloud est un cluster potentiel. Cependant, pour les données de dimension D, avec D> 3, dessiner un tel graphique est problématique.

Une façon de déterminer un nombre raisonnable de grappes est basée sur l'idée de pouvoir prédictif. L'essentiel est de diviser les données en ensembles de formation et de test, comme cela se fait dans l'enseignement avec un enseignant. Après avoir sélectionné les ensembles d'apprentissage et de test, Str avec la taille Ntr et Ste avec la taille Nte, respectivement, vous fixez le nombre de clusters k, exécutez l'algorithme de clustering C sur les ensembles Str et Ste et obtenez les résultats du clustering C (Str, k) et C (Ste, k).

Soit A le résultat du regroupement C (Str, k) obtenu pour l'ensemble d'apprentissage. Les clusters en A peuvent être considérés comme des régions. Si un échantillon tombe dans l'un de ces domaines, cela signifie qu'il appartient à un cluster spécifique. Par exemple, si nous appliquons l'algorithme k moyennes à un certain ensemble de données, le résultat est une partition de l'espace d'entités en k régions polygonales, comme le montre la Fig. 9.2.

Nous définissons une matrice Nte × Nte d'appartenance conjointe D [A, Ste], dont les éléments D [A, Ste] (i, i`) = 1 si et seulement si les données xi et xi` de l'ensemble de test appartiennent au même cluster, selon à la partition A. Sinon, D [A, Ste] (i, i`) = 0.

Et maintenant arrêtons-nous et voyons ce qui s'est passé. Nous avons créé une partition A en utilisant un ensemble de données d'apprentissage en k clusters. Ensuite, nous avons construit une matrice d'affiliation conjointe qui indique si deux échantillons de l'ensemble de test appartiennent à un cluster en A.

Évidemment, si k est raisonnable, alors deux échantillons appartenant au même cluster dans la solution C (Ste, k) sont les plus susceptibles d'être appartiennent à un cluster dans la solution et C (Str, k). D'un autre côté, si la valeur de k n'est pas raisonnable (trop élevée ou trop basse), alors les partitions basées sur les données d'apprentissage et de test seront probablement moins cohérentes.

En figue. 9.3 montre les données utilisées et la Fig. 9.4 illustre l'idée. Les graphiques de la fig. 9.4a et 9.4b montrent les résultats de C (Str, 4) et C (Ste, 4) avec les régions de cluster correspondantes. En figue. 9.4c montre les données de test tracées sur la zone des grappes obtenues lors du regroupement des données de formation. En figue. 9.4c, vous pouvez voir que les données de test orange n'appartiennent plus à un cluster en fonction des zones obtenues sur les données de formation. En conséquence, de nombreux zéros apparaissent dans la matrice D [A, Ste], qui à son tour montre que k = 4 n'est probablement pas le meilleur nombre de clusters.

Une force plus formellement prédictive du nombre de clusters k est définie comme

image

où se trouve le imagejième cluster de la partition C (Ste, k) et | Aj | Est le nombre de données dans le cluster Aj.

image

En tenant compte de la partition C (Str, k) pour chaque cluster de test, la fraction de paires en elle est calculée, qui est également tombée dans le même cluster, déterminée par le centroïde pour l'ensemble d'apprentissage. La force prédictive est déterminée par au moins cette valeur pour k groupes de tests.

Comme le montrent les expériences, un nombre raisonnable de grappes est le plus grand k à ps (k) supérieur à 0,8. La figure 9.5 montre des exemples de détermination du pouvoir prédictif de différentes valeurs de k pour des données divisées en deux, trois et quatre grappes.

Pour les algorithmes de clustering non déterministes, tels que k moyennes, qui peuvent générer différentes options de partitionnement, selon les positions initiales des centroïdes, il est recommandé d'effectuer plusieurs exécutions d'algorithmes de clustering pour le même k et de calculer la force prédictive moyenneimage

image

Une autre méthode efficace pour estimer le nombre de grappes est la statistique des écarts. D'autres méthodes moins automatisées qui sont encore utilisées par certains analystes comprennent la méthode du coude et la méthode de la silhouette moyenne.

»Vous trouverez plus d'informations sur le livre sur le site Web de l'éditeur
» Sommaire
» Extrait

pour Khabrozhiteley 25% de réduction sur le coupon - Machine Learning

Après paiement de la version papier du livre, un livre électronique est envoyé par e-mail.

All Articles