Das Buch "Maschinelles Lernen ohne Worte"

BildHallo habrozhiteli! Alles, was Sie wirklich über maschinelles Lernen wissen müssen, kann auf ein paar hundert Seiten passen.

Beginnen wir mit einer einfachen Wahrheit: Autos lernen nicht. Typisches maschinelles Lernen umfasst das Finden einer mathematischen Formel, die bei Anwendung auf einen Satz von Eingabedaten (sogenannte Trainingsdaten) die gewünschten Ergebnisse liefert.

Andrei Burkov versuchte alles Notwendige zu geben, damit jeder ein hervorragender moderner Analyst oder Spezialist für maschinelles Lernen werden konnte. Was in ein paar hundert Seiten anderer Bücher passte, erstreckte sich auf Tausende. Typische Bücher über maschinelles Lernen sind konservativ und akademisch. Hier liegt der Schwerpunkt auf Algorithmen und Methoden, die im Arbeitsalltag nützlich sind.

Auszug 9.2.3. Bestimmen der Anzahl der Cluster


Die wichtigste Frage ist, wie viele Cluster sich im Datensatz befinden. Wenn die Merkmalsvektoren ein-, zwei- oder dreidimensional sind, können Sie die Datenverteilung in der Grafik zeichnen und die „Wolken“ von Punkten im Merkmalsraum sehen. Jede Cloud ist ein potenzieller Cluster. Für D-dimensionale Daten mit D> 3 ist das Zeichnen eines solchen Graphen jedoch problematisch.

Eine Möglichkeit, eine angemessene Anzahl von Clustern zu bestimmen, basiert auf der Idee der Vorhersagekraft. Unter dem Strich werden die Daten in Trainings- und Testsätze unterteilt, wie dies beim Unterrichten mit einem Lehrer der Fall ist. Nachdem Sie die Trainings- und Testsätze Str mit der Größe Ntr bzw. Ste mit der Größe Nte ausgewählt haben, legen Sie die Anzahl der Cluster k fest, führen den Clustering-Algorithmus C für die Sätze Str und Ste aus und erhalten die Ergebnisse des Clusters C (Str, k) und C (Ste, k).

Sei A das Ergebnis der Clusterbildung C (Str, k), die für den Trainingssatz erhalten wurde. Cluster in A können als Regionen betrachtet werden. Wenn eine Stichprobe in einen dieser Bereiche fällt, bedeutet dies, dass sie zu einem bestimmten Cluster gehört. Wenn wir beispielsweise den k-Mittelwert-Algorithmus auf einen bestimmten Datensatz anwenden, ist das Ergebnis eine Aufteilung des Merkmalsraums in k polygonale Bereiche, wie in Fig. 4 gezeigt. 9.2.

Wir definieren eine Nte × Nte-Matrix der gemeinsamen Zugehörigkeit D [A, Ste], deren Elemente D [A, Ste] (i, i`) = 1 genau dann sind, wenn die Daten xi und xi` aus dem Testsatz gemäß desselben Clusters gehören an die Partition A. Andernfalls ist D [A, Ste] (i, i`) = 0.

Und jetzt lass uns innehalten und sehen, was passiert ist. Wir haben eine Partition A mithilfe eines Trainingsdatensatzes in k Cluster erstellt. Dann haben wir eine gemeinsame Zugehörigkeitsmatrix erstellt, die angibt, ob zwei Proben aus dem Testsatz zu einem Cluster in A

gehören. Wenn k angemessen ist, sind es wahrscheinlich zwei Proben, die zu demselben Cluster in Lösung C (Ste, k) gehören gehören zu einem Cluster in der Lösung und C (Str, k). Wenn andererseits der Wert von k nicht vernünftig ist (zu hoch oder zu niedrig), sind die auf Trainings- und Testdaten basierenden Partitionen wahrscheinlich weniger konsistent.

In Abb. 9.3 zeigt die verwendeten Daten und Abb. 9.4 veranschaulicht die Idee. Die Grafiken in Abb. 9.4a und 9.4b zeigen die Ergebnisse von C (Str, 4) und C (Ste, 4) mit den entsprechenden Regionen der Cluster. In Abb. 9.4c zeigt Testdaten, die auf der Fläche von Clustern aufgetragen sind, die während der Clusterbildung von Trainingsdaten erhalten wurden. In Abb. In 9.4c können Sie sehen, dass die orangefarbenen Testdaten nicht mehr zu einem Cluster gemäß den in den Trainingsdaten erhaltenen Bereichen gehören. Infolgedessen erscheinen viele Nullen in der Matrix D [A, Ste], was wiederum zeigt, dass k = 4 wahrscheinlich nicht die beste Anzahl von Clustern ist.

Eine formalere Vorhersagekraft der Anzahl der Cluster k ist definiert als

Bild

wo ist der Bildj-te Cluster von der Partition C (Ste, k) und | Aj | Ist die Anzahl der Daten im Cluster Aj.

Bild

Unter Berücksichtigung der Partition C (Str, k) für jeden Testcluster wird der Anteil der Paare darin berechnet, der ebenfalls in denselben Cluster fällt, bestimmt durch den Schwerpunkt für den Trainingssatz. Die Vorhersagestärke wird durch mindestens diesen Wert für k Testcluster bestimmt.

Wie Experimente zeigen, ist eine vernünftige Anzahl von Clustern das größte k bei ps (k) über 0,8. Abbildung 9.5 zeigt Beispiele für die Bestimmung der Vorhersagekraft verschiedener Werte von k für Daten, die in zwei, drei und vier Cluster unterteilt sind.

Für nicht deterministische Clustering-Algorithmen wie k bedeutet, dass abhängig von den Anfangspositionen der Zentroide unterschiedliche Partitionierungsoptionen generiert werden können, wird empfohlen, mehrere Clustering-Algorithmus-Läufe für dasselbe k durchzuführen und die durchschnittliche Vorhersagekraft zu berechnenBild

Bild

Eine weitere effektive Methode zur Schätzung der Anzahl von Clustern ist die Lückenstatistik. Andere, weniger automatisierte Methoden, die von einigen Analysten noch verwendet werden, umfassen die Ellbogenmethode und die durchschnittliche Silhouette-Methode.

»Weitere Informationen zum Buch finden Sie auf der Website des Herausgebers.
» Inhalt
» Auszug

für Khabrozhiteley 25% Rabatt auf den Gutschein - Maschinelles Lernen

Nach Zahlung der Papierversion des Buches wird ein elektronisches Buch per E-Mail verschickt.

All Articles