Übersetzung von Andrew Un's Buch, Leidenschaft für maschinelles Lernen, Kapitel 42 und 43

vorherige Kapitel


42. Weitere Informationen zu Dateninkongruenzen


Angenommen, Sie haben ein Spracherkennungssystem entwickelt, das sehr gut an einem Trainingsmuster und einem „Muster für die Trainingsvalidierung“ funktioniert. Die Validierungsstichprobe weist jedoch eine schlechte Qualität auf: Offensichtlich haben Sie es mit dem Problem der Dateninkonsistenz zu tun. Was kann in diesem Fall getan werden?


Ich würde Folgendes empfehlen: (i) Versuchen Sie zu verstehen, wie sich die Datenverteilungen von Trainings- und Validierungsstichproben unterscheiden. (ii) Finden Sie so viele Trainingsbeispiele wie möglich, die Validierungsbeispielen entsprechen und bei denen der Algorithmus falsch ist.


Wenn Sie beispielsweise Fehler für ein Spracherkennungsgerät manuell analysieren, analysieren Sie 100 Beispiele und versuchen zu verstehen, in welchen Fällen der Algorithmus Fehler macht. Infolgedessen stellen Sie fest, dass das System nicht gut funktioniert, da die meisten Soundclips aus dem Validierungsbeispiel in der Maschine aufgezeichnet werden, während fast alle Beispiele des Trainingsbeispiels keine Nebengeräusche enthalten. Das Geräusch des Motors und Straßengeräusche beeinträchtigen die Qualität der Spracherkennung erheblich. In diesem Fall können Sie versuchen, weitere im Auto aufgezeichnete Trainingsbeispiele hinzuzufügen. Der Zweck der Fehleranalyse des Algorithmus besteht darin, nach den Unterschieden zwischen den Trainings- und Testproben zu suchen, was zu Dateninkonsistenzen in diesen Proben führt.


« » , , . , , « », , , , . , , . , .


, . , , , , , .


43.


, , . , , .


, / . . , , . «» / , , , , . , «» , , .


, , , .


. , - , , . , .


, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .


, 1000 , 10 . «» 10 , , , . , , , .


Bild


. , . , . , . , ( ), , .


~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .


, , . , , , , 20 , 1 . .


Während ich an der Datensynthese arbeitete, verbrachten meine Teams manchmal Wochen, bevor wir Details reproduzieren konnten, die es uns ermöglichten, der tatsächlichen Verteilung der Beispiele so nahe zu kommen, dass die synthetisierten Daten einen signifikanten Effekt haben konnten. Wenn Sie jedoch Objekte im Detail korrekt reproduzieren können, die denen nahe kommen, auf denen der Algorithmus eine hohe Qualität aufweisen sollte, haben Sie die Möglichkeit, auf ein viel größeres Volumen des Trainingsmusters als zuvor zuzugreifen.


Fortsetzung


All Articles