Übersetzung von Andrew Un's Buch, Leidenschaft für maschinelles Lernen, Kapitel 38 und 39

vorherige Kapitel


38. So bestimmen Sie, ob Daten mit einer anderen Verteilung hinzugefügt werden sollen


Angenommen, wir möchten lernen, wie man die Immobilienpreise in New York prognostiziert. Basierend auf der Größe des Hauses (Eingabezeichen x ) ist es notwendig, seinen Preis vorherzusagen (Zielwert y ).


Die Immobilienpreise in New York sind sehr hoch. Angenommen, Sie haben einen zweiten Datensatz mit Immobilienpreisen in Detroit, Michigan, wo Immobilien viel billiger sind. Sollten diese Daten in den Trainingssatz aufgenommen werden?


Bei gleicher Größe x ist der Preis für ein y- Haus sehr unterschiedlich, je nachdem, ob es sich in New York oder in Detroit befindet. Wenn die Immobilienpreise in New York prognostiziert werden müssen, verschlechtert die Kombination der beiden Datensätze die Ergebnisse. In diesem Fall ist es besser, keine Detroit-Eigenschaftsdaten zum Trainingssatz hinzuzufügen.


* Anmerkung des Autors Eine Möglichkeit, das Problem der Inkompatibilität von Detroit-Daten mit New Yorker Daten zu lösen, besteht darin, jedem Beispieldaten, der die Stadt angibt, einen zusätzlichen Parameter hinzuzufügen. Wenn der Parameter x die Stadt angibt, wird der Zielwert von y eindeutig. Dieser Ansatz ist jedoch in der Praxis selten. *


Wie unterscheidet sich dieser Fall mit Daten zu Immobilienpreisen in New York und Detroit von dem Fall mit Bildern von Katzen, die aus einer mobilen Anwendung und aus dem Internet stammen?


, , , ( ). . f(x), x ( y), . , «» () . , ( ), .


, - , , (). , , .


39.


, 200 000 5000 . 40:1. , 205 000 , , -, .


, 40 "-", , 40 ( ) , 5000 .


, .


, ( , ). , :


Bild


5000 , 200 000. β:


Bild


β = 1/40, 5000 200 000 -. β , , .


Durch die Reduzierung des Gewichts von Fehlern in Bildern, die aus dem Internet stammen, entfällt die Notwendigkeit eines massiven neuronalen Netzwerks, das erforderlich ist, damit der Algorithmus beide Datenverteilungen bewältigen kann. Dieser Ansatz der Neuverteilung der Gewichte der Fehlerfunktion ist nur erforderlich, wenn der Verdacht besteht, dass die zusätzlichen Daten (Bilder aus dem Internet) eine Verteilung aufweisen, die sich stark von den Validierungs- und Testmustern unterscheidet, oder wenn die Menge der zusätzlichen Daten die Datenmenge aus der Verteilung, die der Validierung entspricht, bei weitem übersteigt und Testproben (Bilder von einer mobilen Anwendung).


Fortsetzung


All Articles