Traduction du livre d'Andrew Un, Passion for Machine Learning, chapitres 38 et 39

chapitres précédents


38. Comment déterminer s'il faut ajouter des données avec une distribution différente


Supposons que nous voulons savoir comment prévoir les prix des logements à New York. En fonction de la taille de la maison (signe d'entrée x ), il est nécessaire de prédire son prix (valeur cible y ).


Les prix des logements à New York sont très élevés. Supposons que vous disposiez d'un deuxième ensemble de données sur les prix des logements à Detroit, dans le Michigan, où l'immobilier est beaucoup moins cher. Ces données doivent-elles être incluses dans l'ensemble de formation?


Avec la même taille x, le prix d'une maison y est très différent selon que ce soit à New York ou à Détroit. S'il est nécessaire de prévoir les prix des logements à New York, la combinaison des deux ensembles de données aggravera les résultats. Dans ce cas, il est préférable de ne pas ajouter de données de propriété Detroit à l'ensemble de formation.


* Note de l'auteur Une façon de résoudre le problème de l'incompatibilité des données de Detroit avec les données de New York est d'ajouter un paramètre supplémentaire à chaque échantillon de données indiquant la ville. Étant donné le paramètre x indiquant la ville, la valeur cible de y devient unique. Cependant, cette approche est rare dans la pratique. *


En quoi ce cas avec des données sur les prix de l'immobilier à New York et Detroit diffère-t-il du cas avec des images de chats obtenues à partir d'une application mobile et d'Internet?


, , , ( ). . f(x), x ( y), . , «» () . , ( ), .


, - , , (). , , .


39.


, 200 000 5000 . 40:1. , 205 000 , , -, .


, 40 "-", , 40 ( ) , 5000 .


, .


, ( , ). , :


image


5000 , 200 000. β:


image


β = 1/40, 5000 200 000 -. β , , .


En réduisant le poids des erreurs dans les images obtenues à partir d'Internet, le besoin d'un réseau neuronal massif, qui est nécessaire pour que l'algorithme puisse faire face aux deux distributions de données, disparaît. Cette approche de redistribution des poids de la fonction d'erreur n'est nécessaire que si l'on soupçonne que les données supplémentaires (images provenant d'Internet) ont une distribution très différente de la validation et des échantillons de test, ou si la quantité de données supplémentaires dépasse de loin la quantité de données de la distribution qui correspond à la validation et tester des échantillons (images d'une application mobile).


continuation


All Articles