42. Plus d'informations sur la non-concordance des données

Supposons que vous ayez développé un système de reconnaissance vocale qui fonctionne très bien sur un échantillon de formation et sur un «échantillon pour la validation de la formation». Cependant, il est de mauvaise qualité dans l'échantillon de validation: vous êtes évidemment confronté au problème de l'incohérence des données. Que peut-on faire dans ce cas?

Je recommanderais ce qui suit: (i) Essayez de comprendre comment les distributions de données des échantillons de formation et de validation diffèrent. (ii) Trouver autant d'exemples de formation que possible qui correspondent à des exemples d'exemples de validation et sur lesquels l'algorithme est erroné.

Par exemple, par exemple, si vous analysez manuellement les erreurs pour un appareil de reconnaissance vocale, vous analysez 100 exemples, en essayant de comprendre dans lequel de ces algorithmes fait des erreurs. Et par conséquent, vous constatez que le système ne fonctionne pas bien, car la plupart des extraits sonores de l'échantillon de validation sont enregistrés dans la machine, tandis que presque tous les exemples de l'échantillon d'apprentissage n'ont pas de sons étrangers. Le bruit du moteur et le bruit de la route dégradent considérablement la qualité de la reconnaissance vocale. Dans ce cas, vous pouvez essayer d'ajouter d'autres exemples d'entraînement enregistrés dans la voiture. Le but de l'analyse d'erreur d'algorithme est de trouver quelles sont les différences entre les échantillons d'apprentissage et de test, conduisant à une incohérence des données dans ces échantillons.

« » , , . , , « », , , , . , , . , .

, . , , , , , .

43.

, , . , , .

, / . . , , . «» / , , , , . , «» , , .

, , , .

. , - , , . , .

, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .

, 1000 , 10 . «» 10 , , , . , , , .

. , . , . , . , ( ), , .

~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .

, , . , , , , 20 , 1 . .

En travaillant sur la synthèse des données, mes équipes ont parfois passé des semaines avant de pouvoir reproduire des détails qui nous ont permis de nous rapprocher suffisamment de la distribution réelle des exemples pour que les données synthétisées puissent avoir un effet significatif. Mais si vous pouvez reproduire correctement en détail des objets proches de ceux sur lesquels l'algorithme doit afficher une haute qualité, vous avez la possibilité d'accéder à un volume de l'échantillon d'apprentissage beaucoup plus important qu'auparavant.

continuation

Traduction du livre d'Andrew Un, Passion for Machine Learning, Chapitres 42 et 43

42. Plus d'informations sur la non-concordance des données

43.

More articles: