Capacitación y pruebas en muestras con diferente distribución.

36. Cuando tienes que entrenar y probar algoritmos en diferentes distribuciones

Los usuarios de su aplicación de gato subieron 10,000 imágenes, que fueron marcadas por usted como imágenes con gatos e imágenes sin gatos. También tiene una gran selección de 200,000 imágenes recopiladas en línea. ¿Cómo, entonces, elegir muestras de capacitación, validación y prueba?

Dado que las 10.000 imágenes cargadas por los usuarios reflejan con precisión la distribución probabilística real de los datos en los que su algoritmo debería funcionar bien, puede usar estas imágenes para validación y muestras de prueba. Si está aprendiendo un algoritmo de aprendizaje profundo que requiere una gran cantidad de datos, puede usar 200,000 ejemplos adicionales de Internet para capacitarlo. En este caso, su entrenamiento y prueba con una muestra de validación tendrá una distribución de probabilidad diferente. ¿Cómo afectará esto a tu trabajo?

En lugar de jugar con la selección de datos para capacitación, validación y muestras de prueba, podríamos tomar todas las 210,000 de nuestras imágenes, mezclarlas y seleccionar datos al azar para cada muestra. En este caso, las tres muestras contendrán datos de la misma distribución.

Pero estoy en contra de este enfoque. Debido al hecho de que aproximadamente el 97.6% de los datos (205,000 / 210,000 ≈ 97.6%) de las muestras de validación y prueba se tomarán de los datos encontrados en Internet (no recibidos de los usuarios) y no reflejarán la distribución real en la que es necesario para lograr una alta calidad. Recuerde nuestra recomendación para la selección de muestras de validación y prueba:

Elija muestras de validación y prueba que reflejen los datos que recibirá su algoritmo después de iniciar la aplicación y sobre las cuales debería funcionar bien

, , .

: . « », « » « ». . A B, . ( «» , , .) .

. , . , . , , .

, . , , , .

, 10000 , 5000 . 5000 . , 205 000, 5000 , 200 000 , . .

. , , . 20 000 , . 500 000 , . 10 000 10 000 500 000 .

, , , , .

37. ,

, 10 000 . . 20 000 , . 20 000 + 10 000 = 30 000 20 000 , ?

( , ), , . , , 20000 , .

, , . / , 20000 . , , .

, , x -> y, . , - , , , , , .

20000 :

, . , , , . , .
, (, , , . .). , , «» . , , , , . , .

, . , , , « - , . , »

, , , . , , , . «» , , .

( ), , .

, , , . , , , , , . , :

imagen

Estos documentos no contienen nada parecido a los gatos. También son completamente diferentes a las distribuciones de validación y muestras de prueba. No tiene sentido incluir estos datos como ejemplos negativos. El beneficio del primer efecto descrito anteriormente será insignificante: es poco probable que la red neuronal pueda extraer algo de estos datos que lo ayudará a funcionar mejor en las muestras de validación y prueba de su aplicación. La inclusión de estos datos conducirá a la pérdida de recursos informáticos y posiblemente reducirá la capacidad de la red neuronal para aproximar funciones (en última instancia, reducirá sus capacidades de reconocimiento).

continuación

Traducción del libro de Andrew Un, Pasión por el aprendizaje automático, capítulos 36 y 37

Capacitación y pruebas en muestras con diferente distribución.

36. Cuando tienes que entrenar y probar algoritmos en diferentes distribuciones

37. ,

More articles: