42. Más información sobre la falta de coincidencia de datos

Supongamos que ha desarrollado un sistema de reconocimiento de voz que funciona muy bien en una muestra de entrenamiento y en una "muestra para validación de entrenamiento". Sin embargo, tiene una calidad deficiente en la muestra de validación: obviamente, se trata del problema de la inconsistencia de datos. ¿Qué se puede hacer en este caso?

Recomendaría lo siguiente: (i) Intente comprender cómo difieren las distribuciones de datos de las muestras de capacitación y validación. (ii) Encuentre tantos ejemplos de entrenamiento como sea posible que correspondan a ejemplos de muestras de validación y en los cuales el algoritmo esté equivocado.

Por ejemplo, para el análisis manual de errores para un dispositivo de reconocimiento de voz, por ejemplo, analiza 100 ejemplos, tratando de entender en cuál de ellos el algoritmo comete errores. Y como resultado, descubre que el sistema no funciona bien, porque la mayoría de los clips de sonido de la muestra de validación se graban en la máquina, mientras que casi todos los ejemplos de la muestra de entrenamiento no tienen sonidos extraños. El sonido del motor y el ruido de la carretera degradan significativamente la calidad del reconocimiento de voz. En este caso, puede intentar agregar más ejemplos de entrenamiento grabados en el automóvil. El propósito del análisis de errores del algoritmo es buscar cuáles son las discrepancias entre las muestras de entrenamiento y prueba, lo que conduce a la inconsistencia de datos en estas muestras.

« » , , . , , « », , , , . , , . , .

, . , , , , , .

43.

, , . , , .

, / . . , , . «» / , , , , . , «» , , .

, , , .

. , - , , . , .

, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .

, 1000 , 10 . «» 10 , , , . , , , .

imagen

. , . , . , . , ( ), , .

~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .

, , . , , , , 20 , 1 . .

Mientras trabajaba en la síntesis de datos, mis equipos a veces pasaron semanas antes de que pudiéramos reproducir detalles que nos permitieron acercarnos lo suficiente a la distribución real de ejemplos para que los datos sintetizados pudieran tener un efecto significativo. Pero si puede reproducir correctamente en detalle los objetos que están cerca de aquellos en los que el algoritmo debería mostrar alta calidad, tiene la oportunidad de obtener acceso a un volumen mucho mayor de la muestra de entrenamiento que tenía antes.

continuación

Traducción del libro de Andrew Un, Pasión por el aprendizaje automático, capítulos 42 y 43

42. Más información sobre la falta de coincidencia de datos

43.

More articles: