Traducción del libro de Andrew Un, Pasión por el aprendizaje automático, capítulos 49 y 50

capítulos anteriores


49. Pros y contras del aprendizaje de extremo a extremo


Continuamos considerando el sistema de reconocimiento de voz:


imagen

La mayoría de los elementos de este transportador se crean sin el uso del aprendizaje automático (desarrollado por personas o diseñado a mano):


  • MFCC es un conjunto de características de sonido extraídas por manipulaciones matemáticas con frecuencias que no requieren algoritmos de aprendizaje. Esto proporciona una convolución conveniente de la señal entrante con la pérdida de información irrelevante.
  • Fonemas : la invención de los lingüistas. Al usarlos, se crea un modelo simplificado de los sonidos del habla en vivo. Como cualquier modelo de un fenómeno complejo, los fonemas no son perfectos, la calidad del sistema del que forman parte está limitada por su reflejo imperfecto de la realidad.

Por un lado, los algoritmos de no aprendizaje (componentes diseñados a mano) limitan el rendimiento potencial del sistema de habla. Por otro lado, su uso tiene ciertas ventajas:


  • Las funciones del MFCC son resistentes a ciertas propiedades del habla que no afectan el significado de lo que se dijo, por ejemplo, la tonalidad de la voz. Su aplicación simplifica la tarea para el algoritmo entrenado.
  • Los fonemas , si reflejan correctamente los sonidos del habla real, ayudan al algoritmo de aprendizaje a captar los elementos de sonido básicos, mejorando la calidad de su trabajo.

:
imagen
, (hand-engineered), . , , , (hand-engineered pipeline).


, , MFCC . , , , , , .


, , , « » — . , ( , ). , , .


, , . . . , (hand engineering).


, , . .


50. :


? . .
:


imagen

. , , . (, Amazon Mechanical Turk) . , .


, :


imagen

, , (: , ). , . . , . . .


En general, si hay muestras grandes disponibles para entrenar "módulos intermedios" del transportador (como un detector de automóviles o un detector de peatones), entonces puede considerar usar un transportador que consta de varios componentes. Tal enfoque no transversal sería preferible, ya que le permite utilizar todos los datos disponibles.


Creo que hasta que haya más datos para entrenar sistemas de extremo a extremo, un enfoque de no extremo a extremo (pipeline) es mucho más prometedor para el desarrollo de sistemas de conducción autónomos: su arquitectura coincide mejor con los datos disponibles.


continuación


All Articles