Tradução do livro de Andrew Un, Passion for Machine Learning, Capítulos 49 e 50

capítulos anteriores


49. Prós e contras da aprendizagem de ponta a ponta


Continuamos a considerar o sistema de reconhecimento de fala:


imagem

A maioria dos elementos deste transportador é criada sem o uso de aprendizado de máquina (desenvolvido por pessoas ou desenhado à mão):


  • MFCC é um conjunto de recursos sonoros extraídos por manipulações matemáticas com frequências que não exigem algoritmos de aprendizado. Isso fornece uma convolução conveniente do sinal recebido com a perda de informações irrelevantes.
  • Fonemas - a invenção dos linguistas. Utilizando-os, é criado um modelo simplificado dos sons da fala ao vivo. Como qualquer modelo de fenômeno complexo, os fonemas não são perfeitos, a qualidade do sistema do qual fazem parte é limitada pela reflexão imperfeita da realidade.

Por um lado, algoritmos de não aprendizado (componentes projetados à mão) limitam o desempenho potencial do sistema de fala. Por outro lado, seu uso tem certas vantagens:


  • As funções do MFCC são resistentes a certas propriedades da fala que não afetam o significado do que foi dito, por exemplo, a tonalidade da voz. Sua aplicação simplifica a tarefa do algoritmo treinado.
  • Os fonemas , se refletirem corretamente os sons da fala real, ajudam o algoritmo de aprendizado a captar os elementos sonoros básicos, melhorando a qualidade de seu trabalho.

:
imagem
, (hand-engineered), . , , , (hand-engineered pipeline).


, , MFCC . , , , , , .


, , , « » — . , ( , ). , , .


, , . . . , (hand engineering).


, , . .


50. :


? . .
:


imagem

. , , . (, Amazon Mechanical Turk) . , .


, :


imagem

, , (: , ). , . . , . . .


Em geral, se amostras grandes estiverem disponíveis para o treinamento de "módulos intermediários" do transportador (como um detector de carro ou um detector de pedestres), você poderá considerar o uso de um transportador composto por vários componentes. Essa abordagem não transversal seria preferível, pois permite o uso de todos os dados disponíveis.


Acredito que, até que haja mais dados para o treinamento de sistemas ponta a ponta, uma abordagem não ponta a ponta (pipeline) é muito mais promissora para o desenvolvimento de sistemas de direção autônomos: sua arquitetura combina melhor com os dados disponíveis.


continuação


All Articles