capítulos anteriores
49. Prós e contras da aprendizagem de ponta a ponta
Continuamos a considerar o sistema de reconhecimento de fala:

A maioria dos elementos deste transportador é criada sem o uso de aprendizado de máquina (desenvolvido por pessoas ou desenhado à mão):
- MFCC é um conjunto de recursos sonoros extraídos por manipulações matemáticas com frequências que não exigem algoritmos de aprendizado. Isso fornece uma convolução conveniente do sinal recebido com a perda de informações irrelevantes.
- Fonemas - a invenção dos linguistas. Utilizando-os, é criado um modelo simplificado dos sons da fala ao vivo. Como qualquer modelo de fenômeno complexo, os fonemas não são perfeitos, a qualidade do sistema do qual fazem parte é limitada pela reflexão imperfeita da realidade.
Por um lado, algoritmos de não aprendizado (componentes projetados à mão) limitam o desempenho potencial do sistema de fala. Por outro lado, seu uso tem certas vantagens:
- As funções do MFCC são resistentes a certas propriedades da fala que não afetam o significado do que foi dito, por exemplo, a tonalidade da voz. Sua aplicação simplifica a tarefa do algoritmo treinado.
- Os fonemas , se refletirem corretamente os sons da fala real, ajudam o algoritmo de aprendizado a captar os elementos sonoros básicos, melhorando a qualidade de seu trabalho.
:

, (hand-engineered), . , , , (hand-engineered pipeline).
, , MFCC . , , , , , .
, , , « » — . , ( , ). , , .
, , . . . , (hand engineering).
, , . .
50. :
? . .
:

. , , . (, Amazon Mechanical Turk) . , .
, :

, , (: , ). , . . , . . .
Em geral, se amostras grandes estiverem disponíveis para o treinamento de "módulos intermediários" do transportador (como um detector de carro ou um detector de pedestres), você poderá considerar o uso de um transportador composto por vários componentes. Essa abordagem não transversal seria preferível, pois permite o uso de todos os dados disponíveis.
Acredito que, até que haja mais dados para o treinamento de sistemas ponta a ponta, uma abordagem não ponta a ponta (pipeline) é muito mais promissora para o desenvolvimento de sistemas de direção autônomos: sua arquitetura combina melhor com os dados disponíveis.
continuação