49. Prós e contras da aprendizagem de ponta a ponta

Continuamos a considerar o sistema de reconhecimento de fala:

A maioria dos elementos deste transportador é criada sem o uso de aprendizado de máquina (desenvolvido por pessoas ou desenhado à mão):

MFCC é um conjunto de recursos sonoros extraídos por manipulações matemáticas com frequências que não exigem algoritmos de aprendizado. Isso fornece uma convolução conveniente do sinal recebido com a perda de informações irrelevantes.
Fonemas - a invenção dos linguistas. Utilizando-os, é criado um modelo simplificado dos sons da fala ao vivo. Como qualquer modelo de fenômeno complexo, os fonemas não são perfeitos, a qualidade do sistema do qual fazem parte é limitada pela reflexão imperfeita da realidade.

Por um lado, algoritmos de não aprendizado (componentes projetados à mão) limitam o desempenho potencial do sistema de fala. Por outro lado, seu uso tem certas vantagens:

As funções do MFCC são resistentes a certas propriedades da fala que não afetam o significado do que foi dito, por exemplo, a tonalidade da voz. Sua aplicação simplifica a tarefa do algoritmo treinado.
Os fonemas , se refletirem corretamente os sons da fala real, ajudam o algoritmo de aprendizado a captar os elementos sonoros básicos, melhorando a qualidade de seu trabalho.

:
imagem
, (hand-engineered), . , , , (hand-engineered pipeline).

, , MFCC . , , , , , .

, , , « » — . , ( , ). , , .

, , . . . , (hand engineering).

, , . .

50. :

? . .
:

. , , . (, Amazon Mechanical Turk) . , .

, :

, , (: , ). , . . , . . .

Em geral, se amostras grandes estiverem disponíveis para o treinamento de "módulos intermediários" do transportador (como um detector de carro ou um detector de pedestres), você poderá considerar o uso de um transportador composto por vários componentes. Essa abordagem não transversal seria preferível, pois permite o uso de todos os dados disponíveis.

Acredito que, até que haja mais dados para o treinamento de sistemas ponta a ponta, uma abordagem não ponta a ponta (pipeline) é muito mais promissora para o desenvolvimento de sistemas de direção autônomos: sua arquitetura combina melhor com os dados disponíveis.

continuação

Tradução do livro de Andrew Un, Passion for Machine Learning, Capítulos 49 e 50

49. Prós e contras da aprendizagem de ponta a ponta

50. :

More articles: