Traduction du livre d'Andrew Un, Passion for Machine Learning, Chapitres 49 et 50

chapitres précédents


49. Avantages et inconvénients de l'apprentissage de bout en bout


Nous continuons à considérer le système de reconnaissance vocale:


image

La plupart des éléments de ce convoyeur sont créés sans utiliser d'apprentissage automatique (développé par des personnes ou conçu à la main):


  • MFCC est un ensemble de caractéristiques sonores extraites par des manipulations mathématiques avec des fréquences qui ne nécessitent pas d'algorithmes d'apprentissage. Cela fournit une convolution pratique du signal entrant avec la perte d'informations non pertinentes.
  • Phonèmes - l'invention des linguistes. En les utilisant, un modèle simplifié des sons de la parole en direct est créé. Comme tout modèle de phénomène complexe, les phonèmes ne sont pas parfaits, la qualité du système dont ils font partie est limitée par leur reflet imparfait de la réalité.

D'une part, les algorithmes non d'apprentissage (composants fabriqués à la main) limitent les performances potentielles du système vocal. En revanche, leur utilisation présente certains avantages:


  • Les fonctions du MFCC résistent à certaines propriétés de la parole qui n'affectent pas le sens de ce qui a été dit, par exemple la tonalité de la voix. Leur application simplifie la tâche de l'algorithme formé.
  • Les phonèmes , s'ils reflètent correctement les sons de la parole réelle, aident l'algorithme d'apprentissage à capter les éléments sonores de base, améliorant la qualité de son travail

:
image
, (hand-engineered), . , , , (hand-engineered pipeline).


, , MFCC . , , , , , .


, , , « » — . , ( , ). , , .


, , . . . , (hand engineering).


, , . .


50. :


? . .
:


image

. , , . (, Amazon Mechanical Turk) . , .


, :


image

, , (: , ). , . . , . . .


En général, si de grands échantillons sont disponibles pour la formation de «modules intermédiaires» du convoyeur (comme un détecteur de voiture ou un détecteur de piétons), alors vous pouvez envisager d'utiliser un convoyeur composé de plusieurs composants. Une telle approche non transversale serait préférable, car elle vous permet d'utiliser toutes les données disponibles.


Je pense que tant qu'il n'y aura pas plus de données pour la formation des systèmes de bout en bout, une approche non-bout en bout (pipeline) est beaucoup plus prometteuse pour le développement de systèmes de conduite autonomes: son architecture correspond mieux aux données disponibles.


continuation


All Articles