Übersetzung von Andrew Un's Buch, Leidenschaft für maschinelles Lernen, Kapitel 49 und 50

vorherige Kapitel


49. Vor- und Nachteile des End-to-End-Lernens


Wir betrachten weiterhin das Spracherkennungssystem:


Bild

Die meisten Elemente dieses Förderers werden ohne maschinelles Lernen erstellt (von Menschen entwickelt oder von Hand entworfen):


  • MFCC ist eine Reihe von Klangmerkmalen, die durch mathematische Manipulationen mit Frequenzen extrahiert wurden, für die keine Lernalgorithmen erforderlich sind. Dies bietet eine bequeme Faltung des eingehenden Signals mit dem Verlust irrelevanter Informationen.
  • Phoneme - die Erfindung der Linguisten. Mit ihnen wird ein vereinfachtes Modell der Geräusche von Live-Sprache erstellt. Wie jedes Modell eines komplexen Phänomens sind Phoneme nicht perfekt, und die Qualität des Systems, zu dem sie gehören, wird durch ihre unvollständige Reflexion der Realität eingeschränkt.

Einerseits begrenzen nicht lernende Algorithmen (handgefertigte Komponenten) die potenzielle Leistung des Sprachsystems. Andererseits hat ihre Verwendung bestimmte Vorteile:


  • Die Funktionen des MFCC sind gegen bestimmte Spracheigenschaften resistent, die die Bedeutung des Gesagten nicht beeinflussen, beispielsweise die Tonalität der Stimme. Ihre Anwendung vereinfacht die Aufgabe für den trainierten Algorithmus.
  • Phoneme helfen dem Lernalgorithmus, die grundlegenden Klangelemente zu erfassen , wenn sie die Geräusche der realen Sprache korrekt wiedergeben, und verbessern so die Qualität seiner Arbeit

:
Bild
, (hand-engineered), . , , , (hand-engineered pipeline).


, , MFCC . , , , , , .


, , , « » — . , ( , ). , , .


, , . . . , (hand engineering).


, , . .


50. :


? . .
:


Bild

. , , . (, Amazon Mechanical Turk) . , .


, :


Bild

, , (: , ). , . . , . . .


Wenn große Proben für das Training von „Zwischenmodulen“ des Förderers verfügbar sind (z. B. ein Autodetektor oder ein Fußgängerdetektor), können Sie im Allgemeinen die Verwendung eines Förderers in Betracht ziehen, der aus mehreren Komponenten besteht. Ein solcher nicht übergreifender Ansatz wäre vorzuziehen, da Sie damit alle verfügbaren Daten verwenden können.


Ich glaube, bis es mehr Daten für das Training von End-to-End-Systemen gibt, ist ein Nicht-End-to-End-Ansatz (Pipeline-Ansatz) für die Entwicklung autonomer Antriebssysteme vielversprechender: Seine Architektur passt besser zu den verfügbaren Daten.


Fortsetzung


All Articles