Spracherkennung: Ein sehr kurzer Einführungskurs



Es ist fast unmöglich, dem Laien so einfach wie möglich von der Arbeit der Computer-Spracherkennung zu erzählen und sie in Text umzuwandeln. Keine einzige Geschichte darüber ist vollständig ohne komplexe Formeln und mathematische Begriffe. Wir werden versuchen, so klar und leicht wie möglich zu erklären, wie Ihr Smartphone Sprache versteht, wann Autos gelernt haben, eine menschliche Stimme zu erkennen und in welchen unerwarteten Bereichen diese Technologie eingesetzt wird.

Notwendige Warnung: Wenn Sie Entwickler oder insbesondere Mathematiker sind, ist es unwahrscheinlich, dass Sie etwas Neues aus der Post lernen und sich sogar über den unzureichenden wissenschaftlichen Charakter des Materials beschweren. Unser Ziel ist es, die nicht eingeweihten Leser auf einfachste Weise mit Sprachtechnologien vertraut zu machen und zu erklären, wie und warum Toshiba die Schaffung ihrer Sprach-KI aufgenommen hat.

Wichtige Meilensteine ​​in der Geschichte der Spracherkennung


Die Geschichte der Erkennung menschlicher Sprache durch elektronische Maschinen begann etwas früher als üblich: In den meisten Fällen ist es üblich, ab 1952 herunterzuzählen, aber tatsächlich war eines der ersten Geräte, das auf Sprachbefehle reagierte, der Televox-Roboter, über den wir bereits geschrieben haben . Der Herbert Televox-Roboter wurde 1927 in den USA entwickelt und war ein einfaches Gerät, bei dem verschiedene Relais auf Geräusche mit unterschiedlichen Frequenzen reagierten. Der Roboter hatte drei Stimmgabeln, von denen jede für ihren Ton verantwortlich war. Je nachdem, welche Stimmgabel funktionierte, wurde das eine oder andere Relais aktiviert.

Bild
Tatsächlich befand sich die gesamte „Füllung“ von Televox, einschließlich des Befehlserkennungssystems, auf einem Gestell im Bereich des Körpers des „Roboters“. Es war unmöglich, den Deckel zu schließen, da sonst die Stimmgabeln Geräusche nicht richtig „hören“ konnten. Quelle: Acme Telepictures / Wikimedia.

Es war möglich, mit Televox als separate Signale mit einer Pfeife und in kurzen verbalen Hinweisen zu kommunizieren - ihre Stimmgabeln wurden auch in einer Folge von Tönen angeordnet. Der Schöpfer des Roboters Roy Wensley führte für diese Zeit sogar eine fantastische Demonstration durch und sagte den Befehl „Sesam, offen“, durch den Televox das Relais einschaltete, das für das Öffnen der Tür verantwortlich war. Keine digitale Technologie, neuronale Netze, KI und maschinelles Lernen - nur analoge Technologie!

Die nächste Schlüsselerfindung, die den Weg für eine echte Erkennung menschlicher Sprache ebnete, war die Audrey-Maschine, die 1952 in der Bell Labs Innovation Forge entwickelt wurde. Der riesige Audrey verbrauchte viel Strom und hatte die Größe eines guten Schranks, aber seine gesamte Funktionalität bestand darin, gesprochene Zahlen von null bis neun zu erkennen. Nur zehn Worte, ja, aber vergessen wir nicht, dass Audrey eine analoge Maschine war.
Bild
Leider hat die Geschichte keine öffentlichen Fotografien von Audrey erhalten, es gibt nur ein Konzept. Einfach auf Papier, schwer zu übersetzen - nach den Erinnerungen von Zeitgenossen besetzten Audrey-Komponenten einen ganzen Schrank. Quelle: Bell Labs

Es funktionierte so: Der Ansager sprach Zahlen in das Mikrofon, wobei zwischen den Wörtern Intervalle von mindestens 350 ms eingehalten wurden. Audrey wandelte die von ihm gehörten Geräusche in elektrische Signale um und verglich sie mit im analogen Speicher aufgezeichneten Samples. Nach den Ergebnissen des Vergleichs hat das Auto die Nummer auf dem Armaturenbrett hervorgehoben.

Es war ein Durchbruch, aber es gab keinen wirklichen Vorteil von Audrey - die Maschine erkannte die Stimme ihres Schöpfers mit einer Genauigkeit von 97%, andere speziell ausgebildete Sprecher erhielten eine Genauigkeit von 70-80%. Fremde, die Audrey zum ersten Mal kontaktierten, egal wie sehr sie es versuchten, sahen ihre Nummer in nur 50% der Fälle auf der Anzeigetafel.

Trotz der revolutionären Ergebnisse seiner Zeit fand Audrey keine praktische Anwendung und konnte sie auch nicht finden. Es wurde angenommen, dass das System anstelle von Telefonisten angepasst werden könnte, aber dennoch waren die menschlichen Dienste bequemer, schneller und viel zuverlässiger als Audrey.

Präsentation ähnlich wie Audrey, nur viel kleinere Maschinen - IBM Shoebox. Die Geschwindigkeit des Schuhkartons ist deutlich sichtbar. Die Maschine könnte auch einfache mathematische Operationen der Addition und Subtraktion ausführen

In den frühen 1960er Jahren wurden in Japan, Großbritannien, den USA und sogar der UdSSR Arbeiten zur Erstellung von Spracherkennungsgeräten durchgeführt, bei denen ein sehr wichtiger Algorithmus für die dynamische Transformation der Zeitachse (DTW) erfunden wurde, mit dessen Hilfe ein System mit etwa 200 Wörtern erstellt werden konnte. Alle Entwicklungen waren jedoch ähnlich, und das Erkennungsprinzip wurde zu einem allgemeinen Nachteil: Wörter wurden als integrale Klangfingerabdrücke wahrgenommen und dann anhand der Stichprobenbasis (Wörterbuch) überprüft. Änderungen der Geschwindigkeit, des Timbres und der Klarheit der Aussprache von Wörtern beeinträchtigten die Erkennungsqualität erheblich. Wissenschaftler haben eine neue Aufgabe: der Maschine beizubringen, einzelne Geräusche, Phoneme oder Silben zu hören und daraus Wörter zu machen. Ein solcher Ansatz würde es ermöglichen, den Effekt des Lautsprecherwechsels auszugleichen, wenn der Erkennungspegel je nach Sprecher stark variiert.

— , . , « » «» «». «» « » « » «», — «». , , .

1971 startete die Agentur für fortgeschrittene Forschungsprojekte des Verteidigungsministeriums (DARPA) ein Fünfjahresprogramm mit einem Budget von 15 Millionen US-Dollar, bei dem die Aufgabe darin bestand, ein Anerkennungssystem zu schaffen, das mindestens 1000 Wörter kannte. 1976 führte die Carnegie Mellon University die Harpyie ein, die ein Wörterbuch mit 1011 Wörtern bedienen kann. Harpyie verglich die vollständig gehörten Wörter nicht mit den Samples, sondern teilte sie in Allophone ein (ein Sample des Klangs eines Phonems in Abhängigkeit von den ihn umgebenden Buchstaben). Dies war ein weiterer Erfolg, der bestätigte, dass die Zukunft in der Erkennung einzelner Phoneme und nicht ganzer Wörter liegt. Zu den Nachteilen von Harpyie gehörte jedoch eine äußerst geringe korrekte Erkennung von Allophonen (Aussprachen von Phonemen) - etwa 47%. Bei einem so hohen Fehler stieg der Fehleranteil nach dem Umfang des Wörterbuchs.

Beschreibung, wie Harpyie funktioniert. Video des Programms überlebte nicht.

Die Erfahrung von Harpy hat gezeigt, dass das Erstellen von Wörterbüchern mit ganzheitlichen Klangfingerabdrücken nutzlos ist - es erhöht nur die Erkennungszeit und verringert die Genauigkeit drastisch, sodass Forscher auf der ganzen Welt einen anderen Weg eingeschlagen haben - das Erkennen von Phonemen. Mitte der 1980er Jahre konnte die IBM Tangora-Maschine lernen, die Sprache eines Sprechers mit Akzent, Dialekt und Aussprache zu verstehen. Es war lediglich eine 20-minütige Schulung erforderlich, in der eine Datenbank mit Phonemen und Allophonproben gesammelt wurde. Die Verwendung des Hidden-Markov-Modells erhöhte auch das IBM Tangora-Vokabular auf beeindruckende 20.000 Wörter - 20-mal mehr als Harpy und ist bereits mit dem Vokabular des Teenagers vergleichbar.

Alle Spracherkennungssysteme der 1950er bis Mitte der 1990er Jahre wussten nicht, wie man die natürliche gesprochene Sprache einer Person liest - sie mussten die Wörter separat aussprechen und zwischen ihnen pausieren. Ein wahrhaft revolutionäres Ereignis war die Einführung des in den 1980er Jahren entwickelten Hidden-Markov-Modells - eines statistischen Modells, das auf der Grundlage der bekannten präzise Annahmen über unbekannte Elemente aufbaute. Einfach ausgedrückt, mit nur wenigen erkannten Phonemen in einem Wort wählt das versteckte Markov-Modell die fehlenden Phoneme sehr genau aus, wodurch die Genauigkeit der Spracherkennung erheblich erhöht wird.

1996 erschien das erste kommerzielle Programm, das nicht einzelne Wörter, sondern einen kontinuierlichen Fluss natürlicher Sprache unterscheiden konnte - IBM MedSpeak / Radiology. IBM war ein spezialisiertes Produkt, das in der Medizin verwendet wurde, um die Ergebnisse einer Röntgenaufnahme, die von einem Arzt während der Studie durchgeführt wurde, kurz zu beschreiben. Hier reichte die Leistung von Computern schließlich aus, um einzelne Wörter "on the fly" zu erkennen. Außerdem sind die Algorithmen perfekter geworden, und die korrekte Erkennung von Mikropausen zwischen den gesprochenen Wörtern ist aufgetreten.

Der erste universelle Motor zur Erkennung natürlicher Sprache war 1997 das Programm Dragon NaturallySpeaking. Bei der Arbeit mit ihr musste der Ansager (d. H. Der Benutzer) keine Schulung absolvieren oder mit einem bestimmten Vokabular arbeiten, da im Fall von MedSpeak jede Person, sogar ein Kind, mit NaturallySpeaking arbeiten konnte und das Programm keine Ausspracheregeln festlegte.

Bild
Trotz der Einzigartigkeit von Dragon NaturallySpeaking zeigten IT-Browser keine große Begeisterung für das Erkennen natürlicher Sprache. Unter den Mängeln wurden Erkennungsfehler und eine fehlerhafte Verarbeitung der an das Programm selbst gerichteten Befehle festgestellt. Quelle: itWeek

Es ist bemerkenswert, dass die Erkennungs-Engine bereits in den 1980er Jahren bereit war, aber aufgrund der unzureichenden Computerleistung hatte die Entwicklung von Dragon Systems (jetzt im Besitz von Nuance Communications) keine Zeit, die Leerzeichen zwischen Wörtern im laufenden Betrieb zu bestimmen, die für die Erkennung natürlicher Sprache erforderlich sind. Ohne dies könnten die Wörter "während der Behandlung" beispielsweise vom Computer als "verkrüppelt" gehört werden.

Vor uns lag die wachsende Beliebtheit von Spracherkennungssystemen, neuronalen Netzen, das Aufkommen der Google-Sprachsuche auf Mobilgeräten und schließlich Siris Sprachassistent, der nicht nur Sprache in Text umwandelte, sondern auch auf auf natürliche Weise konstruierte Anfragen angemessen reagierte.

Wie kann man hören, was gesagt wurde und wie man an das Unhörbare denkt?


Heutzutage ist das beste Werkzeug zum Erstellen einer Spracherkennungsmaschine das wiederkehrende neuronale Netzwerk (RNN), auf dem alle modernen Dienste zum Erkennen von Sprache, Musik, Bildern, Gesichtern, Objekten und Text basieren. Mit RNN können Sie Wörter mit äußerster Genauigkeit verstehen und das wahrscheinlichste Wort im Kontext des Kontexts vorhersagen, wenn es nicht erkannt wurde.

Die zeitliche Klassifizierung des neuronalen Netzwerks des Modells (CTC) wählt einzelne Phoneme im aufgezeichneten Audiostream (Wort, Phrase) aus und ordnet sie in der Reihenfolge an, in der sie ausgesprochen wurden. Nach wiederholter Analyse identifiziert CTC bestimmte Phoneme sehr deutlich, und ihre Textaufzeichnung wird mit der Datenbank von Wörtern im neuronalen Netzwerk verglichen und dann in ein erkanntes Wort umgewandelt.

Neuronale Netze werden so genannt, weil das Prinzip ihrer Arbeit der Arbeit des menschlichen Gehirns ähnlich ist. Das neuronale Netzwerktraining ist dem menschlichen Training sehr ähnlich. Damit ein sehr kleines Kind beispielsweise lernen kann, Autos zu erkennen und von Motorrädern zu unterscheiden, muss es mindestens mehrmals auf verschiedene Autos aufmerksam gemacht werden und jedes Mal das entsprechende Wort aussprechen: Dies ist groß und rot - das Auto und dieses niedrige Schwarz - das Auto, aber dies und das sind Motorräder. Irgendwann entdeckt das Kind Muster und gemeinsame Zeichen für verschiedene Autos und lernt, richtig zu erkennen, wo sich das Auto befindet, wo sich der Jeep befindet, wo sich das Motorrad befindet und wo sich das ATV befindet, auch wenn es im Vorbeigehen auf einem Werbeplakat auf der Straße zu sehen ist. Auf die gleiche Weise muss das neuronale Netzwerk anhand von Beispielen trainiert werden, sodass Hunderte und Tausende von Aussprachevarianten für jedes Wort, jeden Buchstaben und jedes Phonem „untersucht“ werden müssen.

Ein wiederkehrendes neuronales Netzwerk für die Spracherkennung ist gut, da es nach einem langen Training der Basis verschiedener Aussprachen lernt, Phoneme von Wörtern zu unterscheiden und daraus Wörter zu machen, unabhängig von der Qualität und Art der Aussprache. Und sogar mit hoher Genauigkeit im Kontext des Wortes „ausdenken“, Wörter, die aufgrund von Hintergrundgeräuschen oder unscharfer Aussprache nicht eindeutig erkannt werden konnten.

RNN-Vorhersagen weisen jedoch eine Nuance auf: Ein wiederkehrendes neuronales Netzwerk kann ein fehlendes Wort nur dann „ausdenken“, wenn es sich auf den engsten Kontext von etwa fünf Wörtern stützt. Außerhalb dieses Bereichs wird keine Analyse durchgeführt. Und manchmal ist er so notwendig! Zur Anerkennung haben wir zum Beispiel den Satz „Der große russische Dichter Alexander Sergejewitsch Puschkin “ ausgesprochen”, In dem das Wort“ Puschkin ”(speziell in Kursivschrift) so unhörbar gesagt wurde, dass die KI es nicht genau erkennen konnte. Ein wiederkehrendes neuronales Netzwerk, das auf den während des Trainings gesammelten Erfahrungen basiert, könnte jedoch darauf hindeuten, dass das Wort "Puschkin" am häufigsten neben den Wörtern "Russisch", "Dichter", "Alexander" und "Sergejewitsch" vorkommt. Dies ist eine ziemlich einfache Aufgabe für ein RNN, das in russischen Texten geschult ist, da wir in einem sehr spezifischen Kontext Annahmen mit höchster Genauigkeit treffen können.

Und wenn der Kontext vage ist? Nehmen Sie einen anderen Text, in dem ein Wort nicht erkannt werden kann: „Unser Alles, Alexander Sergejewitsch Puschkin, ist in der Blüte seines Lebens nach einem Duell mit Dantes auf tragische Weise gestorben. Das Puschkin-Theaterfestival ist nach dem Dichter benannt. “ Wenn Sie das Wort "Puschkinsky" entfernen, kann RNN es aufgrund des Kontextes des Vorschlags einfach nicht erraten, da nur ein Theaterfestival und ein Verweis auf den Namen eines unbekannten Dichters erwähnt werden - es gibt unzählige Möglichkeiten!

Hier kommt die 1997 erstellte Long Short Term Memory (LSTM) -Architektur für wiederkehrende neuronale Netze (ein ausführlicher Artikel über LSTM ) ins Spiel.) Es wurde speziell entwickelt, um die RNN-Fähigkeit hinzuzufügen, den Kontext zu berücksichtigen, der von dem zu verarbeitenden Ereignis entfernt ist. Die Ergebnisse der Lösung früherer Probleme (dh der Worterkennung) durchlaufen den gesamten Erkennungsprozess, unabhängig davon, wie lange der Monolog dauert, und werden in jedem Zweifelsfall berücksichtigt. Darüber hinaus hat der Entfernungsabstand fast keinen Einfluss auf die Effizienz der Architektur. Mit Hilfe von LSTM berücksichtigt ein Wortnetzwerk bei Bedarf alle im Rahmen der Aufgabe verfügbaren Erfahrungen: In unserem Beispiel wird RNN den vorherigen Satz betrachten und feststellen, dass Puschkin und Dantes früher erwähnt wurden. Daher weist „Mit dem Namen des Dichters“ höchstwahrscheinlich auf einen von ihnen hin. Da es keine Beweise für die Existenz des Dantes Theaterfestivals gibt,Wir sprechen über Puschkinski (zumal der Klangabdruck eines nicht erkannten Wortes sehr ähnlich ist) - ein solches Festival war die Basis für das Training des neuronalen Netzwerks.

"Geständnis eines Sprachassistenten." Wenn ein gut ausgebildetes neuronales Netzwerk ins Spiel kommt, kann ein Sprachassistent genau herausfinden, was mit „grünen Hausschuhen“ zu tun ist.

Wie macht die Spracherkennung die Welt zu einem besseren Ort?


In jedem Fall ist die Anwendung anders - sie hilft jemandem, mit Gadgets zu kommunizieren, und laut PricewaterhouseCooper geben mehr als die Hälfte der Smartphone-Benutzer Sprachbefehle an Geräte - bei Erwachsenen (25-49 Jahre) sogar der Prozentsatz derjenigen, die ständig Sprachschnittstellen verwenden höher als bei jungen Menschen (18-25) - 65% gegenüber 59%. Und in Russland haben mindestens einmal mindestens 71% der Bevölkerung mit Siri, Google Assitant oder Alice kommuniziert. 45 Millionen Russen kommunizieren ständig mit Yandex von Alice, wobei Yandex.Maps / Yandex.Navigator nur 30% der Anfragen ausmacht.

Die Spracherkennung hilft wirklich jemandem bei der Arbeit - zum Beispiel, wie oben erwähnt, für Ärzte: In der Medizin wird die Erkennung seit 1996 (als IBM MedSpeak herauskam) verwendet, um Anamnese aufzuzeichnen und Bilder zu studieren - ein Arzt kann weiterarbeiten, ohne durch Aufzeichnungen in abgelenkt zu werden Computer oder Papierkarte. Die Arbeit am Diktat in der Medizin wird übrigens nicht nur im Westen durchgeführt - in Russland gibt es ein Voice2Med-Programm des „Zentrums für Sprachtechnologien“.

Es gibt andere Beispiele, einschließlich unserer eigenen. Die Organisation eines Toshiba-Geschäfts beinhaltet die vollständige Einbeziehung, dh gleiche Rechte und Chancen für Menschen mit verschiedenen Gesundheitszuständen, einschließlich für Mitarbeiter mit Hörbehinderungen. Wir haben ein Unternehmensprogramm namens Universal Design Advisor System, in dem Menschen mit verschiedenen Arten von Behinderungen an der Entwicklung von Toshiba-Produkten teilnehmen und Vorschläge zur Verbesserung ihres Komforts für Menschen mit Behinderungen machen. Das heißt, wir gehen nicht davon aus, wie wir es besser machen können, sondern arbeiten mit echten Erfahrungen und Mitarbeiterbewertungen.

Vor einigen Jahren standen wir am Hauptsitz von Toshiba in Japan vor einer sehr interessanten Aufgabe, die die Entwicklung eines neuen Spracherkennungssystems erforderte. Während des Betriebs des Universal Design Advisor Systems haben wir einen wichtigen Einblick erhalten: Mitarbeiter mit Hörbehinderung möchten in Echtzeit an Diskussionen bei Besprechungen und Vorträgen teilnehmen und sich nicht darauf beschränken, die verarbeiteten Niederschriften Stunden oder Tage später zu lesen. Das Starten der Spracherkennung über ein Smartphone führt in solchen Fällen zu einem sehr schwachen Ergebnis. Daher mussten Toshiba-Spezialisten mit der Entwicklung eines speziellen Erkennungssystems beginnen. Und natürlich sind wir sofort auf Probleme gestoßen.

Konversation unterscheidet sich erheblich von schriftlicher Sprache - wir sprechen nicht so, wie wir Briefe schreiben, und eine echte Konversation, die in Text übersetzt wird, sieht sehr schlampig und sogar unlesbar aus. Das heißt, selbst wenn wir Gespräche auf dem Morgengleiter mit hoher Genauigkeit in Text umwandeln, erhalten wir einen inkohärenten Mischmasch voller parasitärer Wörter, Interjektionen und nachdenklicher „aaa“, „uh“ und „mmm“. Um die Transkription unnötiger Geräusche, Wörter und Ausdrucksformen von Emotionen im Text zu vermeiden, haben wir uns entschlossen, eine KI zu entwickeln, die in der Lage ist, nicht immer notwendige Elemente der Umgangssprache so unverkennbar wie möglich zu erkennen, einschließlich der emotionalen Färbung einiger Wörter (zum Beispiel „Ja, gut“ kann nach Skepsis klingen oder wie aufrichtige Überraschung, und dies sind buchstäblich entgegengesetzte Bedeutungen).


Es sieht aus wie ein Laptop mit einer Reihe von Peripheriegeräten zur Spracherkennung mit Toshiba AI (links) und einer Anwendung mit den Ergebnissen für Endgeräte (rechts). Quelle: Toshiba

LSTM hat sich hier als nützlich erwiesen, ohne die die Erkennungsgenauigkeit nicht ausreichte, um den empfangenen Text mühelos lesen und verstehen zu können. Darüber hinaus war LSTM nicht nur für die genauere Vorhersage von Wörtern im Kontext nützlich, sondern auch für die korrekte Verarbeitung von Pausen in der Mitte von Sätzen und Interjektionsparasiten - dafür haben wir dem neuronalen Netzwerk diese Parasiten und Pausen beigebracht, die für die Umgangssprache natürlich sind.

Bedeutet dies, dass das neuronale Netzwerk jetzt Interjektionen aus Transkripten entfernen kann? Ja, das kann es, aber das ist nicht nötig. Tatsache ist, dass (eine weitere Erkenntnis) Menschen mit Hörbehinderungen geführt werden, auch durch die Bewegungen der Lippen des Sprechers. Wenn sich die Lippen bewegen, der diesen Bewegungen entsprechende Text jedoch nicht auf dem Bildschirm angezeigt wird, besteht das Gefühl, dass das Erkennungssystem einen Teil des Gesprächs verpasst hat. Das heißt, für jemanden, der nicht hören kann, ist es wichtig, so viele Informationen wie möglich über das Gespräch zu erhalten, einschließlich unglücklicher Pausen und Mejometia. Daher belässt die Toshiba-Engine diese Elemente im Transkript, verringert jedoch in Echtzeit die Helligkeit der Buchstaben, wodurch deutlich wird, dass dies optionale Details zum Verständnis des Textes sind.

So sieht das Erkennungsergebnis im laufenden Betrieb auf dem Clientgerät aus. Die Teile des Monologs, die nicht aussagekräftig sind, sind grau gestrichen.

Jetzt arbeitet Toshiba AI mit englischer, japanischer und chinesischer Sprache, und sogar eine Übersetzung zwischen Sprachen im laufenden Betrieb ist möglich. Es ist nicht erforderlich, es für Kurzschrift im laufenden Betrieb zu verwenden - die KI kann für die Arbeit mit Sprachassistenten angepasst werden, die schließlich lernen, Interjektionen, Pausen und Stottern angemessen wahrzunehmen, wenn eine Person einen Befehl ausspricht. Im März 2019 wurde das System erfolgreich eingesetzt, um der in Japan ausgestrahlten IPSJ National Convention Untertitel hinzuzufügen. In naher Zukunft - die Umwandlung der Toshiba AI in einen öffentlichen Dienst und Erfahrungen mit der Implementierung der Spracherkennung in der Produktion.

All Articles