Reconnaissance vocale: un très court cours d'introduction



Il est presque impossible de dire au profane le plus simplement possible le travail de reconnaissance vocale par ordinateur et de le convertir en texte. Pas une seule histoire à ce sujet n'est complète sans formules complexes et termes mathématiques. Nous essaierons d'expliquer aussi clairement et légèrement simpliste que possible comment votre smartphone comprend la parole, lorsque les voitures ont appris à reconnaître une voix humaine et dans quels domaines inattendus cette technologie est utilisée.

Avertissement nécessaire: si vous êtes un développeur ou, en particulier, un mathématicien, il est peu probable que vous appreniez quelque chose de nouveau de la poste et même vous plaignez de la nature scientifique insuffisante du matériel. Notre objectif est d'initier les lecteurs non initiés aux technologies de la parole de la manière la plus simple et de dire comment et pourquoi Toshiba a commencé la création de son IA voix.

Jalons importants dans l'histoire de la reconnaissance vocale


L'histoire de la reconnaissance de la parole humaine par les machines électroniques a commencé un peu plus tôt qu'il n'est coutume de penser: dans la plupart des cas, il est de coutume de compter à rebours à partir de 1952, mais en fait l'un des premiers appareils qui a répondu aux commandes vocales était le robot Televox, dont nous avons déjà parlé . Créé en 1927 aux États-Unis, le robot Herbert Televox était un appareil simple dans lequel différents relais réagissaient à des sons de fréquences différentes. Le robot avait trois diapasons, chacun étant responsable de son ton. Selon le diapason qui fonctionnait, l'un ou l'autre relais était activé.

image
En fait, tout le «remplissage» de Televox, y compris le système de reconnaissance des commandes, était situé sur une crémaillère dans la zone du corps du «robot». Il était impossible de fermer son couvercle, sinon les diapasons ne pouvaient pas correctement «entendre» les sons. Source: Acme Telepictures / Wikimedia.

Il était possible de communiquer avec Televox sous forme de signaux séparés avec un sifflet et de brefs signaux verbaux - leurs diapasons étaient également disposés dans une séquence de sons. Le créateur du robot, Roy Wensley, a même organisé une fantastique démonstration à cette époque, en disant la commande «Sésame, ouvert», par laquelle Televox a allumé le relais chargé d'ouvrir la porte. Pas de technologie numérique, de réseaux de neurones, d'IA et d'apprentissage automatique - juste une technologie analogique!

La prochaine invention clé qui a ouvert la voie à une véritable reconnaissance de la parole humaine a été la machine Audrey, développée en 1952 au Bell Labs Innovation Forge. L'énorme Audrey consommait beaucoup d'électricité et avait la taille d'une bonne armoire, mais toutes ses fonctionnalités se résumaient à reconnaître les nombres parlés de zéro à neuf. Juste dix mots, oui, mais n'oublions pas qu'Audrey était une machine analogique.
image
Malheureusement, l'histoire n'a pas conservé les photographies publiques d'Audrey, il n'y a qu'un concept. Simple sur papier, difficile à traduire - selon les mémoires des contemporains, les composants Audrey occupaient un cabinet entier. Source: Bell Labs

Cela a fonctionné comme ceci: l'annonceur a parlé des nombres dans le microphone, faisant des intervalles d'au moins 350 ms entre les mots, Audrey a converti les sons qu'il a entendus en signaux électriques et les a comparés avec des échantillons enregistrés dans la mémoire analogique. Selon les résultats de la comparaison, la voiture a mis en évidence le numéro sur le tableau de bord.

C'était une percée, mais il n'y avait aucun avantage réel d'Audrey - la machine a reconnu la voix de son créateur avec une précision de 97%, d'autres haut-parleurs spécialement formés ont reçu une précision de 70-80%. Les étrangers qui ont contacté Audrey pour la première fois, peu importe leurs efforts, n'ont vu leur numéro sur le tableau de bord que dans 50% des cas.

Malgré les résultats révolutionnaires pour l'époque, Audrey n'a pas trouvé, et n'a pas pu trouver d'application pratique. On a supposé que le système pouvait être adapté à la place des opérateurs téléphoniques, mais néanmoins, les services humains étaient plus pratiques, plus rapides et beaucoup plus fiables qu'Audrey.

Présentation similaire à Audrey, mais beaucoup plus petites, machines - IBM Shoebox. La vitesse de la boîte à chaussures est clairement visible. La machine pourrait également effectuer des opérations mathématiques simples d'addition et de soustraction

Au début des années 1960, des travaux sur la création de machines pour la reconnaissance vocale ont été menés au Japon, au Royaume-Uni, aux États-Unis et même en URSS, où ils ont inventé un algorithme très important pour la transformation dynamique de la chronologie (DTW), à l'aide duquel il a été possible de construire un système qui connaît environ 200 mots. Mais tous les développements étaient similaires et le principe de reconnaissance est devenu un inconvénient commun: les mots ont été perçus comme des empreintes sonores intégrales, puis ils ont été vérifiés par rapport à la base d'échantillons (dictionnaire). Tout changement dans la vitesse, le timbre et la clarté de la prononciation des mots a considérablement affecté la qualité de la reconnaissance. Les scientifiques ont une nouvelle tâche: apprendre à la machine à entendre des sons, des phonèmes ou des syllabes individuels, puis à en faire des mots. Une telle approche permettrait de niveler l'effet du changement de locuteur, lorsque, selon le locuteur, le niveau de reconnaissance variait fortement.

— , . , « » «» «». «» « » « » «», — «». , , .

En 1971, l'Agence des projets de recherche avancée du ministère de la Défense (DARPA) a lancé un programme de cinq ans doté d'un budget de 15 millions de dollars, chargé de créer un système de reconnaissance qui connaissait au moins 1 000 mots. En 1976, l'Université Carnegie Mellon a introduit Harpy, capable d'exploiter un dictionnaire de 1011 mots. Harpy n'a pas comparé les mots complètement entendus avec les échantillons, mais les a divisés en allophones (un échantillon du son d'un phonème en fonction des lettres qui l'entourent). Ce fut un autre succès, confirmant que l'avenir réside dans la reconnaissance des phonèmes individuels, plutôt que des mots entiers. Cependant, parmi les inconvénients de Harpy se trouvait un niveau extrêmement faible de reconnaissance correcte des allophones (prononciations des phonèmes) - environ 47%. Avec une erreur aussi élevée, la part des erreurs a augmenté après le volume du dictionnaire.

Description du fonctionnement de Harpy. La vidéo du programme n'a pas survécu.

L'expérience de Harpie a montré que la création de dictionnaires d'empreintes sonores holistiques est inutile - elle augmente seulement le temps de reconnaissance et réduit considérablement la précision, de sorte que les chercheurs du monde entier ont pris un chemin différent - la reconnaissance des phonèmes. Au milieu des années 1980, la machine IBM Tangora pouvait apprendre à comprendre le discours de tout locuteur avec n'importe quel accent, dialecte et prononciation, elle ne nécessitait qu'une formation de 20 minutes, au cours de laquelle une base de données de phonèmes et d'échantillons d'allophones était accumulée. L'utilisation du modèle Markov caché a également augmenté le vocabulaire d'IBM Tangora à 20 000 mots, 20 fois plus que Harpy, et est déjà comparable au vocabulaire de l'adolescent.

Tous les systèmes de reconnaissance vocale des années 1950 au milieu des années 1990 ne savaient pas lire la langue parlée naturelle d'une personne - ils devaient prononcer les mots séparément, en s'arrêtant entre eux. Un événement véritablement révolutionnaire a été l'introduction du modèle de Markov caché développé dans les années 1980 - un modèle statistique qui a construit des hypothèses précises sur des éléments inconnus sur la base de ceux connus. En termes simples, avec seulement quelques phonèmes reconnus en un mot, le modèle de Markov caché sélectionne très précisément les phonèmes manquants, augmentant ainsi considérablement la précision de la reconnaissance vocale.

En 1996, le premier programme commercial est apparu, capable de distinguer non pas des mots individuels, mais un flux continu de discours naturel - IBM MedSpeak / Radiology. IBM était un produit spécialisé utilisé en médecine pour décrire brièvement les résultats d'une radiographie délivrée par un médecin au cours de l'étude. Ici, la puissance des ordinateurs est finalement devenue suffisante pour reconnaître des mots individuels "à la volée". De plus, les algorithmes sont devenus plus parfaits, la reconnaissance correcte des micro-pauses entre les mots prononcés est apparue.

Le premier moteur universel pour reconnaître la parole naturelle a été le programme Dragon NaturallySpeaking en 1997. En travaillant avec elle, l'annonceur (c'est-à-dire l'utilisateur) n'avait pas besoin de suivre une formation ou de fonctionner avec un vocabulaire spécifique, comme dans le cas de MedSpeak, toute personne, même un enfant, pouvait travailler avec NaturallySpeaking, le programme n'a pas défini de règles de prononciation.

image
Malgré le caractère unique de Dragon NaturallySpeaking, les navigateurs informatiques n'ont pas montré beaucoup d'enthousiasme pour reconnaître la parole naturelle. Parmi les lacunes, des erreurs de reconnaissance et un traitement incorrect des commandes adressées au programme lui-même ont été notés. Source: itWeek

Il est à noter que le moteur de reconnaissance était prêt dans les années 1980, mais en raison de la puissance informatique insuffisante, le développement de Dragon Systems (maintenant détenu par Nuance Communications) n'a pas eu le temps de déterminer les espaces entre les mots à la volée, ce qui est nécessaire pour reconnaître la parole naturelle. Sans cela, les mots «tout en étant traité», par exemple, pourraient être entendus par l'ordinateur comme «estropiés».

Devaient la popularité croissante des systèmes de reconnaissance vocale, des réseaux de neurones, l'émergence de la recherche vocale Google sur les appareils mobiles et, enfin, l'assistant vocal Siri, non seulement convertissant la parole en texte, mais répondant également de manière adéquate aux requêtes construites de manière naturelle.

Comment entendre ce qui a été dit et penser à ce qui était inaudible?


De nos jours, le meilleur outil pour créer un moteur de reconnaissance vocale est le réseau neuronal récurrent (RNN), sur lequel sont construits tous les services modernes de reconnaissance de la voix, de la musique, des images, des visages, des objets, du texte. RNN vous permet de comprendre les mots avec une extrême précision, ainsi que de prédire le mot le plus probable dans le contexte du contexte s'il n'a pas été reconnu.

La classification temporelle du réseau neuronal du modèle (CTC) sélectionne les phonèmes individuels dans le flux audio enregistré (mot, phrase) et les organise dans l'ordre dans lequel ils ont été prononcés. Après des analyses répétées, le CTC identifie très clairement certains phonèmes, et leur enregistrement de texte est comparé à la base de données de mots du réseau neuronal puis se transforme en un mot reconnu.

Les réseaux de neurones sont appelés ainsi parce que le principe de leur travail est similaire à celui du cerveau humain. La formation en réseau neuronal est très similaire à la formation humaine. Par exemple, pour qu'un très jeune enfant apprenne à reconnaître les voitures et à les distinguer des motos, vous devez au moins plusieurs fois attirer son attention sur différentes voitures et à chaque fois prononcer le mot correspondant: c'est grand et rouge est la voiture, et ce bas noir est la voiture, mais cela et ce sont des motos. À un moment donné, l'enfant découvrira des modèles et des signes communs pour différentes voitures, et apprendra à reconnaître correctement où se trouve la voiture, où la jeep, où la moto et où le VTT, même si au passage il les voit sur une affiche publicitaire dans la rue. De la même manière, le réseau neuronal doit être formé à partir d'une base d'exemples - pour que des centaines et des milliers de variantes de prononciation de chaque mot, lettre, phonème «apprennent».

Un réseau de neurones récurrent pour la reconnaissance vocale est bon car après une longue formation à la base de diverses prononciations, il apprendra à distinguer les phonèmes des mots et à en faire des mots indépendamment de la qualité et de la nature de la prononciation. Et même «réfléchissez» avec une grande précision, dans le contexte du mot, des mots qui ne pouvaient pas être reconnus sans ambiguïté en raison de bruits de fond ou d'une prononciation floue.

Mais il y a une nuance avec les prédictions RNN - un réseau neuronal récurrent ne peut «penser» un mot manquant qu'en s'appuyant sur le contexte le plus proche d'environ cinq mots. En dehors de cet espace, aucune analyse ne sera effectuée. Et parfois, il est tellement nécessaire! Par exemple, pour la reconnaissance, nous avons prononcé la phrase «Le grand poète russe Alexandre Sergeyevich Pushkin», Dans lequel le mot« Pouchkine »(spécialement en italique) était dit d'une manière si inaudible que l'IA ne pouvait pas le reconnaître avec précision. Mais un réseau de neurones récurrent, basé sur l'expérience acquise lors de la formation, peut suggérer que le mot «Pouchkine» se trouve le plus souvent à côté des mots «russe», «poète», «Alexandre» et «Sergeyevich». C'est une tâche assez simple pour un RNN formé aux textes russes, car un contexte très spécifique nous permet de faire des hypothèses avec la plus grande précision.

Et si le contexte est vague? Prenons un autre texte dans lequel un mot ne peut être reconnu: «Notre tout, Alexandre Sergeyevich Pushkin, est décédé tragiquement dans la fleur de l'âge après un duel avec Dantes. Le festival de théâtre Pouchkine porte le nom du poète. » Si vous supprimez le mot "Pushkinsky", RNN ne peut tout simplement pas le deviner, sur la base du contexte de la proposition, car il ne mentionne qu'un festival de théâtre et une référence au nom d'un poète inconnu - il y a des tonnes d'options possibles!

C'est là que l'architecture de la mémoire à long terme à court terme (LSTM) pour les réseaux de neurones récurrents, créée en 1997 (un article détaillé sur le LSTM ) entre en jeu.) Il a été spécialement développé afin d'ajouter la capacité de RNN à prendre en compte le contexte éloigné de l'événement en cours de traitement - les résultats de la résolution de problèmes précédents (c'est-à-dire la reconnaissance de mots) passent par tout le processus de reconnaissance, quelle que soit la durée du monologue, et sont pris en compte dans chaque cas de doute. De plus, la distance de retrait n'a quasiment aucun effet sur l'efficacité de l'architecture. Avec l'aide de LSTM, si nécessaire, un réseau de mots prendra en compte toute l'expérience disponible dans le cadre de la tâche: dans notre exemple, RNN examinera la phrase précédente, trouvera que Pouchkine et Dantes ont été mentionnés plus tôt, par conséquent, `` Par le nom du poète '' pointe très probablement vers l'un d'entre eux. Puisqu'il n'y a aucune preuve de l'existence du Festival de Théâtre de Dantes,nous parlons de Pushkinsky (d'autant plus que l'empreinte sonore d'un mot non reconnu est très similaire) - un tel festival était à la base de la formation du réseau neuronal.

"Confession d'un assistant vocal." Lorsqu'un réseau neuronal bien formé entre en jeu, un assistant vocal peut déterminer exactement ce qui doit être fait avec des «pantoufles vertes»

Comment la reconnaissance vocale rend-elle le monde meilleur?


Dans chaque cas, l'application est différente - elle aide quelqu'un à communiquer avec des gadgets et, selon PricewaterhouseCooper, plus de la moitié des utilisateurs de smartphones donnent des commandes vocales aux appareils - chez les adultes (25-49 ans), le pourcentage de ceux qui utilisent constamment des interfaces vocales, même plus élevé que chez les jeunes (18-25) - 65% contre 59%. Et en Russie au moins une fois, au moins 71% de la population a communiqué avec Siri, Google Assitant ou Alice. 45 millions de Russes communiquent en permanence avec Yandex d'Alice et Yandex.Maps / Yandex.Navigator ne représentent que 30% des demandes.

La reconnaissance vocale aide vraiment quelqu'un au travail - par exemple, comme nous l'avons dit ci-dessus, pour les médecins: en médecine depuis 1996 (lorsque IBM MedSpeak est sorti), la reconnaissance est utilisée pour enregistrer l'anamnèse et étudier les images - un médecin peut continuer à travailler sans être distrait par les enregistrements dans ordinateur ou carte papier. Soit dit en passant, les travaux sur la dictée en médecine ne sont pas menés uniquement en Occident - en Russie, il existe un programme Voice2Med du «Center for Speech Technologies».

Il existe d'autres exemples, dont le nôtre. L'organisation d'une entreprise Toshiba implique l'inclusion complète, c'est-à-dire l'égalité des droits et des chances pour les personnes souffrant de divers problèmes de santé, y compris pour les employés malentendants. Nous avons un programme d'entreprise appelé Universal Design Advisor System, dans lequel des personnes ayant différents types de handicaps participent au développement des produits Toshiba, faisant des suggestions pour améliorer leur commodité pour les personnes handicapées - c'est-à-dire que nous ne supposons pas comment nous pouvons faire mieux, mais opérons sur une expérience réelle et les évaluations des employés.

Il y a quelques années, au siège de Toshiba au Japon, nous avons été confrontés à une tâche très intéressante, nécessitant le développement d'un nouveau système de reconnaissance vocale. Pendant le fonctionnement du système Universal Design Advisor, nous avons reçu un aperçu important: les employés malentendants veulent participer aux discussions lors des réunions et des conférences en temps réel, sans se limiter à lire la transcription traitée des heures ou des jours plus tard. Le démarrage de la reconnaissance vocale via un smartphone dans de tels cas donne un résultat très faible, les spécialistes Toshiba ont donc dû commencer à développer un système de reconnaissance spécialisé. Et, bien sûr, nous avons immédiatement rencontré des problèmes.

La conversation diffère énormément de la parole écrite - nous ne parlons pas comme nous écrivons des lettres, et une vraie conversation traduite en texte semble très bâclée et même illisible. Autrement dit, même si nous convertissons les conversations sur le plan du matin en texte avec une grande précision, nous obtiendrons un hachage incohérent grouillant de parasites verbaux, d'interjections et de «aaa», «uh» et «mmm» réfléchis. Pour se débarrasser de la transcription des sons, des mots et des expressions d'émotions inutiles dans le texte, nous avons décidé de développer une IA capable de reconnaître avec précision au maximum les éléments pas nécessairement nécessaires du discours familier, y compris la coloration émotionnelle de certains mots (par exemple, «oui, bien» peut ressembler à du scepticisme ou comment sincère surprise, et ce sont des sens littéralement opposés).


Il ressemble à un ordinateur portable avec un ensemble de périphériques pour la reconnaissance vocale utilisant Toshiba AI (à gauche) et une application avec les résultats pour les appareils finaux (à droite). Source: Toshiba

LSTM a été utile ici, sans lequel la précision de reconnaissance était insuffisante pour que le texte reçu soit lu et compris sans effort. De plus, le LSTM était utile non seulement pour une prédiction plus précise des mots en contexte, mais aussi pour le traitement correct des pauses au milieu des phrases et des interjections-parasites - pour cela, nous avons enseigné au réseau neuronal ces parasites et pauses qui sont naturels pour la parole familière.

Est-ce à dire que le réseau neuronal peut désormais supprimer les interjections des transcriptions? Oui, c'est possible, mais ce n'est pas nécessaire. Le fait est que (une autre idée reçue) les personnes malentendantes sont guidées, y compris par les mouvements des lèvres de l'orateur. Si les lèvres bougent, mais que le texte correspondant à ces mouvements n'apparaît pas à l'écran, on a l'impression que le système de reconnaissance a raté une partie de la conversation. Autrement dit, pour quelqu'un qui ne peut pas entendre, il est important d'obtenir autant d'informations que possible sur la conversation, y compris les pauses malheureuses et la méjométie. Par conséquent, le moteur Toshiba laisse ces éléments dans la transcription, mais atténue en temps réel la luminosité des lettres, ce qui indique clairement qu'il s'agit de détails facultatifs pour comprendre le texte.

Voici à quoi ressemble le résultat de la reconnaissance à la volée sur l'appareil client. Les parties du monologue qui ne sont pas significatives sont peintes en gris.

Maintenant, Toshiba AI fonctionne avec la parole en anglais, japonais et chinois, et même la traduction entre les langues à la volée est possible. Il n'est pas nécessaire de l'utiliser pour la sténographie à la volée - l'IA peut être adaptée pour fonctionner avec des assistants vocaux, qui apprennent enfin à percevoir correctement les interjections, les pauses et les bégaiements lorsqu'une personne prononce une commande. En mars 2019, le système a été utilisé avec succès pour ajouter des sous-titres à la Convention nationale IPSJ diffusée au Japon. Dans un avenir proche - la transformation de l'IA Toshiba en un service public et des expériences avec la mise en œuvre de la reconnaissance vocale en production.

All Articles