Reconocimiento de voz: un curso introductorio muy corto



Es casi imposible decirle al lego lo más simple posible sobre el trabajo del reconocimiento de voz por computadora y convertirlo en texto. Ni una sola historia sobre esto está completa sin fórmulas complejas y términos matemáticos. Trataremos de explicar de la manera más clara y simplista posible cómo su teléfono inteligente entiende el habla, cuando los automóviles han aprendido a reconocer una voz humana y en qué áreas inesperadas se utiliza esta tecnología.

Advertencia necesaria: si usted es un desarrollador o, especialmente, un matemático, es poco probable que aprenda algo nuevo de la publicación e incluso se queje de la naturaleza científica insuficiente del material. Nuestro objetivo es presentar a los lectores no iniciados las tecnologías del habla de la manera más simple y contar cómo y por qué Toshiba tomó la creación de su AI de voz.

Hitos importantes en la historia del reconocimiento de voz


La historia del reconocimiento del habla humana por las máquinas electrónicas comenzó un poco antes de lo habitual: en la mayoría de los casos es habitual contar desde 1952, pero de hecho, uno de los primeros dispositivos que respondió a los comandos de voz fue el robot Televox, sobre el que ya escribimos . Creado en 1927 en los EE. UU., El robot Herbert Televox era un dispositivo simple en el que varios relés reaccionaban a sonidos de diferentes frecuencias. El robot tenía tres diapasones, cada uno de los cuales era responsable de su tono. Dependiendo de qué diapasón funcionó, se activó uno u otro relé.

imagen
De hecho, todo el "llenado" de Televox, incluido el sistema de reconocimiento de comandos, estaba ubicado en un estante en el área del cuerpo del "robot". Era imposible cerrar su tapa, de lo contrario los diapasones no podrían "escuchar" correctamente los sonidos. Fuente: Acme Telepictures / Wikimedia:

fue posible comunicarse con Televox como señales separadas usando un silbato, o en breves señales verbales: sus diapasones también se presentaron en una secuencia de sonidos. El creador del robot, Roy Wensley, incluso organizó una demostración fantástica para esos tiempos, diciendo el comando "Sésamo, abierto", a través del cual Televox encendió el relé responsable de abrir la puerta. Sin tecnología digital, redes neuronales, inteligencia artificial y aprendizaje automático, ¡solo tecnología analógica!

El siguiente invento clave que allanó el camino para el verdadero reconocimiento del habla humana fue la máquina Audrey, desarrollada en 1952 en el Bell Labs Innovation Forge. El enorme Audrey consumía mucha electricidad y era del tamaño de un buen gabinete, pero toda su funcionalidad se reducía a reconocer los números hablados del cero al nueve. Solo diez palabras, sí, pero no olvidemos que Audrey era una máquina analógica.
imagen
Desafortunadamente, la historia no ha conservado fotografías públicas de Audrey, solo hay un concepto. Simple en papel, difícil de traducir: según las memorias de los contemporáneos, los componentes de Audrey ocuparon un gabinete completo. Fuente: Laboratorios Bell

Funcionó así: el locutor habló números en el micrófono, haciendo intervalos de al menos 350 ms entre palabras, Audrey convirtió los sonidos que escuchó en señales eléctricas y los comparó con muestras grabadas en la memoria analógica. Según los resultados de la comparación, el automóvil resaltó el número en el tablero.

Fue un gran avance, pero Audrey no obtuvo ningún beneficio real: la máquina reconoció la voz de su creador con una precisión del 97%, otros oradores especialmente capacitados recibieron una precisión del 70-80%. Los extraños que se contactaron por primera vez con Audrey, sin importar cuánto lo intentaron, vieron su número en el marcador en solo el 50% de los casos.

A pesar de los resultados revolucionarios para su época, Audrey no encontró, y no pudo encontrar una aplicación práctica. Se suponía que el sistema podía adaptarse en lugar de los operadores telefónicos, pero sin embargo, los servicios humanos eran más convenientes, más rápidos y mucho más confiables que Audrey.

Presentación similar a Audrey, máquinas mucho más pequeñas, IBM Shoebox. La velocidad de la caja de zapatos es claramente visible. La máquina también podría realizar operaciones matemáticas simples de suma y resta.

A principios de la década de 1960, el trabajo para crear máquinas para el reconocimiento de voz se llevó a cabo en Japón, el Reino Unido, los EE. UU. E incluso la URSS, donde inventaron un algoritmo muy importante para la transformación dinámica de la línea de tiempo (DTW), con la ayuda de la cual fue posible construir un sistema que sepa unas 200 palabras. Pero todos los desarrollos fueron similares entre sí, y el principio de reconocimiento se convirtió en un inconveniente común: las palabras se percibían como huellas dactilares sonoras integrales, y luego se comparaban con la base de muestras (diccionario). Cualquier cambio en la velocidad, el timbre y la claridad de la pronunciación de las palabras afectaron significativamente la calidad del reconocimiento. Los científicos tienen una nueva tarea: enseñar a la máquina a escuchar sonidos, fonemas o sílabas individuales y luego hacer palabras a partir de ellos. Tal enfoque permitiría nivelar el efecto de cambiar el altavoz, cuando, dependiendo del altavoz, el nivel de reconocimiento varió bruscamente.

— , . , « » «» «». «» « » « » «», — «». , , .

En 1971, la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa (DARPA) lanzó un programa de cinco años con un presupuesto de $ 15 millones, que tenía la tarea de crear un sistema de reconocimiento que supiera al menos 1000 palabras. En 1976, la Universidad Carnegie Mellon introdujo Harpy, capaz de operar un diccionario de 1011 palabras. Harpy no comparó las palabras completamente escuchadas con las muestras, pero las dividió en alófonos (una muestra del sonido de un fonema dependiendo de las letras que lo rodean). Este fue otro éxito, confirmando que el futuro está en el reconocimiento de fonemas individuales, en lugar de palabras completas. Sin embargo, entre los inconvenientes de Harpy se encontraba un nivel extremadamente bajo de reconocimiento correcto de alófonos (pronunciaciones de fonemas): alrededor del 47%. Con un error tan alto, la proporción de errores creció después del volumen del diccionario.

Descripción de cómo funciona Harpy. El video del programa no sobrevivió.

La experiencia de Harpy ha demostrado que construir diccionarios de huellas dactilares de sonido holístico es inútil: solo aumenta el tiempo de reconocimiento y reduce drásticamente la precisión, por lo que los investigadores de todo el mundo han tomado un camino diferente: reconocer los fonemas. A mediados de la década de 1980, la máquina IBM Tangora podía aprender a entender el habla de cualquier hablante con acento, dialecto y pronunciación, solo requirió una capacitación de 20 minutos, durante el cual se acumuló una base de datos de fonemas y muestras de alófonos. El uso del modelo oculto de Markov también aumentó el vocabulario de IBM Tangora a unas impresionantes 20,000 palabras, 20 veces más que Harpy, y ya es comparable al vocabulario del adolescente.

Todos los sistemas de reconocimiento de voz desde la década de 1950 hasta mediados de la década de 1990 no sabían cómo leer el lenguaje hablado natural de una persona: tenían que pronunciar las palabras por separado, haciendo una pausa entre ellas. Un evento verdaderamente revolucionario fue la introducción del modelo oculto de Markov desarrollado en la década de 1980, un modelo estadístico que construía suposiciones precisas sobre elementos desconocidos basados ​​en los conocidos. En pocas palabras, con solo unos pocos fonemas reconocidos en una palabra, el modelo oculto de Markov selecciona con mucha precisión los fonemas faltantes, lo que aumenta en gran medida la precisión del reconocimiento de voz.

En 1996, apareció el primer programa comercial, capaz de distinguir no palabras individuales, sino un flujo continuo de lenguaje natural: IBM MedSpeak / Radiology. IBM era un producto especializado que se usaba en medicina para describir brevemente los resultados de una radiografía administrada por un médico durante el estudio. Aquí, el poder de las computadoras finalmente se volvió suficiente para reconocer palabras individuales "sobre la marcha". Además, los algoritmos se han vuelto más perfectos, ha aparecido el reconocimiento correcto de micropausas entre las palabras habladas.

El primer motor universal para reconocer el habla natural fue el programa Dragon NaturallySpeaking en 1997. Al trabajar con ella, el locutor (es decir, el usuario) no necesitaba someterse a capacitación u operar con un vocabulario específico, ya que en el caso de MedSpeak, cualquier persona, incluso un niño, podría trabajar con NaturallySpeaking, el programa no estableció ninguna regla de pronunciación.

imagen
A pesar de la singularidad de Dragon NaturallySpeaking, los navegadores de TI no mostraron mucho entusiasmo por reconocer el habla natural. Entre las deficiencias, se observaron errores de reconocimiento y procesamiento incorrecto de comandos dirigidos al programa en sí. Fuente: itWeek

Cabe destacar que el motor de reconocimiento estaba listo en la década de 1980, pero debido a la insuficiente potencia de la computadora, el desarrollo de Dragon Systems (ahora propiedad de Nuance Communications) no tuvo tiempo para determinar los espacios entre palabras sobre la marcha, lo cual es necesario para reconocer el habla natural. Sin esto, las palabras "durante el tratamiento", por ejemplo, podrían ser escuchadas por la computadora como "lisiadas".

Por delante estaba la creciente popularidad de los sistemas de reconocimiento de voz, las redes neuronales, la aparición de la búsqueda por voz de Google en dispositivos móviles y, por último, el asistente de voz Siri, que no solo convertía la voz en texto, sino que también respondía adecuadamente a las consultas construidas de forma natural.

¿Cómo escuchar lo que se dijo y pensar en lo que era inaudible?


Hoy en día, la mejor herramienta para crear un motor de reconocimiento de voz es la red neuronal recurrente (RNN), en la que se construyen todos los servicios modernos para reconocer voz, música, imágenes, caras, objetos y texto. RNN le permite comprender palabras con extrema precisión, así como predecir la palabra más probable en el contexto del contexto si no se reconoce.

La clasificación temporal de la red neuronal del modelo (CTC) selecciona fonemas individuales en el flujo de audio grabado (palabra, frase) y los organiza en el orden en que fueron pronunciados. Después de un análisis repetido, CTC identifica muy claramente ciertos fonemas, y su grabación de texto se compara con la base de datos de palabras en la red neuronal y luego se convierte en una palabra reconocida.

Las redes neuronales se llaman así porque el principio de su trabajo es similar al trabajo del cerebro humano. El entrenamiento de la red neuronal es muy similar al entrenamiento humano. Por ejemplo, para que un niño muy pequeño aprenda a reconocer los automóviles y distinguirlos de las motocicletas, necesita al menos varias veces llamar su atención sobre varios automóviles y cada vez pronunciar la palabra correspondiente: esto es grande y rojo, el automóvil y este negro bajo, el automóvil, pero esto Y estas son motocicletas. En algún momento, el niño descubrirá patrones y señales comunes para diferentes automóviles, y aprenderá a reconocer correctamente dónde está el automóvil, dónde está el jeep, dónde está la motocicleta y dónde está el ATV, incluso si al pasar los ve en un cartel publicitario en la calle. De la misma manera, la red neuronal necesita ser entrenada con una base de ejemplos, forzándola a "estudiar" cientos y miles de variantes de pronunciación para cada palabra, letra, fonema.

Una red neuronal recurrente para el reconocimiento de voz es buena porque después de un largo entrenamiento en la base de varias pronunciaciones, aprenderá a distinguir los fonemas de las palabras y hacer palabras a partir de ellas, independientemente de la calidad y la naturaleza de la pronunciación. E incluso "pensar" con alta precisión, dentro del contexto de la palabra, palabras que no pudieron reconocerse sin ambigüedad debido a los ruidos de fondo o la pronunciación confusa.

Pero hay un matiz con las predicciones RNN: una red neuronal recurrente puede "pensar" una palabra que falta solo al confiar en el contexto más cercano de aproximadamente cinco palabras. Fuera de este espacio, no se realizarán análisis. ¡Y a veces es tan necesario! Por ejemplo, para el reconocimiento, pronunciamos la frase "Gran poeta ruso Alexander Sergeyevich Pushkin", En el que la palabra" Pushkin "(especialmente en cursiva) se decía tan inaudiblemente que la IA no podía reconocerla con precisión. Pero una red neuronal recurrente, basada en la experiencia adquirida durante el entrenamiento, puede sugerir que la palabra "Pushkin" se encuentra con mayor frecuencia junto a las palabras "ruso", "poeta", "Alexander" y "Sergeyevich". Esta es una tarea bastante simple para un RNN entrenado en textos en ruso, porque un contexto muy específico nos permite hacer suposiciones con la mayor precisión.

¿Y si el contexto es vago? Tome otro texto en el que no se puede reconocer una palabra: “Nuestro todo, Alexander Sergeyevich Pushkin, murió trágicamente en la plenitud de su vida después de un duelo con Dantes. El Festival de Teatro Pushkin lleva el nombre del poeta. Si elimina la palabra "Pushkinsky", RNN simplemente no puede adivinarla, según el contexto de la propuesta, porque solo menciona un festival de teatro y una referencia al nombre de un poeta desconocido: ¡hay toneladas de opciones posibles!

Aquí es donde entra en juego la arquitectura de memoria a largo plazo (LSTM) para redes neuronales recurrentes, creada en 1997 (un artículo detallado sobre LSTM ) .) Fue desarrollado especialmente para agregar la capacidad de RNN de tener en cuenta el contexto remoto del evento que se está procesando: los resultados de resolver problemas anteriores (es decir, el reconocimiento de palabras) pasan por todo el proceso de reconocimiento, sin importar cuánto tiempo dura el monólogo, y se tienen en cuenta en cada caso de duda. Además, la distancia de eliminación casi no tiene efecto sobre la eficiencia de la arquitectura. Con la ayuda de LSTM, si es necesario, una red de palabras tendrá en cuenta toda la experiencia disponible en el marco de la tarea: en nuestro ejemplo, RNN mirará la oración anterior y descubrirá que Pushkin y Dantes fueron mencionados anteriormente, por lo tanto, "Por el nombre del poeta" probablemente apunta a uno de ellos. Como no hay evidencia de la existencia del Festival de Teatro de Dantes,estamos hablando de Pushkinsky (sobre todo porque la huella sonora de una palabra no reconocida es muy similar): tal festival fue la base para entrenar la red neuronal.

"Confesión de un asistente de voz". Cuando entra en juego una red neuronal bien entrenada, un asistente de voz puede determinar exactamente qué se debe hacer con las "zapatillas verdes"

¿Cómo el reconocimiento de voz hace del mundo un lugar mejor?


En cada caso, la aplicación es diferente: ayuda a alguien a comunicarse con dispositivos y, según PricewaterhouseCooper , más de la mitad de los usuarios de teléfonos inteligentes dan comandos de voz a los dispositivos, entre los adultos (de 25 a 49 años), el porcentaje de quienes usan constantemente interfaces de voz, incluso mayor que entre los jóvenes (18-25): 65% contra 59%. Y en Rusia al menos una vez, al menos el 71% de la población se comunicó con Siri, Google Assitant o Alice. 45 millones de rusos se comunican constantemente con "Alisa" de Yandex, y Yandex.Maps / Yandex.Navigator representa solo el 30% de las solicitudes.

El reconocimiento de voz realmente ayuda a alguien en el trabajo, por ejemplo, como dijimos anteriormente, a los médicos: en medicina desde 1996 (cuando salió IBM MedSpeak), el reconocimiento se usa para grabar anamnesis y estudiar imágenes: un médico puede continuar trabajando sin distraerse con grabaciones en computadora o tarjeta de papel. Por cierto, el trabajo sobre dictado en medicina se lleva a cabo no solo en Occidente: en Rusia hay un programa Voice2Med del "Centro de Tecnologías del Habla".

Hay otros ejemplos, incluido el nuestro. Organizar un negocio Toshiba implica la inclusión total, es decir, la igualdad de derechos y oportunidades para las personas con diversas afecciones de salud, incluidos los empleados con discapacidad auditiva. Tenemos un programa corporativo llamado Universal Design Advisor System, en el que las personas con diversos tipos de discapacidades participan en el desarrollo de productos Toshiba, haciendo sugerencias para mejorar su conveniencia para las personas con discapacidades, es decir, no asumimos cómo podemos mejorar, sino que operamos con experiencia real. y revisiones de empleados.

Hace unos años, en la sede de Toshiba en Japón, nos enfrentamos a una tarea muy interesante, que requería el desarrollo de un nuevo sistema de reconocimiento de voz. Durante el funcionamiento del Sistema Universal de Asesores de Diseño, recibimos una información importante: los empleados con discapacidad auditiva desean participar en debates en reuniones y conferencias en tiempo real, y no limitarse a leer la transcripción procesada horas o días después. Iniciar el reconocimiento de voz a través de un teléfono inteligente en tales casos da un resultado muy débil, por lo que los especialistas de Toshiba tuvieron que comenzar a desarrollar un sistema de reconocimiento especializado. Y, por supuesto, inmediatamente nos encontramos con problemas.

La conversación difiere enormemente del discurso escrito: no hablamos de la forma en que escribimos cartas, y una conversación real traducida al texto parece muy descuidada e incluso ilegible. Es decir, incluso si convertimos conversaciones en el plan de la mañana en texto con alta precisión, obtendremos un hash incoherente repleto de parásitos verbales, interjecciones y reflexivos "aaa", "uh" y "mmm". Para deshacerse de la transcripción de sonidos, palabras y expresiones de emociones innecesarias en el texto, decidimos desarrollar una IA capaz de reconocer con la máxima precisión los elementos no siempre necesarios del habla coloquial, incluida la coloración emocional de algunas palabras (por ejemplo, "sí, bueno" puede sonar como escepticismo o cómo sincera sorpresa, y estos son literalmente significados opuestos).


Parece una computadora portátil con un conjunto de periféricos para reconocimiento de voz con Toshiba AI (izquierda) y una aplicación con los resultados para dispositivos finales (derecha). Fuente: Toshiba

LSTM fue útil aquí, sin lo cual la precisión del reconocimiento fue insuficiente para que el texto recibido se lea y entienda sin esfuerzo. Además, LSTM fue útil no solo para una predicción más precisa de las palabras en contexto, sino también para el procesamiento correcto de las pausas en el medio de las oraciones y parásitos interjecciones: para esto enseñamos a la red neuronal estos parásitos y pausas que son naturales para el habla coloquial.

¿Significa esto que ahora la red neuronal puede eliminar las interjecciones de las transcripciones? Sí, puede, pero esto no es necesario. El hecho es que (otra información recibida) las personas con discapacidad auditiva son guiadas, incluso por los movimientos de los labios del hablante. Si los labios se mueven, pero el texto correspondiente a estos movimientos no aparece en la pantalla, existe la sensación de que el sistema de reconocimiento ha perdido parte de la conversación. Es decir, para alguien que no puede escuchar, es importante obtener tanta información como sea posible sobre la conversación, incluidas pausas y mejometias desafortunadas. Por lo tanto, el motor Toshiba deja estos elementos en la transcripción, pero en tiempo real atenúa el brillo de las letras, dejando en claro que estos son detalles opcionales para comprender el texto.

Así es como se ve el resultado del reconocimiento sobre la marcha en el dispositivo cliente. Las partes del monólogo que no son significativas están pintadas de gris.

Ahora Toshiba AI trabaja con inglés, japonés y chino, e incluso es posible la traducción entre idiomas sobre la marcha. No es necesario usarlo para taquigrafía sobre la marcha: la IA se puede adaptar para trabajar con asistentes de voz, quienes finalmente aprenden a percibir adecuadamente las interjecciones, pausas y tartamudeos cuando una persona pronuncia un comando. En marzo de 2019, el sistema se utilizó con éxito para agregar subtítulos a la transmisión de la Convención Nacional IPSJ en Japón. En un futuro cercano: la transformación de la IA de Toshiba en un servicio público y experiencias con la implementación del reconocimiento de voz en la producción.

All Articles