Traducción automática De la guerra fría al presente

La traducción automática se ha generalizado en los últimos años. Seguramente, la mayoría de mis lectores han usado los servicios Google.Translate o Yandex.Translation al menos una vez. También es probable que muchas personas recuerden que no hace mucho tiempo, hace unos 5 años, el uso de traductores automáticos era muy difícil. No es fácil en el sentido de que dieron una traducción de muy mala calidad. Debajo del corte hay una historia breve e incompleta de la traducción automática, desde la cual será visible en esta tarea y algunas de sus causas y consecuencias. Primero, una imagen que muestra un concepto importante con respecto a la traducción automática:



Este concepto se llama concepto de "canal ruidoso" y proviene de la ingeniería de radio. En diferentes versiones, se atribuye a varios científicos, Nyquist, Kupfmüller, Shannon, pero en esta disputa estoy apoyando a nuestro compatriota, Vladimir Alexandrovich Kotelnikov, quien en su trabajo de 1933 demostró su famoso teorema. Por sí mismo, este teorema está fuera del alcance de este artículo, por lo que estoy enviando a aquellos interesados en Wikipedia .

Para nosotros, algo más es importante. El concepto de un canal ruidoso se ha aplicado a una nueva dirección: la traducción automática. Después del final de la Segunda Guerra Mundial, nuestros socios en el extranjero decidieron que la Unión Soviética, que había demostrado su fuerza al derrotar al mejor ejército de Europa y el mundo, representaba una seria amenaza. Se tomaron varias medidas para detener esta amenaza, incluido el trabajo en la traducción automática del ruso al inglés. Esto era necesario porque la Unión Soviética producía mucha información: programas de televisión, charlas de radio, libros y revistas. Y si tenemos en cuenta las negociaciones de nuestros aliados sobre la organización del Pacto de Varsovia, entonces la magnitud del problema ya era simplemente aterradora: no era posible entrenar, y aún más mantener un ejército de traductores profesionales.Y aquí nació la idea: digamos que el texto en ruso es solo un texto distorsionado en inglés, e intentaremos algorítmicamente restaurar el texto "fuente". Esto es exactamente lo que propuso Warren Weaver en 1949.

Conceptualmente, se ve hermoso, pero la pregunta es cómo implementarlo. Con un fuerte avance en el tiempo, esto se realizó sobre la base de la llamada traducción de frases.

Pero vamos en orden. ¿Cuál es la forma más fácil de traducir a la mente? Traducción de diccionario: es decir, se toma un diccionario listo y todas las palabras de la oración se reemplazan con sus equivalentes en otro idioma. Este enfoque fue propuesto por la notoria compañía de IBM en 1989.. Este enfoque tiene un inconveniente obvio: el orden de las palabras en diferentes idiomas puede diferir, y a veces mucho. El siguiente paso en este modelo es permitir la permutación de las palabras. ¿Y cómo se pueden predecir estas permutaciones? En el mismo trabajo, se propuso otro modelo (si el primero se llama Modelo 1, el segundo se llama lógicamente Modelo 2). En este sistema, además del diccionario, hay un llamado modelo de alineación: correlación de palabras en dos oraciones entre sí. La alineación se aprende según las estadísticas corporales. El inconveniente obvio de este modelo es que se necesita mucho esfuerzo para preparar el caso en el que se realiza la alineación, los traductores profesionales no solo deben traducir el texto, sino también indicar qué palabra es qué traducción.

Vale la pena señalar que, además del orden diferente de las palabras, existe, por ejemplo, el problema de que algunas palabras estarán completamente sin traducción (por ejemplo, los artículos no existen en ruso), y algunas palabras requerirán más de una traducción palabra (por ejemplo, preposición + sustantivo). Los colegas de IBM llamaron a esto la tasa de fertilidad y crearon modelos para ella también basados ​​en estadísticas. Este es el Modelo 3 (bastante predecible, ¿no?). En el mismo trabajo, se describen varios modelos más, desarrollan las ideas descritas agregando condiciones para predecir la traducción de una palabra, por ejemplo, a la palabra anterior, ya que algunas palabras se combinan mejor entre sí y, por lo tanto, son más comunes. Todo este grupo de modelos dio lugar a la llamada traducción basada en frases.

Esta dirección existió y se desarrolló, en particular, se desarrolló un marco abierto para la traducción automática Moses (en el sitio web oficial se puede ver que ha caído en decadencia). En un momento, este era el principal medio de traducción automática, aunque la traducción automática no era tan común en ese momento. Pero en 2014 sucedió algo terrible: el aprendizaje profundo llegó al campo de la traducción automática. Si recuerdas un año antes, se trataba de representaciones vectoriales de palabras, describí este artículo sobre incrustaciones . Y en 2014, un artículo fue publicado por Dmitry Bogdanov (y coautores, uno de los cuales fue el famoso Yoshua Bengio) titulado Neural Machine Translation by Jointly Learning to Align and Translate(o - traducción automática neuronal a través del entrenamiento conjunto de alineación y traducción). En este trabajo, Dmitry propuso el uso del mecanismo de atención para redes neuronales recurrentes y con su ayuda pudo vencer al mencionado Moisés en una cantidad significativa.

Aquí debe desviarse y hablar sobre cómo medir la calidad de la traducción automática. En el trabajo de PapineniEn 2002, se propuso la métrica BLEU (estudio de evaluación bilingüe - estudio de comparación bilingüe). Esta métrica básicamente compara cuántas palabras de la traducción automática coinciden con las palabras de la versión humana. Luego se comparan las combinaciones de dos palabras, tres, cuatro. Se promedian todas estas cifras y se obtiene exactamente una cifra que describe la calidad del sistema de traducción automática en este edificio. Esta métrica tiene sus inconvenientes, por ejemplo, puede haber diferentes opciones humanas para traducir un texto, pero sorprendentemente durante casi 20 años, no se ha propuesto nada mejor para evaluar la calidad de una traducción.

Pero volvamos al mecanismo de atención. Cabe decir que las redes recurrentes se propusieron 15 años antes, y luego no crearon ningún furor. Un problema importante con estas redes fue que rápidamente olvidaron lo que "leían". Resuelva parcialmente este problema para la traducción automática y el mecanismo de atención ayudó. Aquí está en la imagen:



¿Qué está haciendo? Pesa las palabras en la entrada para dar un vector de palabras para la traducción. Esto es lo que hizo posible construir automáticamente matrices de alineación basadas en texto sin formato sin marcado. Por ejemplo, tales:

imagen

Después de que todos vieron que era posible, se dedicaron grandes esfuerzos a la traducción automática, que se convirtió en el campo de procesamiento de lenguaje natural de más rápido crecimiento. Se han logrado mejoras significativas de calidad, incluso para pares de idiomas distantes, como inglés y chino o inglés y ruso. Las redes recurrentes gobernaron la pelota durante bastante tiempo según los estándares modernos, casi 4 años. Pero a finales de 2017, sonaron las trompetas anunciando el acercamiento de un nuevo rey de la montaña. Era un artículo llamado Atención, es todo lo que necesitas (atención es todo lo que necesitas; una paráfrasis del nombre de la famosa canción de The Beatles "Todo lo que necesitas es amor"). Este artículo presentaba la arquitectura del transformador, que consistía un poco menos que completamente en mecanismos de atención. Hablé más sobre ella en un artículo sobreResultados de 2017 , así que no me repetiré.

Desde entonces, ha fluido bastante agua, pero, sin embargo, queda mucho más. Por ejemplo, hace dos años, a principios de 2018, los investigadores de Microsoft anunciaron el logro de la igualdad en calidad con una traducción humana traducida del inglés a los documentos de noticias chinos. Este artículo ha sido muy criticado, principalmente desde el punto de vista de que el logro de números iguales por BLEU es un indicador de la adecuación incompleta de la métrica BLEU. Pero se generó bombo publicitario.

Otra dirección interesante en el desarrollo de la traducción automática es la traducción automática sin datos paralelos. Como recordará, el uso de redes neuronales nos permitió abandonar el marcado de alineación en los textos traducidos para enseñar el modelo de traducción automática. Los autores de la traducción automática no supervisada usando solo corporaciones monolingües (una traducción automática que usa solo datos monolingües) presentaron un sistema que con cierta calidad fue capaz de traducir del inglés al francés (la calidad, por supuesto, fue inferior a los mejores logros de ese tiempo, pero solo en un 10%) . Curiosamente, los mismos autores mejoraron su enfoque utilizando ideas de traducción de frases más adelante ese año.

Finalmente, lo último que me gustaría destacar es la llamada traducción no autorregresiva. ¿Lo que es? Todos los modelos, comenzando con IBM Model 3, se basan en palabras anteriores ya traducidas al traducir. Y los autores del trabajo , que se llama traducción automática no autorregresiva, intentaron deshacerse de esta dependencia. La calidad también resultó ser ligeramente menor, pero la velocidad de tal traducción puede ser decenas de veces más rápida que para los modelos autorregresivos. Teniendo en cuenta que los modelos modernos pueden ser muy grandes y lentos, esta es una ganancia significativa, especialmente bajo cargas pesadas.

No hace falta decir que la región no se detiene y se proponen nuevas ideas, por ejemplo, la llamada retrotraducción, cuando los datos monolingües traducidos por el modelo en sí se utilizan para capacitación adicional; el uso de redes de convolución, que también es más rápido que el transformador estándar en estos días; el uso de modelos de lenguaje grande pre-entrenados (tengo un artículo separado sobre ellos ). Todos, lamentablemente, no se pueden enumerar.

Nuestra empresa cuenta con uno de los principales científicos en el campo de la traducción automática: el profesor Qun Liu. El profesor Liu y yo estamos liderando un curso sobre procesamiento del lenguaje natural, en el que se presta una atención considerable específicamente a la traducción automática. Si está interesado en esta área, aún puede unirse a nuestro curso , que comenzó hace un mes.

Y si sientes la fuerza en ti mismo, ¡nos alegrará verte entre los participantes en nuestra competencia para traducir del chino al ruso! La competencia comenzará el 14 de abril y durará exactamente un mes. Esperamos que nuestros participantes logren nuevos resultados en esta tarea y puedan avanzar en todo el campo de la traducción automática. La competencia se llevará a cabo en la plataforma MLBootCamp, y estamos muy agradecidos con el equipo de MLBootCamp y personalmente con Dmitry Sannikov por su ayuda en la organización.

Enlace de competencia

All Articles