Procesamiento natural del lenguaje. Resultados 2019 y tendencias para 2020

Hola a todos. Con cierto retraso, decidí publicar este artículo. Todos los años trato de resumir lo que sucedió en el campo del procesamiento del lenguaje natural. Este año no fue la excepción.

BERTs, BERTs están en todas partes


Comencemos en orden. Si no se ha ido a la remota taiga siberiana o de unas vacaciones en Goa durante el último año y medio, entonces debe haber escuchado la palabra BERT. Apareciendo a fines de 2018, en el pasado, este modelo ha ganado tanta popularidad que tal imagen será la correcta:



Los BERT realmente cautivaron todo lo que podría llenarse en PNL. Comenzaron a usarse para la clasificación, el reconocimiento de entidades con nombre e incluso para la traducción automática. En pocas palabras, no puede evitarlos y aún tiene que decir qué es.



La imagen muestra una comparación del héroe de la ocasión (izquierda) con dos modelos que también sonaron. A la derecha está el predecesor inmediato de BERT: el modelo ELMo .

Digresión lírica.
image
« »: , , Elmo, Bert — ; , , , — . . , , .

El modelo Allen AI ELMo es una especie de sucesor de todo el desarrollo de la región en años anteriores, es decir, una red neuronal recurrente bidireccional, además de varios trucos nuevos para arrancar. Los colegas de OpenAI han decidido qué se puede hacer mejor. Y para esto solo necesita aplicar la arquitectura Transformer presentada el año anterior a Google para esta tarea. Creo que en los últimos 2.5 años, todos ya se han familiarizado con esta arquitectura, por lo que no me detendré en detalles. Para aquellos que desean recibir la comunión, me remito a mi reseña del año 2017 .

Ellos (empleados de OpenAI) llamaron a su modelo GPT-2 . Y luego, en este modelo, han hecho un buen trabajo. Pero dejémoslo en su conciencia y regresemos a nuestras ovejas, es decir, a las modelos.

Uno de los trucos más importantes de ELMo fue el entrenamiento previo en un caso grande sin asignar. Resultó muy bien, y los colegas de Google decidieron que podemos hacerlo aún mejor. Además de aplicar la arquitectura Transformer (que ya estaba en GPT-2), BERT, que significa Representaciones de codificador bidireccional de Transformers, es decir, representaciones vectoriales de un codificador bidireccional basado en la arquitectura Transformer, contenía varias cosas más importantes. Específicamente, lo más importante era la forma de entrenar en un caso grande.



La imagen muestra un método para marcar datos no asignados. Dos métodos de diseño se muestran específicamente a la vez. Primero, se toma una secuencia de tokens (palabras), por ejemplo, una oración, y en esta secuencia se enmascara un token arbitrario ([MASK]). Y el modelo en el proceso de aprendizaje debería adivinar qué tipo de token se disfrazó. La segunda forma: dos oraciones se toman secuencialmente o de lugares arbitrarios en el texto. Y el modelo debe adivinar si estas oraciones fueron secuenciales ([CLS] y [SEP]).

La idea de tal entrenamiento fue extremadamente efectiva. La respuesta de amigos jurados de Facebook fue el modelo RoBERTa , un artículo sobre este modelo llamado "Capacitación BERT optimizada de manera sostenible". Además.

No enumeraré todas las formas de mejorar la capacitación de un modelo de lenguaje grande basado en la arquitectura Transfomer debido al hecho de que es simplemente aburrido. Menciono, quizás, solo el trabajo de mis colegas de Hong Kong - ERNIE . En su trabajo, los colegas enriquecen la capacitación mediante el uso de gráficos de conocimiento.

Antes de continuar, aquí hay algunos enlaces útiles: un artículo sobre BERT . Además de un conjunto de modelos BERT y ELMo entrenados para el idioma ruso.

Modelos pequeños


Pero lo suficiente sobre los BERT. Hay varias tendencias más importantes. En primer lugar, esta es una tendencia a reducir el tamaño del modelo. El mismo BERT es muy exigente con los recursos, y muchos comenzaron a pensar en cómo mantener (o no perder realmente) la calidad, reducir los recursos necesarios para que los modelos funcionen. A los colegas de Google se les ocurrió un pequeño BERT, no estoy bromeando. ALBERT: Un pequeño BERT . Puede ver que el pequeño BERT incluso supera a su hermano mayor en la mayoría de las tareas, mientras que tiene un orden de magnitud menos parámetros.



Mis colegas de Hong Kong hicieron otra aproximación al mismo bar. Se les ocurrió un pequeño BERT - TinyBERT . (Si en este punto creía que los nombres comenzaron a repetirse, me inclino a estar de acuerdo con usted).



La diferencia fundamental entre los dos modelos anteriores es que si ALBERT usa trucos difíciles para reducir el modelo BERT original, por ejemplo, compartir parámetros y reducir la dimensión de las representaciones internas de vectores a través de la descomposición de la matriz, entonces TinyBERT usa un enfoque fundamentalmente diferente, es decir, la destilación del conocimiento, es decir, hay Un pequeño modelo que aprende a repetir después de su hermana mayor en el proceso de aprendizaje.

Cajas pequeñas


En los últimos años (desde aproximadamente 1990, cuando apareció Internet), ha habido un aumento en los edificios disponibles. Luego llegaron los algoritmos que se volvieron capaces de procesar recintos tan grandes (esto es lo que llamamos la "revolución del aprendizaje profundo", este ya es el año desde 2013). Y, como resultado, se comenzó a percibir normalmente que para obtener buena calidad en alguna tarea, se necesitan grandes conjuntos de datos marcados, corpus de textos en nuestro caso. Por ejemplo, los casos típicos para aprender tareas de traducción automática hoy en día se miden en millones de pares de oraciones. Durante mucho tiempo ha sido obvio que para muchas tareas es imposible reunir tales casos en un período de tiempo razonable y por una cantidad de dinero razonable. Durante mucho tiempo no estuvo muy claro qué hacer al respecto. Pero el año pasado (¿quién pensarías?) BERT entró en escena.Este modelo fue capaz de entrenar previamente en grandes volúmenes de textos no asignados, y el modelo terminado fue fácil de adaptar a la tarea con un pequeño caso.



Todas las tareas enumeradas en esta tabla tienen cuerpos de entrenamiento del tamaño de varios miles de unidades. Es decir, dos o tres órdenes de magnitud menos. Y esta es otra razón por la cual BERT (y sus descendientes y parientes) se han vuelto tan populares.

Nuevas tendencias


Bueno, al final, un par de nuevas tendencias, como las vi. En primer lugar, este es un cambio fundamental en la actitud hacia el texto. Si todo el tiempo anterior en la mayoría de las tareas, el texto se percibía solo como material de entrada, y la salida era algo útil, por ejemplo, una etiqueta de clase. Ahora, la comunidad tiene la oportunidad de recordar que el texto es principalmente un medio de comunicación, es decir, también puede "hablar" con el modelo: hacer preguntas y recibir respuestas en forma de texto legible por humanos. Esto es lo que dice el nuevo artículo de Google T5 (el nombre se puede traducir como "transformador cinco veces").



Otra tendencia importante es que la región está volviendo a aprender a trabajar con textos largos. Desde los años 70, la comunidad tiene formas de trabajar con texto de longitudes arbitrarias: tome el mismo TF-IDF. Pero estos modelos tienen su propio límite de calidad. Pero los nuevos modelos de aprendizaje profundo no pudieron trabajar con textos largos (el mismo BERT tiene un límite de 512 tokens de la longitud del texto de entrada). Pero últimamente, han aparecido al menos dos trabajos que desde diferentes lados abordan el problema del texto largo. El primer trabajo del grupo de Ruslan Salakhutdinov llamado Transformer-XL.



En este trabajo, se revive la idea que hizo que las redes recurrentes fueran tan populares: puede guardar el estado anterior y usarlo para construir el siguiente, incluso si no hace retroceder el gradiente en el tiempo (BPTT).

SegundoEl trabajo funciona con polinomios de Legendre y, con su ayuda, permite procesar secuencias de decenas de miles de tokens con redes neuronales recurrentes.

Sobre esto, me gustaría terminar la revisión de los cambios que han tenido lugar y las tendencias emergentes. Veamos qué sucederá este año, estoy seguro de que hay muchas cosas interesantes. Video de mi discurso sobre el mismo tema en el Árbol de datos:


PD: Pronto tendremos algunos anuncios más interesantes, ¡no cambies!

Source: https://habr.com/ru/post/undefined/


All Articles