Traitement du langage naturel. RĂ©sultats 2019 et tendances 2020

Bonjour à tous. Avec un peu de retard, j'ai décidé de publier cet article. Chaque année, j'essaie de résumer ce qui s'est passé dans le domaine du traitement du langage naturel. Cette année ne faisait pas exception.

Les BERT, les BERT sont partout


Commençons dans l'ordre. Si vous n'êtes pas parti pour la taïga sibérienne éloignée ou des vacances à Goa depuis un an et demi, alors vous devez avoir entendu le mot BERT. Apparu à la toute fin de 2018, au cours du temps passé, ce modèle a acquis une telle popularité que l'image sera juste:



Les BERT ont vraiment captivé tout ce qui pouvait être rempli en PNL. Ils ont commencé à être utilisés pour la classification, la reconnaissance des entités nommées et même pour la traduction automatique. Autrement dit, vous ne pouvez pas les contourner et vous devez toujours dire de quoi il s'agit.



La photo montre une comparaison du héros de l'occasion (à gauche) avec deux modèles qui sonnaient également. Sur la droite se trouve le prédécesseur immédiat de BERT - le modèle ELMo .

Digression lyrique.
image
« »: , , Elmo, Bert — ; , , , — . . , , .

Le modèle Allen AI ELMo est une sorte de successeur de tout le développement de la région au cours des années précédentes - à savoir, un réseau neuronal récurrent bidirectionnel, ainsi que plusieurs nouvelles astuces pour démarrer. Les collègues d' OpenAI ont décidé de ce qui peut être mieux fait. Et pour cela, il vous suffit d'appliquer l'architecture Transformer présentée l'année précédente à Google à cette tâche. Je crois qu'au cours des 2,5 dernières années, tout le monde a déjà réussi à se familiariser avec cette architecture, donc je ne m'y attarderai pas en détail. Pour ceux qui souhaitent recevoir la communion, je me réfère à mon bilan de la 2017e année .

Ils (employés d'OpenAI) ont appelé leur modèle GPT-2 . Et puis, sur ce modèle, ils ont fait du très bon travail. Mais laissons cela à leur conscience et revenons à nos moutons, c'est-à-dire les modèles.

L'une des astuces ELMo les plus importantes était la pré-formation sur un grand cas non alloué. Cela s'est très bien passé et des collègues de Google ont décidé que nous pouvions faire encore mieux. En plus d'appliquer l'architecture Transformer (qui était déjà dans GPT-2), BERT, qui représente les représentations d'encodeur bidirectionnelles des transformateurs, c'est-à-dire les représentations vectorielles d'un encodeur bidirectionnel basé sur l'architecture Transformer, contenait plusieurs éléments plus importants. Plus précisément, le plus important était la façon de s'entraîner sur un gros dossier.



L'image montre une méthode pour baliser les données non allouées. Deux méthodes de mise en page sont spécifiquement présentées à la fois. Tout d'abord, une séquence de jetons (mots) est prise, par exemple, une phrase, et dans cette séquence, un jeton arbitraire ([MASQUE]) est masqué. Et le modèle dans le processus d'apprentissage devrait deviner quel type de jeton était déguisé. La deuxième façon - deux phrases sont prises séquentiellement ou à des endroits arbitraires dans le texte. Et le modèle doit deviner si ces phrases étaient séquentielles ([CLS] et [SEP]).

L'idée d'une telle formation était extrêmement efficace. La réponse d'amis jurés de Facebook était le modèle RoBERTa , un article sur ce modèle est intitulé «Formation BERT durablement optimisée». En outre.

Je ne vais pas énumérer toutes les façons d'améliorer la formation d'un grand modèle de langage basé sur l'architecture Transfomer car il est tout simplement ennuyeux. Je ne mentionne peut-être que le travail de mes collègues de Hong Kong - ERNIE . Dans leur travail, les collègues enrichissent la formation en utilisant des graphiques de connaissances.

Avant de poursuivre, voici quelques liens utiles: un article sur BERT . Ainsi qu'un ensemble de modèles BERT et ELMo formés pour la langue russe.

Petits modèles


Mais assez parlé des BERT. Il existe plusieurs tendances plus importantes. Tout d'abord, il s'agit d'une tendance à réduire la taille du modèle. Le même BERT est très exigeant en ressources, et beaucoup ont commencé à réfléchir à la façon de maintenir (ou de ne pas vraiment perdre) la qualité, de réduire les ressources nécessaires au fonctionnement des modèles. Des collègues de Google ont proposé un petit BERT, je ne plaisante pas - ALBERT: Un petit BERT . Vous pouvez voir que le petit BERT surpasse même son frère aîné dans la plupart des tâches, tout en ayant un ordre de grandeur moins de paramètres.



Une autre approche du même bar a été faite à nouveau par mes collègues de Hong Kong. Ils sont venus avec un petit BERT - TinyBERT . (Si à ce stade, vous pensiez que les noms ont commencé à être répétés, je suis enclin à être d'accord avec vous.)



La différence fondamentale entre les deux modèles ci-dessus est que si ALBERT utilise des astuces pour réduire le modèle BERT d'origine, par exemple, le partage de paramètres et la réduction de la dimension des représentations vectorielles internes grâce à la décomposition matricielle, alors TinyBERT utilise une approche fondamentalement différente, à savoir la distillation des connaissances, c'est-à-dire qu'il existe un petit modèle qui apprend à répéter après sa sœur aînée dans le processus d'apprentissage.

Petits Ă©tuis


Ces dernières années (depuis environ 1990, lorsque l'Internet est apparu), il y a eu une augmentation des bâtiments disponibles. Puis sont venus les algorithmes qui sont devenus capables de traiter de si grandes enceintes (c'est ce que nous appelons la «révolution du deep learning», c'est déjà l'année depuis 2013). Et, en conséquence, il a commencé à être perçu normalement que pour obtenir une bonne qualité dans certaines tâches, d'énormes tableaux de données balisées sont nécessaires - des corps de texte dans notre cas. Par exemple, les cas typiques d'apprentissage des tâches de traduction automatique aujourd'hui sont mesurés en millions de paires de phrases. Il est depuis longtemps évident que pour de nombreuses tâches, il est impossible de rassembler de tels cas dans un délai raisonnable et pour un montant raisonnable. Pendant longtemps, on ne savait pas trop quoi faire à ce sujet. Mais l'année dernière (qui pensez-vous?) BERT est entré en scène.Ce modèle a pu se pré-former sur de grands volumes de textes non alloués, et le modèle fini était facile à adapter à la tâche avec un petit boîtier.



Toutes les tâches énumérées dans ce tableau ont un corps d'entraînement de la taille de plusieurs milliers d' unités. Autrement dit, deux à trois ordres de grandeur de moins. Et c'est une autre raison pour laquelle le BERT (et ses descendants et parents) sont devenus si populaires.

Nouvelles tendances


Eh bien, au final, quelques nouvelles tendances, comme je les ai vues. Tout d'abord, il s'agit d'un changement fondamental d'attitude à l'égard du texte. Si tout le temps précédent dans la plupart des tâches, le texte n'était perçu que comme matériel d'entrée, et la sortie était quelque chose d'utile, par exemple, une étiquette de classe. La communauté a maintenant la possibilité de se rappeler que le texte est avant tout un moyen de communication, c'est-à-dire que vous pouvez «parler» au modèle - poser des questions et recevoir des réponses sous la forme d'un texte lisible par l'homme. C'est ce que dit le nouvel article de Google T5 (le nom peut être traduit par «transformateur cinq fois»).



Une autre tendance importante est que la région réapprend à travailler avec de longs textes. Depuis les années 70, la communauté a des moyens de travailler avec des textes de longueurs arbitraires - prenez le même TF-IDF. Mais ces modèles ont leur propre limite de qualité. Mais les nouveaux modèles d'apprentissage en profondeur n'étaient pas capables de travailler avec des textes longs (le même BERT a une limite de 512 jetons de la longueur du texte d'entrée). Mais ces derniers temps, au moins deux ouvrages sont apparus qui, sous des angles différents, abordent le problème du texte long. Le premier travail du groupe de Ruslan Salakhutdinov appelé Transformer-XL.



Dans ce travail, l'idée est relancée qui a rendu les réseaux récursifs si populaires - vous pouvez enregistrer l'état précédent et l'utiliser pour créer le suivant, même si vous ne faites pas reculer le dégradé dans le temps (BPTT).

Deuxièmele travail fonctionne avec les polynômes de Legendre et avec leur aide vous permet de traiter des séquences de dizaines de milliers de jetons avec des réseaux de neurones récurrents.

Sur ce point, je voudrais terminer l'examen des changements qui ont eu lieu et des tendances émergentes. Voyons ce qui va se passer cette année, je suis sûr que beaucoup de choses intéressantes. Vidéo de mon discours sur le même sujet dans l'arbre de données:


PS Nous aurons bientôt d'autres annonces intéressantes, ne changez pas!

Source: https://habr.com/ru/post/undefined/


All Articles