Verarbeitung natürlicher Sprache. Ergebnisse 2019 und Trends für 2020

Hallo alle zusammen. Mit einiger Verzögerung habe ich beschlossen, diesen Artikel zu veröffentlichen. Jedes Jahr versuche ich zusammenzufassen, was auf dem Gebiet der Verarbeitung natürlicher Sprache passiert ist. Dieses Jahr war keine Ausnahme.

BERTs, BERTs sind überall


Fangen wir in der richtigen Reihenfolge an. Wenn Sie in den letzten anderthalb Jahren nicht in die abgelegene sibirische Taiga oder in den Urlaub nach Goa gereist sind, müssen Sie das Wort BERT gehört haben. Dieses Modell, das Ende 2018 in der Vergangenheit erschien, hat eine solche Popularität erlangt, dass genau ein solches Bild genau richtig sein wird:



BERTs faszinierten wirklich alles, was in NLP gefüllt werden konnte. Sie wurden zur Klassifizierung, Erkennung benannter Entitäten und sogar zur maschinellen Übersetzung verwendet. Einfach ausgedrückt, Sie können sie nicht umgehen und müssen immer noch sagen, was es ist.



Das Bild zeigt einen Vergleich des Helden des Anlasses (links) mit zwei Modellen, die ebenfalls klangen. Rechts ist der unmittelbare Vorgänger von BERT - das ELMo- Modell .

Lyrischer Exkurs.
image
« »: , , Elmo, Bert — ; , , , — . . , , .

Das Allen AI ELMo-Modell ist eine Art Nachfolger der gesamten Entwicklung der Region in den vergangenen Jahren - nämlich ein bidirektionales wiederkehrendes neuronales Netzwerk sowie mehrere neue Tricks. OpenAI- Kollegen haben entschieden, was besser gemacht werden kann. Dazu müssen Sie lediglich die im Jahr vor Google vorgestellte Transformer- Architektur auf diese Aufgabe anwenden . Ich glaube, dass es in den letzten 2,5 Jahren bereits allen gelungen ist, sich mit dieser Architektur vertraut zu machen, daher werde ich nicht näher darauf eingehen. Für diejenigen, die Kommunion erhalten möchten, verweise ich auf meine Bewertung aus dem 2017. Jahr .

Sie (OpenAI-Mitarbeiter) nannten ihr GPT-2- Modell . Und dann haben sie bei diesem Modell ziemlich gute Arbeit geleistet. Aber lassen wir es auf ihrem Gewissen und kehren zu unseren Schafen zurück, das heißt zu den Modellen.

Einer der wichtigsten ELMo-Tricks war das Pre-Training für einen großen, nicht zugewiesenen Fall. Es ist sehr gut gelaufen, und Kollegen von Google haben entschieden, dass wir es noch besser machen können. Neben der Anwendung der Transformer-Architektur (die bereits in GPT-2 enthalten war) enthielt BERT, das für bidirektionale Encoder-Darstellungen von Transformatoren steht, dh Vektordarstellungen von einem bidirektionalen Encoder, der auf der Transformer-Architektur basiert, einige weitere wichtige Dinge. Das Wichtigste war insbesondere die Art und Weise, in einem großen Fall zu trainieren.



Das Bild zeigt eine Methode zum Markieren nicht zugeordneter Daten. Es werden speziell zwei Layoutmethoden gleichzeitig gezeigt. Zuerst wird eine Folge von Token (Wörtern) genommen, beispielsweise ein Satz, und in dieser Folge wird ein beliebiges Token ([MASK]) maskiert. Und das Modell im Lernprozess sollte erraten, welche Art von Token getarnt wurde. Der zweite Weg - zwei Sätze werden nacheinander oder an beliebigen Stellen im Text genommen. Und das Modell muss raten, ob diese Sätze sequentiell waren ([CLS] und [SEP]).

Die Idee eines solchen Trainings war äußerst effektiv. Die Antwort von vereidigten Freunden von Facebook war das RoBERTa- Modell . Ein Artikel über dieses Modell heißt „Nachhaltig optimiertes BERT-Training“. Außerdem.

Ich werde nicht alle Möglichkeiten auflisten, um das Training eines großen Sprachmodells basierend auf der Transfomer-Architektur zu verbessern, da es einfach langweilig ist. Ich erwähne vielleicht nur die Arbeit meiner Kollegen aus Hongkong - ERNIE . In ihrer Arbeit bereichern Kollegen die Ausbildung durch die Verwendung von Wissensgraphen.

Bevor Sie fortfahren , finden Sie hier einige nützliche Links: einen Artikel über BERT . Sowie eine Reihe von geschulten BERT- und ELMo-Modellen für die russische Sprache.

Kleine Modelle


Aber genug über BERTs. Es gibt mehrere wichtige Trends. Dies ist vor allem ein Trend, die Größe des Modells zu reduzieren. Das gleiche BERT stellt hohe Anforderungen an die Ressourcen, und viele begannen darüber nachzudenken, wie die Qualität erhalten (oder nicht wirklich verloren) und die erforderlichen Ressourcen für das Funktionieren der Modelle reduziert werden können. Google-Kollegen haben sich ein kleines BERT ausgedacht, ich scherze nicht - ALBERT: Ein kleines BERT . Sie können sehen, dass der kleine BERT bei den meisten Aufgaben sogar seinen älteren Bruder übertrifft, während er um eine Größenordnung weniger Parameter hat.



Ein anderer Ansatz für dieselbe Bar wurde erneut von meinen Kollegen aus Hongkong gemacht. Sie kamen mit einem winzigen BERT - TinyBERT . (Wenn Sie zu diesem Zeitpunkt dachten, dass sich die Namen wiederholen, bin ich geneigt, Ihnen zuzustimmen.)



Der grundlegende Unterschied zwischen den beiden oben genannten Modellen besteht darin, dass, wenn ALBERT knifflige Tricks verwendet, um das ursprüngliche BERT-Modell zu reduzieren, z. B. die gemeinsame Nutzung von Parametern und die Reduzierung der Dimension interner Vektordarstellungen durch Matrixzerlegung, TinyBERT einen grundlegend anderen Ansatz verwendet, nämlich die Destillation von Wissen ein kleines Modell, das lernt, sich nach ihrer älteren Schwester im Lernprozess zu wiederholen.

Kleine Fälle


In den letzten Jahren (seit etwa 1990, als das Internet erschien) haben die verfügbaren Gebäude zugenommen. Dann kamen die Algorithmen, die in der Lage waren, so große Gehäuse zu verarbeiten (dies ist die „Revolution des tiefen Lernens“, dies ist bereits das Jahr seit 2013). Infolgedessen wurde normal wahrgenommen, dass große Arrays markierter Daten erforderlich sind, um bei einer bestimmten Aufgabe eine gute Qualität zu erzielen - in unserem Fall ein Korpus von Texten. Beispielsweise werden typische Fälle für das Erlernen von maschinellen Übersetzungsaufgaben heutzutage in Millionen von Satzpaaren gemessen. Es ist seit langem offensichtlich, dass es für viele Aufgaben unmöglich ist, solche Fälle in angemessener Zeit und für einen angemessenen Geldbetrag zusammenzustellen. Lange war nicht klar, was man dagegen tun sollte. Aber letztes Jahr (wer denkst du?) Kam BERT auf die Bühne.Dieses Modell war in der Lage, große Mengen nicht zugeordneter Texte vorab zu trainieren, und das fertige Modell war mit einem kleinen Fall leicht an die Aufgabe anzupassen.



Alle in dieser Tabelle aufgeführten Aufgaben haben ein Ausbildungskorps in der Größe von mehreren tausend Einheiten. Das heißt, zwei bis drei Größenordnungen weniger. Und dies ist ein weiterer Grund, warum BERT (und seine Nachkommen und Verwandten) so beliebt geworden sind.

Neue Trends


Nun, am Ende ein paar neue Trends, wie ich sie gesehen habe. Dies ist vor allem eine grundlegende Änderung der Einstellung zum Text. Wenn in den meisten Aufgaben die gesamte vorherige Zeit der Text nur als Eingabematerial wahrgenommen wurde und die Ausgabe etwas Nützliches war, beispielsweise eine Klassenbezeichnung. Jetzt hat die Community die Möglichkeit, sich daran zu erinnern, dass der Text in erster Linie ein Kommunikationsmittel ist, dh Sie können mit dem Modell „sprechen“ - Fragen stellen und Antworten in Form eines für Menschen lesbaren Textes erhalten. Dies ist, was der neue Artikel von Google T5 sagt (der Name kann als "fünfmal Transformator" übersetzt werden).



Ein weiterer wichtiger Trend ist, dass die Region wieder lernt, mit langen Texten zu arbeiten. Seit den 70er Jahren hat die Community Möglichkeiten, mit Text beliebiger Länge zu arbeiten - nehmen Sie dieselbe TF-IDF. Diese Modelle haben jedoch ihre eigene Qualitätsgrenze. Die neuen Deep-Learning-Modelle konnten jedoch nicht mit langen Texten arbeiten (derselbe BERT hat eine Begrenzung auf 512 Token für die Länge des Eingabetextes). In letzter Zeit sind jedoch mindestens zwei Werke erschienen, die sich von verschiedenen Seiten dem Problem des Langtextes nähern. Die erste Arbeit aus der Gruppe von Ruslan Salakhutdinov namens Transformer-XL.



In dieser Arbeit wird die Idee wiederbelebt, die wiederkehrende Netzwerke so beliebt gemacht hat. Sie können den vorherigen Status speichern und zum Erstellen des nächsten verwenden, auch wenn Sie den Gradienten nicht in der Zeit zurückwerfen (BPTT).

Der zweiteDie Arbeit arbeitet mit Legendre-Polynomen und ermöglicht mit ihrer Hilfe die Verarbeitung von Sequenzen von Zehntausenden von Token mit wiederkehrenden neuronalen Netzen.

In diesem Zusammenhang möchte ich die Überprüfung der eingetretenen Änderungen und der aufkommenden Trends abschließen. Mal sehen, was dieses Jahr passieren wird, ich bin mir sicher, dass es viele interessante Dinge gibt. Video meiner Rede zum gleichen Thema im Datenbaum:


PS Wir werden bald weitere interessante Ankündigungen haben, nicht wechseln!

Source: https://habr.com/ru/post/undefined/


All Articles