BERT, ELMO und Co. in Bildern (wie das Transfer-Training zu NLP kam)

2018 war ein Wendepunkt fĂŒr die Entwicklung von Modellen fĂŒr maschinelles Lernen zur Lösung von Problemen der Textverarbeitung (oder genauer gesagt der Verarbeitung natĂŒrlicher Sprache (NLP)). Das konzeptionelle VerstĂ€ndnis, wie Wörter und SĂ€tze dargestellt werden können, um ihre semantischen Bedeutungen und Beziehungen zwischen ihnen am genauesten zu extrahieren, wĂ€chst rasant. DarĂŒber hinaus fördert die NLP-Community unglaublich leistungsstarke Tools, die heruntergeladen und kostenlos in ihren Modellen und Pipelines verwendet werden können. Dieser Wendepunkt wird auch als ImageNet-Moment von NLP bezeichnet und bezieht sich auf den Moment vor einigen Jahren, als Ă€hnliche Entwicklungen die Entwicklung des maschinellen Lernens im Bereich der Computer-Vision-Probleme erheblich beschleunigten.


transformator-ber-ulmfit-elmo


(ULM-FiT hat nichts mit Korzhik zu tun, aber etwas Besseres ist nicht eingetreten)


– BERT', , NLP. BERT – , NLP-. , , BERT', . , , , .


Bert-Transfer-Lernen


BERT'. 1: ( ); 2: .


BERT , NLP-, , : Semi-supervised Sequence learning ( – Andrew Dai Quoc Le), ELMo ( – Matthew Peters AI2 UW CSE), ULMFiT ( – fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( – OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).


, , BERT'. , , .


:


BERT – . :


Bert-Klassifizierungs-Spam


, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.


, : , . . («» « »).


Spam-beschrifteter Datensatz


BERT':


  • (sentiment analysis)
  • (fact-checking):
    • : . : «» (Claim) « » (Not Claim)
    • / :
      • : (Claim sentence). : «» «»
    • Full Fact – , . , , ( , , , )
    • :


, BERT', , .


Bert-Base-Bert-Large


BERT' :


  • BERT BASE () – OpenAI Transformer;
  • BERT LARGE () – , (state of the art), .

, BERT – . . , – BERT’ , .


Bert-Base-Bert-Large-Encoder


BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).



Bert-Input-Output


[CLS] , . CLS .


, , BERT , . (self-attention) , .


Bert-Encoder-Eingang


, ( , ). .



hidden_size (768 BERT'). , , ( [CLS]).


Bert-Output-Vektor


. , .


Bert-Klassifikator


(, «», « », « », «» .), .



, , , VGGNet .


vgg-net-klassifikator



. , NLP- , : Word2Vec GloVe. , , , .



, . Word2Vec , ( ), , (.. , «» – «» «» – «»), (, , «» «» , «» «»).


, , , . , Word2Vec GloVe. GloVe «stick» ( – 200):


Einbettung von Handschuhen


«stick» GloVe – 200 ( 2 ).


.


VektorkÀsten


ELMo:


GloVe, «stick» . « », – NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). – « «stick» , . , – , , ?». (contextualized word-embeddings).


Elmo-Embedding-Robin-Williams


.


, , ELMo , . (bi-directional LSTM), .


Elmo-Wort-Einbettung


ELMo NLP. ELMo LSTM , , .


ELMo?


ELMo – , (language modeling). , , .


Bert-Sprachmodellierung


ELMo: «Let's stick to», – . . , . , , , , «hang», «out» ( «hang out»), «camera».


, LSTM - ELMo. , .


, ELMo LSTM – , «» , .


Einbettung von elmo-forward-backward-language-model


ELMo


ELMo ( ) ( ).


Elmo-Einbettung


ULM-FiT: NLP


ULM-FiT , – . ULM-FiT .


NLP , , , .


: LSTM


, , , , NLP- LSTM. .


- . ? , (.. , )?


OpenAI Transformer:


, , NLP-. . : , ( ).


openai-transformator-1


OpenAI Transformer


12 . - , . , ( ).


: , . 7 . , .. , – , , .


Openai-Transformator-Sprachmodellierung


OpenAI Transformer 7000



, OpenAI Transformer , . ( «» « »):


Openai-Transformator-Satz-Klassifikation


OpenAI , . :


Openai-Input-Transformationen


, ?


BERT:


OpenAI Transformer , . - LSTM . ELMo , OpenAI Transformer . , , ( – « , »)?


« », – .

(masked language model)


« », – .
« !» – . – « , .»
« », – .

BERT-Sprachmodellierung-maskiert-lm


BERT «» 15% .


– , BERT , « » (masked language model) ( «-»).


15% , BERT , . .



OpenAI Transformer, , - (, ? , ?).


, BERT , : ( ); , ?


Bert-Next-Satz-Vorhersage


, BERT – . , .. BERT WordPieces, – .



BERT' .


Bert-Aufgaben


a) : MNLI, QQP, QNLI, STS-B, MRPC, RTE, SWAG; b) : SST-2, CoLA; c) - : SQuAD v1.1; d) : CoNLL-2003 NER.


BERT


– BERT. ELMo, BERT' . – , , , , (named-entity recognition).


Bert-Contexualized-Einbettungen


? . 6 ( , 96,4):


Bert-Feature-Extraktion-Kontextualisierte-Einbettungen


- BERT'


BERT – BERT FineTuning with Cloud TPUs, Google Colab. Cloud TPU, , .. BERT' TPU, CPU GPU.


– BERT':



PyTorch- BERT'. AllenNLP BERT'a .



Source: https://habr.com/ru/post/undefined/


All Articles