BERT, ELMO et Co. en images (comment la formation au transfert est arrivée à la PNL)

L'année 2018 a marqué un tournant dans le développement de modèles d'apprentissage automatique visant à résoudre des problèmes de traitement de texte (ou, plus exactement, de traitement du langage naturel (PNL)). Une compréhension conceptuelle de la façon de présenter des mots et des phrases pour l'extraction la plus précise de leurs significations sémantiques et des relations entre eux se développe rapidement. De plus, la communauté NLP promeut des outils incroyablement puissants qui peuvent être téléchargés et utilisés gratuitement dans leurs modèles et pipelines. Ce point de basculement est également appelé moment ImageNet de la PNL , se référant au moment il y a plusieurs années, lorsque des développements similaires ont considérablement accéléré le développement de l'apprentissage automatique dans le domaine des problèmes de vision par ordinateur.


transformateur-ber-ulmfit-elmo


(ULM-FiT n'a rien à voir avec Korzhik, mais quelque chose de mieux ne s'est pas produit)


BERT', , NLP. BERT – , NLP-. , , BERT', . , , , .


apprentissage-transfert-bert


BERT'. 1: ( ); 2: .


BERT , NLP-, , : Semi-supervised Sequence learning ( – Andrew Dai Quoc Le), ELMo ( – Matthew Peters AI2 UW CSE), ULMFiT ( – fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( – OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).


, , BERT'. , , .


:


BERT – . :


Bert-classification-spam


, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.


, : , . . («» « »).


jeu de données étiqueté comme spam


BERT':


  • (sentiment analysis)
  • (fact-checking):
    • : . : «» (Claim) « » (Not Claim)
    • / :
      • : (Claim sentence). : «» «»
    • Full Fact – , . , , ( , , , )
    • :


, BERT', , .


bert-base-bert-large


BERT' :


  • BERT BASE () – OpenAI Transformer;
  • BERT LARGE () – , (state of the art), .

, BERT – . . , – BERT’ , .


codeurs bert-base-bert-large


BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).



entrée-sortie-bert


[CLS] , . CLS .


, , BERT , . (self-attention) , .


bert-encoders-input


, ( , ). .



hidden_size (768 BERT'). , , ( [CLS]).


vecteur-sortie-bert


. , .


classificateur bert


(, «», « », « », «» .), .



, , , VGGNet .


vgg-net-classifier



. , NLP- , : Word2Vec GloVe. , , , .



, . Word2Vec , ( ), , (.. , «» – «» «» – «»), (, , «» «» , «» «»).


, , , . , Word2Vec GloVe. GloVe «stick» ( – 200):


enfilage des gants


«stick» GloVe – 200 ( 2 ).


.


boîtes vectorielles


ELMo:


GloVe, «stick» . « », – NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). – « «stick» , . , – , , ?». (contextualized word-embeddings).


elmo-encastrement-robin-williams


.


, , ELMo , . (bi-directional LSTM), .


intégration des mots elmo


ELMo NLP. ELMo LSTM , , .


ELMo?


ELMo – , (language modeling). , , .


Modélisation du langage Bert


ELMo: «Let's stick to», – . . , . , , , , «hang», «out» ( «hang out»), «camera».


, LSTM - ELMo. , .


, ELMo LSTM – , «» , .


Elmo-avant-arrière-en-langue-incorporation de modèle


ELMo


ELMo ( ) ( ).


enrobage elmo


ULM-FiT: NLP


ULM-FiT , – . ULM-FiT .


NLP , , , .


: LSTM


, , , , NLP- LSTM. .


- . ? , (.. , )?


OpenAI Transformer:


, , NLP-. . : , ( ).


openai-transformer-1


OpenAI Transformer


12 . - , . , ( ).


: , . 7 . , .. , – , , .


modélisation du langage openai-transformer


OpenAI Transformer 7000



, OpenAI Transformer , . ( «» « »):


openai-transformer-sentence-classification


OpenAI , . :


transformations openai-input


, ?


BERT:


OpenAI Transformer , . - LSTM . ELMo , OpenAI Transformer . , , ( – « , »)?


« », – .

(masked language model)


« », – .
« !» – . – « , .»
« », – .

BERT-langage-modélisation-masqué-lm


BERT «» 15% .


– , BERT , « » (masked language model) ( «-»).


15% , BERT , . .



OpenAI Transformer, , - (, ? , ?).


, BERT , : ( ); , ?


bert-next-phrase-prediction


, BERT – . , .. BERT WordPieces, – .



BERT' .


bert-tasks


a) : MNLI, QQP, QNLI, STS-B, MRPC, RTE, SWAG; b) : SST-2, CoLA; c) - : SQuAD v1.1; d) : CoNLL-2003 NER.


BERT


– BERT. ELMo, BERT' . – , , , , (named-entity recognition).


intégrations contextualisées bert


? . 6 ( , 96,4):


bert-feature-extraction-contextualized-embeddings


- BERT'


BERT – BERT FineTuning with Cloud TPUs, Google Colab. Cloud TPU, , .. BERT' TPU, CPU GPU.


BERT':



PyTorch- BERT'. AllenNLP BERT'a .



Source: https://habr.com/ru/post/undefined/


All Articles