BERT, ELMO y Co. en imágenes (cómo la capacitación de transferencia llegó a la PNL)

2018 fue un punto de inflexión para el desarrollo de modelos de aprendizaje automático destinados a resolver problemas de procesamiento de texto (o, más correctamente, procesar lenguaje natural (PNL)). La comprensión conceptual de cómo presentar palabras y oraciones para la extracción más precisa de sus significados semánticos y las relaciones entre ellos está creciendo rápidamente. Además, la comunidad de PNL promueve herramientas increíblemente poderosas que se pueden descargar y usar de forma gratuita en sus modelos y canalizaciones. Este punto de inflexión también se denomina momento ImageNet de NLP , en referencia al momento hace varios años, cuando desarrollos similares aceleraron significativamente el desarrollo del aprendizaje automático en el campo de los problemas de visión por computadora.


transformador-ber-ulmfit-elmo


(ULM-FiT no tiene nada que ver con Korzhik, pero no ocurrió algo mejor)


BERT', , NLP. BERT – , NLP-. , , BERT', . , , , .


bert-transfer-learning


BERT'. 1: ( ); 2: .


BERT , NLP-, , : Semi-supervised Sequence learning ( – Andrew Dai Quoc Le), ELMo ( – Matthew Peters AI2 UW CSE), ULMFiT ( – fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( – OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).


, , BERT'. , , .


:


BERT – . :


Bert-clasificación-spam


, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.


, : , . . («» « »).


conjunto de datos etiquetados como spam


BERT':


  • (sentiment analysis)
  • (fact-checking):
    • : . : «» (Claim) « » (Not Claim)
    • / :
      • : (Claim sentence). : «» «»
    • Full Fact – , . , , ( , , , )
    • :


, BERT', , .


base-bert-bert-large


BERT' :


  • BERT BASE () – OpenAI Transformer;
  • BERT LARGE () – , (state of the art), .

, BERT – . . , – BERT’ , .


bert-base-bert-large-encoders


BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).



bert-input-output


[CLS] , . CLS .


, , BERT , . (self-attention) , .


bert-encoders-input


, ( , ). .



hidden_size (768 BERT'). , , ( [CLS]).


vector-salida-bert


. , .


clasificador de bert


(, «», « », « », «» .), .



, , , VGGNet .


vgg-net-classifier



. , NLP- , : Word2Vec GloVe. , , , .



, . Word2Vec , ( ), , (.. , «» – «» «» – «»), (, , «» «» , «» «»).


, , , . , Word2Vec GloVe. GloVe «stick» ( – 200):


incrustación de guantes


«stick» GloVe – 200 ( 2 ).


.


cajas de vectores


ELMo:


GloVe, «stick» . « », – NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). – « «stick» , . , – , , ?». (contextualized word-embeddings).


elmo-incrustación-robin-williams


.


, , ELMo , . (bi-directional LSTM), .


incrustación de palabras elmo


ELMo NLP. ELMo LSTM , , .


ELMo?


ELMo – , (language modeling). , , .


Bert-language-modeling


ELMo: «Let's stick to», – . . , . , , , , «hang», «out» ( «hang out»), «camera».


, LSTM - ELMo. , .


, ELMo LSTM – , «» , .


elmo-forward-backward-language-model-embedded


ELMo


ELMo ( ) ( ).


incrustación de elmo


ULM-FiT: NLP


ULM-FiT , – . ULM-FiT .


NLP , , , .


: LSTM


, , , , NLP- LSTM. .


- . ? , (.. , )?


OpenAI Transformer:


, , NLP-. . : , ( ).


openai-transformer-1


OpenAI Transformer


12 . - , . , ( ).


: , . 7 . , .. , – , , .


Openai-transformador-lenguaje-modelado


OpenAI Transformer 7000



, OpenAI Transformer , . ( «» « »):


Openai-transformador-oración-clasificación


OpenAI , . :


transformaciones de entrada abierta


, ?


BERT:


OpenAI Transformer , . - LSTM . ELMo , OpenAI Transformer . , , ( – « , »)?


« », – .

(masked language model)


« », – .
« !» – . – « , .»
« », – .

BERT-lenguaje-modelado-enmascarado-lm


BERT «» 15% .


– , BERT , « » (masked language model) ( «-»).


15% , BERT , . .



OpenAI Transformer, , - (, ? , ?).


, BERT , : ( ); , ?


predicción-siguiente-oración-bert


, BERT – . , .. BERT WordPieces, – .



BERT' .


bert-tareas


a) : MNLI, QQP, QNLI, STS-B, MRPC, RTE, SWAG; b) : SST-2, CoLA; c) - : SQuAD v1.1; d) : CoNLL-2003 NER.


BERT


– BERT. ELMo, BERT' . – , , , , (named-entity recognition).


incrustaciones bert-contexualizadas


? . 6 ( , 96,4):


bert-feature-extract-contextualized-embeddings


- BERT'


BERT – BERT FineTuning with Cloud TPUs, Google Colab. Cloud TPU, , .. BERT' TPU, CPU GPU.


BERT':



PyTorch- BERT'. AllenNLP BERT'a .



Source: https://habr.com/ru/post/undefined/


All Articles