L'année 2018 a marqué un tournant dans le développement de modèles d'apprentissage automatique visant à résoudre des problèmes de traitement de texte (ou, plus exactement, de traitement du langage naturel (PNL)). Une compréhension conceptuelle de la façon de présenter des mots et des phrases pour l'extraction la plus précise de leurs significations sémantiques et des relations entre eux se développe rapidement. De plus, la communauté NLP promeut des outils incroyablement puissants qui peuvent être téléchargés et utilisés gratuitement dans leurs modèles et pipelines. Ce point de basculement est également appelé moment ImageNet de la PNL , se référant au moment il y a plusieurs années, lorsque des développements similaires ont considérablement accéléré le développement de l'apprentissage automatique dans le domaine des problèmes de vision par ordinateur.

(ULM-FiT n'a rien à voir avec Korzhik, mais quelque chose de mieux ne s'est pas produit)
– BERT', , NLP. BERT – , NLP-. , , BERT', . , , , .

BERT'. 1: ( ); 2: .
BERT , NLP-, , : Semi-supervised Sequence learning ( – Andrew Dai Quoc Le), ELMo ( – Matthew Peters AI2 UW CSE), ULMFiT ( – fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( – OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).
, , BERT'. , , .
:
BERT – . :

, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.
, : , . . («» « »).

BERT':
- (sentiment analysis)
- (fact-checking):
- : . : «» (Claim) « » (Not Claim)
- / :
- : (Claim sentence). : «» «»
- Full Fact – , . , , ( , , , )
- :
, BERT', , .

BERT' :
- BERT BASE () – OpenAI Transformer;
- BERT LARGE () – , (state of the art), .
, BERT – . . , – BERT’ , .

BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).

[CLS] , . CLS .
, , BERT , . (self-attention) , .

, ( , ). .
hidden_size (768 BERT'). , , ( [CLS]).

. , .

(, «», « », « », «» .), .
, , , VGGNet .

. , NLP- , : Word2Vec GloVe. , , , .
, . Word2Vec , ( ), , (.. , «» – «» «» – «»), (, , «» «» , «» «»).
, , , . , Word2Vec GloVe. GloVe «stick» ( – 200):

«stick» GloVe – 200 ( 2 ).
.

ELMo:
GloVe, «stick» . « », – NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). – « «stick» , . , – , , ?». (contextualized word-embeddings).

.
, , ELMo , . (bi-directional LSTM), .

ELMo NLP. ELMo LSTM , , .
ELMo?
ELMo – , (language modeling). , , .

ELMo: «Let's stick to», – . . , . , , , , «hang», «out» ( «hang out»), «camera».
, LSTM - ELMo. , .
, ELMo LSTM – , «» , .

ELMo
ELMo ( ) ( ).

ULM-FiT: NLP
ULM-FiT , – . ULM-FiT .
NLP , , , .
, , , , NLP- LSTM. .
- . ? , (.. , )?
, , NLP-. . : , ( ).

OpenAI Transformer
12 . - , . , ( ).
: , . 7 . , .. , – , , .

OpenAI Transformer 7000
, OpenAI Transformer , . ( «» « »):

OpenAI , . :

, ?
BERT:
OpenAI Transformer , . - LSTM . ELMo , OpenAI Transformer . , , ( – « , »)?
« », – .
(masked language model)
« », – .
« !» – . – « , .»
« », – .

BERT «» 15% .
– , BERT , « » (masked language model) ( «-»).
15% , BERT , . .
OpenAI Transformer, , - (, ? , ?).
, BERT , : ( ); , ?

, BERT – . , .. BERT WordPieces, – .
BERT' .

a) : MNLI, QQP, QNLI, STS-B, MRPC, RTE, SWAG; b) : SST-2, CoLA; c) - : SQuAD v1.1; d) : CoNLL-2003 NER.
BERT
– BERT. ELMo, BERT' . – , , , , (named-entity recognition).

? . 6 ( , 96,4):

- BERT'
BERT – BERT FineTuning with Cloud TPUs, Google Colab. Cloud TPU, , .. BERT' TPU, CPU GPU.
– BERT':
PyTorch- BERT'. AllenNLP BERT'a .