2018 war ein Wendepunkt fĂŒr die Entwicklung von Modellen fĂŒr maschinelles Lernen zur Lösung von Problemen der Textverarbeitung (oder genauer gesagt der Verarbeitung natĂŒrlicher Sprache (NLP)). Das konzeptionelle VerstĂ€ndnis, wie Wörter und SĂ€tze dargestellt werden können, um ihre semantischen Bedeutungen und Beziehungen zwischen ihnen am genauesten zu extrahieren, wĂ€chst rasant. DarĂŒber hinaus fördert die NLP-Community unglaublich leistungsstarke Tools, die heruntergeladen und kostenlos in ihren Modellen und Pipelines verwendet werden können. Dieser Wendepunkt wird auch als ImageNet-Moment von NLP bezeichnet und bezieht sich auf den Moment vor einigen Jahren, als Ă€hnliche Entwicklungen die Entwicklung des maschinellen Lernens im Bereich der Computer-Vision-Probleme erheblich beschleunigten.

(ULM-FiT hat nichts mit Korzhik zu tun, aber etwas Besseres ist nicht eingetreten)
â BERT', , NLP. BERT â , NLP-. , , BERT', . , , , .

BERT'. 1: ( ); 2: .
BERT , NLP-, , : Semi-supervised Sequence learning ( â Andrew Dai Quoc Le), ELMo ( â Matthew Peters AI2 UW CSE), ULMFiT ( â fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( â OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).
, , BERT'. , , .
:
BERT â . :

, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.
, : , . . («» « »).

BERT':
- (sentiment analysis)
- (fact-checking):
- : . : «» (Claim) « » (Not Claim)
- / :
- : (Claim sentence). : «» «»
- Full Fact â , . , , ( , , , )
- :
, BERT', , .

BERT' :
- BERT BASE () â OpenAI Transformer;
- BERT LARGE () â , (state of the art), .
, BERT â . . , â BERTâ , .

BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).

[CLS] , . CLS .
, , BERT , . (self-attention) , .

, ( , ). .
hidden_size (768 BERT'). , , ( [CLS]).

. , .

(, «», « », « », «» .), .
, , , VGGNet .

. , NLP- , : Word2Vec GloVe. , , , .
, . Word2Vec , ( ), , (.. , «» â «» «» â «»), (, , «» «» , «» «»).
, , , . , Word2Vec GloVe. GloVe «stick» ( â 200):

«stick» GloVe â 200 ( 2 ).
.

ELMo:
GloVe, «stick» . « », â NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). â « «stick» , . , â , , ?». (contextualized word-embeddings).

.
, , ELMo , . (bi-directional LSTM), .

ELMo NLP. ELMo LSTM , , .
ELMo?
ELMo â , (language modeling). , , .

ELMo: «Let's stick to», â . . , . , , , , «hang», «out» ( «hang out»), «camera».
, LSTM - ELMo. , .
, ELMo LSTM â , «» , .

ELMo
ELMo ( ) ( ).

ULM-FiT: NLP
ULM-FiT , â . ULM-FiT .
NLP , , , .
, , , , NLP- LSTM. .
- . ? , (.. , )?
, , NLP-. . : , ( ).

OpenAI Transformer
12 . - , . , ( ).
: , . 7 . , .. , â , , .

OpenAI Transformer 7000
, OpenAI Transformer , . ( «» « »):

OpenAI , . :

, ?
BERT:
OpenAI Transformer , . - LSTM . ELMo , OpenAI Transformer . , , ( â « , »)?
« », â .
(masked language model)
« », â .
« !» â . â « , .»
« », â .

BERT «» 15% .
â , BERT , « » (masked language model) ( «-»).
15% , BERT , . .
OpenAI Transformer, , - (, ? , ?).
, BERT , : ( ); , ?

, BERT â . , .. BERT WordPieces, â .
BERT' .

a) : MNLI, QQP, QNLI, STS-B, MRPC, RTE, SWAG; b) : SST-2, CoLA; c) - : SQuAD v1.1; d) : CoNLL-2003 NER.
BERT
â BERT. ELMo, BERT' . â , , , , (named-entity recognition).

? . 6 ( , 96,4):

- BERT'
BERT â BERT FineTuning with Cloud TPUs, Google Colab. Cloud TPU, , .. BERT' TPU, CPU GPU.
â BERT':
PyTorch- BERT'. AllenNLP BERT'a .