2018 war ein Wendepunkt für die Entwicklung von Modellen für maschinelles Lernen zur Lösung von Problemen der Textverarbeitung (oder genauer gesagt der Verarbeitung natürlicher Sprache (NLP)). Das konzeptionelle Verständnis, wie Wörter und Sätze dargestellt werden können, um ihre semantischen Bedeutungen und Beziehungen zwischen ihnen am genauesten zu extrahieren, wächst rasant. Darüber hinaus fördert die NLP-Community unglaublich leistungsstarke Tools, die heruntergeladen und kostenlos in ihren Modellen und Pipelines verwendet werden können. Dieser Wendepunkt wird auch als ImageNet-Moment von NLP bezeichnet und bezieht sich auf den Moment vor einigen Jahren, als ähnliche Entwicklungen die Entwicklung des maschinellen Lernens im Bereich der Computer-Vision-Probleme erheblich beschleunigten.

transformator-ber-ulmfit-elmo

(ULM-FiT hat nichts mit Korzhik zu tun, aber etwas Besseres ist nicht eingetreten)

– BERT', , NLP. BERT – , NLP-. , , BERT', . , , , .

Bert-Transfer-Lernen

BERT'. 1: ( ); 2: .

BERT , NLP-, , : Semi-supervised Sequence learning ( – Andrew Dai Quoc Le), ELMo ( – Matthew Peters AI2 UW CSE), ULMFiT ( – fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( – OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).

, , BERT'. , , .

:

BERT – . :

Bert-Klassifizierungs-Spam

, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.

, : , . . («» « »).

Spam-beschrifteter Datensatz

BERT':

(sentiment analysis)
- : /. : /
- : SST
(fact-checking):
- : . : «» (Claim) « » (Not Claim)
- / :
  - : (Claim sentence). : «» «»
- Full Fact – , . , , ( , , , )
- :

, BERT', , .

Bert-Base-Bert-Large

BERT' :

BERT BASE () – OpenAI Transformer;
BERT LARGE () – , (state of the art), .

, BERT – . . , – BERT’ , .

Bert-Base-Bert-Large-Encoder

BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).

Bert-Input-Output

[CLS] , . CLS .

, , BERT , . (self-attention) , .

Bert-Encoder-Eingang

, ( , ). .

hidden_size (768 BERT'). , , ( [CLS]).

Bert-Output-Vektor

. , .

Bert-Klassifikator

(, «», « », « », «» .), .

, , , VGGNet .

vgg-net-klassifikator

. , NLP- , : Word2Vec GloVe. , , , .

, . Word2Vec , ( ), , (.. , «» – «» «» – «»), (, , «» «» , «» «»).

, , , . , Word2Vec GloVe. GloVe «stick» ( – 200):

Einbettung von Handschuhen

«stick» GloVe – 200 ( 2 ).

Vektorkästen

ELMo:

GloVe, «stick» . « », – NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). – « «stick» , . , – , , ?». (contextualized word-embeddings).

Elmo-Embedding-Robin-Williams