2018 adalah titik balik untuk pengembangan model pembelajaran mesin yang bertujuan menyelesaikan masalah pemrosesan teks (atau, lebih tepatnya, memproses Bahasa Alami (NLP)). Pemahaman konseptual tentang bagaimana menyajikan kata-kata dan kalimat untuk ekstraksi makna semantik dan hubungan di antara mereka tumbuh dengan cepat. Selain itu, komunitas NLP mempromosikan alat yang sangat kuat yang dapat diunduh dan digunakan secara gratis di model dan saluran pipa mereka. Titik balik ini juga disebut momen ImageNet NLP , mengacu pada momen beberapa tahun yang lalu, ketika perkembangan serupa secara signifikan mempercepat pengembangan pembelajaran mesin di bidang masalah penglihatan komputer.

transformer-ber-ulmfit-elmo

(ULM-FiT tidak ada hubungannya dengan Korzhik, tetapi sesuatu yang lebih baik tidak terjadi)

– BERT', , NLP. BERT – , NLP-. , , BERT', . , , , .

bert-transfer-learning

BERT'. 1: ( ); 2: .

BERT , NLP-, , : Semi-supervised Sequence learning ( – Andrew Dai Quoc Le), ELMo ( – Matthew Peters AI2 UW CSE), ULMFiT ( – fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( – OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).

, , BERT'. , , .

:

BERT – . :

Bert-klasifikasi-spam

, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.

, : , . . («» « »).

dataset berlabel spam

BERT':

(sentiment analysis)
- : /. : /
- : SST
(fact-checking):
- : . : «» (Claim) « » (Not Claim)
- / :
  - : (Claim sentence). : «» «»
- Full Fact – , . , , ( , , , )
- :

, BERT', , .

bert-base-bert-large

BERT' :

BERT BASE () – OpenAI Transformer;
BERT LARGE () – , (state of the art), .

, BERT – . . , – BERT’ , .

bert-base-bert-large-encoders

BERT' ( « » (Transformer Blocks)): 12 24 . (768 1024 ) «» (attention heads)(12 16 ), , (6 , 512 , 8 «» ).

bert-input-output

[CLS] , . CLS .

, , BERT , . (self-attention) , .

bert-encoders-input

, ( , ). .

hidden_size (768 BERT'). , , ( [CLS]).

bert-output-vektor

. , .

bert-classifier

(, «», « », « », «» .), .

, , , VGGNet .

vgg-net-classifier

. , NLP- , : Word2Vec GloVe. , , , .

, . Word2Vec , ( ), , (.. , «» – «» «» – «»), (, , «» «» , «» «»).

, , , . , Word2Vec GloVe. GloVe «stick» ( – 200):

menanamkan sarung tangan

«stick» GloVe – 200 ( 2 ).

kotak vektor

ELMo:

GloVe, «stick» . « », – NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). – « «stick» , . , – , , ?». (contextualized word-embeddings).

elmo-embedding-robin-williams