рд╡рд░реНрд╖ 2018 рдкрд╛рда рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рд╕рдорд╕реНрдпрд╛рдУрдВ (рдпрд╛, рдЕрдзрд┐рдХ рд╕рд╣реА рдврдВрдЧ рд╕реЗ, рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг (рдПрдирдПрд▓рдкреА)) рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдХреЗ рдЙрджреНрджреЗрд╢реНрдп рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдХреЗ рд╡рд┐рдХрд╛рд╕ рдХреЗ рд▓рд┐рдП рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдмрд┐рдВрджреБ рдерд╛ред рдЕрдкрдиреЗ рдЕрд░реНрде рд╕рдВрдмрдВрдзреА рдЕрд░реНрдереЛрдВ рдФрд░ рдЙрдирдХреЗ рдмреАрдЪ рд╕рдВрдмрдВрдзреЛрдВ рдХреЗ рд╕рдмрд╕реЗ рд╕рдЯреАрдХ рдирд┐рд╖реНрдХрд░реНрд╖рдг рдХреЗ рд▓рд┐рдП рд╢рдмреНрджреЛрдВ рдФрд░ рд╡рд╛рдХреНрдпреЛрдВ рдХреЛ рдХреИрд╕реЗ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдпрд╛ рдЬрд╛рдП, рдЗрд╕рдХреА рдПрдХ рд╡реИрдЪрд╛рд░рд┐рдХ рд╕рдордЭ рддреЗрдЬреА рд╕реЗ рдмрдврд╝ рд░рд╣реА рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдПрдирдПрд▓рдкреА рд╕рдореБрджрд╛рдп рдЕрд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рд░реВрдк рд╕реЗ рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рдЙрдкрдХрд░рдг рдХреЛ рдмрдврд╝рд╛рд╡рд╛ рджреЗрддрд╛ рд╣реИ рдЬрд┐рд╕реЗ рдбрд╛рдЙрдирд▓реЛрдб рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдЙрдирдХреЗ рдореЙрдбрд▓ рдФрд░ рдкрд╛рдЗрдкрд▓рд╛рдЗрдиреЛрдВ рдореЗрдВ рдореБрдлреНрдд рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдЗрд╕ рдЯрд┐рдкрд┐рдВрдЧ рдкреЙрдЗрдВрдЯ рдХреЛ рдПрдирдПрд▓рдкреА рдХрд╛ рдЗрдореЗрдЬрдиреЗрдЯ рдкрд▓ рднреА рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ , рдХрдИ рд╕рд╛рд▓ рдкрд╣рд▓реЗ рдХреЗ рдЙрд╕ рдХреНрд╖рдг рдХрд╛ рдЬрд┐рдХреНрд░, рдЬрдм рдЗрд╕реА рддрд░рд╣ рдХреЗ рд╡рд┐рдХрд╛рд╕ рдиреЗ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрд╝рди рд╕рдорд╕реНрдпрд╛рдУрдВ рдХреЗ рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╡рд┐рдХрд╛рд╕ рдХреЛ рдХрд╛рдлреА рддреЗрдЬ рдХрд░ рджрд┐рдпрд╛ рдерд╛ред

(ULM-FiT рдХрд╛ рдХреЛрдЭрд┐рдХ рд╕реЗ рдХреЛрдИ рд▓реЗрдирд╛ рджреЗрдирд╛ рдирд╣реАрдВ рд╣реИ, рд▓реЗрдХрд┐рди рдХреБрдЫ рдмреЗрд╣рддрд░ рдирд╣реАрдВ рд╣реБрдЖ)
тАУ BERT', , NLP. BERT тАУ , NLP-. , , BERT', . , , , .

BERT'. 1: ( ); 2: .
BERT , NLP-, , : Semi-supervised Sequence learning ( тАУ Andrew Dai Quoc Le), ELMo ( тАУ Matthew Peters AI2 UW CSE), ULMFiT ( тАУ fast.ai Jeremy Howard Sebastian Ruder), OpenAI Transformer ( тАУ OpenAI Radford, Narasimhan, Salimans, Sutskever) (Vaswani et al).
, , BERT'. , , .
:
BERT тАУ . :

, , (classifier) BERT' . (fine-tuning), Semi-supervised Sequence Learning ULMFiT.
, : , . . (┬л┬╗ ┬л ┬╗).

BERT':
- (sentiment analysis)
- (fact-checking):
- : . : ┬л┬╗ (Claim) ┬л ┬╗ (Not Claim)
- / :
- : (Claim sentence). : ┬л┬╗ ┬л┬╗
- Full Fact тАУ , . , , ( , , , )
- :
, BERT', , .

BERT' :
- BERT BASE () тАУ OpenAI Transformer;
- BERT LARGE () тАУ , (state of the art), .
, BERT тАУ . . , тАУ BERTтАЩ , .

BERT' ( ┬л ┬╗ (Transformer Blocks)): 12 24 . (768 1024 ) ┬л┬╗ (attention heads)(12 16 ), , (6 , 512 , 8 ┬л┬╗ ).

[CLS] , . CLS .
, , BERT , . (self-attention) , .

, ( , ). .
hidden_size (768 BERT'). , , ( [CLS]).

. , .

(, ┬л┬╗, ┬л ┬╗, ┬л ┬╗, ┬л┬╗ .), .
, , , VGGNet .

. , NLP- , : Word2Vec GloVe. , , , .
, . Word2Vec , ( ), , (.. , ┬л┬╗ тАУ ┬л┬╗ ┬л┬╗ тАУ ┬л┬╗), (, , ┬л┬╗ ┬л┬╗ , ┬л┬╗ ┬л┬╗).
, , , . , Word2Vec GloVe. GloVe ┬лstick┬╗ ( тАУ 200):

┬лstick┬╗ GloVe тАУ 200 ( 2 ).
.

ELMo:
GloVe, ┬лstick┬╗ . ┬л ┬╗, тАУ NLP- ( Peters et. al., 2017, McCann et. al., 2017 Peters et. al., 2018 ELMo). тАУ ┬л ┬лstick┬╗ , . , тАУ , , ?┬╗. (contextualized word-embeddings).

.
, , ELMo , . (bi-directional LSTM), .

ELMo NLP. ELMo LSTM , , .
ELMo?
ELMo тАУ , (language modeling). , , .

ELMo: ┬лLet's stick to┬╗, тАУ . . , . , , , , ┬лhang┬╗, ┬лout┬╗ ( ┬лhang out┬╗), ┬лcamera┬╗.
, LSTM - ELMo. , .
, ELMo LSTM тАУ , ┬л┬╗ , .

ELMo
ELMo ( ) ( ).

ULM-FiT: NLP
ULM-FiT , тАУ . ULM-FiT .
NLP , , , .
, , , , NLP- LSTM. .
- . ? , (.. , )?
, , NLP-. . : , ( ).

OpenAI Transformer
12 . - , . , ( ).
: , . 7 . , .. , тАУ , , .

OpenAI Transformer 7000
, OpenAI Transformer , . ( ┬л┬╗ ┬л ┬╗):

OpenAI , . :

, ?
BERT:
OpenAI Transformer , . - LSTM . ELMo , OpenAI Transformer . , , ( тАУ ┬л , ┬╗)?
┬л ┬╗, тАУ .
(masked language model)
┬л ┬╗, тАУ .
┬л !┬╗ тАУ . тАУ ┬л , .┬╗
┬л ┬╗, тАУ .

BERT ┬л┬╗ 15% .
тАУ , BERT , ┬л ┬╗ (masked language model) ( ┬л-┬╗).
15% , BERT , . .
OpenAI Transformer, , - (, ? , ?).
, BERT , : ( ); , ?

, BERT тАУ . , .. BERT WordPieces, тАУ .
BERT' .

a) : MNLI, QQP, QNLI, STS-B, MRPC, RTE, SWAG; b) : SST-2, CoLA; c) - : SQuAD v1.1; d) : CoNLL-2003 NER.
BERT
тАУ BERT. ELMo, BERT' . тАУ , , , , (named-entity recognition).

? . 6 ( , 96,4):

- BERT'
BERT тАУ BERT FineTuning with Cloud TPUs, Google Colab. Cloud TPU, , .. BERT' TPU, CPU GPU.
тАУ BERT':
PyTorch- BERT'. AllenNLP BERT'a .