
2019 рдореЗрдВ, рд╣рдордиреЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╢рд╛рдирджрд╛рд░ рдЙрдкрдпреЛрдЧ рдХреЛ рджреЗрдЦрд╛ред OpenAI GPT-2 рдореЙрдбрд▓ рдиреЗ рд╕реБрд╕рдВрдЧрдд рдФрд░ рднрд╛рд╡рдирд╛рддреНрдордХ рдЧреНрд░рдВрдереЛрдВ рдХреЛ рд▓рд┐рдЦрдиреЗ рдХреА рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рдХреНрд╖рдорддрд╛ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛ рд╣реИ рдЬреЛ рдЖрдзреБрдирд┐рдХ рднрд╛рд╖рд╛ рдХреЗ рдореЙрдбрд▓ рдХреЛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣рдорд╛рд░реА рд╕рдордЭ рд╕реЗ рдмреЗрд╣рддрд░ рд╣реИред GPT-2 рдХреБрдЫ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдирдпрд╛ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдирд╣реАрдВ рд╣реИ - рдпрд╣ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░-рдбрд┐рдХреЛрдбрд░ (рдбрд┐рдХреЛрдбрд░-рдУрдирд▓реА рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░) рдХреА рдмрд╣реБрдд рдпрд╛рдж рджрд┐рд▓рд╛рддрд╛ рд╣реИред GPT-2 рдХреЗ рдмреАрдЪ рдЕрдВрддрд░ рдпрд╣ рд╣реИ рдХрд┐ рдпрд╣ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдПрдХ рдмрд╣реБрдд рдмрдбрд╝рд╛ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рд╣реИ, рдЬреЛ рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рдбреЗрдЯрд╛ рд╕реЗрдЯ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рд╣реИред рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рд╣рдо рдЙрд╕ рдореЙрдбрд▓ рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдХреЛ рджреЗрдЦреЗрдВрдЧреЗ рдЬреЛ рд╣рдореЗрдВ рдРрд╕реЗ рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ: рд╣рдо рд╡рд┐рд╕реНрддрд╛рд░ рд╕реЗ рдЖрддреНрдо-рдзреНрдпрд╛рди рдХреА рдкрд░рдд рдФрд░ рдбрд┐рдХреЛрдбрд┐рдВрдЧ рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдЙрди рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдХрд░реЗрдВрдЧреЗ рдЬреЛ рднрд╛рд╖рд╛ рдореЙрдбрд▓рд┐рдВрдЧ рд╕реЗ рдкрд░реЗ рд╣реИрдВред
рд╕рд╛рдордЧреНрд░реА
1: GPT-2
?
Word2vec , тАУ , , . тАУ , .

, GPT-2 , , , . GPT-2 40 (WebText), OpenAI . , , SwiftKey, 78 , GPT-2 500 , GPT-2 тАУ 13 ( 6,5 ).

GPT-2 AllenAI GPT-2 Explorer. GPT-2 ( ), .
, тАУ .. . тАУ , - .

, , , , ( AlphaStar).

? , GPT-2 :

BERT'
:
, .
GPT-2 . BERT , , . . , GPT-2, , . , GPT-2 :

: , , . . ┬л┬╗ (auto-regression) RNN .

GPT-2 TransformerXL XLNet . BERT . . , BERT . XLNet , .
.
тАУ :

(, 512 ). , .
тАУ , . :

, [mask] , BERT', , , .
, , #4, , :

, BERT, GPT-2. . :

, ┬лGenerating Wikipedia by Summarizing Long Sequences┬╗ , : . ┬л-┬╗. 6 :

. , . , 4000 тАУ 512 .
, , . ┬л ┬╗, / .
GPT-2 OpenAI .
- : GPT-2
, , . , , , , . (Budgie)
GPT-2 , .

GPT-2 1024 . .
GPT-2 тАУ ( ) (), (.. ). , ( <|endoftext|>; <|s|>).

, . , (score) тАУ , (50 GPT-2). тАУ ┬лthe┬╗. - тАУ , , , , тАУ . . GPT-2 top-k, , , (, , top-k = 1).
:

, . GPT-2 ( ). GPT-2 .
. . NLP-, , тАУ , .

тАУ , - . GPT-2. 768 /.
, <|s|> . , тАУ , . , 1024 .

. , GPT-2.

#1.
, , . , . , , .

. , :
, , , .
, . , . , , :
: , , ( ). , , .
, ┬лa robot┬╗ ┬лit┬╗. , , , .

. :
- тАУ , ( ). , ;
- тАУ . ;
- тАУ ; , , .

. тАУ , . . , тАУ . , .
(: ).

, .

, 50% ┬лrobot┬╗, 30% ┬лa┬╗ 19% тАУ ┬лit┬╗. . .
( ), .

, . .

(top_k = 1). , . , , ( ). тАУ top_k 40: 40 .

, . , (1024 ) .
: GPT-2,
, , GPT-2. , , . , ( TransformerXL XLNet).
, :
- ┬л┬╗ ┬л┬╗ ; GPT-2 (Byte Pair Encoding) . , .
- GPT-2 / (inference/evaluation mode). . . (512), 1, .
- / . .
- , . Transformer , .
- . ┬лzoom in┬╗, :

2:
, ┬лit┬╗:

, . , , . , , .
( )
, . , 4 .
:
- , ;
- ;
- .

1 тАУ ,
. . . ( ┬л┬╗ ):

, WQ, WK, WV
2 тАУ
, , тДЦ2: .

( ) ,
3 тАУ
. , .

, тАУ , .
, , . ( ).
, , , . тДЦ2. , . . , :

, (attention mask). , , (┬лrobot must obey orders┬╗). 4 : ( , тАУ ). .. , 4 , ( 4 ) .

, . , , ( ), :

┬л┬╗ . , , тАУ (-inf) (, -1 GPT-2):

, , , :

:
- ( тДЦ1), (┬лrobot┬╗), 100% .
- ( тДЦ2), (┬лrobot must┬╗), ┬лmust┬╗ 48% ┬лrobot┬╗ 52% ┬лmust┬╗.
- ..
GPT-2
GPT-2.
:
, GPT-2 , . , , , .
( <|s|>).

GPT-2 ┬лa┬╗. :

, ┬лrobot┬╗, , ┬лa┬╗ тАУ , :

GPT-2: 1 тАУ ,
, ┬лit┬╗. , ┬лit┬╗ + #9:

( ), , .

(bias vector),
, , ┬лit┬╗.

( ) ,
GPT-2: 1.5 тАУ ┬л┬╗
, ┬л┬╗ . . (Q), (K) (V). ┬л┬╗ тАУ . GPT-2 12 ┬л┬╗ , :

, ┬л┬╗ . ┬л┬╗ , ( 12 ┬л┬╗ ):

GPT-2: 2 тАУ
( , ┬л┬╗ ):

( ┬л┬╗ #1 ):

GPT-2: 3 тАУ
, , , ┬л┬╗ #1:

GPT-2: 3.5 тАУ ┬л┬╗
┬л┬╗ , , :

. .
GPT-2: 4 тАУ
, , . , ┬л┬╗ :

, , :

GPT-2: #1
тАУ , , . . 4 ( GPT-2 768, 768*4 = 3072 ). ? ( 512 #1 тАУ 2048). , , .

( )
GPT-2:
(768 GPT-2). .

( )
!
, - . , . , , :

. , :

, :

- 124 117. , , (, ).
3:
, . , . .
. :

, . , ( , ) . :

.

Sample Efficient Text Summarization Using a Single Pre-Trained Transformer , . , , - .
GPT-2 .
. ┬л ┬╗ тАУ (, ┬л ┬╗).
, . , (), ( ). (, , ) ┬л┬╗ тАУ , .

тАУ one-hot . midi . :

one-hot :

:

, . .
GPT-2 тАУ . , , , , .
- GPT-2 OpenAI
- рд╣рдЧрд┐рдВрдЧ рдлреЗрд╕ рд╕реЗ pytorch-transformers2 рд▓рд╛рдЗрдмреНрд░реЗрд░реА рджреЗрдЦреЗрдВ , рдЬреЛ GPT-2 рдХреЗ рдЕрд▓рд╛рд╡рд╛ BERT, рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░-рдПрдХреНрд╕реНрдЯреНрд░рд╛ рд▓рд╛рд░реНрдЬ, XLNet рдФрд░ рдЕрдиреНрдп рдПрдбрд╡рд╛рдВрд╕реНрдб рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдореЙрдбрд▓ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рддрд╛ рд╣реИред
рд▓реЗрдЦрдХ