рдЪрд┐рддреНрд░реЛрдВ рдореЗрдВ GPT-2 (рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдХрд╛ рджреГрд╢реНрдп)

openAI-GPT-2-3


2019 рдореЗрдВ, рд╣рдордиреЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╢рд╛рдирджрд╛рд░ рдЙрдкрдпреЛрдЧ рдХреЛ рджреЗрдЦрд╛ред OpenAI GPT-2 рдореЙрдбрд▓ рдиреЗ рд╕реБрд╕рдВрдЧрдд рдФрд░ рднрд╛рд╡рдирд╛рддреНрдордХ рдЧреНрд░рдВрдереЛрдВ рдХреЛ рд▓рд┐рдЦрдиреЗ рдХреА рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рдХреНрд╖рдорддрд╛ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛ рд╣реИ рдЬреЛ рдЖрдзреБрдирд┐рдХ рднрд╛рд╖рд╛ рдХреЗ рдореЙрдбрд▓ рдХреЛ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣рдорд╛рд░реА рд╕рдордЭ рд╕реЗ рдмреЗрд╣рддрд░ рд╣реИред GPT-2 рдХреБрдЫ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдирдпрд╛ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдирд╣реАрдВ рд╣реИ - рдпрд╣ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░-рдбрд┐рдХреЛрдбрд░ (рдбрд┐рдХреЛрдбрд░-рдУрдирд▓реА рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░) рдХреА рдмрд╣реБрдд рдпрд╛рдж рджрд┐рд▓рд╛рддрд╛ рд╣реИред GPT-2 рдХреЗ рдмреАрдЪ рдЕрдВрддрд░ рдпрд╣ рд╣реИ рдХрд┐ рдпрд╣ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдПрдХ рдмрд╣реБрдд рдмрдбрд╝рд╛ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рд╣реИ, рдЬреЛ рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рдбреЗрдЯрд╛ рд╕реЗрдЯ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рд╣реИред рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рд╣рдо рдЙрд╕ рдореЙрдбрд▓ рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдХреЛ рджреЗрдЦреЗрдВрдЧреЗ рдЬреЛ рд╣рдореЗрдВ рдРрд╕реЗ рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ: рд╣рдо рд╡рд┐рд╕реНрддрд╛рд░ рд╕реЗ рдЖрддреНрдо-рдзреНрдпрд╛рди рдХреА рдкрд░рдд рдФрд░ рдбрд┐рдХреЛрдбрд┐рдВрдЧ рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдЙрди рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдХрд░реЗрдВрдЧреЗ рдЬреЛ рднрд╛рд╖рд╛ рдореЙрдбрд▓рд┐рдВрдЧ рд╕реЗ рдкрд░реЗ рд╣реИрдВред


рд╕рд╛рдордЧреНрд░реА


  • 1: GPT-2
    • BERT'
    • - : GPT-2
    • : GPT-2,
  • 2:
    • ( )
    • 1 тАУ ,
    • 2 тАУ
    • 3 тАУ
    • GPT-2
    • !
  • 3:

1: GPT-2


?



Word2vec , тАУ , , . тАУ , .


SwiftKey-рдХреБрдВрдЬреАрдкрдЯрд▓


, GPT-2 , , , . GPT-2 40 (WebText), OpenAI . , , SwiftKey, 78 , GPT-2 500 , GPT-2 тАУ 13 ( 6,5 ).


gpt2-рдЖрдХрд╛рд░


GPT-2 AllenAI GPT-2 Explorer. GPT-2 ( ), .



, тАУ .. . тАУ , - .


рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рдПрдирдХреЛрдбрд░-рд╡рд┐рдХреЛрдбрдХ


, , , , ( AlphaStar).


GPT-2-рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-XL-рдмрд░реНрдЯ -3


? , GPT-2 :


gpt2-рдЖрдХрд╛рд░-hyperparameters -3


BERT'


:
, .

GPT-2 . BERT , , . . , GPT-2, , . , GPT-2 :


GPT-2-рдЙрддреНрдкрд╛рджрди


: , , . . ┬л┬╗ (auto-regression) RNN .


GPT-2-autoregression -2


GPT-2 TransformerXL XLNet . BERT . . , BERT . XLNet , .



.



тАУ :


рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рдПрдирдХреЛрдбрд░ рдмреНрд▓реЙрдХ -2


(, 512 ). , .



тАУ , . :


рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рдбрд┐рдХреЛрдбрд░ рдмреНрд▓реЙрдХ -2


, [mask] , BERT', , , .


, , #4, , :


рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рд╡рд┐рдХреЛрдбрдХ-рдмреНрд▓реЙрдХ-рдЖрддреНрдо рдзреНрдпрд╛рди -2


, BERT, GPT-2. . :


рдЖрддреНрдо рдзреНрдпрд╛рди рдФрд░ рдирдХрд╛рдмрдкреЛрд╢-рдЖрддреНрдо рдзреНрдпрд╛рди



, ┬лGenerating Wikipedia by Summarizing Long Sequences┬╗ , : . ┬л-┬╗. 6 :


рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рд╡рд┐рдХреЛрдбрдХ-рдкрд░рд┐рдЪрдп


. , . , 4000 тАУ 512 .


, , . ┬л ┬╗, / .


GPT-2 OpenAI .


- : GPT-2


, , . , , , , . (Budgie)

GPT-2 , .


gpt-2-рдкрд░рддреЛрдВ -2


GPT-2 1024 . .


GPT-2 тАУ ( ) (), (.. ). , ( <|endoftext|>; <|s|>).


gpt2-рд╕рд░рд▓-рдЙрддреНрдкрд╛рджрди-2


, . , (score) тАУ , (50 GPT-2). тАУ ┬лthe┬╗. - тАУ , , , , тАУ . . GPT-2 top-k, , , (, , top-k = 1).


:


GPT-2-рд╕рд░рд▓-рдЖрдЙрдЯрдкреБрдЯ -3


, . GPT-2 ( ). GPT-2 .




. . NLP-, , тАУ , .


gpt2-рдЯреЛрдХрди-embeddings-рдбрдмреНрд▓реНрдпреВрдЯреАрдИ -2


тАУ , - . GPT-2. 768 /.


, <|s|> . , тАУ , . , 1024 .


gpt2-рд╕реНрдерд┐рддреАрдп рдПрдиреНрдХреЛрдбрд┐рдВрдЧ


. , GPT-2.


gpt2-рдЗрдирдкреБрдЯ-рдПрдореНрдмреЗрдбрд┐рдВрдЧ-рд╕реНрдерд┐рддреАрдп рдПрдиреНрдХреЛрдбрд┐рдВрдЧ -3


#1.



, , . , . , , .


gpt2-рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рдмреНрд▓реЙрдХ-рд╡реИрдХреНрдЯрд░ -2



. , :


, , , .

, . , . , , :


  • ;
  • (┬л ┬╗);
  • .

: , , ( ). , , .


, ┬лa robot┬╗ ┬лit┬╗. , , , .


gpt2-рдЖрддреНрдо рдзреНрдпрд╛рди рдЙрджрд╛рд╣рд░рдг -2



. :


  • тАУ , ( ). , ;
  • тАУ . ;
  • тАУ ; , , .

рдЖрддреНрдо рдзреНрдпрд╛рди рдЙрджрд╛рд╣рд░рдг-рдлрд╝реЛрд▓реНрдбрд░ -3


. тАУ , . . , тАУ . , .


(: ).


self-attention-example-folders-scores-3


, .


gpt2-value-vector-sum


, 50% ┬лrobot┬╗, 30% ┬лa┬╗ 19% тАУ ┬лit┬╗. . .



( ), .


gpt2-output-projection-2


, . .


gpt2-output-scores-2


(top_k = 1). , . , , ( ). тАУ top_k 40: 40 .


gpt2-output


, . , (1024 ) .


: GPT-2,


, , GPT-2. , , . , ( TransformerXL XLNet).


, :


  • ┬л┬╗ ┬л┬╗ ; GPT-2 (Byte Pair Encoding) . , .
  • GPT-2 / (inference/evaluation mode). . . (512), 1, .
  • / . .
  • , . Transformer , .
  • . ┬лzoom in┬╗, :

zoom-in


2:


, ┬лit┬╗:


gpt2-self-attention-1-2


, . , , . , , .


( )


, . , 4 .


:


  1. , ;
  2. ;
  3. .

self-attention-summary


1 тАУ ,


. . . ( ┬л┬╗ ):


self-attention-1


, WQ, WK, WV


2 тАУ


, , тДЦ2: .


self-attention-2


( ) ,


3 тАУ


. , .


self-attention-3-2


 


, тАУ , .


, , . ( ).



, , , . тДЦ2. , . . , :


masked-self-attention-2


, (attention mask). , , (┬лrobot must obey orders┬╗). 4 : ( , тАУ ). .. , 4 , ( 4 ) .


transformer-decoder-attention-mask-dataset


, . , , ( ), :


queries-keys-attention-mask


┬л┬╗ . , , тАУ (-inf) (, -1 GPT-2):


transformer-attention-mask


, , , :


transformer-attention-masked-scores-softmax


:


  • ( тДЦ1), (┬лrobot┬╗), 100% .
  • ( тДЦ2), (┬лrobot must┬╗), ┬лmust┬╗ 48% ┬лrobot┬╗ 52% ┬лmust┬╗.
  • ..

GPT-2


GPT-2.


:


, GPT-2 , . , , , .


( <|s|>).


gpt2-self-attention-qkv-1-2


GPT-2 ┬лa┬╗. :


gpt2-self-attention-qkv-2-2


, ┬лrobot┬╗, , ┬лa┬╗ тАУ , :


gpt2-self-attention-qkv-3-2


GPT-2: 1 тАУ ,


, ┬лit┬╗. , ┬лit┬╗ + #9:


gpt2-self-attention-1


( ), , .


gpt2-self-attention-2


(bias vector),


, , ┬лit┬╗.


gpt2-self-attention-3


( ) ,


GPT-2: 1.5 тАУ ┬л┬╗


, ┬л┬╗ . . (Q), (K) (V). ┬л┬╗ тАУ . GPT-2 12 ┬л┬╗ , :


gpt2-self-attention-split-attention-heads-1


, ┬л┬╗ . ┬л┬╗ , ( 12 ┬л┬╗ ):


gpt2-self-attention-split-attention-heads-2


GPT-2: 2 тАУ


( , ┬л┬╗ ):


gpt2-self-attention-scoring


( ┬л┬╗ #1 ):


gpt2-self-attention-scoring-2


GPT-2: 3 тАУ


, , , ┬л┬╗ #1:


gpt2-self-attention-multihead-sum-1


GPT-2: 3.5 тАУ ┬л┬╗


┬л┬╗ , , :


gpt2-self-attention-merge-heads-1


. .


GPT-2: 4 тАУ


, , . , ┬л┬╗ :


gpt2-self-attention-project-1


, , :


gpt2-self-attention-project-2


GPT-2: #1


тАУ , , . . 4 ( GPT-2 768, 768*4 = 3072 ). ? ( 512 #1 тАУ 2048). , , .


gpt2-mlp1


( )


GPT-2:


(768 GPT-2). .


gpt2-mlp-2


( )


!


, - . , . , , :


gpt2-transformer-block-weights-2


. , :


gpt2-weights-2


, :


gpt2-117-рдкреИрд░рд╛рдореАрдЯрд░


- 124 117. , , (, ).


3:


, . , . .



. :


рд╡рд┐рдХреЛрдбрдХ-рдХреЗрд╡рд▓-рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рдЕрдиреБрд╡рд╛рдж



, . , ( , ) . :


рд╡рд┐рдХрд┐рдкреАрдбрд┐рдпрд╛-рд╕рдВрдХреНрд╖рд┐рдкреНрддреАрдХрд░рдг


.


рд╡рд┐рдХреЛрдбрдХ-рдХреЗрд╡рд▓-рд╕рдВрдХреНрд╖рд┐рдкреНрддреАрдХрд░рдг



Sample Efficient Text Summarization Using a Single Pre-Trained Transformer , . , , - .


GPT-2 .



. ┬л ┬╗ тАУ (, ┬л ┬╗).


, . , (), ( ). (, , ) ┬л┬╗ тАУ , .


рд╕рдВрдЧреАрдд-рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░ рдкреНрд░рджрд░реНрд╢рди рдПрдиреНрдХреЛрдбрд┐рдВрдЧ -3


тАУ one-hot . midi . :


рд╕рдВрдЧреАрдд-рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡-рдЙрджрд╛рд╣рд░рдг


one-hot :


рд╕рдВрдЧреАрдд-рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░ рдЗрдирдкреБрдЯ-рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ -2


:


рд╕рдВрдЧреАрдд-рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░-рдЖрддреНрдо рдзреНрдпрд╛рди -2


, . .



GPT-2 тАУ . , , , , .



  • GPT-2 OpenAI
  • рд╣рдЧрд┐рдВрдЧ рдлреЗрд╕ рд╕реЗ pytorch-transformers2 рд▓рд╛рдЗрдмреНрд░реЗрд░реА рджреЗрдЦреЗрдВ , рдЬреЛ GPT-2 рдХреЗ рдЕрд▓рд╛рд╡рд╛ BERT, рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░-рдПрдХреНрд╕реНрдЯреНрд░рд╛ рд▓рд╛рд░реНрдЬ, XLNet рдФрд░ рдЕрдиреНрдп рдПрдбрд╡рд╛рдВрд╕реНрдб рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдореЙрдбрд▓ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рддрд╛ рд╣реИред

рд▓реЗрдЦрдХ



All Articles