
En 2019, nous avons assisté à l'utilisation brillante du machine learning. Le modÚle OpenAI GPT-2 a démontré une capacité impressionnante à écrire des textes cohérents et émotionnels supérieurs à notre compréhension de ce que les modÚles de langage modernes peuvent générer. Le GPT-2 n'est pas une architecture particuliÚrement nouvelle - il fait trÚs penser au Transformer-Decoder (Transformer uniquement avec décodeur). La différence entre GPT-2 est qu'il s'agit d'un modÚle de langage vraiment énorme basé sur Transformer, formé sur un ensemble de données impressionnant. Dans cet article, nous nous pencherons sur l'architecture du modÚle, ce qui nous permet d'obtenir de tels résultats: nous considérons en détail la couche d'auto-attention et l'utilisation du Transformateur de décodage pour des tùches qui vont au-delà de la modélisation du langage.
Contenu
1: GPT-2
?
Word2vec , â , , . â , .

, GPT-2 , , , . GPT-2 40 (WebText), OpenAI . , , SwiftKey, 78 , GPT-2 500 , GPT-2 â 13 ( 6,5 ).

GPT-2 AllenAI GPT-2 Explorer. GPT-2 ( ), .
, â .. . â , - .

, , , , ( AlphaStar).

? , GPT-2 :

BERT'
:
, .
GPT-2 . BERT , , . . , GPT-2, , . , GPT-2 :

: , , . . «» (auto-regression) RNN .

GPT-2 TransformerXL XLNet . BERT . . , BERT . XLNet , .
.
â :

(, 512 ). , .
â , . :

, [mask] , BERT', , , .
, , #4, , :

, BERT, GPT-2. . :

, «Generating Wikipedia by Summarizing Long Sequences» , : . «-». 6 :

. , . , 4000 â 512 .
, , . « », / .
GPT-2 OpenAI .
- : GPT-2
, , . , , , , . (Budgie)
GPT-2 , .

GPT-2 1024 . .
GPT-2 â ( ) (), (.. ). , ( <|endoftext|>; <|s|>).

, . , (score) â , (50 GPT-2). â «the». - â , , , , â . . GPT-2 top-k, , , (, , top-k = 1).
:

, . GPT-2 ( ). GPT-2 .
. . NLP-, , â , .

â , - . GPT-2. 768 /.
, <|s|> . , â , . , 1024 .

. , GPT-2.

#1.
, , . , . , , .

. , :
, , , .
, . , . , , :
: , , ( ). , , .
, «a robot» «it». , , , .

. :
- â , ( ). , ;
- â . ;
- â ; , , .

. â , . . , â . , .
(: ).

, .

, 50% «robot», 30% «a» 19% â «it». . .
( ), .

, . .

(top_k = 1). , . , , ( ). â top_k 40: 40 .

, . , (1024 ) .
: GPT-2,
, , GPT-2. , , . , ( TransformerXL XLNet).
, :
- «» «» ; GPT-2 (Byte Pair Encoding) . , .
- GPT-2 / (inference/evaluation mode). . . (512), 1, .
- / . .
- , . Transformer , .
- . «zoom in», :

2:
, «it»:

, . , , . , , .
( )
, . , 4 .
:
- , ;
- ;
- .

1 â ,
. . . ( «» ):

, WQ, WK, WV
2 â
, , â2: .

( ) ,
3 â
. , .

, â , .
, , . ( ).
, , , . â2. , . . , :

, (attention mask). , , («robot must obey orders»). 4 : ( , â ). .. , 4 , ( 4 ) .

, . , , ( ), :

«» . , , â (-inf) (, -1 GPT-2):

, , , :

:
- ( â1), («robot»), 100% .
- ( â2), («robot must»), «must» 48% «robot» 52% «must».
- ..
GPT-2
GPT-2.
:
, GPT-2 , . , , , .
( <|s|>).

GPT-2 «a». :

, «robot», , «a» â , :

GPT-2: 1 â ,
, «it». , «it» + #9:

( ), , .

(bias vector),
, , «it».

( ) ,
GPT-2: 1.5 â «»
, «» . . (Q), (K) (V). «» â . GPT-2 12 «» , :

, «» . «» , ( 12 «» ):

GPT-2: 2 â
( , «» ):

( «» #1 ):

GPT-2: 3 â
, , , «» #1:

GPT-2: 3.5 â «»
«» , , :

. .
GPT-2: 4 â
, , . , «» :

, , :

GPT-2: #1
â , , . . 4 ( GPT-2 768, 768*4 = 3072 ). ? ( 512 #1 â 2048). , , .

( )
GPT-2:
(768 GPT-2). .

( )
!
, - . , . , , :

. , :

, :

- 124 117. , , (, ).
3:
, . , . .
. :

, . , ( , ) . :

.

Sample Efficient Text Summarization Using a Single Pre-Trained Transformer , . , , - .
GPT-2 .
. « » â (, « »).
, . , (), ( ). (, , ) «» â , .

â one-hot . midi . :

one-hot :

:

, . .
GPT-2 â . , , , , .
Auteurs