Les transformateurs comme réseaux de neurones graphiques

TL; DR : traduction du post de Chaitanya Joshi "Les transformateurs sont des réseaux de neurones graphiques ": diagrammes, formules, idées, liens importants. Publié avec l'aimable autorisation de l'auteur.

Les amis des centres de donnĂ©es posent souvent la mĂȘme question: Graph Neural Networks est une excellente idĂ©e, mais ont-ils eu de vĂ©ritables histoires de rĂ©ussite? Ont-ils des applications pratiques?



Vous pouvez donner un exemple des options dĂ©jĂ  bien connues - les systĂšmes de recommandation sur Pinterest , Alibaba et Twitter . Mais il y a une histoire dĂ©licate de succĂšs: la tempĂȘte qui a pris le traitement industriel de l' architecture en langage naturel du Transformer .


(Transformers). NLP- GNN-, , "" , .


— (representation learning).


NLP


, "" . () (latent/hidden) - . , . , (error/loss functions).


, (natural language processing; NLP), (recurrent neural networks; RNN) — , . RNN , . , RNN, .


, , RNN ( ) .


RNN NLP. : , , (attention mechanism; attention), . , — , "".


2017 , NLP — — RNN. , , !
, Yannic Kilcher.


. , h— i- S— ll+1:


hiℓ+1=Attention(Qℓhiℓ ,Kℓhjℓ ,Vℓhjℓ),


i.e., hiℓ+1=∑j∈Swij(Vℓhjℓ),


 wij=softmaxj(Qℓhiℓ⋅Kℓhjℓ),


j∈S, Qℓ,Kℓ,Vℓ— ( Query, Key Value). , . ! — RNN, .


, :



hiℓhjℓ; âˆ€j∈Swij(i,j), softmax j. , hiℓ+1i, hjℓ, wij. .

(Multi-Head Attention)


- --- (dot product attention): . , "" (attention heads) () ( "" ):


hiℓ+1=Concat(head1,
,headK)Oℓ,


headk=Attention(Qk,ℓhiℓ ,Kk,ℓhjℓ ,Vk,ℓhjℓ),


Qk,ℓ,Kk,ℓ,Vk,ℓ— k- "" , Oℓ— , hiℓ+1hiℓ.


, "" " ", . .


""


Scale issues and the Feed-forward sub-layer


, - , , : . - (1), - " " , , wij. - (2), , "". hiℓ+1. , (normalization layer).


(2) LayerNorm, . , --- (1).


, , : . , hiℓ+1() , ReLU, , :


hiℓ+1=LN(MLP(LN(hiℓ+1)))


, , , . ! , LayerNorm . — , .
, !

:



"" , NLP- , . , ("") , (residual connections) "" "". .


GNN


NLP.


(GNN) (GCN) . (, , ). , . GNN (propagate) — — .



, , : , GNN, : "" .

GNN hiℓhiℓ, hjℓj∈N(i):


hiℓ+1=σ(Uℓhiℓ+∑j∈N(i)(Vℓhjℓ)),


Uℓ,Vℓ— GNN, σ— (, , ReLU). —


j∈N(i), , , / - — , .


, ?


, :



j, , Graph Attention Network (GAT). , — — "" !

— , —


, , — , . GNN, (.. ) (.. ) , .



, GNN . — j∈N(i), NLP S, j∈S.


, , , , , , — . GNN-. , GNN, .


?


, , , .


— , NLP?


( , ) : , . TreeLSTM, , , /GNN NLP?



(long-term dependencies)?


: . , , , nGNN n2. - n.


NLP-, . , "" LSH (Locality-Sensitive Hashing) . .


, , GNN. , (Binary Partitioning) " ".



" "?


NLP- , , , . , — , , — - " ".


, , " ".


"" — GNN , ( , ) , GNN ? .



? ?


. , , - "" . , , .


"" GNN, GAT , MoNet (Gaussian kernels) . . "" ?


, GNN (, ) . " " !


- , ? Yann Dauphin (ConvNet). , , !



?


, , , , (learning rate schedule), "" (warmup strategy) (decay settings). , , — , — .


, , , .



DeepMind- , - ? " 16 000 "" (warmup), 500 000 "" (decay), 9 000 ".

, , , : , " " ?


" "?


, , (inductive bias), ?



, : The Illustrated Transformer The Annotated Transformer.


GNN : Arthur Szlam Attention/Memory Networks, GNN . - (position paper) DeepMind, — "" — . , , DGL. seq2seq "" "" GNN.


, , GNN NLP ( HuggingFace: Transformers).


Et enfin, nous avons récemment écrit un article dans lequel nous appliquons des transformateurs à un ensemble de données avec des croquis QuickDraw . Vérifiez-le!


Une addition


Le message a également été traduit en chinois . Rejoignez sa discussion sur reddit et sur Twitter !


Traduction de l'anglais: Anton Alekseev
(laboratoire d'intelligence artificielle, POMI RAS du nom de V.A. Steklov)

Pour ses précieux commentaires, le traducteur remercie Denis Kiryanovkirdin et Mikhail Evtikhiev aspr_spb.

All Articles