рдЧреНрд░рд╛рдл рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рд░реВрдк рдореЗрдВ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░

рдЯреАрдПрд▓; рдбреАрдЖрд░ : рдЪреИрддрдиреНрдп рдЬреЛрд╢реА рдХреЗ рдкреЛрд╕реНрдЯ рдХрд╛ рдЕрдиреБрд╡рд╛рдж " рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░реНрд╕ рдЧреНрд░рд╛рдл рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХреНрд╕ рд╣реИрдВ ": рдЖрд░реЗрдЦ, рд╕реВрддреНрд░, рд╡рд┐рдЪрд╛рд░, рдорд╣рддреНрд╡рдкреВрд░реНрдг рд▓рд┐рдВрдХред рд▓реЗрдЦрдХ рдХреА рдЕрдиреБрдорддрд┐ рд╕реЗ рдкреНрд░рдХрд╛рд╢рд┐рддред

рдбреЗрдЯрд╛рд╕реЗрдВрдЯрд░ рдорд┐рддреНрд░ рдЕрдХреНрд╕рд░ рдПрдХ рд╣реА рд╕рд╡рд╛рд▓ рдкреВрдЫрддреЗ рд╣реИрдВ: рдЧреНрд░рд╛рдл рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХ рдПрдХ рдорд╣рд╛рди рд╡рд┐рдЪрд╛рд░ рд╣реИ, рд▓реЗрдХрд┐рди рдХреНрдпрд╛ рдЙрдирдХреЗ рдкрд╛рд╕ рдХрдо рд╕реЗ рдХрдо рдХреБрдЫ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдлрд▓рддрд╛ рдХреА рдХрд╣рд╛рдирд┐рдпрд╛рдВ рд╣реИрдВ? рдХреНрдпрд╛ рдЙрдирдХреЗ рдкрд╛рд╕ рдХреЛрдИ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рд╣реИ?



тАФ Pinterest, Alibaba Twitter. : Transformer.


(Transformers). NLP- GNN-, , "" , .


тАФ (representation learning).


NLP


, "" . () (latent/hidden) - . , . , (error/loss functions).


, (natural language processing; NLP), (recurrent neural networks; RNN) тАФ , . RNN , . , RNN, .


, , RNN ( ) .


RNN NLP. : , , (attention mechanism; attention), . , тАФ , "".


2017 , NLP тАФ тАФ RNN. , , !
, Yannic Kilcher.


. , hтАФ i- SтАФ ll+1:


hiтДУ+1=Attention(QтДУhiтДУ ,KтДУhjтДУ ,VтДУhjтДУ),


i.e., hiтДУ+1=тИСjтИИSwij(VтДУhjтДУ),


 wij=softmaxj(QтДУhiтДУтЛЕKтДУhjтДУ),


jтИИS, QтДУ,KтДУ,VтДУтАФ ( Query, Key Value). , . ! тАФ RNN, .


, :



hiтДУhjтДУ; тИАjтИИSwij(i,j), softmax j. , hiтДУ+1i, hjтДУ, wij. .

(Multi-Head Attention)


- --- (dot product attention): . , "" (attention heads) () ( "" ):


hiтДУ+1=Concat(head1,тАж,headK)OтДУ,


headk=Attention(Qk,тДУhiтДУ ,Kk,тДУhjтДУ ,Vk,тДУhjтДУ),


Qk,тДУ,Kk,тДУ,Vk,тДУтАФ k- "" , OтДУтАФ , hiтДУ+1hiтДУ.


, "" " ", . .


""


Scale issues and the Feed-forward sub-layer


, - , , : . - (1), - " " , , wij. - (2), , "". hiтДУ+1. , (normalization layer).


(2) LayerNorm, . , --- (1).


, , : . , hiтДУ+1() , ReLU, , :


hiтДУ+1=LN(MLP(LN(hiтДУ+1)))


, , , . ! , LayerNorm . тАФ , .
, !

:



"" , NLP- , . , ("") , (residual connections) "" "". .


GNN


NLP.


(GNN) (GCN) . (, , ). , . GNN (propagate) тАФ тАФ .



, , : , GNN, : "" .

GNN hiтДУhiтДУ, hjтДУjтИИN(i):


hiтДУ+1=╧Г(UтДУhiтДУ+тИСjтИИN(i)(VтДУhjтДУ)),


UтДУ,VтДУтАФ GNN, ╧ГтАФ (, , ReLU). тАФ


jтИИN(i), , , / - тАФ , .


, ?


, :



j, , Graph Attention Network (GAT). , тАФ тАФ "" !

тАФ , тАФ


, , тАФ , . GNN, (.. ) (.. ) , .



, GNN . тАФ jтИИN(i), NLP S, jтИИS.


, , , , , , тАФ . GNN-. , GNN, .


?


, , , .


тАФ , NLP?


( , ) : , . TreeLSTM, , , /GNN NLP?



(long-term dependencies)?


: . , , , nGNN n2. - n.


NLP-, . , "" LSH (Locality-Sensitive Hashing) . .


, , GNN. , (Binary Partitioning) " ".



" "?


NLP- , , , . , тАФ , , тАФ - " ".


, , " ".


"" тАФ GNN , ( , ) , GNN ? .



? ?


. , , - "" . , , .


"" GNN, GAT , MoNet (Gaussian kernels) . . "" ?


, GNN (, ) . " " !


- , ? Yann Dauphin (ConvNet). , , !



?


, , , , (learning rate schedule), "" (warmup strategy) (decay settings). , , тАФ , тАФ .


, , , .



DeepMind- , - ? " 16 000 "" (warmup), 500 000 "" (decay), 9 000 ".

, , , : , " " ?


" "?


, , (inductive bias), ?



, : The Illustrated Transformer The Annotated Transformer.


GNN : Arthur Szlam Attention/Memory Networks, GNN . - (position paper) DeepMind, тАФ "" тАФ . , , DGL. seq2seq "" "" GNN.


, , GNN NLP ( HuggingFace: Transformers).


рдФрд░ рдЕрдВрдд рдореЗрдВ, рд╣рдордиреЗ рд╣рд╛рд▓ рд╣реА рдореЗрдВ рдПрдХ рд▓реЗрдЦ рд▓рд┐рдЦрд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рд╣рдо рдХреНрд╡рд┐рдХрдбреНрд░рд╛рд╡ рд╕реНрдХреЗрдЪ рдХреЗ рд╕рд╛рде рдПрдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдЯреНрд░рд╛рдВрд╕рдлрд╛рд░реНрдорд░ рд▓рдЧрд╛рддреЗ рд╣реИрдВ ред рдЗрд╕рдХреА рдЬрд╛рдВрдЪ - рдкрдбрд╝рддрд╛рд▓ рдХрд░реЗрдВ!


рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛


рдкреЛрд╕реНрдЯ рдХрд╛ рдЪреАрдиреА рднрд╛рд╖рд╛ рдореЗрдВ рдЕрдиреБрд╡рд╛рдж рднреА рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ ред Reddit рдФрд░ рдЯреНрд╡рд┐рдЯрд░ рдкрд░ рдЙрдирдХреА рдЪрд░реНрдЪрд╛ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реЛрдВ !


рдЕрдВрдЧреНрд░реЗрдЬреА рд╕реЗ рдЕрдиреБрд╡рд╛рдж: рдПрдВрдЯреЛрди рдЕрд▓реЗрдХреНрд╕реЗрд╡
(рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдХреА рдкреНрд░рдпреЛрдЧрд╢рд╛рд▓рд╛, рдкреЛрдо RAS рдХрд╛ рдирд╛рдо V.A. Steklov рдХреЗ рдирд╛рдо рдкрд░)

рдмрд╣реБрдореВрд▓реНрдп рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП, рдЕрдиреБрд╡рд╛рджрдХ рдзрдиреНрдпрд╡рд╛рдж рдбреЗрдирд┐рд╕ рдХрд┐рд░реНрдпрд╛рдиреЛрд╡kirdin рдФрд░ рдорд┐рдЦрд╛рдЗрд▓ рдЗрд╡рддрд┐рдЦрд┐рдПрд╡ aspr_spbред

All Articles