TL؛ DR : ترجمة منشور Chaitanya Joshi " المحولات عبارة عن شبكات عصبية بيانية": الرسوم البيانية ، الصيغ ، الأفكار ، الروابط المهمة. نشرت بإذن من المؤلف.
غالبًا ما يطرح أصدقاء Datacenter نفس السؤال: تعتبر الشبكات العصبية Graph فكرة رائعة ، ولكن هل لديهم أي قصص نجاح حقيقية؟ هل لديهم أي تطبيقات عملية؟
— Pinterest, Alibaba Twitter. : Transformer.
(Transformers). NLP- GNN-, , "" , .
— (representation learning).
NLP
, "" . () (latent/hidden) - . , . , (error/loss functions).
, (natural language processing; NLP), (recurrent neural networks; RNN) — , . RNN , . , RNN, .
, , RNN ( ) .
RNN NLP. : , , (attention mechanism; attention), . , — , "".
2017 , NLP — — RNN. , , !
, Yannic Kilcher.
. , — - — :
, — ( Query, Key Value). , . ! — RNN, .
, :
, softmax . , , , . .
(Multi-Head Attention)
- --- (dot product attention): . , "" (attention heads) () ( "" ):
— - "" , — , .
, "" " ", . .
""
Scale issues and the Feed-forward sub-layer
, - , , : . - (1), - " " , , . - (2), , "". . , (normalization layer).
(2) LayerNorm, . , --- (1).
, , : . , () , ReLU, , :
, , , . ! , LayerNorm . — , .
, !
:
"" , NLP- , . , ("") , (residual connections) "" "". .
GNN
NLP.
(GNN) (GCN) . (, , ). , . GNN (propagate) — — .
, , : , GNN, : "" .
GNN , :
— GNN, — (, , ReLU). — 
, , , / - — , .
, ?
, :
, , Graph Attention Network (GAT). , — — "" !
— , —
, , — , . GNN, (.. ) (.. ) , .
, GNN . — , NLP , .
, , , , , , — . GNN-. , GNN, .
?
, , , .
( , ) : , . TreeLSTM, , , /GNN NLP?
(long-term dependencies)?
: . , , , GNN . - .
NLP-, . , "" LSH (Locality-Sensitive Hashing) . .
, , GNN. , (Binary Partitioning) " ".
NLP- , , , . , — , , — - " ".
, , " ".
"" — GNN , ( , ) , GNN ? .
? ?
. , , - "" . , , .
"" GNN, GAT , MoNet (Gaussian kernels) . . "" ?
, GNN (, ) . " " !
- , ? Yann Dauphin (ConvNet). , , !
, , , , (learning rate schedule), "" (warmup strategy) (decay settings). , , — , — .
, , , .
DeepMind- , - ? " 16 000 "" (warmup), 500 000 "" (decay), 9 000 ".
, , , : , " " ?
" "?
, , (inductive bias), ?
, : The Illustrated Transformer The Annotated Transformer.
GNN : Arthur Szlam Attention/Memory Networks, GNN . - (position paper) DeepMind, — "" — . , , DGL. seq2seq "" "" GNN.
, , GNN NLP ( HuggingFace: Transformers).
وأخيرًا ، كتبنا مؤخرًا مقالة نطبق فيها المحولات على مجموعة بيانات رسم QuickDraw . تحقق من ذلك!
إضافة
كما تمت ترجمة المنشور إلى اللغة الصينية . انضم إلى مناقشته على reddit وعلى Twitter !
الترجمة من الإنجليزية: أنطون أليكسيف
(مختبر الذكاء الاصطناعي ، POMI RAS الذي يحمل اسم V.A. Steklov)
للحصول على تعليقات قيمة ، المترجم يشكر دينيس كيريانوفكردن وميخائيل افتيخييف aspr_spb.