👁‍🗨 👩🏽‍🎤 👵🏻 Algorithme de propagation de retour d'erreur utilisant Word2Vec comme exemple 🧔🏻 ◾️ 🅰️

Étant donné que j'ai rencontré des difficultés importantes pour trouver une explication du mécanisme de propagation arrière de l'erreur que j'aimerais, j'ai décidé d'écrire mon propre article sur la propagation arrière de l'erreur en utilisant l'algorithme Word2Vec. Mon objectif est d'expliquer l'essence de l'algorithme à l'aide d'un réseau neuronal simple mais non trivial. De plus, word2vec est devenu si populaire dans la communauté NLP qu'il sera utile de s'y concentrer.

Cet article est lié à un autre article plus pratique que je recommande de lire, il traite de l'implémentation directe de word2vec en python. Dans cet article, nous nous concentrerons principalement sur la partie théorique.

Commençons par les choses nécessaires à une véritable compréhension de la rétropropagation. En plus des concepts de l'apprentissage automatique, tels que la fonction de perte et la descente de gradient, deux autres composants mathématiques sont utiles:

algèbre linéaire (en particulier multiplication matricielle)
règle de la chaîne de différenciation des fonctions de nombreuses variables

Si vous connaissez ces concepts, d'autres considérations seront simples. Si vous ne les maîtrisez pas encore, vous pouvez toujours comprendre les bases de la rétropropagation.

Tout d'abord, je veux définir le concept de rétropropagation, si le sens n'est pas assez clair, il sera divulgué plus en détail dans les paragraphes suivants.

1. Qu'est-ce qu'un algorithme de rétropropagation?

Dans le cadre d'un réseau neuronal, les seuls paramètres impliqués dans l'entraînement du réseau, c'est-à-dire pour minimiser la fonction de perte, sont les poids (ici je veux dire les poids au sens large, y compris les déplacements). Les poids changent à chaque itération jusqu'à atteindre le minimum de la fonction de perte.

, — , , .
, , .
, , , , w1 w2.

1. .

, w1 w2 .

, . , $\partial\mathcal{L}/\partial w_1$ $\partial\mathcal{L}/\partial w_2$ , , . $\eta$ , .

2. Word2Vec

word2vec, , , . , word2vec, NLP., word2vec [N, 3], N - , . , , '', , ( ), , ''. , word2vec .word2vec : (CBOW) (skip-gram). , CBOW, , skip-gram.. , woed2vec .

3. CBOW

CBOW . , :

2. Continuous Bag-of-Words, ,a = 1 (identity function, , ).Softmax.one hot encoding , , , , , 1.: ['', '', '', '', '', '']OneHot('') = [0, 0, 0, 1, 0, 0]OneHot(['', '']) = [1, 0, 0, 1, 0, 0]OneHot(['', '', '']) = [1, 0, 0, 0, 1, 1], W

$V\times N$ ,

$W’$

$N\times V$ , V — , N — ( , word2vec)y t, , , , , ., .

, word2vec :"I like playing football"CBOW (2) ., 4 , V=4, , N=2, :

$\textrm{Vocabulary}=[\textrm{“I”}, \textrm{“like”}, \textrm{“playing”}, \textrm{“football”}]$ '' '' , . :

, one-hot encoding.

, , , . , , .

3.1 (Loss function)

1, , x:

$\begin{eqnarray*} \textbf{h} = & W^T\textbf{x} \hspace{7.0cm} \\ \textbf{u}= & W'^T\textbf{h}=W'^TW^T\textbf{x} \hspace{4.6cm} \\ \textbf{y}= & \ \ \mathbb{S}\textrm{oftmax}(\textbf{u})= \mathbb{S}\textrm{oftmax}(W'^TW^T\textbf{x}) \hspace{2cm} \end{eqnarray*}$ , h — , u — , y — ., , , (wt, wc). , onehot encoding ., onehot wt ( ).softmax , :

Algorithme de propagation de retour d'erreur utilisant Word2Vec comme exemple

1. Qu'est-ce qu'un algorithme de rétropropagation?

2. Word2Vec

3. CBOW

3.1 (Loss function)

3.2 CBOW

3.3

3.4

4. CBOW

5. Skip-gram

6.

Liens annexes

More articles: