🍙 🏄 👨🏻‍🚒 以Word2Vec为例的错误反向传播算法 🤸🏾 👩🏾‍🔬 🐲

由于在寻找所需的错误的反向传播机制的解释时遇到了很大的困难，因此，我决定使用Word2Vec算法撰写有关错误的反向传播的文章。我的目标是使用简单但非平凡的神经网络来解释算法的本质。另外，word2vec在NLP社区中变得如此流行，以至于关注它会很有用。

这篇文章与我建议阅读的另一篇更实用的文章有关，它讨论了在Python中直接实现word2vec的方法。在这篇文章中，我们将主要集中在理论部分。

让我们从真正了解反向传播所需的东西开始。除了来自机器学习的概念（例如损失函数和梯度下降）之外，数学中的另外两个组件也派上用场：

线性代数（特别是矩阵乘法）
功能与许多变量的微分链的规则

如果您熟悉这些概念，那么进一步的考虑将很简单。如果尚未掌握它们，您仍然可以了解反向传播的基础知识。

首先，我要定义反向传播的概念，如果含义不够清楚，则将在以下段落中更详细地公开它。

1.什么是反向传播算法？

在神经网络的框架内，训练网络（即最小化损失函数）所涉及的唯一参数是权重（这里我指的是广义上的权重，指代权重和偏差）。权重在每次迭代中都会变化，直到我们达到损失函数的最小值为止。

, — , , .
, , .
, , , , w1 w2.

1. .

, w1 w2 .

, . , $\partial\mathcal{L}/\partial w_1$ $\partial\mathcal{L}/\partial w_2$ , , . $\eta$ , .

2. Word2Vec

word2vec, , , . , word2vec, NLP., word2vec [N, 3], N - , . , , '', , ( ), , ''. , word2vec .word2vec : (CBOW) (skip-gram). , CBOW, , skip-gram.. , woed2vec .

3. CBOW

CBOW . , :

2. Continuous Bag-of-Words, ,a = 1 (identity function, , ).Softmax.one hot encoding , , , , , 1.: ['', '', '', '', '', '']OneHot('') = [0, 0, 0, 1, 0, 0]OneHot(['', '']) = [1, 0, 0, 1, 0, 0]OneHot(['', '', '']) = [1, 0, 0, 0, 1, 1], W

$V\times N$ ,

$W’$

$N\times V$ , V — , N — ( , word2vec)y t, , , , , ., .

, word2vec :"I like playing football"CBOW (2) ., 4 , V=4, , N=2, :

$\textrm{Vocabulary}=[\textrm{“I”}, \textrm{“like”}, \textrm{“playing”}, \textrm{“football”}]$ '' '' , . :

, one-hot encoding.

, , , . , , .

3.1 (Loss function)

1, , x:

$\begin{eqnarray*} \textbf{h} = & W^T\textbf{x} \hspace{7.0cm} \\ \textbf{u}= & W'^T\textbf{h}=W'^TW^T\textbf{x} \hspace{4.6cm} \\ \textbf{y}= & \ \ \mathbb{S}\textrm{oftmax}(\textbf{u})= \mathbb{S}\textrm{oftmax}(W'^TW^T\textbf{x}) \hspace{2cm} \end{eqnarray*}$ , h — , u — , y — ., , , (wt, wc). , onehot encoding ., onehot wt ( ).softmax , :

以Word2Vec为例的错误反向传播算法

1.什么是反向传播算法？

2. Word2Vec

3. CBOW

3.1 (Loss function)

3.2 CBOW

3.3

3.4

4. CBOW

5. Skip-gram

6.

网站连结

More articles: