当无法通过差异最大化“额头”可能性时，EM算法是有用的数据建模工具。聚类是该算法的主要任务之一。本文提供了用于聚类的EM算法的一般结论。

任务

很多点 $X= \{ x_i, i\in1..N \}$ 必须被分成 $K$ 群集。

解决思路

我们组成了集群中点分布的概率模型。我们找到模型参数，可以观察到这些参数 $X$ 最大值。使用这些参数，我们将能够确定最可能的点属于哪个群集。 $x$ 。

资料模型

我们介绍了本课程中使用的一系列符号。

$p(x)$ 是观察一个点的概率 $x$ 。

$p(X) = \prod_{i=1}^{N}p(x_i)$ -观察集合的概率 $X$ 。

$p_j (x) = \varphi(x; \theta_j)$ -概率满足点 $x$ 集群中的 $j$ 。此分布通过参数（或参数向量）进行参数化 $\theta_j$ 个体为集群 $j$ 。

$w_j$ 是聚类的概率 $j$ ，即随机选择的点属于聚类的概率 $j$ 。随机选择的点恰好是指一个簇，因此 $\sum_{j=1}^K w_j = 1$ 。

从上面的定义可以得出： $p(x) = \sum_{j=1}^K w_j p_j(x) = \sum_{j=1}^K w_j \varphi(x; \theta_j)$ , .. .

, $X$ :

p (X) = \prod_{i = 1}^{N} (\sum_{j = 1}^{K} w_{j} φ (x_{i}; θ_{j}))

$p(X) = \prod_{i=1}^{N}\left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right)$

$w$ $\theta$ , , :

w, θ = argmax p (X) = argmax \log p (X) = {argmax}_{w, θ} \sum_{i = 1}^{N} \log (\sum_{j = 1}^{K} w_{j} φ (x_{i}; θ_{j}))

$w, \theta = \textrm{argmax} \ p(X) = \textrm{argmax} \ \log p(X) = \textrm{argmax}_{w, \theta} \sum_{i=1}^{N} \log \left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right)$

. $\sum_{j=1}^K w_j = 1$ (, TensorFlow PyTorch).

L :=   log p(X)
while log p(X)  :
     L  log p(X)
    w, theta = argmax L

, $\log p(X)$ , . $\mathcal{L}$ :

$\mathcal{L}$ : "" , $\log p(X)$ .
$w$ $\theta$ , $\mathcal{L}$ .

, "" , .

$\mathcal{L}$

\log p (X) = \sum_{i = 1}^{N} \log (\sum_{j = 1}^{K} w_{j} φ (x_{i}; θ_{j}))

$\log p(X) = \sum_{i=1}^{N} \log \left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right)$

. $g_i$ $x_i$ :

g_{i} (j) \equiv p (быть в кластере j | это точка i)

$g_i(j) \equiv p(\textrm{ } \ j| \textrm{ } \ i)$

\sum_{i = 1}^{N} \log (\sum_{j = 1}^{K} w_{j} φ (x_{i}; θ_{j})) = \sum_{i = 1}^{N} \log (\sum_{j = 1}^{K} \frac{g_{i} (j)}{g_{i} (j)} w_{j} φ (x_{i}; θ_{j}))

$\sum_{i=1}^{N} \log \left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right) =\sum_{i=1}^{N} \log \left(\sum_{j=1}^K \frac{ g_i(j) }{ g_i(j) } w_j \varphi(x_i; \theta_j)\right)$

. :

\log (\sum_{i} q_{i} x_{i}) \geq \sum_{i} q_{i} \log x_{i}

$\log \left(\sum_i q_i x_i \right) \geq \sum_i q_i \log x_i$

, $q_i$ $1$ .

$g_i(j)$ : $\sum_{j=1}^K g_i(j) = 1$ . :

\sum_{i = 1}^{N} \log (\sum_{j = 1}^{K} \frac{g_{i} (j)}{g_{i} (j)} w_{j} φ (x_{i}; θ_{j})) \geq \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log (\frac{w_{j} φ (x_{i}; θ_{j})}{g_{i} (j)})

$\sum_{i=1}^{N} \log \left(\sum_{j=1}^K \frac{ g_i(j) }{ g_i(j) } w_j \varphi(x_i; \theta_j)\right) \geq \sum_{i=1}^{N} \sum_{j=1}^K g_i(j) \log \left(\frac{ w_j \varphi(x_i; \theta_j) }{ g_i(j) }\right)$

L (g, w, θ) \equiv \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log (\frac{w_{j} φ (x_{i}; θ_{j})}{g_{i} (j)})

$\mathcal{L}(g, w, \theta) \equiv \sum_{i=1}^{N} \sum_{j=1}^K g_i(j) \log \left(\frac{ w_j \varphi(x_i; \theta_j) }{ g_i(j) }\right)$

$\mathcal{L}$ (E-)

$\mathcal{L}(g, w, \theta)$ $\log p(X)$ . $w$ $\theta$ , $\mathcal{L}$ $g$ .

$\log p(X)$ $\mathcal{L}$ , , :

\log p (X) - L (g, w, θ) = \sum_{i = 1}^{N} \log p (x_{i}) - \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log (\frac{w_{j} φ (x_{i}; θ_{j})}{g_{i} (j)}) =

$\log p(X) - \mathcal{L}(g, w, \theta) = \sum_{i=1}^N \log p(x_i) - \sum_{i=1}^{N} \sum_{j=1}^K g_i(j) \log \left(\frac{ w_j \varphi(x_i; \theta_j) }{ g_i(j) }\right)=$

= \sum_{i = 1}^{N} (\log p (x_{i}) \sum_{j = 1}^{K} g_{i} (j) - \sum_{j = 1}^{K} g_{i} (j) \log \frac{w_{j} φ (x_{i}; θ_{j})}{g_{i} (j)}) = \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log \frac{p (x_{i}) g_{i} (j)}{w_{j} φ (x_{i}; θ_{j})}

$= \sum_{i=1}^N \left(\log p(x_i) \sum_{j=1}^K g_i(j) - \sum_{j=1}^K g_i(j) \log \frac{w_j \varphi(x_i; \theta_j)}{g_i(j)} \right) = \sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \frac{p(x_i) g_i(j)}{w_j \varphi(x_i; \theta_j)}$

, $j$ :

p (j | x_{i}) = \frac{φ (x_{i}; θ_{j}) w_{j}}{p (x_{i})}

$p(j|x_i) = \frac{\varphi(x_i; \theta_j) w_j}{p(x_i)}$

\sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log \frac{p (x_{i}) g_{i} (j)}{w_{j} φ (x_{i}; θ_{j})} = \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log \frac{g_{i} (j)}{p (j | x_{i})} = \sum_{i = 1}^{N} E_{g_{i}} \frac{g_{i}}{p (j | x_{i})}

$\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \frac{p(x_i) g_i(j)}{w_j \varphi(x_i; \theta_j)} = \sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \frac{g_i(j)}{p(j|x_i)}= \sum_{i=1}^N \mathbb{E}_{g_i} \frac{g_{i}}{p(j|x_i)}$

: . - ( KL-) "" .

, $\log p(X)$ $\mathcal{L}$ — KL-:

\log p (X) - L (g, w, θ) = \sum_{i = 1}^{N} K L (g_{i} | | p (j | x_{i}))

$\log p(X) - \mathcal{L}(g, w, \theta) = \sum_{i=1}^N KL(g_i || p(j|x_i))$

KL- , , — KL- . : KL- , — . $g_i(j)$ $p(j|x_i)$ :

g_{i} (j) = p (j | x_{i}) = \frac{w_{j} φ (x_{i}; θ_{j})}{p (x_{i})}

$g_i(j) = p(j|x_i) = \frac{w_j \varphi(x_i; \theta_j)}{p(x_i)}$

$g_i(j)$ $\mathcal{L}$ $\log p(X)$ .

$\mathcal{L}$ (M-)

: . :

$g$ ;
$w$ $\theta$ .

$\mathcal{L}$ :

L (g, θ) = \sum_{i = 1}^{N} (\sum_{j = 1}^{K} g_{i} (j) \log \frac{w_{j} p (x_{i}; θ_{j})}{g_{i} (j)}) =

$\mathcal{L}(g, \theta) = \sum_{i=1}^N\left( \sum_{j=1}^K g_i(j) \log \frac{w_j p(x_i; \theta_j)}{g_i(j)} \right) =$

= \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log (w_{j} p (x_{i}; θ_{j})) - \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log g_{i} (j)

$= \sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \left( w_j p(x_i; \theta_j) \right) -\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log g_i(j)$

第二项与参数无关 $w$ 和 $\theta$ ，因此，我们将仅进一步优化第一个术语：

w, θ = {argmax}_{w, θ} \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log (w_{j} φ (x_{i}; θ_{j}))

$w, \theta = \textrm{argmax}_{w, \theta}\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \left( w_j \varphi(x_i; \theta_j) \right)$

我们将乘积对数分解为对数之和，得到：

w = {argmax}_{w} \sum_{i = 1}^{N} \sum_{j = 1}^{K} g_{i} (j) \log w_{j}, при условии \sum_{j = 1} w_{j} = 1

$w = \textrm{argmax}_{w}\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log w_j, \textrm{ }\sum_{j=1} w_j = 1$

θ_{j} = argmax \sum_{i = 1}^{N} g_{i} (j) \log φ (x_{i}; θ_{j})

$\theta_j = \textrm{argmax} \sum_{i=1}^N g_i(j) \log \varphi (x_i; \theta_j)$

第一个问题通过拉格朗日乘数法解决。结果：

w_{j} = \frac{1}{N} \sum_{i = 1}^{N} g_{i} (j)

$w_j = \frac{1}{N} \sum_{i=1}^N g_i(j)$

第二个问题的解决方案取决于集群分布的特定类型 $\varphi (x_i; \theta_j)$ 。如您所见，对于其解决方案，您不再需要以对数的符号处理总和，因此，例如，对于高斯分布，该解决方案可以解析地编写。

总

我们发现了用于聚类的EM算法迭代的本质，并了解了它们的公式是如何以一般方式导出的。

EM聚类算法

任务

解决思路

资料模型

$\mathcal{L}$

$\mathcal{L}$ (E-)

$\mathcal{L}$ (M-)

总

More articles:

EM聚类算法

任务

解决思路

资料模型

L\mathcal{L}

L\mathcal{L}(E-)

L\mathcal{L}(M-)

总

More articles:

$\mathcal{L}$

$\mathcal{L}$ (E-)

$\mathcal{L}$ (M-)