El algoritmo EM es una herramienta útil de modelado de datos cuando no es posible maximizar la probabilidad "en la frente" mediante la diferenciación. El agrupamiento es una de las tareas en las que este algoritmo viene al rescate. El artículo proporciona una conclusión general del algoritmo EM para la agrupación.
Tarea
Muchos puntos debe dividirse en agrupaciones.
Idea de la solución
Componemos un modelo probabilístico de la distribución de puntos a través de grupos. Encontremos los parámetros del modelo para los cuales la probabilidad de observar el conjunto máximo. Con estos parámetros, podremos determinar a qué grupo pertenece el punto más probable. .
Modelo de datos
Introducimos una serie de notación prestada del curso .
es la probabilidad de observar un punto .
- probabilidad de observar el conjunto .
- probabilidad de cumplir el punto en el clúster . Esta distribución está parametrizada por un parámetro (o vector de parámetros) individual para el clúster .
es la probabilidad del grupo , es decir la probabilidad de que un punto seleccionado aleatoriamente pertenezca a un grupo . Un punto seleccionado al azar se refiere exactamente a un grupo, por lo que .
De las definiciones anteriores se deduce que , .. .
, :
, , :
. (, TensorFlow PyTorch).
:
L := log p(X)
while log p(X) :
L log p(X)
w, theta = argmax L
, , . :
- : "" , .
- , .
, "" , .
:
. :
:
. :
, .
: . :
:
(E-)
. , .
, , :
, :
:
: . - ( KL-) "" .
, — KL-:
KL- , , — KL- . : KL- , — . :
.
(M-)
: . :
:
El segundo término es independiente de los parámetros. y , por lo tanto, optimizaremos aún más solo el primer término:
Descomponemos el logaritmo del producto en la suma de los logaritmos y obtenemos:
El primer problema se resuelve con el método multiplicador de Lagrange. Resultado:
La solución al segundo problema depende del tipo específico de distribución del clúster. . Como puede ver, para su solución, ya no tiene que lidiar con la suma bajo el signo del logaritmo, por lo tanto, por ejemplo, para distribuciones gaussianas, la solución puede escribirse analíticamente.
Total
Descubrimos la esencia de las iteraciones del algoritmo EM para la agrupación y vimos cómo sus fórmulas se derivan de manera general.