Algoritmo EM para clustering

O algoritmo EM é uma ferramenta de modelagem de dados útil quando não é possível maximizar a probabilidade "de frente", através da diferenciação. O armazenamento em cluster é uma das tarefas em que esse algoritmo ajuda. O artigo fornece uma conclusão geral do algoritmo EM para agrupamento.


Tarefa


Muitos pontos deve ser dividido em clusters.


Idéia de solução


Compomos um modelo probabilístico da distribuição de pontos entre os clusters. Vamos encontrar os parâmetros do modelo para os quais a probabilidade de observar o conjunto máximo. Com esses parâmetros, poderemos determinar a qual cluster o ponto mais provável pertence. .


Modelo de dados


Introduzimos uma série de notações emprestadas do curso .


é a probabilidade de observar um ponto .


- probabilidade de observar o conjunto .


- probabilidade de encontrar o ponto no cluster . Essa distribuição é parametrizada por um parâmetro (ou vetor de parâmetro) indivíduo para o cluster .


é a probabilidade do cluster , isto é a probabilidade de um ponto selecionado aleatoriamente pertencer a um cluster . Um ponto selecionado aleatoriamente se refere exatamente a um cluster, portanto .


Das definições acima, segue-se que , .. .


, :




, , :



. (, TensorFlow PyTorch).


:


L :=   log p(X)
while log p(X)  :
     L  log p(X)
    w, theta = argmax L

, , . :


  1. : "" , .
  2. , .

, "" , .



:



. :



:



. :



, .


: . :



:



(E-)


. , .


, , :




, :



:



: . - ( KL-) "" .


, — KL-:



KL- , , — KL- . : KL- , — . :



.


Maximizar por parâmetros (etapa M)


Agora a segunda parte da iteração: pesquisando parâmetros ao longo do limite inferior. Nesta parte, nossas suposições serão opostas:


  • distribuição fixo;
  • parâmetros e sujeito a otimização.

Simplifique antes da otimização :




O segundo termo é independente dos parâmetros e , portanto, otimizaremos ainda mais o primeiro termo:



Decompomos o logaritmo do produto na soma dos logaritmos e obtemos:




O primeiro problema é resolvido pelo método multiplicador de Lagrange. Resultado:



A solução para o segundo problema depende do tipo específico de distribuição de cluster . Como você pode ver, para sua solução, você não precisa mais lidar com a soma sob o signo do logaritmo; portanto, por exemplo, para distribuições gaussianas, a solução pode ser escrita analiticamente.


Total


Descobrimos a essência das iterações do algoritmo EM para clustering e vimos como suas fórmulas são derivadas de uma maneira geral.


All Articles