O livro "Machine Learning sem palavras"

imagemOlá, habrozhiteli! Tudo o que você realmente precisa saber sobre aprendizado de máquina pode caber em algumas centenas de páginas.

Vamos começar com uma verdade simples: os carros não aprendem. O aprendizado de máquina típico envolve encontrar uma fórmula matemática que, quando aplicada a um conjunto de dados de entrada (chamados dados de treinamento), produzirá os resultados desejados.

Andrei Burkov tentou dar todo o necessário para que todos pudessem se tornar um excelente analista moderno ou especialista em aprendizado de máquina. O que conseguiu caber em algumas centenas de páginas, em outros livros, estendeu-se por milhares. Os livros típicos sobre aprendizado de máquina são conservadores e acadêmicos, aqui a ênfase está nos algoritmos e métodos que são úteis no trabalho diário.

Trecho 9.2.3. Determinando o número de clusters


A pergunta mais importante é quantos clusters existem no conjunto de dados? Quando os vetores de recurso são unidimensionais, bidimensionais ou tridimensionais, é possível desenhar a distribuição de dados no gráfico e ver as “nuvens” de pontos no espaço de recurso. Cada nuvem é um cluster em potencial. No entanto, para dados tridimensionais, com D> 3, desenhar um gráfico desse tipo é problemático.

Uma maneira de determinar um número razoável de clusters é baseada na ideia de poder preditivo. A linha inferior é dividir os dados em conjuntos de treinamento e teste, como é feito no ensino com um professor. Após selecionar os conjuntos de treinamento e teste, Str com o tamanho Ntr e Ste com o tamanho Nte, respectivamente, você fixa o número de clusters k, executa o algoritmo de agrupamento C nos conjuntos Str e Ste e obtém os resultados do agrupamento C (Str, k) e C (Ste, k).

Seja A o resultado do agrupamento C (Str, k) obtido para o conjunto de treinamento. Clusters em A podem ser considerados como regiões. Se uma amostra cair em uma dessas áreas, significa que pertence a algum cluster específico. Por exemplo, se aplicarmos o algoritmo k mean a um determinado conjunto de dados, o resultado será uma partição do espaço do recurso em k regiões poligonais, conforme mostrado na Fig. 9.2

Definimos uma matriz Nte × Nte de associação conjunta D [A, Ste], cujos elementos D [A, Ste] (i, i`) = 1 se e somente se os dados xi e xi` do conjunto de teste pertencerem ao mesmo cluster, de acordo com para a partição A. Caso contrário, D [A, Ste] (i, i`) = 0.

E agora vamos parar e ver o que aconteceu. Criamos uma partição A usando um conjunto de dados de treinamento em k clusters. Em seguida, construímos uma matriz de afiliação conjunta que indica se duas amostras do conjunto de testes pertencem a um cluster em A.

Obviamente, se k é razoável, é mais provável que duas amostras pertencentes ao mesmo cluster na solução C (Ste, k) sejam pertencem a um cluster na solução e C (Str, k). Por outro lado, se o valor de k não for razoável (muito alto ou muito baixo), as partições baseadas nos dados de treinamento e teste provavelmente serão menos consistentes.

Na fig. 9.3 mostra os dados utilizados, e a Fig. 9.4 ilustra a ideia. Os gráficos na fig. 9.4a e 9.4b mostram os resultados de C (Str, 4) e C (Ste, 4) com as regiões correspondentes dos clusters. Na fig. 9.4c mostra os dados de teste plotados na área de clusters obtidos durante o agrupamento de dados de treinamento. Na fig. 9.4c, você pode ver que os dados de teste laranja não pertencem mais a um cluster de acordo com as áreas obtidas nos dados de treinamento. Como resultado, muitos zeros aparecem na matriz D [A, Ste], que por sua vez mostra que k = 4 provavelmente não é o melhor número de clusters.

Uma força preditiva mais formal do número de clusters k é definida como

imagem

onde está o imagemj - ésimo cluster da partição C (Ste, k) e | Aj É o número de dados no cluster Aj.

imagem

Levando em consideração a partição C (Str, k) para cada cluster de teste, é calculada a fração de pares nela, que também caiu no mesmo cluster, determinado pelo centróide para o conjunto de treinamento. A força preditiva é determinada por pelo menos esse valor para k clusters de teste.

Como mostram as experiências, um número razoável de clusters é o maior k com ps (k) acima de 0,8. A Figura 9.5 mostra exemplos de determinação do poder preditivo de diferentes valores de k para dados divididos em dois, três e quatro grupos.

Para algoritmos de agrupamento não determinísticos, como k significa, que podem gerar opções de particionamento diferentes, dependendo das posições iniciais dos centróides, é recomendável executar várias execuções de algoritmos de agrupamento para o mesmo k e calcular a força preditiva médiaimagem

imagem

Outro método eficaz para estimar o número de clusters é chamado de estatística de lacunas. Outros métodos menos automatizados que ainda são usados ​​por alguns analistas incluem o método do cotovelo e o método da silhueta média.

»Mais informações sobre o livro podem ser encontradas no site da editora
» Conteúdo
» Trecho

do cupom Khabrozhiteley de 25% de desconto no cupom - Aprendizado de máquina

Após o pagamento da versão impressa do livro, um livro eletrônico é enviado por e-mail.

All Articles