El libro "Aprendizaje automático sin palabras"

imagenHola habrozhiteli! Todo lo que realmente necesita saber sobre el aprendizaje automático puede caber en un par de cientos de páginas.

Comencemos con una verdad simple: los autos no aprenden. El aprendizaje automático típico implica encontrar una fórmula matemática que, cuando se aplica a un conjunto de datos de entrada (llamados datos de entrenamiento), producirá los resultados deseados.

Andrei Burkov trató de dar todo lo necesario para que todos pudieran convertirse en un excelente analista moderno o especialista en aprendizaje automático. Lo que logró encajar en un par de cientos de páginas en otros libros se extendió a miles. Los libros típicos sobre aprendizaje automático son conservadores y académicos, aquí el énfasis está en algoritmos y métodos que son útiles en el trabajo diario.

Extracto 9.2.3. Determinando el número de clusters


La pregunta más importante es ¿cuántos grupos hay en el conjunto de datos? Cuando los vectores de características son de una, dos o tres dimensiones, puede dibujar la distribución de datos en el gráfico y ver las "nubes" de puntos en el espacio de características. Cada nube es un clúster potencial. Sin embargo, para datos D-dimensionales, con D> 3, dibujar dicho gráfico es problemático.

Una forma de determinar un número razonable de grupos se basa en la idea del poder predictivo. La conclusión es dividir los datos en conjuntos de entrenamiento y prueba, como se hace en la enseñanza con un maestro. Después de seleccionar los conjuntos de entrenamiento y prueba, Str con el tamaño Ntr y Ste con el tamaño Nte, respectivamente, usted fija el número de clústeres k, ejecuta el algoritmo de agrupamiento C en los conjuntos Str y Ste y obtiene los resultados del agrupamiento C (Str, k) y C (Ste, k).

Sea A el resultado del agrupamiento C (Str, k) obtenido para el conjunto de entrenamiento. Los grupos en A se pueden considerar como regiones. Si una muestra cae en una de estas áreas, significa que pertenece a algún grupo específico. Por ejemplo, si aplicamos el algoritmo k significa a un determinado conjunto de datos, el resultado es una partición del espacio de características en k regiones poligonales, como se muestra en la Fig. 9.2.

Definimos una matriz Nte × Nte de membresía conjunta D [A, Ste], cuyos elementos D [A, Ste] (i, i`) = 1 si y solo si los datos xi y xi` del conjunto de prueba pertenecen al mismo grupo, de acuerdo con a la partición A. De lo contrario, D [A, Ste] (i, i`) = 0.

Y ahora detengámonos y veamos qué pasó. Creamos una partición A usando un conjunto de datos de entrenamiento en k grupos. Luego construimos una matriz de afiliación conjunta que indica si dos muestras del conjunto de prueba pertenecen a un grupo en A.

Obviamente, si k es razonable, entonces es más probable que dos muestras pertenecientes al mismo grupo en la solución C (Ste, k) sean pertenecen a un grupo en la solución y C (Str, k). Por otro lado, si el valor de k no es razonable (demasiado alto o demasiado bajo), entonces es probable que las particiones basadas en datos de entrenamiento y prueba sean menos consistentes.

En la Fig. 9.3 muestra los datos utilizados, y la Fig. 9.4 ilustra la idea. Los gráficos en la fig. 9.4a y 9.4b muestran los resultados de C (Str, 4) y C (Ste, 4) con las regiones correspondientes de los grupos. En la Fig. 9.4c muestra los datos de prueba trazados en el área de grupos obtenidos durante la agrupación de datos de entrenamiento. En la Fig. 9.4c, puede ver que los datos de la prueba naranja ya no pertenecen a un grupo de acuerdo con las áreas obtenidas en los datos de entrenamiento. Como resultado, aparecen muchos ceros en la matriz D [A, Ste], que a su vez muestra que k = 4 probablemente no sea el mejor número de grupos.

Una fuerza más formalmente predictiva del número de grupos k se define como

imagen

dónde está el imagengrupo j de la partición C (Ste, k) y | Aj | Es el número de datos en el clúster Aj.

imagen

Teniendo en cuenta la partición C (Str, k) para cada grupo de prueba, se calcula la fracción de pares en ella, que también cayó en el mismo grupo, determinado por el centroide para el conjunto de entrenamiento. La fuerza predictiva se determina al menos por este valor para k grupos de prueba.

Como muestran los experimentos, un número razonable de grupos es el mayor k en ps (k) por encima de 0,8. La Figura 9.5 muestra ejemplos de determinación del poder predictivo de diferentes valores de k para datos divididos en dos, tres y cuatro grupos.

Para algoritmos de agrupamiento no deterministas, como k significa, que pueden generar diferentes opciones de partición, dependiendo de las posiciones iniciales de los centroides, se recomienda realizar varias ejecuciones de algoritmos de agrupamiento para el mismo k y calcular la fuerza predictiva promedioimagen

imagen

Otro método efectivo para estimar el número de grupos se denomina estadísticas de brecha. Otros métodos menos automatizados que todavía utilizan algunos analistas incluyen el método del codo y el método de la silueta promedio.

»Se puede encontrar más información sobre el libro en el sitio web del editor
» Contenido
» Extracto de

Khabrozhiteley 25% de descuento en el cupón - Aprendizaje automático

Al pagar la versión en papel del libro, se envía un libro electrónico por correo electrónico.

All Articles