Cómo interpretar los resultados de agrupación de k-means

En las medias K-medias normales, cada punto se asigna a un solo centroide, los puntos asignados al mismo centroide pertenecen al mismo grupo.

Cada centroide es el promedio de todos los puntos que pertenecen a su grupo, por lo que los centroides pueden tratarse como puntos de datos en el mismo espacio que el conjunto de datos que estamos utilizando.

Si estamos agrupando caras, los centroides se verán como caras, porque si promedias varias caras obtienes otra (!). Si estamos agrupando el conjunto de datos MNIST, los centroides mostrarán el promedio de todas las diferentes variantes para un dígito.

Ejemplo: 64 centroides después de agrupar el conjunto de datos de caras, cada cara es un centroide y parece una cara porque es el resultado de promediar las caras en su grupo.

Kmeans es una forma de cuantización vectorial, puede representar cada punto de datos como su centroide más cercano, de modo que le da una compresión con pérdidas del conjunto de datos al número de centroides que ha utilizado para K-medias.

Este truco se usa en varios algoritmos para acelerar el cálculo, primero aplica K-means y luego aplica algún algoritmo a los centroides y extiende los resultados a todos los puntos asociados con ese centroide.

También puede usar K-medias para la reducción de dimensionalidad que representa cada punto en k dimensiones usando la distancia desde el punto a cada centroide. A veces, las “características” generadas por K-Means harán que un clasificador funcione mejor que con los puntos sin procesar.

K-Means también le proporciona una prueba de voronoi de su conjunto de datos, cada centroide repite una región de puntos que están más cerca de ese centroide que de cualquier otro.

Esto puede ser útil de varias maneras. Por ejemplo, si se está acercando al problema de los vecinos cercanos, puede comparar el punto de consulta con los k-centroides y luego con los puntos del clúster para el centroide de los armarios, esto evita tener que comparar la consulta con todos los puntos del conjunto de datos, de Por supuesto, si el punto de consulta está cerca del borde entre dos regiones, el resultado puede faltar algunos vecinos cercanos y es por eso que es una aproximación.

Por lo tanto, K-Means puede brindarle un resultado de agrupamiento, reducción de dimensionalidad, compresión de datos con pérdida, aproximación NN o KNN y una forma de encontrar puntos centrales para acelerar cualquier algoritmo. ¡Todo por el mismo precio!

Como K-means funciona un algoritmo “codicioso” en el que clasifica los objetos en las clases K.
Básicamente, comienza con una suposición inicial de los medios y comienza a medir sus distancias contra todos los objetos. Se asigna el objeto al prototipo de clase más cercano (media de clase inicial).
Después de que se realiza la primera ronda, calcula los nuevos “medios de clases” e itera. Esto conducirá, en algunos casos, a una convergencia del método en el que después de la actualización de los medios no se realizan más cambios en el clúster.
Puede interpretar el resultado al observar la posición de los medios y decidir si tienen sentido dar sus datos.
Por lo general, para la agrupación en clúster, debe realizar algún tipo de validación para su valor K, para eso hay varios métodos (busque la validación de clúster). Esto le dará pistas sobre qué tan buena es su K propuesta (si no tiene una creencia sólida para asignarle un valor).

Aquí hay un enlace a uno de los proyectos divertidos que hice usando mis datos de Twitter y la agrupación de K-Means: Página en googledrive.com

La agrupación se realiza en los seguidores de Twitter y los datos de seguimiento. Si se desplaza por los puntos de datos, puede ver una ventana emergente que muestra lo mismo.

Acabo de seguir los pasos de este sitio web: agrupar datos de Twitter con R y k-means – ThinkToStart

Esto lo ayudará a comprender cómo se agrupan los datos.