Cómo evaluar la agrupación de k-medias en R

Así es como lo abordaría, pero creo que evaluar una solución de agrupación es tanto arte como ciencia.

1.) Si es posible, es decir, si tiene suficiente tiempo o recursos informáticos, use la estadística de brecha para estimar la mejor cantidad de clústeres para su conjunto de datos.

clusGap {cluster}

2.) Para evaluar realmente la solución, mi estadística de evaluación favorita es el coeficiente de Silhouette.

silueta {cluster}

Me gusta porque te da una idea más absoluta de si tu solución es buena, es decir, una silueta más cercana a 1, o mala, es decir, una silueta más cercana a -1. (Esta es la interpretación estándar y ASUMO que esta es la implementación en R.)

Este documento discute MUCHAS medidas de evaluación de clúster:
Página en r-project.org

De estos, prefiero Calinski-Harabasz y Davies-Bouldin. Ambos parecen estar implementados en varios lugares en R.

3.) Aquí es donde entra el “Arte”. Creo que su solución de agrupación que tiene sentido para usted y para sus datos es más importante que estas medidas. Por lo tanto, deberá perfilar su solución de clúster. Lo primero que haría es mirar los valores medios del clúster (centroides). ¿Están realmente separados? ¿Están cubriendo todos los grupos distintos en sus datos?

Si solo está buscando la implementación del código R, mire este video:

Es parte del curso de aprendizaje estadístico. Los detalles se encuentran en esta publicación de blog: Introducción en profundidad al aprendizaje automático en 15 horas de videos expertos

biblioteca (estadísticas)
k significa