Así es como lo abordaría, pero creo que evaluar una solución de agrupación es tanto arte como ciencia.
1.) Si es posible, es decir, si tiene suficiente tiempo o recursos informáticos, use la estadística de brecha para estimar la mejor cantidad de clústeres para su conjunto de datos.
clusGap {cluster}
- ¿Cómo funcionan los algoritmos de aprendizaje automático de Google?
- ¿Qué importancia tienen las estructuras de datos y los modelos gráficos para el aprendizaje automático?
- ¿Cómo se hacen los algoritmos EM?
- ¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?
- ¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?
2.) Para evaluar realmente la solución, mi estadística de evaluación favorita es el coeficiente de Silhouette.
silueta {cluster}
Me gusta porque te da una idea más absoluta de si tu solución es buena, es decir, una silueta más cercana a 1, o mala, es decir, una silueta más cercana a -1. (Esta es la interpretación estándar y ASUMO que esta es la implementación en R.)
Este documento discute MUCHAS medidas de evaluación de clúster:
Página en r-project.org
De estos, prefiero Calinski-Harabasz y Davies-Bouldin. Ambos parecen estar implementados en varios lugares en R.
3.) Aquí es donde entra el “Arte”. Creo que su solución de agrupación que tiene sentido para usted y para sus datos es más importante que estas medidas. Por lo tanto, deberá perfilar su solución de clúster. Lo primero que haría es mirar los valores medios del clúster (centroides). ¿Están realmente separados? ¿Están cubriendo todos los grupos distintos en sus datos?