Cómo evaluar la agrupación de k-medias en R

Así es como lo abordaría, pero creo que evaluar una solución de agrupación es tanto arte como ciencia.

1.) Si es posible, es decir, si tiene suficiente tiempo o recursos informáticos, use la estadística de brecha para estimar la mejor cantidad de clústeres para su conjunto de datos.

clusGap {cluster}

¿Cómo funcionan los algoritmos de aprendizaje automático de Google?
¿Qué importancia tienen las estructuras de datos y los modelos gráficos para el aprendizaje automático?
¿Cómo se hacen los algoritmos EM?
¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?
¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

2.) Para evaluar realmente la solución, mi estadística de evaluación favorita es el coeficiente de Silhouette.

silueta {cluster}

Me gusta porque te da una idea más absoluta de si tu solución es buena, es decir, una silueta más cercana a 1, o mala, es decir, una silueta más cercana a -1. (Esta es la interpretación estándar y ASUMO que esta es la implementación en R.)

Este documento discute MUCHAS medidas de evaluación de clúster:
Página en r-project.org

De estos, prefiero Calinski-Harabasz y Davies-Bouldin. Ambos parecen estar implementados en varios lugares en R.

3.) Aquí es donde entra el “Arte”. Creo que su solución de agrupación que tiene sentido para usted y para sus datos es más importante que estas medidas. Por lo tanto, deberá perfilar su solución de clúster. Lo primero que haría es mirar los valores medios del clúster (centroides). ¿Están realmente separados? ¿Están cubriendo todos los grupos distintos en sus datos?

Related Content

¿Cómo puedo ejecutar una regresión lineal en paralelo?

¿Es necesario un MS o PhD en Machine Learning para trabajar en este campo en alguna empresa?

¿A qué se refiere el término "regresión" en "análisis de regresión"?

Máquina de Boltzmann restringida (RBM): ¿Cómo se podría reformular (y / o explicar) las dos tareas en la siguiente diapositiva de una charla de Geoffrey Hinton?

¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?

¿Es la GeForce 610 2GB una buena tarjeta gráfica para juegos?

Si asistiera a una discusión del panel ‘Mujeres en tecnología’ este invierno, ¿qué temas o preguntas le gustaría que cubriera el panel?

Si solo está buscando la implementación del código R, mire este video:

Es parte del curso de aprendizaje estadístico. Los detalles se encuentran en esta publicación de blog: Introducción en profundidad al aprendizaje automático en 15 horas de videos expertos

Yuval Feinstein

biblioteca (estadísticas)
k significa

Yuval Feinstein

More Interesting

¿Cómo podemos usar la red neuronal para la clasificación de texto?

Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas

¿Cómo debo abordar mi tesis sobre 'conversión de lenguaje de señas a texto'? ¿Cuál debería ser el método?

¿Cómo detectaría el modelo de aprendizaje profundo los mismos objetos varias veces en un parche de imagen si existe?

¿Qué debe hacer un estudiante de diploma para aprender software o aprendizaje automático?

Cuando se estandarizan los datos como un paso de preprocesamiento, ¿por qué se usa la media y la varianza utilizadas en el tiempo del tren también en el momento de la prueba?

¿En qué se diferencia el aprendizaje profundo de la propagación por error (error)?

¿Cuántas estadísticas y probabilidades debo saber para sumergirme en el aprendizaje automático?

¿Qué problemas de visión y percepción tiene el aprendizaje profundo al borde del crack?

¿Qué tan bueno es Irlanda para la visión por computadora?

¿Cuál es la mejor manera de aprender el aprendizaje automático, en línea o sin conexión?

¿Cuáles son algunos casos de uso para el anonimato de datos?

Cómo explicar el aprendizaje automático y la minería de datos a personas no informáticas

Cómo hacer una clasificación en tiempo real con CNN

¿Cuál es el estado del arte en la síntesis de texto?

Web Analytics