¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?

No había visto esta medida antes. Parece bastante razonable, ciertamente de acuerdo con las pruebas presentadas en el documento.

Me imagino que una debilidad es calcular las distancias de todos los pares dentro de cada grupo. Muestran que el muestreo es suficiente pero agrega cierta complejidad.

Tampoco es una función convexa o monotónica, lo que hace que sea un poco más difícil evaluar el punto óptimo. Al ser una especie de estadística ‘relativa’, no te ayuda a decidir cuándo no hay grupos significativos.

Finalmente, puede ver en el primer diagrama una debilidad, que es que para k muy pequeña, las distancias esperadas dentro del clúster son grandes y, por lo tanto, presentan una ‘barra baja’. Cualquier cosa se ve bien en relación con esta medida para k pequeña, por lo que creo que es difícil obtener una lectura de datos con solo unos pocos grupos.

Es posible que desee leer la discusión en este hilo sobre cambio de estado. Describe en detalle por qué el número correcto de grupos no puede ser elegido por K-means que usan estadísticas de gap. ¿Por qué el estadístico de gap para k-means sugiere un clúster, aunque obviamente hay dos?

More Interesting

¿Dónde puedo encontrar artículos sobre los métodos utilizados para ganar las competencias de Kaggle?

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?

¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?

¿Qué significa esto exactamente, "Cambiar los puntos de inicialización durante el entrenamiento" para el aprendizaje profundo?

¿Qué motores de búsqueda hacen un buen uso de las capacidades de búsqueda semántica?

Quiero extraer acciones del texto y la entidad que actuó y sobre la que se actúa. Cómo proceder ?

¿Dónde se pueden encontrar videos de Udacity Machine Learning Nanodegree gratis?

¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?

¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?

¿Cuál es el trabajo de investigación sobre aprendizaje automático más emocionante que Yoshua Bengio leyó en 2015?

¿Cómo aprende IBM Watson de los libros y documentos médicos?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

En su opinión, ¿la sugerencia de lectura recomendada basada en la actividad de navegación de los usuarios de Wikipedia mejorará la genialidad del sitio?

¿Cuál fue su peor interacción con una máquina?

¿Cuál es la relación entre relevancia y aprendizaje automático?