¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?

No había visto esta medida antes. Parece bastante razonable, ciertamente de acuerdo con las pruebas presentadas en el documento.

Me imagino que una debilidad es calcular las distancias de todos los pares dentro de cada grupo. Muestran que el muestreo es suficiente pero agrega cierta complejidad.

Tampoco es una función convexa o monotónica, lo que hace que sea un poco más difícil evaluar el punto óptimo. Al ser una especie de estadística ‘relativa’, no te ayuda a decidir cuándo no hay grupos significativos.

Finalmente, puede ver en el primer diagrama una debilidad, que es que para k muy pequeña, las distancias esperadas dentro del clúster son grandes y, por lo tanto, presentan una ‘barra baja’. Cualquier cosa se ve bien en relación con esta medida para k pequeña, por lo que creo que es difícil obtener una lectura de datos con solo unos pocos grupos.

Related Content

¿Qué métodos existen para combatir los problemas de gradiente de desaparición y explosión?

¿Cuál es el mejor modelo de predicción de la siguiente palabra en R?

Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA

¿Cómo se pueden adaptar los sistemas de recomendación para recomendar elementos que atraigan a todos en un grupo, en lugar de a un solo individuo?

Cómo crear algoritmos de reconocimiento facial

¿Cómo procesa el cerebro humano o cualquier cerebro animal la información en comparación con los procesadores informáticos actuales? ¿Cómo pueden los cerebros “codificarse” por sí mismos?

¿Qué es una explicación intuitiva de lo que es la dimensión VC?

Es posible que desee leer la discusión en este hilo sobre cambio de estado. Describe en detalle por qué el número correcto de grupos no puede ser elegido por K-means que usan estadísticas de gap. ¿Por qué el estadístico de gap para k-means sugiere un clúster, aunque obviamente hay dos?

Jack Rae

More Interesting

¿Dónde puedo encontrar artículos sobre los métodos utilizados para ganar las competencias de Kaggle?

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?

¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?

¿Qué significa esto exactamente, "Cambiar los puntos de inicialización durante el entrenamiento" para el aprendizaje profundo?

¿Qué motores de búsqueda hacen un buen uso de las capacidades de búsqueda semántica?

Quiero extraer acciones del texto y la entidad que actuó y sobre la que se actúa. Cómo proceder ?

¿Dónde se pueden encontrar videos de Udacity Machine Learning Nanodegree gratis?

¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?

¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?

¿Cuál es el trabajo de investigación sobre aprendizaje automático más emocionante que Yoshua Bengio leyó en 2015?

¿Cómo aprende IBM Watson de los libros y documentos médicos?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

En su opinión, ¿la sugerencia de lectura recomendada basada en la actividad de navegación de los usuarios de Wikipedia mejorará la genialidad del sitio?

¿Cuál fue su peor interacción con una máquina?

¿Cuál es la relación entre relevancia y aprendizaje automático?

Web Analytics