¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?

http://en.wikipedia.org/wiki/Km…:

El algoritmo k-means tiene al menos dos deficiencias teóricas principales:

Primero, se ha demostrado que el peor tiempo de ejecución del algoritmo es superpolinomial en el tamaño de entrada. (Arthur, D. y Vassilvitskii, S. (2006), “¿Cuán lento es el método k-means?”, Actas del vigésimo segundo simposio anual sobre geometría computacional, págs. 144-153)

En segundo lugar, la aproximación encontrada puede ser arbitrariamente mala con respecto a la función objetivo en comparación con la agrupación óptima.

http://www.croce.ggf.br/dados/K%…:

Similar a otro algoritmo, el agrupamiento K-mean tiene muchas debilidades:

Cuando los números de datos no son tantos, la agrupación inicial determinará el clúster significativamente.

El número de clúster, K, debe determinarse de antemano.

Nunca conocemos el clúster real, utilizando los mismos datos, si se ingresa de una manera diferente puede producir un clúster diferente si el número de datos es pequeño.

Nunca sabemos qué atributo contribuye más al proceso de agrupación, ya que suponemos que cada atributo tiene el mismo peso.

Una forma de superar esas debilidades es usar la agrupación K-mean solo si hay muchos datos disponibles.

¿Cuáles son algunos proyectos de aprendizaje automático de nivel principiante que se pueden hacer después de una clase de Coursera de Andrew Ng?

¿Cómo debe comenzar un principiante con la investigación en Machine Learning?

¿Cómo obtienen las empresas datos de capacitación para implementar el aprendizaje para clasificar algoritmos, especialmente en el contexto de búsqueda?

Cómo hacer clustering de tipos de datos mixtos en Python

¿Cuál es la mejor solución de chat grupal en tiempo real para empresas?

¿Cómo explicarías la probabilidad condicional y el teorema de Bayes a un niño?

Además de lo que Franck Dernoncourt mencionó, uno de los principales inconvenientes de la agrupación de K-means es la elección aleatoria de los centros de agrupación iniciales. Por qué es un problema? Porque, para cada ejecución diferente del algoritmo en el mismo conjunto de datos, puede elegir un conjunto diferente de centros iniciales. Esto puede conducir a diferentes particiones o resultados de agrupamiento en diferentes ejecuciones del algoritmo. Por lo tanto, es muy difícil repetir los resultados de la agrupación. Esto puede convertirse en un problema en los casos en que desee clústeres consistentes y confiables.

Charles H Martin

no es convexo, donde podría estar

Avances en NMF convexo: programación lineal

y debe ser

Shehroz Khan

More Interesting

¿Existe un libro de aprendizaje automático que ofrece una guía paso a paso con números reales o ejemplos numéricos en algoritmos de aprendizaje automático?

¿Qué es incrustar | espacio incrustado | ¿Incorporación de características en arquitecturas neurales profundas?

¿Podemos usar variador automático para aprender una representación como el autoencoder de vainilla?

Cómo seleccionar efectivamente un tamaño de lote óptimo para la actualización de parámetros de aprendizaje profundo, basado en las especificaciones de GPU

¿Qué es un buen algoritmo de recomendación de películas?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?