¿Cuál es una buena manera de elegir los puntos iniciales de los grupos de k en el grupo de medios k?

Algunas de las buenas respuestas que encontré:

Método 1: (K significa ++)

Este enfoque reconoce que probablemente hay una mejor opción de ubicaciones de centroides iniciales que la asignación aleatoria simple. Específicamente, K-means tiende a funcionar mejor cuando los centroides se siembran de tal manera que no los agrupan en el espacio.

¿Cuáles son las diferencias, similitudes, pros, contras, aplicaciones y descripciones de Keras, TensorFlow, Theano?
Cómo construir la matriz del núcleo para un polinomio de grado finito
¿Cómo puede un estudiante graduado de primer año en ciencias de la computación encontrar un trabajo en minería y análisis de datos después de graduarse?
¿Por qué algunos sistemas de recomendación, como Netflix, dejan de funcionar con demasiadas calificaciones?
Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?

Paso 1: Elija uno de sus puntos de datos al azar como un centroide inicial.

Paso 2: Calcule D (x), la distancia entre su centroide inicial y todos los demás puntos de datos, x.

Paso 3: Elija su próximo centroide de los puntos de datos restantes con probabilidad proporcional a D (x) .D (x)

Paso 3: Repita hasta que se hayan asignado todos los centroides.

Nota: D (x) debe actualizarse a medida que se agreguen más centroides. Debe establecerse como la distancia entre un punto de datos y el centroide más cercano.

Ref: http://ilpubs.stanford.edu:8090/…

Método 2:

Paso 1: a partir de n objetos, calcule un punto cuyos valores de atributo son promedio de n-objetos atributo http://values.so primer centroide inicial es promedio en n-objetos.

Paso 2: seleccione los siguientes centroides iniciales de n-objetos de tal manera que la distancia euclidiana de ese objeto sea máxima desde otros centroides iniciales seleccionados.

Paso 3: repita el paso 2 hasta obtener k centroides iniciales. De estos pasos obtendremos los centroides iniciales y con estos centroides iniciales ejecutaremos el algoritmo kMeans.

Ref: http://www.ijcsmc.com/docs/paper…

Método 3: (Mejora en k mean ++)

Aunque k-means ++ es O (log k) competitivo en todos los conjuntos de datos, también produce diferentes grupos en diferentes ejecuciones debido a los pasos 1 y 3 en el algoritmo. Proponemos un método para los pasos 1, 3 de k-means ++ para producir una solución única en lugar de diferentes soluciones, más bien

El algoritmo propuesto para el método SPSS es un algoritmo de un solo paso:

Paso 1: Inicialice el primer centroide con un punto que esté cerca de más puntos en el conjunto de datos.

Paso 3: Suponga que m (número total de puntos) puntos se distribuyen uniformemente a k (número de grupos) grupos, entonces se espera que cada grupo contenga m / k puntos. Calcule la suma de las distancias desde el punto seleccionado (en el paso 1) hasta los primeros m / k puntos más cercanos y asuma como y.

Ref: http://arxiv.org/ftp/arxiv/paper…

AlgoritmosAnálisis de conglomeradosAprendizaje automáticoAprendizaje no supervisadoinformática