Algunas de las buenas respuestas que encontré:
Método 1: (K significa ++)
Este enfoque reconoce que probablemente hay una mejor opción de ubicaciones de centroides iniciales que la asignación aleatoria simple. Específicamente, K-means tiende a funcionar mejor cuando los centroides se siembran de tal manera que no los agrupan en el espacio.
- ¿Cuáles son las diferencias, similitudes, pros, contras, aplicaciones y descripciones de Keras, TensorFlow, Theano?
- Cómo construir la matriz del núcleo para un polinomio de grado finito
- ¿Cómo puede un estudiante graduado de primer año en ciencias de la computación encontrar un trabajo en minería y análisis de datos después de graduarse?
- ¿Por qué algunos sistemas de recomendación, como Netflix, dejan de funcionar con demasiadas calificaciones?
- Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?
Paso 1: Elija uno de sus puntos de datos al azar como un centroide inicial.
Paso 2: Calcule D (x), la distancia entre su centroide inicial y todos los demás puntos de datos, x.
Paso 3: Elija su próximo centroide de los puntos de datos restantes con probabilidad proporcional a D (x) .D (x)
Paso 3: Repita hasta que se hayan asignado todos los centroides.
Nota: D (x) debe actualizarse a medida que se agreguen más centroides. Debe establecerse como la distancia entre un punto de datos y el centroide más cercano.
Ref: http://ilpubs.stanford.edu:8090/…
Método 2:
Paso 1: a partir de n objetos, calcule un punto cuyos valores de atributo son promedio de n-objetos atributo http://values.so primer centroide inicial es promedio en n-objetos.
Paso 2: seleccione los siguientes centroides iniciales de n-objetos de tal manera que la distancia euclidiana de ese objeto sea máxima desde otros centroides iniciales seleccionados.
Paso 3: repita el paso 2 hasta obtener k centroides iniciales. De estos pasos obtendremos los centroides iniciales y con estos centroides iniciales ejecutaremos el algoritmo kMeans.
Ref: http://www.ijcsmc.com/docs/paper…
Método 3: (Mejora en k mean ++)
Aunque k-means ++ es O (log k) competitivo en todos los conjuntos de datos, también produce diferentes grupos en diferentes ejecuciones debido a los pasos 1 y 3 en el algoritmo. Proponemos un método para los pasos 1, 3 de k-means ++ para producir una solución única en lugar de diferentes soluciones, más bien
El algoritmo propuesto para el método SPSS es un algoritmo de un solo paso:
Paso 1: Inicialice el primer centroide con un punto que esté cerca de más puntos en el conjunto de datos.
Paso 3: Suponga que m (número total de puntos) puntos se distribuyen uniformemente a k (número de grupos) grupos, entonces se espera que cada grupo contenga m / k puntos. Calcule la suma de las distancias desde el punto seleccionado (en el paso 1) hasta los primeros m / k puntos más cercanos y asuma como y.
Ref: http://arxiv.org/ftp/arxiv/paper…