Como señaló Amir, no hay nada llamado método “Mejor”, ya que es bastante subjetivo. Depende del problema comercial y la viabilidad técnica. Desde el punto de vista de la implementación, esta es la solución.
Estas son las medidas que se pueden usar para evaluar la K óptima para la agrupación de KMeans:
- Método de codo: considere medidas como la distancia intragrupo, la relación de la distancia intra e inter clúster, y desarrolle un mecanismo para determinar el primer punto de inflexión: el punto codo (depende del usuario, puede ser el último en caso de que se prefieran más grupos)
- Puntaje de Silhoutte: Obtenga puntajes de Silhoutte en R o Python y siga el paso para encontrar el punto óptimo.
- Suma de la distancia al cuadrado: Python KMeans tiene un atributo llamado inercia_ que proporciona esta medida.
- Calcule los criterios de información baysianos y encuentre un K algorítmico-aliado óptimo como se señaló en el paso 1.
Espero que esto ayude.
- ¿Cuál es el alcance del aprendizaje automático en la verificación?
- ¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?
- ¿Qué es ingenuo Bayes en minería de datos?
- ¿Cuál es la mejor manera de crear un conjunto de redes neuronales?
- ¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?