¿Por qué una elección de K es mejor que otras en el algoritmo K-means?

El valor de ‘K’ en los algoritmos K-means no es más que una conjetura sobre el número natural de grupos o grupos presentes en un conjunto de datos. Imagínese, tiene una información que contiene muestras de frutas y animales. En este caso, si elige K = 2, debería obtener el mejor resultado de agrupación porque este es el número real de agrupaciones naturales en los datos. A medida que aumenta el número de grupos, intenta encontrar más agrupaciones dentro de estos animales y frutas. Esto puede degenerar sus resultados de agrupación porque se está alejando del número real de agrupaciones en estos datos. Sin embargo, si tiene algunas muestras de un grupo (como se muestra a continuación) → puede ser K = 3 es una mejor opción.

(Fuente – Fruit Art)

Del mismo modo, si tiene muestras de 3 grupos, por ejemplo, frutas, animales y humanos, entonces K = 3 es la elección correcta. K = 2 creará menos grupos de los deseados; por lo tanto, muchas muestras irán a grupos equivocados (por ejemplo, muchos humanos pueden ir a animales). K = 4 creará más grupos de los que realmente está presente en los datos y puede terminar teniendo múltiples grupos o grupos para una categoría específica.

Supongo que ejecuta K-Means varias veces para cada valor de k para minimizar el efecto de una mala inicialización del centroide.

Estoy leyendo en su pregunta que evalúa los resultados de K-Means en función de “instancias asignadas incorrectamente”, por lo que supongo que tiene algún tipo de verdad básica sobre sus grupos.

Entonces la explicación es muy simple: el valor óptimo para k es el número de grupos que tiene en su verdad básica, por ejemplo, si tiene seis elementos y sabe que A va con B, C con D y E con F, entonces el k óptimo será 3, con un valor más bajo se verá obligado a juntar elementos que no están relacionados y con una k más alta se verá obligado a dividir elementos que deberían ir en el mismo grupo.