¿Cuál es la diferencia entre soft k-means y el algoritmo EM?

EM tiene en cuenta la noción de propagación dentro de cada grupo. K-means no lo hace.

Considere un punto equidistante entre 2 grupos. Con K-means, el punto se etiquetaría suavemente como 50% cluster 1 y 50% cluster 2.

Con EM, sin embargo, el mismo punto podría etiquetarse como

¿Qué modelos CNN necesitan una norma de lote pero son lo suficientemente pequeños como para hacer una prueba muy rápida?
¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?
¿Por qué algunos clasificadores no pueden manejar los atributos continuos?
¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos sociales?
¿Una máquina aprende una ciencia o un arte?

50% cluster 1 y 50% cluster (igual que antes)
100% grupo 1 y 0% grupo 2 (si la varianza del grupo 2 es cero, el hecho de que el punto sea equidistante es irrelevante)
Cualquier cosa entre estos casos extremos.

Un ejemplo de cuando EM es superior

Digamos que Bob gana $ 0.5 M más que las personas sin hogar, pero $ 0.5 M menos que los millonarios.

En términos de ingresos, él es “igualmente” diferente para ambos grupos. Pero no hay forma de decir que Bob es tan similar a las personas sin hogar como lo es a los millonarios.

¿Cómo puede pasar esto?

Estamos utilizando la diferencia de ingresos como un indicador de “la diferencia entre Bob y millonarios / personas sin hogar (que es una comparación arbitraria / poco definida de estilo de vida, comportamiento y psicografía)

Pero el poder representativo de la diferencia de ingresos como un predictor de “diferencia entre Bob y las personas sin hogar / los millonarios” cambia. Por ejemplo, del grupo de ingresos de $ 0–10000, cada diferencia de $ en ingresos es una señal confiable de cuán diferente viven las personas. Sin embargo, del grupo de ingresos de $ 1 M – $ 20 M, cada $ diferencia por debajo de 10 M es un ruido poco confiable que debe ser descuidado.

Para explicar formalmente este poder representativo cambiante de nuestro proxy, tenemos que introducir la noción de varianza. Nos permite relacionar adecuadamente una observación cuantitativa con la verdad arbitraria que estamos buscando.

Aprendizaje automáticoAprendizaje no supervisado