¿Cuál es la diferencia entre soft k-means y el algoritmo EM?

EM tiene en cuenta la noción de propagación dentro de cada grupo. K-means no lo hace.

Considere un punto equidistante entre 2 grupos. Con K-means, el punto se etiquetaría suavemente como 50% cluster 1 y 50% cluster 2.

Con EM, sin embargo, el mismo punto podría etiquetarse como

  1. 50% cluster 1 y 50% cluster (igual que antes)
  2. 100% grupo 1 y 0% grupo 2 (si la varianza del grupo 2 es cero, el hecho de que el punto sea equidistante es irrelevante)
  3. Cualquier cosa entre estos casos extremos.

Un ejemplo de cuando EM es superior

Digamos que Bob gana $ 0.5 M más que las personas sin hogar, pero $ 0.5 M menos que los millonarios.

En términos de ingresos, él es “igualmente” diferente para ambos grupos. Pero no hay forma de decir que Bob es tan similar a las personas sin hogar como lo es a los millonarios.

¿Cómo puede pasar esto?

Estamos utilizando la diferencia de ingresos como un indicador de “la diferencia entre Bob y millonarios / personas sin hogar (que es una comparación arbitraria / poco definida de estilo de vida, comportamiento y psicografía)

Pero el poder representativo de la diferencia de ingresos como un predictor de “diferencia entre Bob y las personas sin hogar / los millonarios” cambia. Por ejemplo, del grupo de ingresos de $ 0–10000, cada diferencia de $ en ingresos es una señal confiable de cuán diferente viven las personas. Sin embargo, del grupo de ingresos de $ 1 M – $ 20 M, cada $ diferencia por debajo de 10 M es un ruido poco confiable que debe ser descuidado.

Para explicar formalmente este poder representativo cambiante de nuestro proxy, tenemos que introducir la noción de varianza. Nos permite relacionar adecuadamente una observación cuantitativa con la verdad arbitraria que estamos buscando.

Son lo mismo, aunque EM es aplicable mucho más en general.

More Interesting

¿Podemos vender potencia informática a empresas de aprendizaje automático? ¿Cuál es la dificultad de hacer eso?

¿Cómo puedo entrenar a un clasificador de imágenes para detectar mi propia cara de un conjunto de datos de 16,000 imágenes?

¿Qué caminos puede tomar un ingeniero mecánico para comenzar a trabajar con robótica, aprendizaje automático e inteligencia artificial?

¿Cómo se utiliza el aprendizaje automático en el análisis de sentimientos?

¿Cuál es el mejor artículo para entender cómo se mapea el vector de salida de RNN con un vocabulario para predecir la secuencia?

¿Cuál es el enfoque más eficiente para los sistemas de recomendación?

¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?

¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

Cómo ahorrar tiempo en la implementación de algoritmos de aprendizaje profundo

¿Cómo es ser un usuario de SAS en Hadoop?

¿Cuál es la filosofía de la matriz, la descomposición del tensor para encontrar la estructura latente?

¿Se pueden mezclar variables categóricas y continuas en una red neuronal simple?

¿Qué es una explicación intuitiva de DBSCAN?

¿Cuál es un buen consejo para una implementación eficiente de un algoritmo de aprendizaje automático en C / C ++?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?