¿Cómo es la aplicación K-Means de maximización de expectativas en Naive Bayes? La tecnología cambia la vida futura

¡Este es un ejemplo realmente divertido de cuán estrechamente relacionados pueden estar los algoritmos de aprendizaje automático! Comencemos con Naive Bayes y busquemos más detalles hasta que se vea como su K-means estándar.
Lo primero que hay que entender es que el paralelo entre los dos supone que se nos da un conjunto de datos sin “respuestas”. Es decir. esto es con datos en condiciones no supervisadas. Si nos dieran un conjunto de datos que tuviera las “respuestas correctas”, entonces no necesitaríamos la agrupación, ya que haríamos predicciones de lo que ya sabemos sobre cada clase.

Con eso, recuerde que el objetivo de Naive Bayes es encontrar P (y | x).
P (y | x) es proporcional a P (x | y) * P (y), por lo que debemos averiguar P (x | y).

Supongamos que modelamos P (X = x | Y) de acuerdo con una distribución normal con desviación estándar 1 y media desconocida, es decir. ~ N (m_k, 1). La tarea en cuestión es encontrar qué significa este desconocido, para cada uno de los dos resultados.

Como no tenemos las clases “correctas” dadas para cada observación, apliquemos un enfoque de algoritmo EM para encontrar esta media desconocida para cada caso. Recuerde, EM comienza con la inicialización aleatoria de los parámetros del modelo y luego repite un proceso de dos pasos de (E) asignar valores a las variables desconocidas en función de los parámetros y (M) calcular los parámetros en función de los datos.

1. Presente nuestro valor desconocido (en este caso, el resultado al que corresponde), dados los datos. Resulta que la mejor estimación para encontrar nuestras medias desconocidas es usar la distancia euclidiana, o simplemente tomar la media. En otras palabras, esto significa “para cada punto, encuentre la media a la que está más cerca”.
2. Obtenga las mejores estimaciones de parámetros basándose en el hecho de que ahora tiene los datos y los resultados “adivinados” del paso 1. Resulta que la mejor estimación que puede tener para estos parámetros (MLE) es solo la media.

3. Repita 1 y 2 hasta la convergencia.

¿Este algoritmo parece familiar?
Repasemos el algoritmo k-means, donde establecemos k , el número de clústeres y los puntos de partida. Digamos k = 2 (o que creemos que hay dos grupos en los datos), y m1 = 5, m2 = 10 (o que la media inicial del primer grupo es 5, y el segundo es 10).
Un algoritmo k-means funciona así:

1. Itere a través de cada punto y clasifíquelos en el grupo 1 o 2 según la distancia (puede ser Euclidiana u otra cosa).
2. Calcule la nueva media de cada uno de estos dos grupos, de modo que tengamos m1 * y m2 *.
3. Repita los pasos 1-2.

Los dos son exactamente iguales, dados los supuestos correctos.

Referencia: http://stanford.edu/~cpiech/cs22…