¡Este es un ejemplo realmente divertido de cuán estrechamente relacionados pueden estar los algoritmos de aprendizaje automático! Comencemos con Naive Bayes y busquemos más detalles hasta que se vea como su K-means estándar.
Lo primero que hay que entender es que el paralelo entre los dos supone que se nos da un conjunto de datos sin “respuestas”. Es decir. esto es con datos en condiciones no supervisadas. Si nos dieran un conjunto de datos que tuviera las “respuestas correctas”, entonces no necesitaríamos la agrupación, ya que haríamos predicciones de lo que ya sabemos sobre cada clase.
Con eso, recuerde que el objetivo de Naive Bayes es encontrar P (y | x).
P (y | x) es proporcional a P (x | y) * P (y), por lo que debemos averiguar P (x | y).
Supongamos que modelamos P (X = x | Y) de acuerdo con una distribución normal con desviación estándar 1 y media desconocida, es decir. ~ N (m_k, 1). La tarea en cuestión es encontrar qué significa este desconocido, para cada uno de los dos resultados.
- ¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?
- ¿Por qué no se debe hacer AI?
- ¿Qué debo usar para el aprendizaje automático si necesito una solución rápida: Python, R o SAS?
- ¿Qué sucede si hacemos que cada unidad de filtro o núcleo en una capa CNN dentro de una red neuronal profunda tenga diferentes tamaños de ventana pero el mismo número de parámetros de peso (lo que resulta en granulado grueso)? ¿Podría conducir a un efecto contextual?
- ¿Cuál es el estado de la investigación sobre chatbots y la PNL en 2017?
Como no tenemos las clases “correctas” dadas para cada observación, apliquemos un enfoque de algoritmo EM para encontrar esta media desconocida para cada caso. Recuerde, EM comienza con la inicialización aleatoria de los parámetros del modelo y luego repite un proceso de dos pasos de (E) asignar valores a las variables desconocidas en función de los parámetros y (M) calcular los parámetros en función de los datos.
1. Presente nuestro valor desconocido (en este caso, el resultado al que corresponde), dados los datos. Resulta que la mejor estimación para encontrar nuestras medias desconocidas es usar la distancia euclidiana, o simplemente tomar la media. En otras palabras, esto significa “para cada punto, encuentre la media a la que está más cerca”.
2. Obtenga las mejores estimaciones de parámetros basándose en el hecho de que ahora tiene los datos y los resultados “adivinados” del paso 1. Resulta que la mejor estimación que puede tener para estos parámetros (MLE) es solo la media.
3. Repita 1 y 2 hasta la convergencia.
¿Este algoritmo parece familiar?
Repasemos el algoritmo k-means, donde establecemos k , el número de clústeres y los puntos de partida. Digamos k = 2 (o que creemos que hay dos grupos en los datos), y m1 = 5, m2 = 10 (o que la media inicial del primer grupo es 5, y el segundo es 10).
Un algoritmo k-means funciona así:
1. Itere a través de cada punto y clasifíquelos en el grupo 1 o 2 según la distancia (puede ser Euclidiana u otra cosa).
2. Calcule la nueva media de cada uno de estos dos grupos, de modo que tengamos m1 * y m2 *.
3. Repita los pasos 1-2.
Los dos son exactamente iguales, dados los supuestos correctos.
Referencia: http://stanford.edu/~cpiech/cs22…