¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

Un modelo de mezcla gaussiana puede verse como una mezcla de poblaciones heterogéneas cuya media subyacente sigue una distribución gaussiana. Vea la respuesta de Hongsun Kim a ¿Cuál es un ejemplo de aplicación en el mundo real de los modelos de mezcla gaussiana?

La respuesta anterior debería explicar un poco de la aplicación en el mundo real de la mezcla gaussiana y algo de la intuición. Al ajustar los datos, se espera que una estadística como, por ejemplo, el peso, siga una distribución normal. Sin embargo, al trazar los datos empíricos, si el gráfico parece tener una curtosis más alta que una distribución gaussiana estándar o es multimodal, existe una gran posibilidad de que la distribución de peso (en este ejemplo) pueda modelarse como un modelo de mezcla gaussiana.

Una distribución de mezcla tendrá una curtosis más alta que las distribuciones gaussianas individuales que componen la mezcla. Esta es una de las razones por las que la distribución t de Student tiene colas más pesadas (curtosis más alta) que una distribución gaussiana con igual media y desviación estándar. La distribución t de Student es una mezcla continua de distribuciones gaussianas (una mezcla infinita de distribuciones gaussianas). Por lo tanto, tiene una curtosis más alta dada una media igual y una desviación estándar.

Se puede usar una mezcla de distribuciones gaussianas para modelar poblaciones tan heterogéneas, y será más preciso al modelar dichas poblaciones. Sin embargo, siempre que sea posible y suficiente para hacerlo, un modelo gaussiano estándar debería servir como punto de referencia para los medios de estadísticas como la altura y el peso. La precisión y la complejidad del modelo deben tenerse en cuenta con la precisión suficiente que está tratando de lograr, un concepto estadístico conocido como parsimonia.

Cómo desarrollar una aplicación que reproduzca música de acuerdo a tu estado de ánimo

¿Cómo funciona el modelo de atención con LSTM?

¿Cómo se compara Caffe 2 con TensorFlow?

¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?

¿Podemos lograr mejor que una disminución sub-lineal en el error al aumentar el número de muestras en regresión lineal?

¿Por qué los productos cat copy de Facebook nunca funcionan?

Considere este escenario:

Hay dos pares de gemelos. Son amigos y solían jugar juegos después de la escuela, niños de los años 1980/1990, sin videojuegos, X-box, etc., jugar significa ‘jugar afuera’. Uno de esos juegos involucraba un estanque cerca de su casa, piedras y tirar piedras. Debido a alguna razón, se forman burbujas en el fondo del estanque y flotan hacia la superficie; permanecen allí durante 2-3 segundos antes de separarse. El juego es tirar piedras y golpear las burbujas. Número ilimitado de piedras, digamos de composición y tamaño similar, por lo que la elección de la piedra no importa. La apariencia de las burbujas en la superficie está restringida a dos puntos (ya que tenemos * solo * gemelos) en la superficie del estanque y digamos que la burbuja en ambos puntos alcanza la superficie simultáneamente, pero la duración entre las ocurrencias del par es desigual, esto hace que el juego sea interesante. Además, las burbujas no viajan verticalmente en línea recta y hay una ligera brisa, por lo que hay que adaptarse, apuntar correctamente y ser rápido. Esto también hace que los dos puntos donde aparecen burbujas, no “dos” puntos, sino una región muy pequeña. Ahora, cada par de gemelos pertenece a un equipo: 10000 posibilidades por gemelo (es decir, 20000 por equipo). El equipo que golpea la mayor cantidad de burbujas gana. El equipo perdedor tiene que tratar al equipo ganador. Entonces, mucho está montando en este juego 🙂

Para simplificar, digamos que uno de los gemelos, a la derecha, dispara la burbuja a la derecha y el gemelo a la izquierda, las burbujas a la izquierda, para que no haya confusión ni piedras que se golpeen, para que los gemelos no culpen cada uno entrando en su territorio y pelear. Ahora, según las características de los gemelos, como humanos, están obligados a cometer algún error al juzgar cuándo iniciar el lanzamiento, dónde apuntar, etc. Si uno mira el juego y traza los puntos donde se forman las burbujas, sus piedras golpean el cada vez que aparece en la superficie para todas las pruebas, según el teorema del límite central (ver ¿Qué es una explicación intuitiva del Teorema del límite central?), se vería así:

[Sin mucha consideración a los valores] – los ejes horizontales son las escalas espaciales y el eje vertical representa el número de lanzamientos.

Equipo – 1:

Equipo 2:
Los valores están normalizados y los picos relativos más cercanos implican que los objetivos de los gemelos son más parecidos entre sí en el equipo, más homogéneo es el equipo. La varianza determina la precisión de los gemelos. De la figura se desprende que cada subdistribución es gaussiana. La motivación para representar esto conjuntamente es que estamos interesados en caracterizar al equipo en general. Esto se puede lograr mediante el modelado de mezcla gaussiana. Al observar las parcelas anteriores, podemos decir que el equipo 2 es más homogéneo o que los gemelos son más parecidos en términos de puntería. Extendiendo esto, equipos formados por trillizos (y burbujas que se forman simultáneamente en tres puntos) …

… cada equipo formado por cuadrúpedos (y burbujas en cuatro puntos) …

y así.

Esto se puede generalizar a cualquier número de puntos medios (o modos, para subdistribuciones gaussianas). La idea es que cada subpoblación sea gaussiana, pero no queremos caracterizarlos por separado, queremos el modelo conjunto.

PD: todas las imágenes de Internet.

Jay Verkuilen

Respondido aquí: en términos simples, ¿cómo funcionan los modelos gaussianos?

Jay Verkuilen

More Interesting

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

¿Alguien ha intentado sitios web de IA que se diseñen ellos mismos? ¿Cuál es la diferencia entre los sitios web creados por humanos y por IA?

¿Cuál es la diferencia clave entre un autoencoder variacional y una red adversa generativa, y cuándo debo usar cada modelo?

¿Qué es el aprendizaje automático en términos simples?

¿Debo aprender R o Spark para computación de alto rendimiento?

¿En qué se diferencia LSTM de RNN? En una explicación laica.

¿La asignación de Dirichlet latente es un modelo paramétrico o no paramétrico?