¿Qué es el modelado de mezclas gaussianas?

Es un modelo probabilístico generativo para ajustar datos multimodales (conjuntos de datos con múltiples “picos”).

Para entender los modelos de mezcla gaussianos (GMM), es una buena idea dar un paso atrás y mirarlo desde el contexto de los modelos de mezcla en general.

La idea central de un modelo mixto es suponer que el conjunto de datos fue generado por un conjunto de diferentes problemas. distribuciones Clásicamente, un modelo de mezcla tiene la siguiente forma:

[matemáticas] P (x_i | \ theta) = \ sum_m c_m P (x | \ theta_m) [/ matemáticas]

donde [math] x_i [/ ​​math] es un punto de datos en el conjunto de datos, [math] c_m [/ math] es el componente anterior, [math] P (x_i | \ theta_m) [/ math] es la probabilidad de que La distribución del componente m ^ th generó [math] x_i [/ ​​math] y [math] \ theta_m [/ math] son ​​los parámetros para el componente m ^ th.

Si queremos muestrear algunos puntos de datos con un modelo mixto, primero elegiríamos el componente [math] m [/ math] con probabilidad [math] c_m [/ math], luego muestrear [math] x [/ math] de ese componente distribución con probabilidad [matemática] P (x | \ theta_m). [/ matemática]

En el caso particular de los GMM, estamos asumiendo que todas esas distribuciones de componentes toman la forma de un gaussiano. Esto significa que:

[matemáticas] P (x_i | \ theta) = \ sum_m c_m P (x | \ theta_m) [/ matemáticas]

se convierte en:

[matemáticas] P (x_i | \ theta) = \ sum_m c_m N (x | \ mu_m, \ Sigma_m) [/ matemáticas]

que te da la ecuación probabilística para un GMM!

Aquí hay un próximo seminario web interesante que le dará una explicación detallada sobre GMM y su aplicación para predecir los fondos del mercado:

Cómo usar los modelos de mezcla para predecir los fondos del mercado

Es modelo de distribución de probabilidad de una variable aleatoria. En muchas situaciones, la distribución de la variable puede no seguir una distribución única, por lo que se modela como una mezcla.

More Interesting

Cómo ejecutar la regresión logística en SAS en los datos de una encuesta donde las variables dependientes e independientes son niveles de satisfacción (escala - 0 a 5)

¿Es razonable excluir valores atípicos en su conjunto de datos de entrenamiento para su clasificador?

¿Es Cortana de Microsoft una copia flagrante de Siri de Apple?

¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?

Si alguien está haciendo una maestría en OMS CS de Georgia Tech, ¿cuál es la mejor especialización en términos de perspectivas (suponiendo el mismo nivel de interés en cada una), bases de datos e ingeniería de software, aprendizaje automático o inteligencia interactiva?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

Cómo validar mi sistema de recomendaciones sin datos previos de interacción del usuario

¿Qué tan profundo es el aprendizaje profundo?

Cómo dominar el aprendizaje automático para poder unirme a Google para puestos relacionados con el aprendizaje automático

¿Qué es un proceso gaussiano?

¿Qué tan lejos estamos de usar el reconocimiento de voz como interfaz de usuario en un teléfono para cerca del 100% de todas las funciones (sin entradas de teclado o deslizamiento)?

¿Qué tan difícil es entrenar idiomas indios con CMUSphinx?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?

Conjuntos de datos: ¿Cuáles son los principales corpus de texto utilizados por los lingüistas computacionales y los investigadores del procesamiento del lenguaje natural, y cuáles son las características / sesgos de cada corpus?