Modelos ocultos de Markov: ¿cómo se obtiene el siguiente valor observado pronosticado de un HMM?

Está en la línea correcta, pero pensar en el problema explícitamente en términos de las funciones de densidad de probabilidad podría ayudar a aclarar lo que está sucediendo.

Si sabía con certeza que la observación número 1001 provino del estado [matemáticas] k [/ matemáticas], sería fácil hacer una predicción probabilística de su valor observado. Es solo la función de probabilidad [math] p (x_ {1001} | \ theta_k) [/ math], donde [math] \ theta_k [/ math] es el conjunto de parámetros para el componente [math] k [/ math] en el HMM En su caso, esta es una mezcla de 4 gaussianos: [math] \ sum_ {j = 1} ^ {4} \ pi_ {k, j} \ mathcal {N} (x_ {1001} | \ mu_ {k, j }, \ sigma_ {k, j}) [/ math], donde [math] \ mu_ {k, j} [/ math], [math] \ sigma_ {k, j} [/ math] y [math] \ pi_ {k, j} [/ math] representa la media, la desviación estándar y la proporción de mezcla de la [math] j ^ {th} [/ math] gaussiana de la [math] k ^ {th} [/ math] componente de su HMM, respectivamente. Parece que ya has inferido estos parámetros.

Pero como no conoce el estado número 1001, debe utilizar el producto y la suma de las reglas de probabilidad: [matemática] p (x | y) p (y) = p (x, y) [/ matemática] y [matemáticas] \ sum_y p (x, y) = p (x) [/ matemáticas] (marginación sobre y). Usando estas reglas puede ‘marginar’ la incertidumbre del estado para formar una densidad predictiva sobre la observación número 1001.

Primero, aplique la regla del producto usando la matriz de transición [matemática] p (z_ {n + 1} | z_n) [/ matemática] para obtener la distribución conjunta en los estados 1000 y 1001 (suponiendo que ya tenga la distribución posterior sobre el 1000 estado de inferencia): [matemáticas] p (z_ {1001}, z_ {1000} | x_ {1, \ puntos, 1000}) [/ matemáticas] [matemáticas] = p (z_ {1000} | x_ {1, \ puntos, 1000}) p (z_ {1001} | z_ {1000}) [/ math]. luego, marginar sobre el estado número 1000 utilizando la regla de suma: [matemática] p (z_ {1001} | x_ {1, \ puntos, 1000}) [/ matemática] [matemática] = \ sum_ {k = 1} ^ 5 p (z_ {1001}, z_ {1000, k} | x_ {1, \ dots, 1000}) [/ math] (abusando ligeramente de la notación con [math] z_ {n, k} [/ math] indicando [math ] k ^ {th} [/ math] componente del estado en el paso de tiempo [math] n [/ math]).

Luego, use la regla del producto para incorporar la función de probabilidad: [matemática] p (x_ {1001}, z_ {1001} | x_ {1, \ dots, 1000}, \ theta) [/ matemática] [matemática] = p ( x_ {1001} | z_ {1001}, \ theta) p (z_ {1001} | x_ {1, \ puntos, 1000}) [/ math]. Finalmente, use la regla de la suma por última vez para obtener una predicción sobre el estado 1001: [math] p (x_ {1001} | x_ {1, \ dots, 1000}, \ theta) [/ math] [math] = \ sum_ {k = 1} ^ 5 p (x_ {1001}, z_ {1001, k} | x_ {1, \ dots, 1000}, \ theta) [/ math]. Esta es tu respuesta.

La predicción será una mezcla de [matemática] 5 \ veces 4 = 20 [/ matemática] gaussianos (suponiendo que ninguno de los gaussianos en la función de probabilidad tenga parámetros idénticos).

Hola, olvidemos las 4 mezclas por simplicidad, supongamos solo 1 gaussiano por estado. En este caso, hay un valor de observación esperado diferente (media de Gauss) para cada uno de los 5 estados.
Creo que estás pensando en hacerlo de la siguiente manera (corrígeme si me equivoco)

Probabilidad de 1er estado = altura de gaussian1_state1 en su valor medio * probabilidad de transición (estado actual -> 1er estado)

Probabilidad del segundo estado = altura de gaussian2_state2 en su valor medio * probabilidad de transición (estado actual -> segundo estado)

.. y así sucesivamente para verosimilitud del quinto estado.

Después de obtener estas 5 probabilidades (L1, L2, .., L5), lo hace

L1 * mu1 + L2 * mu2 + .. + L5 * mu5
(muX es la media del estado gaussiano de Xth, X = 1,2, …, 5)

para obtener el valor de observación esperado.

Pero este método no es preciso porque está multiplicando directamente la probabilidad de transición (rango [0 1]) con la altura gaussiana (rango (0 – inf)) … por lo que la contribución relativa de ambos podría ser algo que USTED elija.

More Interesting

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Cuál es el error de la bolsa en bosques aleatorios? Qué significa eso? ¿Cuál es un valor típico, si lo hay? ¿Por qué sería mayor o menor que un valor típico?

¿Hacia dónde se dirige la investigación de aprendizaje profundo?

¿Qué es un núcleo de roles en una máquina de vectores de soporte?

¿Cuál es el significado de 'distribucionalmente similar' en PNL?

¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT?

¿Qué alternativas a las redes convolucionales para las tareas de aprendizaje automático de imágenes se están investigando ahora?

Estoy usando Weka e implementé la ganancia de información forestal aleatoria usando Java. ¿Cuáles son algunos consejos sobre cómo imprimir cuántas funciones tiene después de aplicar la ganancia de información y cómo imprimir los nombres de las funciones y sus valores de ganancia de información en orden descendente (solo funciones de ganancia de información)?

¿Cuál es el significado / interpretación de la varianza de validación cruzada?

¿Cómo debería abordar el problema de segmentar el césped de una imagen?

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Cuál es la diferencia entre minería de datos, aprendizaje automático y reconocimiento de patrones?

¿Cuáles son algunas limitaciones de un enfoque bayesiano?

¿Cuál es la forma completa de AUC en el estado de AUC de los resultados del examen AKTU?

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?