¿Qué hace que los parámetros del modelo sean variables latentes?

Para un bayesiano, no existe una diferencia real entre los parámetros y otros tipos de variables latentes: todas son variables aleatorias desconocidas. En la práctica, la principal diferencia es que los parámetros generalmente son fijos en número (independientemente del tamaño de sus datos), mientras que se supone que las variables latentes crecen en número, ya que generalmente tiene uno por caso de datos. Pictóricamente es así:

theta -> zn -> xn

donde zn son las variables latentes para el caso n, y xn son las variables observadas para xn. (Suponemos que n = 1: N.)

También podemos hacer esto discriminatorio:

theta -> zn -> yn <- xn,

donde ahora xn no se genera, pero está condicionado, e yn son las salidas que desea predecir. (Esta imagen puede representar una mezcla de modelos de regresión, por ejemplo, aunque típicamente zn dependería también de xn).

En un modelo bayesiano jerárquico, theta también tendrá nodos principales, que representan los hiperparámetros:

phi -> theta -> zn -> xn

Las cosas se vuelven más complejas cuando tenemos múltiples conjuntos de datos relacionados (que es cuando Bayes jerárquico realmente brilla). Véase, por ejemplo, el libro de Gelman, “Análisis de datos bayesianos”.

Aprendizaje automáticoEstadísticaInferencia bayesianaProbabilidad

¿Se están utilizando redes neuronales profundas para crear estrategias de fondos de cobertura / HFT?

¿Cuáles son las ventajas y desventajas de tener mi propio servidor en la nube?

¿Cuál es el minimizador de [matemáticas] H [f] = \ sum ^ {N} _ {i = 1} \ | y ^ {(i)} - f (x_i) \ | ^ 2_ {2} + \ lambda \ | Pf \ | ^ 2 [/ math] cuando la salida es un vector?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

Intuitivamente, ¿cómo afecta el tamaño del mini lote al rendimiento del descenso de gradiente (estocástico)?

En redes neuronales artificiales, ¿cómo se eligen conexiones específicas entre nodos para fortalecerlas durante el entrenamiento?

Hmm, según su pregunta, parece que tiene una buena comprensión del uso estándar de los términos “parámetros” y “variables latentes” (la explicación de Kevin sobre esto también es bastante buena).

Sin embargo, lo que parece faltar es que en un modelo bayesiano, cualquier cosa que no se observe puede llamarse una variable latente (oculta). Por lo tanto, el uso en papel de esta expresión es técnicamente correcto y no tiene nada de malo. Con esta terminología, los autores enfatizan el tratamiento uniforme de todas las cantidades no observadas, lo que les ayuda a derivar su método.

Fuera del tema: si bien este parece un gran artículo, no puedo evitar notar que hay algunas declaraciones generales sobre la naturaleza de caja negra del método justo después de la discusión sobre cómo elegir los parámetros de las distribuciones anteriores (sí, parámetros, estos son valores fijos …) Brr … Desearía que la gente dejara de hacer esto … ¿Por qué no podemos simplemente decir que el método funcionó para la configuración que probamos y (si lo probaron) fue insensible a la elección de Parámetros anteriores.

Kevin Murphy

Esto depende de la interpretación, incluso si uno usa la metodología bayesiana para la inferencia; a los fines de la inferencia bayesiana, como se ha mencionado, no existe una distinción significativa entre los parámetros del modelo y las variables latentes.

Sin embargo, hay varias interpretaciones de lo que realmente representa un modelo estadístico que incorpora variables latentes. Por ejemplo, uno podría postular que la variación en cantidades observables depende de la variación de las variables latentes pero no de la variación de los parámetros del modelo; es decir, tal individuo cree que los parámetros son realmente fijos. Sin embargo, en otras interpretaciones, se podría suponer que el mecanismo de generación de datos implica un sorteo de los parámetros y luego un sorteo de las variables latentes, por lo que la variación observable de los datos se debe a la variación de los parámetros, además de la variación en las variables latentes.

Kevin Murphy

La forma en que lo pienso es que crea el modelo con variables aleatorias cuyos valores (es decir, las variables aleatorias) se observarán y las variables aleatorias cuyos valores no se observarán. El enfoque bayesiano también nos permitirá tener variables aleatorias que representan parámetros cuyos valores queremos inferir.

Las variables aleatorias observables son las fáciles de identificar. Esos son aquellos para los que estamos recopilando datos directamente.

Los parámetros son aquellos para los que especificamos una distribución previa.

Las variables latentes son generalmente las que describimos usando una distribución condicional de la variable latente dados los parámetros.

Por lo general, queremos aprender la distribución de los parámetros y las variables latentes condicionadas a los valores observados de las variables aleatorias observables.

Algo como esto:

Sea [math] X_1 [/ math] el vector de variables aleatorias observables.
Sea [math] X_2 [/ math] el vector de variables aleatorias latentes.
Deje que [math] \ Theta [/ math] sea el vector de parámetros.
[matemáticas] f (x_2, \ theta | x_1) = \ frac {f (x_1 | x_2, \ theta) f (x_2 | \ theta) f (\ theta)} {f (x_1)} [/ matemáticas]

Kevin Murphy

More Interesting

¿Podemos usar SGD para entrenar el modelo de mezcla, como GMM y movMF?

Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?

Cómo usar la prueba T de Student para la selección de funciones

¿Podemos lograr mejor que una disminución sub-lineal en el error al aumentar el número de muestras en regresión lineal?

¿Cuál es el significado de la optimización convexa en el aprendizaje automático?

¿Debo abandonar mi programa de doctorado CS para estudiar por mi cuenta?

Los datos financieros fluyen como 'gatos que cambian sus caras porque las computadoras los reconocen en YouTube'. ¿Hay una solución a este problema?

¿Cómo funciona el soporte de regresión vectorial?

¿Cuál es el propósito del análisis de regresión?

¿Las redes neuronales son solo clasificadores lineales vinculados con no linealidades?