Para un bayesiano, no existe una diferencia real entre los parámetros y otros tipos de variables latentes: todas son variables aleatorias desconocidas. En la práctica, la principal diferencia es que los parámetros generalmente son fijos en número (independientemente del tamaño de sus datos), mientras que se supone que las variables latentes crecen en número, ya que generalmente tiene uno por caso de datos. Pictóricamente es así:
theta -> zn -> xn
donde zn son las variables latentes para el caso n, y xn son las variables observadas para xn. (Suponemos que n = 1: N.)
- ¿Qué es el sesgo y la varianza?
- Redes neuronales artificiales: ¿Qué determina si un problema de clasificación no trivial para el aprendizaje profundo se puede dividir en capas convolucionales en lugar de capas completamente conectadas?
- ¿Es necesario aprender Python para seguir la especialización en cursos de Machine Learning, de Coursera?
- ¿Qué tan bueno es el ADVI en STAN en la práctica?
- ¿Cuáles son las ventajas y desventajas de usar Statsmodels sobre Scikit-learn?
También podemos hacer esto discriminatorio:
theta -> zn -> yn <- xn,
donde ahora xn no se genera, pero está condicionado, e yn son las salidas que desea predecir. (Esta imagen puede representar una mezcla de modelos de regresión, por ejemplo, aunque típicamente zn dependería también de xn).
En un modelo bayesiano jerárquico, theta también tendrá nodos principales, que representan los hiperparámetros:
phi -> theta -> zn -> xn
Las cosas se vuelven más complejas cuando tenemos múltiples conjuntos de datos relacionados (que es cuando Bayes jerárquico realmente brilla). Véase, por ejemplo, el libro de Gelman, “Análisis de datos bayesianos”.