¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

No hay diferencia, per se, entre Bayes empírico y la inferencia bayesiana. Más bien, Empirical Bayes es un tipo de inferencia bayesiana.

La inferencia bayesiana se refiere a la idea general de colocar una distribución previa, o una creencia inicial, en sus parámetros [math] \ theta [/ math]. Existen diferentes niveles de inferencia bayesiana en función de la cantidad de abstracción / complejidad involucrada en la determinación de esto antes.

El primer nivel y el más simple es la estimación del máximo A posteriori (MAP) . Esto solo implica colocar un simple anterior [math] p (\ theta; \ eta) [/ math], donde [math] \ eta [/ math] denota hiperparámetros. Entonces podemos usar la regla de Bayes para seleccionar la [matemática] \ theta ^ * [/ matemática] que maximiza la distribución posterior

[matemáticas] p (\ theta \ vert D) = p (D \ vert \ theta) \ cdot p (\ theta; \ eta) [/ math]

donde [math] D [/ math] denota los datos.

Sin embargo, generalmente no existe un método para seleccionar [matemáticas] \ eta [/ matemáticas] en la estimación MAP; simplemente elegimos algo que es “razonable”, pero a menudo es difícil determinar qué significa realmente “razonable”. En la mayoría de los casos, “razonable” se convierte en “arbitrario”.

Por lo tanto, el siguiente nivel de inferencia bayesiana intenta rectificar este problema en forma de Bayes empíricos . Aquí, [math] \ eta [/ math] se elige en función del examen de los datos. Bayes empíricos tradicionales implica elegir la [matemática] \ eta ^ * [/ matemática] que maximiza

[matemáticas] p (D \ vert \ eta) = \ int p (D \ vert \ theta) p (\ theta; \ eta) d \ theta [/ math]

(Nota al margen: esta ecuación se parece un poco a la Estimación de máxima verosimilitud (MLE) en la inferencia frecuenta, por lo que Empirical Bayes a veces también se llama MLE-2 ).

Por lo general, encontrar la [matemática] \ eta [/ matemática] que maximiza esta integral es computacionalmente difícil, por lo que las personas han redefinido Empirical Bayes para referirse generalmente a cualquier método de inferencia bayesiano que elija los hiperparámetros basados ​​en los datos. Por ejemplo, esto podría ser tan simple como configurar [matemáticas] \ eta = \ bar {D} [/ matemáticas] (también conocido como la media de los datos).

Otros niveles de inferencia bayesiana incluyen MAP-2 (que pone un hiperprior en los hiperparámetros) y el predictivo posterior (también conocido como Full Bayes , que margina todos los parámetros e hiperparámetros al hacer predicciones).

More Interesting

Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas

¿Cómo es ser aconsejado por Sunita Sarawagi?

Música: ¿Cómo se puede usar el aprendizaje automático para analizar música?

¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?

¿Por qué los jóvenes estudiantes dedican más tiempo a la programación competitiva en lugar de otras áreas como aprendizaje automático, seguridad, big data y sistemas operativos?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

¿Qué opina del Proyecto Microsoft Kensci que utiliza el aprendizaje automático en la gestión predictiva de riesgos de salud?

¿Cómo funciona la selección de características bayesianas?

¿Qué sucederá si divido mis datos en 50:50 para capacitación y pruebas?

¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?

¿Cuál es el método para encontrar la parte no reconocida de los resultados del aprendizaje automático y complementarla para alcanzar el 100%?

¿Cómo representa doc2vec el vector de características de un documento? ¿Alguien puede explicar matemáticamente cómo se realiza el proceso?

¿Cuál es la diferencia entre el filtrado basado en contenido y el filtrado colaborativo?