No consideraría maximizar la probabilidad de un procedimiento bayesiano: no es necesario imponer una distribución en el parámetro de interés para definir una probabilidad y maximizarla. La única noción de incertidumbre en el parámetro entra en juego en las distribuciones anteriores y posteriores. Además, la noción de riesgo “regularizado” en un entorno bayesiano es ligeramente redundante porque muchas veces los anteriores juegan el papel de “regularizar” las estimaciones.
En cualquier caso, existe una definición precisa del riesgo de un estimador bayesiano. Primero, necesitamos una función de pérdida [matemática] L (\ hat {\ theta}, \ theta) [/ matemática] que penaliza la discrepancia entre el estimador y un theta fijo. (Una opción típica es el error al cuadrado, o [math] (\ theta- \ hat {\ theta}) ^ 2.) [/ Math] Defina el riesgo como [math] R _ {\ theta} = E _ {\ theta} [L (\ hat {\ theta}, \ theta)] [/ math] Entonces, el riesgo de Bayes de un estimador
[matemáticas] \ int R (\ theta) p (\ theta) d \ theta [/ matemáticas]
- Al entrenar una red neuronal, ¿es común tener un tamaño de paso diferente para los parámetros en cada capa y las compensaciones al realizar el Descenso de gradiente?
- En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?
- Cómo mejorar en Machine Learning y PNL
- ¿Quiénes son algunos de los principales profesores que enseñan Machine Learning en Europa?
- ¿Alguna vez usamos la estimación de máxima verosimilitud?
Donde aquí [math] p (\ theta) [/ math] es la distribución de probabilidad previa en [math] \ theta [/ math].
Podemos reescribir el riesgo de Bayes como:
[matemáticas] \ int R (\ hat {\ theta} | x) m (x) dx [/ matemáticas]
Donde [math] R (\ hat {\ theta} | x) [/ math] es el riesgo posterior: la pérdida promedio con respecto a la posterior.
Por lo tanto, encontrar la regla de Bayes que minimiza el riesgo de Bayes es equivalente a minimizar el riesgo posterior. Si la función de pérdida es un error al cuadrado, por ejemplo, esto resulta ser la expectativa posterior.
Larry Wasserman ofrece un buen tratamiento de estos temas en “Introducción concisa a todas las estadísticas”.