¿Cómo se puede minimizar el riesgo regularizado utilizando métodos bayesianos?

No consideraría maximizar la probabilidad de un procedimiento bayesiano: no es necesario imponer una distribución en el parámetro de interés para definir una probabilidad y maximizarla. La única noción de incertidumbre en el parámetro entra en juego en las distribuciones anteriores y posteriores. Además, la noción de riesgo “regularizado” en un entorno bayesiano es ligeramente redundante porque muchas veces los anteriores juegan el papel de “regularizar” las estimaciones.

En cualquier caso, existe una definición precisa del riesgo de un estimador bayesiano. Primero, necesitamos una función de pérdida [matemática] L (\ hat {\ theta}, \ theta) [/ matemática] que penaliza la discrepancia entre el estimador y un theta fijo. (Una opción típica es el error al cuadrado, o [math] (\ theta- \ hat {\ theta}) ^ 2.) [/ Math] Defina el riesgo como [math] R _ {\ theta} = E _ {\ theta} [L (\ hat {\ theta}, \ theta)] [/ math] Entonces, el riesgo de Bayes de un estimador

[matemáticas] \ int R (\ theta) p (\ theta) d \ theta [/ matemáticas]

Donde aquí [math] p (\ theta) [/ math] es la distribución de probabilidad previa en [math] \ theta [/ math].

Podemos reescribir el riesgo de Bayes como:

[matemáticas] \ int R (\ hat {\ theta} | x) m (x) dx [/ matemáticas]

Donde [math] R (\ hat {\ theta} | x) [/ math] es el riesgo posterior: la pérdida promedio con respecto a la posterior.

Por lo tanto, encontrar la regla de Bayes que minimiza el riesgo de Bayes es equivalente a minimizar el riesgo posterior. Si la función de pérdida es un error al cuadrado, por ejemplo, esto resulta ser la expectativa posterior.

Larry Wasserman ofrece un buen tratamiento de estos temas en “Introducción concisa a todas las estadísticas”.

More Interesting

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

¿En qué conjuntos de datos se formó el Sistema de traducción automática neuronal (GNMT) de Google?

¿Será factible dentro de los próximos 5 años que una API de aprendizaje automático maneje la construcción de representaciones significativas a partir de datos sin procesar?

¿Por qué la red bayesiana no ha tenido tanto éxito como la red neuronal profunda?

¿Cómo funcionan las capas de incrustación en TensorFlow?

¿Por qué no estamos usando el coeficiente beta como una selección de características?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?

¿Puedes explicar el hashing de características de una manera fácil de entender?

¿Cuál es la diferencia entre perceptrón y maximización de expectativas?

¿Cuál es el truco del núcleo?

Organización de la computadora: ¿Cuál es la aceleración de una versión de 5 etapas de la máquina en tubería sobre la versión sin tubería?

¿Es posible verificar manualmente si los vectores de soporte siguen hiperplanos teóricos en SVM usando un núcleo de base radial?

Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

¿Qué profesores / grupos / laboratorios están trabajando en el aprendizaje profundo en el MIT?