Una red neuronal bayesiana (BNN) se refiere a la extensión de redes estándar con inferencia posterior. El entrenamiento estándar de NN a través de la optimización es (desde una perspectiva probabilística) equivalente a la estimación de máxima verosimilitud (MLE) para los pesos.
Por muchas razones, esto no es satisfactorio. Una razón es que carece de una justificación teórica adecuada desde una perspectiva probabilística: ¿por qué la máxima probabilidad? ¿Por qué solo estimar puntos? El uso de MLE ignora cualquier incertidumbre que podamos tener en los valores de peso adecuados. Desde un punto de vista práctico, este tipo de entrenamiento a menudo es susceptible de sobreajuste, como suelen hacer las NN.
Una solución parcial para esto es introducir la regularización. Desde una perspectiva bayesiana, esto es equivalente a inducir previos en los pesos (digamos distribuciones gaussianas si estamos utilizando la regularización L2). La optimización en este caso es similar a la búsqueda de estimadores MAP en lugar de MLE. Una vez más, desde una perspectiva probabilística, esto no es lo correcto , aunque ciertamente funciona bien en la práctica.
- ¿Puede el aprendizaje profundo manejar datos desequilibrados?
- ¿Qué significa para una red neuronal ser entrenada de extremo a extremo?
- ¿Cuál es la diferencia entre el filtrado basado en contenido y el filtrado colaborativo?
- ¿Qué es la programación probabilística?
- RNN para modelado de idiomas en Tensorflow. ¿Cómo puedo rellenar las secuencias si mi entrada está constituida por la incorporación de palabras?
Lo correcto (es decir, teóricamente justificable) es la inferencia posterior, aunque esto es muy desafiante tanto desde el punto de vista del modelado como del computacional. Los BNN son redes neuronales que adoptan este enfoque. En el pasado esto era casi imposible, y tuvimos que recurrir a aproximaciones pobres, como el método de Laplace (baja complejidad) o MCMC (convergencia larga, difícil de diagnosticar). Sin embargo, últimamente ha habido algunos resultados súper interesantes sobre el uso de la inferencia variacional para hacer esto [1], y esto ha despertado un gran interés en el área.
Los BNN son importantes en entornos específicos, especialmente cuando nos preocupamos mucho por la incertidumbre. Algunos ejemplos de estos casos son sistemas de toma de decisiones, configuraciones de datos (relativamente) más pequeñas, optimización bayesiana, aprendizaje basado en modelos y otros.
[1] – [1505.05424] Incertidumbre de peso en redes neuronales