Maximum aposteriori usa a prior, que restringe un poco la solución. Al poner una restricción, está reduciendo el número de hipótesis que está probando en los datos, y al hacerlo está esencialmente reduciendo el problema de sobreajuste.
Aclaración sobre lo que quiero decir con una hipótesis:
Tomemos el ejemplo de la regresión lineal y supongamos que hay dos características x1 y x2 y una respuesta. Voy a suponer que tampoco hay intercepción. Así que estamos tratando de encontrar los parámetros a1 y a2 de modo que
- ¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?
- ¿Dónde está el mejor lugar para encontrar startups emergentes de aprendizaje automático y PNL?
- ¿Puede la red neuronal convolucional reconocer un objeto en cualquier condición?
- ¿Se ha resuelto el problema de reconocimiento de caracteres escritos a mano?
- Cómo comenzar a implementar un sistema de recomendación para juegos
La suma sobre todos los datos {[y – (a1 x1 + a2 x2)] ^ 2} se minimiza.
Una estimación de MLE considerará todos los valores de a1 y a2 al intentar minimizar el error al cuadrado anterior.
En este caso, cada combinación de valores viables de a1 y a2 son hipótesis. Cuando usa un previo, generalmente dice que a1 y a2 se extraen de una Distribución Normal centrada alrededor del origen. Esto obliga a los valores de a1 y a2 a estar más cerca del origen que más lejos, los valores de a1 y a2 que son muy grandes probablemente no se considerarán debido a la naturaleza de la distribución normal, lo que limita el número de hipótesis probadas.
Bonificación: La regularización puede explicarse de la misma manera, una Distribución Normal previa, puede usarse para derivar la regularización L-2. Por lo tanto, la regularización L-2 también reduce el sobreajuste.
Nota: He abusado mucho de la notación, matemáticos y estadísticos puros, por favor perdóname.
Lecturas adicionales: problema de comparaciones múltiples – Wikipedia