¿Cómo soluciona un máximo A posterior el problema de sobreajuste en una estimación de máxima verosimilitud?

Maximum aposteriori usa a prior, que restringe un poco la solución. Al poner una restricción, está reduciendo el número de hipótesis que está probando en los datos, y al hacerlo está esencialmente reduciendo el problema de sobreajuste.

Aclaración sobre lo que quiero decir con una hipótesis:

Tomemos el ejemplo de la regresión lineal y supongamos que hay dos características x1 y x2 y una respuesta. Voy a suponer que tampoco hay intercepción. Así que estamos tratando de encontrar los parámetros a1 y a2 de modo que

La suma sobre todos los datos {[y – (a1 x1 + a2 x2)] ^ 2} se minimiza.

Una estimación de MLE considerará todos los valores de a1 y a2 al intentar minimizar el error al cuadrado anterior.

En este caso, cada combinación de valores viables de a1 y a2 son hipótesis. Cuando usa un previo, generalmente dice que a1 y a2 se extraen de una Distribución Normal centrada alrededor del origen. Esto obliga a los valores de a1 y a2 a estar más cerca del origen que más lejos, los valores de a1 y a2 que son muy grandes probablemente no se considerarán debido a la naturaleza de la distribución normal, lo que limita el número de hipótesis probadas.

Bonificación: La regularización puede explicarse de la misma manera, una Distribución Normal previa, puede usarse para derivar la regularización L-2. Por lo tanto, la regularización L-2 también reduce el sobreajuste.

Nota: He abusado mucho de la notación, matemáticos y estadísticos puros, por favor perdóname.

Lecturas adicionales: problema de comparaciones múltiples – Wikipedia

More Interesting

¿Cómo difiere la clasificación de la clasificación? ¿Cómo son similares?

¿Qué se considera estado de arte para la traducción automática neuronal?

¿Qué tan popular y extendido es el aprendizaje automático en África?

¿Los analistas de datos serán reemplazados por aprendizaje automático e inteligencia artificial pronto?

¿Cuál es una buena manera de entender la maldición de la alta dimensión en el aprendizaje automático?

Cómo integrar el marco Tensorflow con XGBoost

¿Cuáles son las aplicaciones HOT de Machine Learning para las ciencias biológicas?

Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

¿Cómo se aplica el análisis tensorial al aprendizaje automático, en términos de contexto específico de aplicación?

Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?

¿Cuál es el mejor lenguaje para el procesamiento del lenguaje natural?

¿Cuál es la mejor biblioteca de aprendizaje profundo en la etapa actual para trabajar en grandes datos? ¿Cuáles son algunas alternativas para las bibliotecas a gran escala?

Cómo elegir un optimizador para mi modelo de tensorflow

¿Cómo funcionan los RBM? ¿Cuáles son algunos buenos casos de uso y algunos buenos artículos recientes sobre el tema?

¿Cuál es el punto de probar los datos en k-fold cross validation?