Como probablemente ya haya descubierto, los datos y los parámetros del modelo son entradas a la función de probabilidad. Es natural pensar en el trabajo de la función de probabilidad en esta dirección: dado un valor fijo de los parámetros del modelo, ¿cuál es la probabilidad de cualquier punto de datos o conjunto de datos en particular?
Pero, ¿qué sucede si mantiene los datos fijos (es decir, se han observado) y permite que los parámetros varíen? En ese caso, la función de probabilidad puede decirle la probabilidad (no la probabilidad, ya que no está normalizada) de un parámetro en particular. La estimación de máxima verosimilitud (MLE) es simplemente el modo de la verosimilitud en ese segundo escenario.
El problema con MLE es que sobreajusta los datos, lo que significa que la varianza de las estimaciones de parámetros es alta, o dicho de otra manera, que el resultado de la estimación de parámetros es sensible a variaciones aleatorias en los datos (que se vuelve patológico con pequeñas cantidades de datos). ) Para lidiar con esto, generalmente ayuda agregar regularización a MLE (es decir, reducir la varianza al introducir sesgo en la estimación). En el máximo a posteriori (MAP), esta regularización se logra suponiendo que los parámetros en sí mismos también (además de los datos) se extraen de un proceso aleatorio. Las creencias previas sobre los parámetros determinan cómo se ve este proceso aleatorio.
- ¿Las PGM son esenciales para el aprendizaje profundo?
- ¿Es el análisis de sentimientos todo sobre lingüística?
- ¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?
- ¿Cuáles son algunos desafíos calificados de aprendizaje automático que se inician cada año?
- ¿Puedo usar word2vec para hacer el análisis de co-palabras?
Es una decisión de diseño en cuanto a qué creencia previa tiene el modelo sobre los parámetros, pero curiosamente, si las creencias previas son fuertes, entonces los datos observados tienen un impacto relativamente pequeño en las estimaciones de los parámetros (es decir, baja varianza pero alto sesgo), mientras que si las creencias previas son débiles, el resultado es más parecido al MLE estándar (es decir, sesgo bajo pero varianza alta). Esto lleva a dos límites interesantes: para una cantidad infinita de datos, MAP da el mismo resultado que MLE (siempre que el anterior sea distinto de cero en todas partes en el espacio de parámetros); para una creencia previa infinitamente débil (es decir, previa uniforme), MAP también da el mismo resultado que MLE.