¿Cuál es la diferencia entre la estimación de máxima verosimilitud (ML) y máxima a Posteri (MAP)?

Como probablemente ya haya descubierto, los datos y los parámetros del modelo son entradas a la función de probabilidad. Es natural pensar en el trabajo de la función de probabilidad en esta dirección: dado un valor fijo de los parámetros del modelo, ¿cuál es la probabilidad de cualquier punto de datos o conjunto de datos en particular?

Pero, ¿qué sucede si mantiene los datos fijos (es decir, se han observado) y permite que los parámetros varíen? En ese caso, la función de probabilidad puede decirle la probabilidad (no la probabilidad, ya que no está normalizada) de un parámetro en particular. La estimación de máxima verosimilitud (MLE) es simplemente el modo de la verosimilitud en ese segundo escenario.

El problema con MLE es que sobreajusta los datos, lo que significa que la varianza de las estimaciones de parámetros es alta, o dicho de otra manera, que el resultado de la estimación de parámetros es sensible a variaciones aleatorias en los datos (que se vuelve patológico con pequeñas cantidades de datos). ) Para lidiar con esto, generalmente ayuda agregar regularización a MLE (es decir, reducir la varianza al introducir sesgo en la estimación). En el máximo a posteriori (MAP), esta regularización se logra suponiendo que los parámetros en sí mismos también (además de los datos) se extraen de un proceso aleatorio. Las creencias previas sobre los parámetros determinan cómo se ve este proceso aleatorio.

Es una decisión de diseño en cuanto a qué creencia previa tiene el modelo sobre los parámetros, pero curiosamente, si las creencias previas son fuertes, entonces los datos observados tienen un impacto relativamente pequeño en las estimaciones de los parámetros (es decir, baja varianza pero alto sesgo), mientras que si las creencias previas son débiles, el resultado es más parecido al MLE estándar (es decir, sesgo bajo pero varianza alta). Esto lleva a dos límites interesantes: para una cantidad infinita de datos, MAP da el mismo resultado que MLE (siempre que el anterior sea distinto de cero en todas partes en el espacio de parámetros); para una creencia previa infinitamente débil (es decir, previa uniforme), MAP también da el mismo resultado que MLE.

La estimación de máxima verosimilitud (MLE) de un parámetro es el valor del parámetro que maximiza la verosimilitud, donde la verosimilitud es una función del parámetro y en realidad es igual a la probabilidad de que los datos condicionen ese parámetro.

La estimación máxima a posteriori (MAP) es el valor del parámetro que maximiza toda la distribución posterior (que se calcula utilizando la probabilidad). Una estimación MAP es el modo de la distribución posterior.

Tenga en cuenta que no hay diferencia entre la estimación de MLE y MAP si la distribución previa que asumíamos era una constante.

Comencemos con una observación, y. Supongamos que x es la cantidad que estamos tratando de estimar, y que alguna operación en x ha producido y.

Intuitivamente, la estimación de ML responde a la pregunta: qué valor de x explica mejor el valor observado, y. Por otro lado, la estimación MAP responde a la pregunta: ¿cuál es el mejor valor posible de x dado que la observación tiene un valor y? Hablando en términos generales, en la mayoría de las situaciones, una estimación de ML es el valor de x que se podría adivinar únicamente en función del sentido común.

Más precisamente, la estimación ML intenta encontrar el valor de x que maximiza p (y | x), mientras que la estimación MAP intenta encontrar el valor de x que maximiza p (x | y). Según la ley de Bayes, calcular p (x | y) implica calcular la probabilidad p (y | x), la p (x) previa y la evidencia p (y). Pero dado que el objetivo de la estimación MAP no es calcular la probabilidad posterior, sino solo estimar un valor de x que maximice el posterior, no nos molestamos en calcular la evidencia que claramente no es una función de x.

Entonces, para resumir, la estimación ML produce el valor de x que maximiza p (y | x) mientras que la estimación MAP produce el valor de x que maximiza p (y | x) * p (x).

Las consideraciones prácticas para la estimación de MAP incluyen no saber que p (x) o p (x) son bastante subjetivas. Sin embargo, en los casos en que p (x) se conoce razonablemente, la estimación MAP proporciona un marco para regularizar la tendencia a coincidir exactamente con los datos observados, lo que conduce a una estimación más suave / menos ruidosa de x. A pesar de ser la alternativa más simple, se puede demostrar que las estimaciones de ML son imparciales asintóticamente.

En el mundo natural, nuestra predicción está influenciada por nuestras creencias anteriores . La estimación del máximo a posteriori tiene en cuenta nuestras creencias anteriores, mientras que la máxima verosimilitud no.

En otras palabras, MAP ‘tira’ la predicción hacia el prior, hasta cierto punto, eso depende de la fuerza del prior. Por lo tanto, puede decir que MAP está más cerca de nuestro estilo natural de predicción. Tiene en cuenta nuestro sesgo.

James McInerney ha resumido perfectamente la motivación detrás del uso de estimaciones de MAP. Sin embargo, el uso de MAP para la estimación de parámetros también tiene algunos inconvenientes. En primer lugar, como se señala en el enlace de Wikipedia, no es invariable volver a parametrizar los parámetros, lo que significa que el modo (del posterior) puede cambiar según el espacio de parámetros. Un ejemplo de esto es cuando está estimando la dirección media (de una distribución de von Mises-Fisher), y la densidad previa se puede parametrizar utilizando el sistema de coordenadas esféricas o cartesianas.

Más importante aún, la estimación basada en MAP es un esquema de inferencia bayesiano aproximado. Para la siguiente discusión, deje que [math] \ boldsymbol {\ Theta} [/ math] sea un vector de parámetros de valor real y deje que [math] h (\ boldsymbol {\ Theta}) [/ math] sea la densidad de probabilidad previa definida en los parámetros

Es concebible que no todos los parámetros tengan que ser “igualmente importantes”; esto se cuantifica por la densidad previa (mediante el uso de MAP). Sin embargo, esto no equivale a la probabilidad de los propios parámetros. Estrictamente hablando, la probabilidad se rige como: [matemáticas] h (\ boldsymbol {\ Theta}) \ veces V [/ matemáticas], donde [matemáticas] V [/ matemáticas] es el volumen de la región sobre la cual se considera la densidad de probabilidad constante. Una forma de ver la estimación basada en MAP es cuando [math] V = 1 [/ math] (esencialmente una constante). No hay ninguna razón por la cual este tiene que ser el caso en la práctica. En otras palabras, esto puede verse como una aproximación al método de inferencia bayesiano.

Un medio integral de inferencia bayesiana plantea dificultades para calcular la integral resultante. En este sentido, MAP es una aproximación demasiado simplificada. Tampoco se puede confiar en la máxima probabilidad. He estado estudiando el criterio de Longitud mínima de mensaje que es esencialmente bayesiano y proporciona una justificación teórica de la información para la estimación de parámetros. Esto no sufre los inconvenientes de la máxima probabilidad o la estimación basada en MAP, y proporciona un método razonable de estimación de parámetros.

El profesor Jason Eisner ha dado una excelente respuesta aquí.

El artículo de Wikipedia sobre la estimación máxima a posteriori tiene una buena explicación de la diferencia.