En la estimación de máxima verosimilitud, encontramos una estimación puntual para los parámetros que maximiza la verosimilitud. Básicamente, si tenemos datos D y parámetros [matemática] \ theta [/ matemática], necesitamos encontrar [matemática] \ theta ^ * [/ matemática] que maximiza [matemática] P (D | \ theta) [/ matemática] . Entonces, podemos usar este conjunto particular de parámetros [math] \ theta ^ * [/ math] para hacer predicciones sobre eventos futuros.
En la estimación bayesiana, llegamos a una distribución de posibles parámetros usando la regla de Bayes: [matemáticas] P (\ theta | D) = \ frac {P (D | \ theta) P (\ theta)} {P (D) } [/ math], donde [math] P (\ theta) [/ math] se conoce como anterior. Luego, para hacer predicciones sobre eventos futuros, necesitamos integrarnos sobre esta distribución de posibles [matemáticas] \ theta [/ matemáticas].
Permítanme dar un ejemplo para hacer esto concreto. Digamos que tenemos una moneda que sale cara con alguna probabilidad [matemática] \ theta [/ matemática]. Vemos aparecer dos cabezas. Nuestra probabilidad se convierte en [matemática] P (D | \ theta) = \ theta ^ 2 [/ matemática], que se maximiza claramente cuando [matemática] \ theta = 1 [/ matemática]. Por lo tanto, nuestro MLE es que la moneda siempre sale cara, por lo que predecimos que las monedas futuras saldrán cara. Vemos por qué MLE puede ser un poco tonto: a menudo, sobreajusta los datos y no se generaliza bien, pero es bueno para una primera estimación.
Ahora, pensemos en el enfoque bayesiano. Ahora, digamos que inicialmente sabemos (nuestro anterior) que nuestra moneda tiene una mitad de probabilidad de tener [matemática] \ theta = 1/2 [/ matemática] y una mitad de probabilidad de tener [matemática] \ theta = 1 [/mates]. Digamos que observamos las mismas dos cabezas para lanzar monedas. Ahora, calculemos:
[matemáticas] P (\ theta = 1/2 | D) \ propto P (D | \ theta) P (D) = 1/8 [/ matemáticas]
[matemáticas] P (\ theta = 1 | D) \ propto P (D | \ theta) P (D) = 1/2 [/ matemáticas]
Normalizando, vemos que tenemos una probabilidad de 1/5 de tener una moneda justa, y una probabilidad de 4/5 de tener una moneda que siempre sale cara. Por lo tanto, estimamos que un nuevo lanzamiento de moneda saldría cara 1/5 (1/2) + 4/5 (1) = 9/10 de las veces. En base a nuestras creencias previas, obtendríamos diferentes respuestas, pero vemos que, en cierto sentido, la estimación bayesiana es más “razonable” que simplemente usar MLE.
Una desventaja es que la estimación bayesiana es muy difícil de calcular porque, en el caso general (distribución continua sobre parámetros en lugar de discreta), necesitamos realizar la integración, que requiere mucho tiempo computacionalmente.
Otro método de estimación popular (no mencionado en la pregunta) se llama estimación máxima a posteriori (MAP), donde maximizamos la posterior, es decir, [matemáticas] P (\ theta | D) \ propto P (D | \ theta) P ( \ theta) [/ math]. Esto también es una estimación puntual, pero al permitir un previo, nos impide decir algunas de las tonterías que hace MLE, por ejemplo, que si vemos dos monedas que salen cara, creemos que la moneda solo puede salir cara.
Más información sobre estos enfoques está aquí:
Máxima verosimilitud
Estimación máxima a posteriori
Teorema de Bayes