Hablando intuitivamente, ¿cuál es la diferencia entre la estimación bayesiana y la estimación de máxima verosimilitud?

Las respuestas anteriores aquí son muy buenas, pero técnicas. Me gustaría dar un ejemplo intuitivo.

Imagina que eres médico. Tiene un paciente que muestra un conjunto extraño de síntomas. Miras en tu libro del médico y decides que la enfermedad podría ser un resfriado común o lupus.

Su libro médico le dice que si un paciente tiene lupus, la probabilidad de que muestre estos síntomas es del 90%.

También establece que si el paciente tiene un resfriado común, entonces la probabilidad de que muestre estos síntomas es solo del 10%.

¿Qué enfermedad es más probable?

Bueno, hay dos enfoques para tomar. Si usara la estimación de máxima probabilidad, declararía: “El paciente tiene lupus. El lupus es la enfermedad que maximiza la probabilidad de presentar estos síntomas”.

Sin embargo, un médico cannier recordaría que el lupus es muy raro. Esto significa que la probabilidad previa de que alguien tenga lupus es muy baja (~ 5 por 100K personas) en comparación con el resfriado común (que es común). Con una estimación bayesiana, debe decidir que el paciente tiene más probabilidades de tener un resfriado común que el lupus.

Cómo configurar un laboratorio de innovación de ciencia de datos

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Por qué las redes neuronales recurrentes no pueden ampliarse bien?

¿Podemos automatizar las búsquedas a través del aprendizaje automático? Tengo cientos de sitios web de diferentes fabricantes de automóviles, si tengo la intención de extraer toda la información (sobre todas las bicicletas / automóviles) junto con los enlaces.

¿Somos mejores que las máquinas que creamos?

¿Cuáles son algunos excelentes boletines semanales de Data Science?

En la estimación de máxima verosimilitud, encontramos una estimación puntual para los parámetros que maximiza la verosimilitud. Básicamente, si tenemos datos D y parámetros [matemática] \ theta [/ matemática], necesitamos encontrar [matemática] \ theta ^ * [/ matemática] que maximiza [matemática] P (D | \ theta) [/ matemática] . Entonces, podemos usar este conjunto particular de parámetros [math] \ theta ^ * [/ math] para hacer predicciones sobre eventos futuros.

En la estimación bayesiana, llegamos a una distribución de posibles parámetros usando la regla de Bayes: [matemáticas] P (\ theta | D) = \ frac {P (D | \ theta) P (\ theta)} {P (D) } [/ math], donde [math] P (\ theta) [/ math] se conoce como anterior. Luego, para hacer predicciones sobre eventos futuros, necesitamos integrarnos sobre esta distribución de posibles [matemáticas] \ theta [/ matemáticas].

Permítanme dar un ejemplo para hacer esto concreto. Digamos que tenemos una moneda que sale cara con alguna probabilidad [matemática] \ theta [/ matemática]. Vemos aparecer dos cabezas. Nuestra probabilidad se convierte en [matemática] P (D | \ theta) = \ theta ^ 2 [/ matemática], que se maximiza claramente cuando [matemática] \ theta = 1 [/ matemática]. Por lo tanto, nuestro MLE es que la moneda siempre sale cara, por lo que predecimos que las monedas futuras saldrán cara. Vemos por qué MLE puede ser un poco tonto: a menudo, sobreajusta los datos y no se generaliza bien, pero es bueno para una primera estimación.

Ahora, pensemos en el enfoque bayesiano. Ahora, digamos que inicialmente sabemos (nuestro anterior) que nuestra moneda tiene una mitad de probabilidad de tener [matemática] \ theta = 1/2 [/ matemática] y una mitad de probabilidad de tener [matemática] \ theta = 1 [/mates]. Digamos que observamos las mismas dos cabezas para lanzar monedas. Ahora, calculemos:

[matemáticas] P (\ theta = 1/2 | D) \ propto P (D | \ theta) P (D) = 1/8 [/ matemáticas]
[matemáticas] P (\ theta = 1 | D) \ propto P (D | \ theta) P (D) = 1/2 [/ matemáticas]

Normalizando, vemos que tenemos una probabilidad de 1/5 de tener una moneda justa, y una probabilidad de 4/5 de tener una moneda que siempre sale cara. Por lo tanto, estimamos que un nuevo lanzamiento de moneda saldría cara 1/5 (1/2) + 4/5 (1) = 9/10 de las veces. En base a nuestras creencias previas, obtendríamos diferentes respuestas, pero vemos que, en cierto sentido, la estimación bayesiana es más “razonable” que simplemente usar MLE.

Una desventaja es que la estimación bayesiana es muy difícil de calcular porque, en el caso general (distribución continua sobre parámetros en lugar de discreta), necesitamos realizar la integración, que requiere mucho tiempo computacionalmente.

Otro método de estimación popular (no mencionado en la pregunta) se llama estimación máxima a posteriori (MAP), donde maximizamos la posterior, es decir, [matemáticas] P (\ theta | D) \ propto P (D | \ theta) P ( \ theta) [/ math]. Esto también es una estimación puntual, pero al permitir un previo, nos impide decir algunas de las tonterías que hace MLE, por ejemplo, que si vemos dos monedas que salen cara, creemos que la moneda solo puede salir cara.

Más información sobre estos enfoques está aquí:
Máxima verosimilitud
Estimación máxima a posteriori
Teorema de Bayes

Lerner Adams

En términos generales, la densidad posterior de un parámetro es el tiempo anterior a la probabilidad. La estimación de máxima verosimilitud ignora lo anterior, por lo que es muy parecido a ser bayesiano pero usar algún tipo de prioridad plana.

Sean Owen

Buenas respuestas, pero aquí está mi intento de una explicación rápida e intuitiva.

Estimación de máxima verosimilitud : ¿cuáles son los parámetros que mejor explican los datos? Es decir, dados algunos datos y nombres de 2 parámetros (lambda y gamma), ¿cuáles son los valores de lambda y gamma que pueden explicar los datos? Para hacer una nueva predicción, simplemente evaluamos el pdf usando los mejores parámetros encontrados.

Estimación bayesiana : tenemos algunos conocimientos sobre el problema / datos (anterior). También admitimos que puede haber muchos valores de los parámetros que explican los datos y, por lo tanto, “buscamos” múltiples parámetros, por ejemplo, 5 lambdas y 5 gammas que hacen esto. Esto nos da múltiples modelos y, como resultado, múltiples predicciones, una para cada par de parámetros (pero la misma antes). Para predecir un nuevo ejemplo, tenemos que calcular una “suma ponderada” de estas predicciones.

Sean Owen

Buenas respuestas aquí. Tomaré un enfoque ligeramente diferente.

El MLE (y su contraparte bayesiana, el estimador MAP) son los modos de probabilidad (o distribución posterior). Con suerte, son los máximos globales (aunque en la práctica con un conjunto complicado de datos, esto no es generalmente cierto) de la superficie de probabilidad (posterior). (Aunque cuando se trata de encontrar estos máximos, generalmente se usa la superficie de registro). Y de alguna manera tiene sentido usar esto como una solución, ¿verdad? Después de todo, es el punto de mayor probabilidad.

El problema es, ¿qué pasa si la superficie es multimodal? ¿Cómo se comparan, por ejemplo, las predicciones? ¿Qué sucede si hay otras partes interesantes de la superficie de probabilidad que las estimaciones de modos no tienen en cuenta?

Más importante aún (aunque parece que no puedo encontrar una referencia en este momento) los modos tienden a ser puntos atípicos ; es decir, no representan bien la distribución en general.

Ingrese la verdadera estimación bayesiana, y en el lado frecuentista, el MeLE (estimador de probabilidad media. Este último no se conoce bien. Mi supervisor de doctorado trabajó un poco con uno de sus estudiantes; ver, por ejemplo, Estimación de probabilidad media). El MeLE es un problema de integración desde el punto de vista frecuentista (por lo que, en cierto sentido, es bayesiano con un uniforme previo, pero se interpreta de manera diferente). Estos métodos tienen en cuenta la información de toda la superficie de la probabilidad / posterior .

Editar: el peligro con estos tipos de inferencia (y la predicción de ellos) es que realmente tiene que especificar su probabilidad (y antes, si es bayesiano) de alguna manera para que los datos se ajusten razonablemente a ellos. Lo sé, difícil de hacer a veces. Pero necesario.

Sean Owen

En la estimación de máxima verosimilitud (MLE), solo estamos buscando la mejor coincidencia con nuestra suposición y los datos observados, la función de probabilidad y estamos buscando maximizar esta coincidencia para obtener la mejor solución.
Este método sufre de sobreajuste y, a veces, no responde (estimación cero) para situaciones raramente eventos (parámetros).
La estimación bayesiana supone que existe un conocimiento previo sobre el parámetro para estimar y establecer esta información previa en una distribución de probabilidad. Entonces, la estimación simplemente difiere del MLE en una especificación previa en su caso más simple.
MLE: Maximice la mejor coincidencia entre nuestra suposición sobre los datos y los datos observados, función de probabilidad.
Bayes: Maximice la mejor coincidencia entre nuestra suposición sobre los datos y los datos observados, la función de probabilidad, ADEMÁS de nuestro (o experto en el dominio, estudios previos o …) conocimiento previo sobre el parámetro, distribución previa.

Sean Owen

Bayesian asume un conocimiento previo del problema y lo usa, mientras que mle usa solo datos actuales y encuentra el mejor modelo descriptivo solo para él.

Sean Owen

Cuando establecemos el [math] p (\ theta) [/ math] anterior como distribución uniforme, por ejemplo [math] p (\ theta) = 1/6 [/ math] al jugar un dado, entonces la estimación bayesiana se vuelve máxima Estimación de probabilidad. Cuando [math] p (\ theta) [/ math] no es uniforme, lo llamamos máximo a posteriori (MAP para abreviar).

Para abreviar, MLE es un caso especial de MAP donde el prior es uniforme.

Yuval Feinstein

More Interesting

¿Cómo se usa una capa oculta soft-max en una red neuronal profunda?

¿Cuál es la ley cero del algoritmo de aprendizaje automático (MLA)?

¿Cuál es el método del núcleo? ¿Cómo se usa en los sistemas de recomendación?

Aprendizaje profundo: ¿Qué es la búsqueda jerárquica de correspondencia?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?

¿Cómo descifrar cualquier entrevista de aprendizaje automático? ¿Qué tipo de preguntas debo esperar? Qué tipos de proyectos paralelos relevantes se verían bien en un CV

¿Cuál es una buena manera de convertir métrica discreta en métrica circular?

¿Es Siraj Raval el Neil De Grasse Tyson del aprendizaje profundo?