¿Alguna vez usamos la estimación de máxima verosimilitud?

La estimación de máxima verosimilitud se usa mucho en la práctica.

De hecho, para dar uno de los ejemplos más simples de estimación de ML, cada vez que calcula la media de algo, efectivamente está utilizando la estimación de máxima verosimilitud. En efecto, está asumiendo que los puntos de datos individuales (número real) son sorteos independientes del (mismo) gaussiano con media [matemática] \ mu [/ matemática] y alguna variación.

Si realiza el esfuerzo de escribir el estimador de máxima verosimilitud para [math] \ mu [/ math] basado en variables aleatorias extraídas independientemente de la misma distribución gaussiana, verá que es la media de los puntos de datos individuales. (Tenga en cuenta que lo mismo es cierto para algunas otras distribuciones).

Este es solo el uso más simple. Hay muchos otros casos de uso más avanzados que todavía son prácticos y que se usan regularmente en la práctica.

Aprendizaje automáticoEstadísticaProbabilidad

¿Se utiliza el cálculo integral en Machine Learning o Deep Learning?

Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?

¿Cómo funcionan las redes neuronales convolucionales?

¿Cuál es la diferencia entre extracción de información y recuperación de información?

¿Los ISP bloquearían los mensajes instantáneos si no tuviéramos neutralidad de red?

En la mayoría de los entrenamientos de precisión de CNN, ¿por qué la precisión de validación no aumenta suavemente en lugar de con tantas ondas?

El estimador de máxima verosimilitud es un concepto muy importante en estadística. El estimador de máxima verosimilitud L (p) busca maximizar la definición funcional del parámetro p.

Si bien puede no parecer tan obvio, muchos de los conceptos fundamentales en la inferencia estadística se basan en la aplicación de MLE. Una de las aplicaciones más populares, aunque menos obvias, es la determinación de la función de costo en regresión lineal. La función de costo, J (theta), para resolver problemas de regresión lineal es el error cuadrático medio. Intuitivamente, representamos la cantidad de error al sumar la diferencia entre los valores de salida predichos y verdaderos. (h (x) – y). La intuición matemática de lo mismo es bastante interesante. Sabemos que la hipótesis es theta0 + theta1 * X para una única configuración de características, X. Ahora, theta0 se utiliza para representar los errores no modelados y pertenece a una distribución gaussiana. Theta se representa como el vector de características para los parámetros de peso del modelo. Entonces nosotros. Puede presentar la función de masa de probabilidad para unmodelled como P (theta0). Esta es la ecuación de función de masa de probabilidad para una distribución normal.

Ahora, podemos tratar de maximizar el valor de la restricción de la función de masa por el vector de peso, theta. Esto da como resultado una ecuación muy familiar, la función de error cuadrático medio. Esta función de error LMS es un caso bastante particular de una clase de funciones.

Esta es una implementación muy sencilla del estimador de máxima verosimilitud. Otro caso de uso importante es la ecuación para el parámetro de regularización utilizado para contener el sobreajuste.

Para una implementación más detallada, puede echar un vistazo a Lecture Notes 1 PDF de CS 229 en la Universidad de Stanford

Bob Byers

A punto de graduarme, recientemente pasé por un proceso de solicitud de empleo. Le pregunté a un amigo que recientemente pasó por el mismo proceso cuántos empleos solicitó y cuántas ofertas. Quería estimar cuántos trabajos necesitaba solicitar para tener una buena oportunidad de obtener al menos una oferta.

Si hacemos las suposiciones simplificadoras (e incorrectas) de que cada una de sus aplicaciones fue una prueba independiente y que soy igual que él, podemos tomar la frecuencia relativa entre el número de solicitudes (n) y la oferta recibida (r), a saber [ math] \ hat {\ theta} = \ frac {r} {n} [/ math], como una estimación de la probabilidad real de que una solicitud se convierta en una oferta de trabajo, [math] \ theta. [/ math]

La justificación estadística del uso de una frecuencia relativa para estimar una probabilidad de ocurrencia es, lo adivinó, la estimación de máxima verosimilitud . Lo usamos todo el tiempo, pero a menudo no pensamos por qué está justificado, solo sabemos que lo es.

Actualización: me doy cuenta de que mi respuesta estaba dando un uso en el mundo real, pero usted preguntó sobre el uso en las estadísticas. Existe todo un subcampo de estadísticas llamado aprendizaje automático que se basa principalmente en la estimación de máxima probabilidad (y máxima a posteriori). Entonces sí, se usa todo el tiempo.

Othman Nejjar

OK, no estoy totalmente de acuerdo con las otras publicaciones, así que aquí está. La estimación de máxima verosimilitud (MLE) es realmente una técnica adecuada:

Imagine que tiene un montón de datos y cree que provienen de una distribución Normal, aplique MLE y luego descubra cuáles son los mejores parámetros (media y varianza en este caso) que se ajustan a los datos.

Cada vez que quiera saber qué distribución exacta usar, puede usar MLE.

Ahora suponga que tiene una regresión: [math] y = \ alpha x + \ beta + \ epsilon [/ math]. Si supone que su error tiene una distribución normal [matemática] \ epsilon \ sim \ matemática {N} (0, \ sigma ^ 2) [/ matemática] entonces la distribución de [matemática] Y | X [/ math] también es Normal y puede usar MLE para estimar los parámetros de esta distribución normal y asignarlos a [math] \ alpha [/ math] y [math] \ beta [/ math].

Entonces, cada vez que ajusta una regresión, usa MLE. Yo diría que esto se usa mucho en la práctica.

Bob Byers

¿Has oído hablar de regresión lineal?

Además, el algoritmo k-means se puede considerar como una versión simplificada del algoritmo Expectation-maximization para k gaussianos.

Othman Nejjar

More Interesting

¿Cuáles son los parámetros del procesamiento del lenguaje natural?

¿Cuáles son las relaciones entre el aprendizaje automático, el aprendizaje profundo, el aprendizaje supervisado y el aprendizaje no supervisado?

¿Qué es un 'descriptor' en el contexto de una transformación de característica invariante de escala (SIFT)?

¿Por qué es importante el aprendizaje no supervisado?

¿Cómo funciona el algoritmo de fijación de precios de Uber?

¿Por qué es tan fácil el aprendizaje profundo?