¿Qué es la estimación de máxima verosimilitud?

Estimación de máxima verosimilitud (MLE)

Es un método en estadística para estimar los parámetros de un modelo para un dato dado. La intuición básica detrás de MLE es la estimación que explica mejor los datos, será el mejor estimador.

La principal ventaja de MLE es que tiene la mejor propiedad asintótica. Significa que cuando los datos aumentan, la estimación converge más rápidamente hacia el parámetro de población. Usamos MLE para muchos métodos en estadísticas. He explicado los pasos generales que seguimos para encontrar una estimación del parámetro.

Paso 1: Haga una suposición sobre la función de generación de datos.

Paso 2: Formule la función de probabilidad para los datos utilizando la función de generación de datos. La función de probabilidad no es más que la probabilidad de observar estos datos dados los parámetros ([matemática] P (D | \ theta) [/ matemática]). Los parámetros dependen de nuestros supuestos y de la función de generación de datos.

Paso 3: Encuentre un estimador para el parámetro usando la técnica de optimización. Encuentre la estimación que maximiza la función de probabilidad. Esta es la razón, el nombre del estimador calculado usando MLE es M-estimator.

Ejemplo 1: Lanzamos una moneda n veces y observamos k cabezas. Aquí, consideramos que la cabeza es un éxito y la cola es un fracaso.

Paso 1: La suposición es que la moneda sigue la función de distribución de Bernoulli.

Paso 2: La función de probabilidad es la función de distribución binomial ([matemática] P (D | \ theta) [/ matemática]) en este caso. Necesitamos encontrar la mejor estimación para p (Probabilidad de obtener cabeza) dado que k de n lanzamientos son Cabezas.

Paso 3: el estimador M es

[matemáticas] \ hat {P} = \ dfrac {k} {n} \ tag {1} [/ matemáticas]

Ejemplo 2: regresión lineal

Paso 1 : Los supuestos de la función de generación de datos es https://www.quora.com/What-is-an… y la función de generación de datos es función de densidad de probabilidad condicional ([math] f_y (Y | X) [/ math] ), que sigue la distribución normal.

Paso 2 : Si el tamaño de los datos es N, entonces la función de probabilidad es la suma del producto de N función de densidad de probabilidad condicional. Necesitamos encontrar la estimación de los parámetros del modelo de regresión lineal. Los parámetros son \ beta, \ sigma.

Paso 3 : el estimador M para los parámetros es

[matemáticas] \ hat {\ beta} = (X ^ {T} X) ^ {- 1} X ^ {T} Y \ tag {2} [/ matemáticas]

[math] \ sigma_ {est} = \ sqrt {\ frac {\ sum (Y- \ hat {Y}) ^ {2}} {N}} \ tag {3} [/ math]

Como su nombre indica, básicamente está maximizando la función de probabilidad al elegir uno de los parámetros de un tamaño de datos fijo. Devuelve un punto de datos que maximizará la función de probabilidad.

More Interesting

¿Cuáles son las mejores prácticas para elegir el tamaño de estado oculto en RNN?

¿Por qué una gran proporción de los nuevos estudiantes de CS optan por especializarse en áreas más nuevas como el aprendizaje automático, la informática social y la informática móvil en lugar de las más antiguas como los sistemas, la arquitectura y las redes?

¿Qué es la traducción automática estadística?

¿Cuáles son las suposiciones hechas por los modelos ocultos de Markov?

¿Cuáles son algunas de las investigaciones más alucinantes jamás realizadas o en curso en el aprendizaje automático estadístico?

¿Cuáles son los beneficios y desafíos de hacer una investigación de aprendizaje profundo en la academia, en comparación con la industria?

¿Será el hardware especializado para el aprendizaje profundo un cambio de juego?

¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?

¿En qué se diferencia exactamente la generación del lenguaje natural de la comprensión del lenguaje natural?

Cómo entrenar algoritmos relacionados con IA sin una GPU decente

¿Por qué las computadoras no pueden superar de manera confiable a los humanos en reconocimiento facial?

¿Cuáles son los problemas de investigación 'hardcore' en visión artificial, aprendizaje automático y arquitectura informática?

¿Puedo usar el aprendizaje automático para pronosticar datos de series temporales para puntos de datos discretos dispersos?

¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?

¿Qué significa decir que dos clasificadores son independientes?