¿Cuáles son algunas aplicaciones destacadas de los métodos de máxima verosimilitud?

Aplicación de la estimación de máxima verosimilitud

Por lo general, seguimos tres pasos en MLE para encontrar la estimación de un parámetro.

Paso 1: Haga una suposición sobre la función de generación de datos.

Paso 2: Formule la función de probabilidad para los datos utilizando la función de generación de datos. La función de probabilidad no es más que la probabilidad de observar estos datos dados los parámetros ([matemática] P (D | \ theta) [/ matemática]). Los parámetros dependen de nuestros supuestos y de la función de generación de datos.

Paso 3: Encuentre un estimador para el parámetro usando la técnica de optimización. Encuentre la estimación que maximiza la función de probabilidad. Esta es la razón, el nombre del estimador calculado usando MLE es M-estimator.

Aplicación 1: Lanzamos una moneda n veces y observamos k cabezas. Aquí, consideramos que la cabeza es un éxito y la cola es un fracaso.

Paso 1: La suposición es que la moneda sigue la función de distribución de Bernoulli.

Paso 2: La función de probabilidad es la función de distribución binomial ([matemática] P (D | \ theta) [/ matemática]) en este caso. Necesitamos encontrar la mejor estimación para p (Probabilidad de obtener cabeza) dado que k de n lanzamientos son Cabezas.

Paso 3: el estimador M es

[matemáticas] \ hat {P} = \ dfrac {k} {n} \ tag {1} [/ matemáticas]

Aplicación 2: regresión lineal

Paso 1 : Los supuestos de la función de generación de datos es https://www.quora.com/What-is-an… y la función de generación de datos es función de densidad de probabilidad condicional ([math] f_y (Y | X) [/ math] ), que sigue la distribución normal.

Paso 2 : Si el tamaño de los datos es N, entonces la función de probabilidad es la suma del producto de N función de densidad de probabilidad condicional. Necesitamos encontrar la estimación de los parámetros del modelo de regresión lineal. Los parámetros son \ beta, \ sigma.

Paso 3 : el estimador M para los parámetros es

[matemáticas] \ hat {\ beta} = (X ^ {T} X) ^ {- 1} X ^ {T} Y \ tag {2} [/ matemáticas]

[math] \ sigma_ {est} = \ sqrt {\ frac {\ sum (Y- \ hat {Y}) ^ {2}} {N}} \ tag {3} [/ math]

Aplicación 3 : Regresión logística

More Interesting

¿Cuáles son algunas optativas de matemáticas avanzadas útiles para un estudiante universitario en CS (junior) que se inclina hacia el aprendizaje automático para la escuela de posgrado?

¿Por qué las redes neuronales profundas no pueden extraer la estacionalidad de las series de tiempo?

¿Cuántas horas le tomaría a un analista de datos profesional revisar los datos simples de la compañía y construir un modelo para predecir el desgaste?

¿Cuáles son algunos paquetes de software populares para modelos gráficos?

¿Cuándo funciona el aprendizaje conjunto?

¿Cómo se manejan las características categóricas en un modelo de mezcla gaussiana / modelo de agrupamiento?

¿Cómo se pueden entender intuitivamente las dimensiones de las entradas LSTM?

Si pudieras elegir cinco miembros perfectos para un equipo de desarrollo de aprendizaje automático y en la nube, ¿qué habilidades requerirías que tuvieran?

¿Qué es el modelo log-lineal latente con variables latentes y cómo se entrena tal modelo?

¿Cómo se usan las estadísticas en Machine Learning?

¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

¿Qué algoritmos / tecnologías se usaron para hacer Siri?

Cuando la gente dice que la inteligencia artificial destruirá a la raza humana, ¿es que alguien los programará para que estén predispuestos a no gustarle la vida orgánica, o que de alguna manera adquirirán naturalmente las mismas emociones o algoritmos que lo llevan a uno a matar?

Para comenzar en los roles de la ciencia de datos, ¿los cursos de Jigsaw Academy o Coursera son lo suficientemente buenos?

¿Es la máquina de comercio científico una estafa?