¿Cómo se hacen los algoritmos EM?

Para fines prácticos, vale la pena pensar en la configuración estándar de Expectation-Maximization (EM) como una línea de ataque para el análisis teórico / algorítmico. La versión más práctica es el algoritmo de maximización de expectativas generalizadas (GEM). Ambas versiones aparecieron por primera vez en el artículo de 1977 de Dempster, Laird y Rubin.

GEM difiere de EM solo en la especificación del paso M: GEM requiere un ascenso de gradiente en la función Q, mientras que EM exige la maximización completa de la función Q. Esto significa que puede implementar GEM M-step encontrando un nuevo theta que solo aumente (en lugar de maximizar) el valor de la función Q. Este es a menudo un paso M computacionalmente más fácil que el paso M de maximización completa de EM. Puede hacer la maximización parcial de la forma que desee, numérica, analíticamente, búsqueda de línea, etc. Las ecuaciones exactas y el mejor procedimiento dependerán de manera crucial de la formulación de su función Q, como con todo lo relacionado con EM.

Te alegrará saber que GEM conserva todas las maravillosas garantías de convergencia teórica del algoritmo EM normal.

AlgoritmosAprendizaje automáticoinformática

Related Content

¿Qué tan importante es el aprendizaje profundo en la conducción autónoma?

¿Qué es el etiquetado gráfico?

Cómo usar el aprendizaje automático en IoT Hardware Security

¿Cómo deberías comenzar una carrera en Machine Learning?

¿Qué biblioteca / framework AI es el mejor, OpenAI, OpenNN o TensorFlow?

¿Las máquinas de vectores de soporte vienen en modelos paramétricos o no paramétricos y por qué?

¿Cuáles son las propiedades utilizadas para agrupar partículas en tipos?

¿Su pdf pertenece a la familia de distribuciones de probabilidad exponencial?

Puede obtener fácilmente Q para que sea una función de theta cuando usa un pdf exponencial. Ese es el E-step.

Ahora desea verificar la convergencia en el paso M. Eso es increíblemente fácil si podemos representar Q en forma cerrada.

Recuerde que el paso E le hace calcular el valor esperado de la función de probabilidad logarítmica con respecto a alguna distribución condicional.

Ese cálculo se vuelve muy fácil con distribuciones exponenciales porque log es el inverso de exponenciales. No siempre es necesario que sea así, pero hace que la configuración sea increíblemente fácil e intuitiva.

Recuerde que usamos algoritmos EM como una forma algorítmica de hacer la Estimación de máxima verosimilitud.

El álgebra de la resolución de MLE para diferentes distribuciones suele ser muy complicado. La mayoría de las personas no tienen las habilidades algebraicas para usar sustituciones y transformaciones inteligentes para resolver los MLE directamente.

El algoritmo EM es simplemente una forma de hacer que una computadora haga el trabajo pesado. Cuando usa una distribución exponencial, la configuración se vuelve increíblemente fácil: es trivial ir entre los pasos E y M cuando podemos escribir la función Q en forma cerrada.

Sin embargo, no es necesario tener una distribución exponencial para empezar.

Jonathan Nacionales

More Interesting

Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

¿Qué debe saber todo programador competitivo (Topcoder) sobre los concursos de Kaggle y ML?

¿Cuál es la desventaja de usar ADVI?

¿Qué consejo daría Yoshua Bengio a los jóvenes investigadores que ingresan al campo del aprendizaje automático?

¿Por qué se supera un clasificador supervisado?

¿Es necesario un MS o PhD en Machine Learning para trabajar en este campo en alguna empresa?

Dado el mismo tamaño de lote, ¿hay algún beneficio en transferir la capacitación CNN de una sola GPU a múltiples GPU (para un tamaño de lote de 128 en 4 GPU, cada GPU procesará 32 muestras)?

¿Tiene sentido tener un conjunto de validación y realizar una validación cruzada al construir modelos?

¿Cuál es el progreso en visión artificial?

Cómo usar el método probabilístico para probar el problema de Ramsey multicolor

¿Qué es el análisis de componentes principales en términos de super laicos?

¿Qué máquina es mejor para clasificar imágenes, SVM u otra? ¿Por qué?

¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?

¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?

¿Cuáles fueron algunos de los artículos de conferencias / revistas de investigación del discurso más interesantes / dignos de mención en 2012?

Web Analytics