¿Podemos usar SGD para entrenar el modelo de mezcla, como GMM y movMF?

Si utiliza una parametrización ingenua de matriz completa de los parámetros de covarianza del GMM, es improbable que una actualización de gradiente estocástico ingenuo con respecto a las entradas de la matriz de covarianza conserve su definición positiva, lo que conduce a GMM inválidos.

Sin embargo, podría ser posible parametrizar las matrices de covarianza como factorizaciones de Cholesky [matemática] C_k = L_k L_k ^ T [/ matemática] (con [matemática] L_k [/ matemática] triangular inferior) y calcular las actualizaciones de gradientes en las entradas de L en lugar de [matemáticas] C_k [/ matemáticas].

Sin embargo, no he visto ninguna implementación de este enfoque en este enfoque en la literatura, por lo que podrían ser otros problemas.

Editar : probablemente sea más inteligente parametrizar la factorización de Cholesky de las matrices de precisión en lugar de las matrices de covarianza para ahorrar una costosa operación de inversión de matriz al calcular la función de probabilidad de registro (y su gradiente) para un lote de muestras.

More Interesting

¿Qué algoritmo usar en la clasificación de la cobertura del suelo?

¿Cuáles son algunos ejemplos de traducción horrible, realizada por máquina / software?

Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?

¿Hay alguna forma de llamar a las funciones de Python desde mi aplicación NodeJS para aprovechar el poder del aprendizaje automático en una aplicación Node?

¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?

¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?

¿Cuál es la mejor manera de personalizar los artículos para un usuario en función de su historial de lectura?

¿Qué es una red de detección como YOLO o SSD en el aprendizaje automático?

¿Existe una incrustación del espacio euclidiano en el espacio hamming?

¿Son los modelos de n-gramas, la codificación de uno en caliente y word2vec diferentes tipos de representaciones de palabras y vectores de palabras?

¿Qué algoritmo de aprendizaje automático se debe usar para eliminar palabras innecesarias en una consulta de búsqueda realizada para recuperar datos de un texto grande?

¿Cómo implementaría el servicio de noticias de Quora?

¿Cuál es la mejor arquitectura de red neuronal para procesar video?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

¿Cómo es tomar CS 228: modelo gráfico probabilístico en Stanford?