¿Qué tan bueno es el ADVI en STAN en la práctica?

No lo he probado, así que toma lo que digo con un grano de sal. Aunque he leído el periódico. Es una gran contribución, y noté algunas ventajas:

  • El principal profesional es que la cantidad de codificación e incluso el pensamiento que tienes que hacer es pequeña, lo cual es bastante sorprendente.
  • su método le permite hacer inferencia con solo una muestra por iteración, lo que sugiere que es un método muy eficiente.

Hay dos inconvenientes que recuerdo:

  • Limitan el número de posteriores variacionales que puede caber. Se ajustan a un gaussiano en un espacio transformado, que no es gaussiano cuando se transforma de nuevo al espacio original, pero no puede ajustarse a su posterior variacional de elección. actualización: parece que no entendí su método correctamente. Esto no estaba claro en el documento de NIPS, pero en su artículo de diario, muestran que estas transformaciones pueden aproximarse bastante bien a la mayoría de las distribuciones continuas paramétricas (es decir, un Gamma).
  • Asumen una distribución totalmente factorizada en el espacio transformado, es decir, todos los componentes son independientes. En la práctica, es posible que no desee eso para poder capturar la covarianza entre los parámetros. u pdate : en el periódico ya no parecen asumir esto.

Para muchos modelos, probablemente no verá un rendimiento tan bueno como obtener las actualizaciones a mano, y si mira las revisiones de NIPS, lo admiten. Sin embargo, lo que puede hacer con él, lo cual es genial, es aplicar métodos VI en su conjunto de datos de elección de manera rápida y sin dolor. Si necesita una mayor precisión, puede intentar codificar uno de los otros métodos VI (aunque creo que BBVI también puede implementarse en STAN, no estoy seguro de cuán flexible es o si es tan fácil de usar), o si su conjunto de datos no es t demasiado grande y su modelo es apto para ello, también puede hacer muestras de gibbs utilizando STAN.

More Interesting

¿El filtrado colaborativo se considera aprendizaje automático?

¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?

¿Alguien consiguió un trabajo en Machine Learning después de completar un Nanodegree de Machine Learning?

¿Cuál es el principio del aprendizaje profundo?

¿Cuáles son las próximas competencias de Kaggle?

¿A qué tipo de personalización en Machine Learning se refería Andrew Ng en su artículo de Harvard Business Review sobre las capacidades de IA?

¿Son los métodos de aprendizaje automático una especie de interpolación, mientras que los métodos de series temporales actúan como métodos de extrapolación?

¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?

¿Puedo ser un ingeniero de aprendizaje automático con habilidades en desarrollo web y móvil?

¿Cuál es un ejemplo de aplicación en el mundo real de los modelos de mezcla gaussiana?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

Al entrenar una red neuronal, ¿es común tener un tamaño de paso diferente para los parámetros en cada capa y las compensaciones al realizar el Descenso de gradiente?

¿Cuáles son las lecciones del desafío del Premio Netflix?

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

Cómo construir un modelo de regresión lineal en el aprendizaje automático