¿Son los enfoques variacionales estocásticos la forma de hacer ML bayesiano a gran escala o ves alguna esperanza de ampliar los algoritmos basados ​​en MCMC?

Me gustaría abordar el artículo mencionado anteriormente. Si bien contribuí a los primeros borradores de este documento, no aprobé el borrador final y no lo envié a arXiv. Debido a que me preocupan algunos de los experimentos subyacentes, solicité que se retirara el documento, pero permanece en arXiv.

Además, creo que hay algoritmos mucho mejores que se pueden usar. Mire un artículo que Manzil Zaheer escribió recientemente sobre cómo obtener un rendimiento mucho mayor (la versión larga saldrá en AISTATS’16). Obtenemos 570 millones de muestras por segundo en un clúster de 8 nodos. La idea es que no colapses todo el modelo y retengas la independencia condicional entre los documentos, dado el modelo generativo general. En general, el enfoque está mucho más cerca de los algoritmos de descenso de gradiente estocástico distribuido.

Lo que no discutí aquí son los diferentes algoritmos de muestreo. Hay bastantes sugerencias sobre cómo usar optimizaciones de tiempo de ejecución eficientes. No sé sobre WARP LDA. Dicho esto, LightLDA tiene algunos problemas de mezcla debido a la distribución de su propuesta. Mi elección personal en este momento sería elegir el algoritmo F-Tree descrito aquí, pero sin las actualizaciones de NOMAD, ya que complican mucho las cosas en sistemas grandes.

No creo que Stochastic VI sea la única forma de hacer Big Bayesian Learning. A gran escala MCMC también lo está haciendo bastante bien; Irónicamente, para un LDA grande, el estado de la técnica es un WarpLDA basado en MCMC (Algoritmo de caché eficiente O (1) para la asignación de Dirichlet latente) o LightLDA (Modelos de grandes temas en clústeres de computación modestos) que muestra un índice de tema en O (1) tiempo amortizado.

Para los enfoques basados ​​en muestreo, MH-Alias ​​Sampling parece ser una de las áreas de gran interés.

More Interesting

¿A qué tipo de problemas del mundo real se aplica el aprendizaje no supervisado?

¿Cuál es la relación de la función objetivo de muestreo negativo con la función objetivo original en word2vec?

¿Es la precisión proporcional al número de capas ocultas y las unidades de cada capa en la red neuronal?

¿Cuál es la diferencia entre las pruebas de heterocedasticidad y las pruebas de normalidad de errores?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo si tienes un trabajo diario?

¿Soy un desarrollador de dinosaurios si no uso Github, no conozco CI / CD y docker y solo conozco el aprendizaje profundo de la palabra de moda?

Cómo decidir si usar modelos de aprendizaje automático supervisados ​​o de refuerzo

Cómo construir y trazar una gráfica de vecinos más cercanos

¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

Cómo extraer términos importantes de datos de texto no estructurados

¿Qué es un buen algoritmo de recomendación de películas?

¿Cómo se pueden usar Hadoop y NoSQL para procesar grandes conjuntos de datos en Java?

¿Qué máquina es mejor para clasificar imágenes, SVM u otra? ¿Por qué?

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Cuál es la tasa de error de trama (FER) en las tareas de reconocimiento de voz?