Me gustaría abordar el artículo mencionado anteriormente. Si bien contribuí a los primeros borradores de este documento, no aprobé el borrador final y no lo envié a arXiv. Debido a que me preocupan algunos de los experimentos subyacentes, solicité que se retirara el documento, pero permanece en arXiv.
Además, creo que hay algoritmos mucho mejores que se pueden usar. Mire un artículo que Manzil Zaheer escribió recientemente sobre cómo obtener un rendimiento mucho mayor (la versión larga saldrá en AISTATS’16). Obtenemos 570 millones de muestras por segundo en un clúster de 8 nodos. La idea es que no colapses todo el modelo y retengas la independencia condicional entre los documentos, dado el modelo generativo general. En general, el enfoque está mucho más cerca de los algoritmos de descenso de gradiente estocástico distribuido.
Lo que no discutí aquí son los diferentes algoritmos de muestreo. Hay bastantes sugerencias sobre cómo usar optimizaciones de tiempo de ejecución eficientes. No sé sobre WARP LDA. Dicho esto, LightLDA tiene algunos problemas de mezcla debido a la distribución de su propuesta. Mi elección personal en este momento sería elegir el algoritmo F-Tree descrito aquí, pero sin las actualizaciones de NOMAD, ya que complican mucho las cosas en sistemas grandes.
- ¿Hay alguna manera de determinar o reducir las opciones con las que uno debería experimentar para mejorar (por ejemplo) una red neuronal clasificadora de imágenes binarias?
- ¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?
- Árboles de decisión: ¿Cómo podar un CARRITO?
- ¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?
- ¿Tiene sentido usar redes neuronales convolucionales en la identificación biométrica humana basada en ECG?