¿Qué tan importante es la optimización de hiperparámetros en los modelos gráficos bayesianos, como la asignación de Dirichlet latente?

La optimización de hiperparámetros se trata de la cantidad de datos que tiene en relación con la cantidad de parámetros. Los dos documentos citados ([1,2] en la pregunta) fueron los primeros en hacer una declaración sustancial sobre esto que la comunidad notó.

El estándar [math] \ vec \ alpha [/ math] que es el anterior en las probabilidades del tema del documento (ver [1]) no es como un previo estándar porque es un prior en las probabilidades del tema del documento, y la mayoría de los documentos son esperaba tener una cantidad no tan grande de palabras. Por lo tanto, la línea estándar de “los antecedentes no importan en el límite de datos grandes” no se aplica a estos hiperparámetros. Pero a medida que obtenemos un mayor número de documentos, podemos y debemos estimar [math] \ vec \ alpha [/ math], que es de lo que se trata [1,2]. Mallet hace esto con su variante anterior asimétrica-simétrica. Sin embargo, sus técnicas están algo anticuadas y demostramos en nuestro trabajo reciente (“Experimentos con modelos de temas no paramétricos”, Buntine y Mishra KDD 2014) que puede hacerlo mucho mejor. De hecho, también puede estimar [math] \ vec \ beta [/ math], que es la palabra del tema anterior.

La conclusión es que, cuando un hiperparámetro tiene miles de puntos de datos a los que afecta, y el impacto no se ahoga con grandes cantidades de datos, debe intentar estimarlo.

¿Qué es mejor que el aprendizaje profundo?

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

¿Qué tipo de programas de back-end ejecuta YouTube, como el aprendizaje automático y otros programas funcionales?

¿Quién ha explorado las aplicaciones del modelo Word2vec en datos que no sean lenguajes naturales?

¿Cuántos datos son suficientes para entrenar un modelo NN profundo?

Una vez que alguien tiene su dirección IP, ¿puede espiar toda su actividad en línea, como qué sitios web visita, su nombre de usuario y qué publica?

Depende. Si tiene muchos datos, es mucho menos importante porque la función de probabilidad abrumará su anterior en la estimación de la posterior. Si tiene pocos datos, puede ser importante incorporar sus creencias sobre dónde debe concentrarse el posterior en función del problema que está resolviendo y la forma específica del anterior. En caso de pocos datos, un uniforme previo también ayuda a mezclar para que el posterior no alcance su pico y se atasque rápidamente en modos poco profundos.

Zeyu Chen

More Interesting

Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

He completado la clase Coursera de Andrew Ng sobre aprendizaje automático. ¿Qué debería hacer después? ¿Qué puedo hacer a continuación?

¿Vale la pena adquirir un conocimiento profundo tanto del aprendizaje automático como de la biología? ¿Debo concentrarme?

¿Qué es exactamente el sobreajuste y por qué preferimos modelos que no están sobreajustados incluso cuando los resultados son mejores?

¿Cuáles son las sinergias entre los estudios en Operaciones y Gestión de la Información y Ciencias de la Computación?

¿Dónde puedo aprender el aprendizaje automático desde cero en C ++?

¿Cuáles son los problemas médicos que el aprendizaje automático puede resolver?

Cómo comenzar con la visión por computadora

¿Por qué la longitud desigual del texto es un problema en el procesamiento del lenguaje natural?

¿El aprendizaje automático permitirá a Google detectar contenido falso?