¿Cómo calcula el tema antes en el análisis latente probabilístico?

Para adoptar algunas ideas de LDA, la primera pregunta es qué familia de distribuciones se debe usar para la anterior. Lo más simple y más común es usar una distribución simétrica de Dirichlet (ver http://people.cs.umass.edu/~wall… para más justificación).

La segunda pregunta es cómo deben establecerse los parámetros de la distribución. En el caso de un Dirichlet simétrico, solo necesita decidir el parámetro de concentración. Cómo lo hagas depende de cuán bayesiano quieras ser; algunos podrían abogar simplemente por elegir un número “razonable” (como 0.1). Un enfoque más basado en principios podría ser utilizar la búsqueda de cuadrícula en un conjunto de validación para seleccionar el valor que produce la mayor probabilidad de retención. Otro enfoque es aplicar un Gamma antes del parámetro de concentración; luego puede usar algo como Metropolis-Hastings para muestrear valores para este parámetro.

No ‘computas’ un previo. Usted lo especifica Y la especificación se basa en sus creencias sobre el fenómeno subyacente que genera los datos.

Ahora, en el caso específico de LDA, dado que es un modelo bayesiano jerárquico, debe especificar hiperpriors alfa y beta. Si cree que los documentos están compuestos principalmente por un tema predominante, entonces debe elegir un valor apropiado de [math] alpha [\ math], por otro lado, cree que los documentos están formados por una mezcla de número de temas, entonces debe especificar un valor diferente de alfa. Lo mismo ocurre con la asignación de temas de palabras (es decir, hiperparámetro beta).

Para obtener una explicación, puede consultar las conferencias en video del Prof. David Blei, coautor de la publicación original de LDA: Topic Models – videolectures.net

lo anterior se establece en función de lo que puede resolver de forma numérica y conveniente y no realmente en conocimiento previo

More Interesting

¿Cuáles son las buenas formas de combinar dos salidas de un clasificador?

¿Cuál es el resultado de un modelo de omisión de gramo en Word2Vec?

¿Una máquina de máquina virtual de big data ayuda a analizar archivos grandes?

¿Qué debería aprender primero para el aprendizaje automático y la autoeducación: cálculo, probabilidad, estadística o álgebra lineal?

Cómo hacer ingeniería de características para la regresión no lineal correcta

¿Cuáles son los temas que debo saber antes de comenzar el aprendizaje automático?

¿Cuáles son los buenos algoritmos para la extracción de características para grandes conjuntos de datos?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

¿Cuál es la diferencia entre Python y el aprendizaje automático?

¿Cómo decidimos la clase de clústeres generados a través del clúster k-means?

¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?

¿Cuáles son las mejores prácticas en torno al aprendizaje automático y los sistemas de recomendación para sitios de trabajo?

¿Dónde puedo encontrar un tutorial detallado sobre los árboles de decisión?

¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?

Cómo combinar salidas del sistema de recomendación (matriz de elementos de usuario) a través de un conjunto