Cómo obtener la etiqueta del tema que modela la salida LDA

Estoy escribiendo esta respuesta con respecto a la biblioteca gensim.

class gensim.models.ldamodel.LdaModel

Este modelo da una estimación de un corpus de capacitación e inferencia de la distribución de temas en documentos nuevos e invisibles. Ahora, dado que ha creado el modelo LDA basado en el corpus de su documento, puede aplicar diversas técnicas para visualizar la distribución del tema en un corpus entrenado.

La manera más simple de mostrar es imprimir k número de temas del modelo entrenado por:

lda_model.print_topics (num_topics = k)

Esto simplemente imprimirá temas con palabras y probabilidades asociadas.

PERO,

Según su consulta, deseaba una colección de palabras para describir la salida del modelo LDA; Esto contradice la definición del modelo mismo. Se basa en la distribución probabilística de dirichilet. Según la definición,

LDA es una generalización del modelo pLSA, que es equivalente a LDA bajo una distribución previa uniforme de Dirichlet.

Espero haberte ayudado con tu perspectiva.

Los temas a menudo se resumen con las palabras principales en una distribución de probabilidad (por ejemplo, “PC”, “mac”, “windows”, “CD”), pero a menudo es bueno tener una etiqueta clara y clara como “tecnología”.

Los títulos de las páginas de Wikipedia suelen ser bastante buenos para esto; Una solución simple es tomar las palabras principales del tema y encontrar la mejor página de Wikipedia que coincida.

Para enfoques más complicados, es posible que desee ver este documento:

http://www.aclweb.org/anthology/

More Interesting

¿Para qué se puede utilizar el análisis de la marcha?

¿Qué debería aprender primero para el aprendizaje automático y la autoeducación: cálculo, probabilidad, estadística o álgebra lineal?

¿Cómo puede un investigador practicar las estadísticas bayesianas sin suficientes conocimientos matemáticos?

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?

¿Hay nueva información sobre el tema X o la gente sigue copiando y pegando?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

¿Es inevitable la multicolinealidad en los datos experimentales? Si no, ¿en qué condiciones podemos esperar multicolinealidad?

¿Cuáles son algunos buenos proyectos en los que un principiante de aprendizaje automático puede trabajar?

¿Cuáles son los poderes de clasificación sobre la agrupación? ¿Por qué elegiría una clasificación?

¿Debería un científico de datos novato centrarse en conceptos matemáticos o herramientas?

¿Cuál es la mejor manera de crear un conjunto de capacitación para el aprendizaje automático?

¿Cómo son los cursos en edX sobre aprendizaje automático, ingeniería artificial y robótica para el empleo?

Si pronostico grupos en un conjunto de trenes completo y los uso como características categóricas y realizo CV, ¿sería una fuga?

¿Qué campo es el mejor, big data o machine learning?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?