Cómo obtener la etiqueta del tema que modela la salida LDA

Estoy escribiendo esta respuesta con respecto a la biblioteca gensim.

class gensim.models.ldamodel.LdaModel

Este modelo da una estimación de un corpus de capacitación e inferencia de la distribución de temas en documentos nuevos e invisibles. Ahora, dado que ha creado el modelo LDA basado en el corpus de su documento, puede aplicar diversas técnicas para visualizar la distribución del tema en un corpus entrenado.

¿Cómo se puede usar Machine Learning para resolver el siguiente problema?
¿Cuál es el mejor lenguaje para el procesamiento del lenguaje natural?
¿Cómo puedo aprender a realizar simulaciones de dinámica molecular? ¿Cuáles son algunas buenas fuentes para aprender sobre este campo?
¿El desarrollo teórico en el aprendizaje automático está llegando a un punto muerto (significa que no habrá necesidad de continuar)?
¿Cómo deberías comenzar una carrera en aprendizaje profundo?

La manera más simple de mostrar es imprimir k número de temas del modelo entrenado por:

lda_model.print_topics (num_topics = k)

Esto simplemente imprimirá temas con palabras y probabilidades asociadas.

PERO,

Según su consulta, deseaba una colección de palabras para describir la salida del modelo LDA; Esto contradice la definición del modelo mismo. Se basa en la distribución probabilística de dirichilet. Según la definición,

LDA es una generalización del modelo pLSA, que es equivalente a LDA bajo una distribución previa uniforme de Dirichlet.

Espero haberte ayudado con tu perspectiva.

Aprendizaje automáticoAsignación de Dirichlet latente

Related Content

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?

¿Qué es mejor, el algoritmo de vecinos más cercanos a k (k-NN) o el clasificador de máquina de vectores de soporte (SVM)? ¿Qué algoritmo se usa principalmente en la práctica? ¿Qué algoritmo garantiza una detección confiable en situaciones impredecibles?

Los algoritmos de ML escritos en Java funcionan bien para un conjunto de datos más pequeño. Para un conjunto de datos grande, ¿cómo podemos escalar estos algoritmos? ¿Necesitamos buscar algoritmos distribuidos / mapas distribuidos en memoria / NOSQL / archivos para leer y escribir grandes conjuntos de datos o hay alguna buena API?

Si existieran interfaces neuronales, ¿cuáles serían las aplicaciones civiles? ¿Cuántos tendría, por qué?

¿Qué parte de la investigación de aprendizaje profundo es empírica versus teórica?

¿Qué debo hacer para un bot de chat con aprendizaje automático?

¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?

Los temas a menudo se resumen con las palabras principales en una distribución de probabilidad (por ejemplo, “PC”, “mac”, “windows”, “CD”), pero a menudo es bueno tener una etiqueta clara y clara como “tecnología”.

Los títulos de las páginas de Wikipedia suelen ser bastante buenos para esto; Una solución simple es tomar las palabras principales del tema y encontrar la mejor página de Wikipedia que coincida.

Para enfoques más complicados, es posible que desee ver este documento:

http://www.aclweb.org/anthology/ …

Jordan Boyd-Graber

More Interesting

¿Para qué se puede utilizar el análisis de la marcha?

¿Qué debería aprender primero para el aprendizaje automático y la autoeducación: cálculo, probabilidad, estadística o álgebra lineal?

¿Cómo puede un investigador practicar las estadísticas bayesianas sin suficientes conocimientos matemáticos?

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?

¿Hay nueva información sobre el tema X o la gente sigue copiando y pegando?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

¿Es inevitable la multicolinealidad en los datos experimentales? Si no, ¿en qué condiciones podemos esperar multicolinealidad?

¿Cuáles son algunos buenos proyectos en los que un principiante de aprendizaje automático puede trabajar?

¿Cuáles son los poderes de clasificación sobre la agrupación? ¿Por qué elegiría una clasificación?

¿Debería un científico de datos novato centrarse en conceptos matemáticos o herramientas?

¿Cuál es la mejor manera de crear un conjunto de capacitación para el aprendizaje automático?

¿Cómo son los cursos en edX sobre aprendizaje automático, ingeniería artificial y robótica para el empleo?

Si pronostico grupos en un conjunto de trenes completo y los uso como características categóricas y realizo CV, ¿sería una fuga?

¿Qué campo es el mejor, big data o machine learning?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?

Web Analytics