Para aprender a usar LDA en Python, se puede implementar el modelado de temas a partir de artículos. Esa será la mejor manera de obtener LDA en Python.
Recientemente escribí publicaciones de blog que implementan el modelado de temas desde cero en 70,000 artículos descargados de wiki simple en Python.
Uno puede encontrar el uso de
- ¿Cómo se compara Scikit Learn con R (en términos de velocidad, conveniencia y potencia)?
- ¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?
- ¿Cómo soluciona un bosque aleatorio los problemas de regresión (no normalidad, heterocedasticidad, multicolinealidad, valores atípicos, valores faltantes y variables categóricas)?
- Cómo modelar el problema de un número de generación matka usando machine learning
- ¿Cuál es una explicación intuitiva de las redes residuales profundas?
- Biblioteca ElementTree para la extracción del texto del artículo del archivo volcado XML.
- Gran cantidad de filtros Regex para limpiar los artículos.
- NLTK detener palabras remoción y lematización
- LDA de la biblioteca gensim
Espero que ayude a los lectores.
Parte 1
Modelado de temas (Parte 1): Creación de Corpus de artículos a partir de un volcado simple de Wikipedia
Parte 2
Modelado de temas (Parte 2): Descubriendo temas de artículos con asignación de Dirichlet latente
Nube de palabras (10 palabras) de algunos temas que obtuve como resultado.