La forma más fácil de lidiar con el corpus de texto es encontrar la frecuencia de término para todas las palabras en el vocabulario del corpus. Luego puede encontrar la distribución de palabras para cada documento y luego representar cada documento como frecuencia de palabras y luego alimentarlo al sistema de clasificación.
Esto no sería escalable, ya que terminará con una matriz de dimensión {cantidad de documentos, cantidad de palabras únicas}.
LDA descubre temas ocultos en los documentos. Tema en LDA significa colección de palabras con su frecuencia. Como tal, puede descubrir 10,20 o 100 temas y representar cada documento como una mezcla de temas en lugar de palabras. Ahora obtienes un gran beneficio en términos de escalabilidad.
- ¿Es posible tener experiencia en desarrollo web, desarrollo de Android, resolución de problemas, IA y ML para tener un buen trabajo, o solo necesito concentrarme en un campo y no fusionar campos?
- ¿Keras admitirá PyTorch como backend en el futuro?
- ¿Se puede usar tensorflow en SVM?
- ¿Los métodos de aprendizaje profundo conducen a avances en el procesamiento del lenguaje natural?
- ¿Cuáles son las aplicaciones más prometedoras de ML / AI en el cuidado de la salud, excluyendo la informática de imágenes?
En lo que respecta a Gensim, el documento muestra:
>>> lda = LdaModel (corpus, num_topics = 100) # modelo de tren >>> print (lda [doc_bow]) # obtiene distribución de probabilidad de tema para un documento >>> lda.update (corpus2) # actualiza el modelo LDA con documentos adicionales >>> print (lda [doc_bow])
La segunda línea es algo que debe mirar e intentar usar como característica.