¿Cómo puedo usar Gensim LDA para la clasificación binaria?

La forma más fácil de lidiar con el corpus de texto es encontrar la frecuencia de término para todas las palabras en el vocabulario del corpus. Luego puede encontrar la distribución de palabras para cada documento y luego representar cada documento como frecuencia de palabras y luego alimentarlo al sistema de clasificación.

Esto no sería escalable, ya que terminará con una matriz de dimensión {cantidad de documentos, cantidad de palabras únicas}.

LDA descubre temas ocultos en los documentos. Tema en LDA significa colección de palabras con su frecuencia. Como tal, puede descubrir 10,20 o 100 temas y representar cada documento como una mezcla de temas en lugar de palabras. Ahora obtienes un gran beneficio en términos de escalabilidad.

En lo que respecta a Gensim, el documento muestra:

  >>> lda = LdaModel (corpus, num_topics = 100) # modelo de tren
 >>> print (lda [doc_bow]) # obtiene distribución de probabilidad de tema para un documento
 >>> lda.update (corpus2) # actualiza el modelo LDA con documentos adicionales
 >>> print (lda [doc_bow])

La segunda línea es algo que debe mirar e intentar usar como característica.

La asignación de LDA o dirichlet latente es un modelo estadístico generativo que permite que conjuntos de observaciones sean explicados por grupos no observados que explican por qué algunas partes de los datos son similares. Básicamente se usa para extraer palabras que describen un documento. Estos temas se pueden usar como modelo de características para su clasificación binaria. La LDA de Gensim también devuelve una lista de palabras que se pueden usar como una característica en su modelo de clasificación.

Ya que desea conocer la implementación de LDA Gensim. Aquí hay un enlace:

gensim: modelado de temas para humanos

Ir a través de él correctamente; seguramente obtendrá su respuesta.

More Interesting

¿Qué papel jugará la ciencia de datos en las elecciones presidenciales de 2012?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

En finanzas cuantitativas, ¿hay alguna analogía entre la optimización de la cartera y el análisis de componentes principales?

¿Cuáles son los desafíos tecnológicos involucrados en alimentar el código fuente de una máquina Linux y hacer que aprenda a codificar un núcleo Linux similar?

¿Qué es una regresión logística condicional?

¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

Según Wikipedia, las redes neuronales artificiales actuales tienen la complejidad del cerebro de un gusano. ¿Es eso cierto?

¿Cómo decidimos entre usar la factorización a priori o matriz para el filtrado colaborativo?

¿Por qué es que los RNN con conexiones desde la salida al estado oculto pueden expresar menos máquinas de turing?

Los algoritmos parecen estar involucrados con muchas partes de nuestras vidas. ¿Qué son y cómo podría aprender más?

Como aprender redes neuronales

¿Cuáles son los formatos estándar para compartir datos de aprendizaje automático?

¿Hay alguna métrica de evaluación para chatbots?