No conozco el método más popular, pero el método que se describe a continuación funcionaría y no supone la existencia de datos etiquetados ( es decir, no sabemos en qué temas clasificar y artículos con temas etiquetados ).
- Comience haciendo LDA en el corpus e identifique los temas más importantes y los documentos presentes en un tema. Una vez que tengamos eso, podríamos incluir en él una palabra que incorpore modelos como texto rápido capacitados en el mismo corpus, para encontrar temas / palabras relacionadas, etc., además de clasificar un nuevo artículo.
- Enlace de Github a una versión C de LDA. El enlace de descarga para una versión C de proyectos LDA que utilizan la licencia mpl 2.0.
- Enlace PDF a la documentación https://github.com/wbuntine/topi…
- Ejemplo del enlace anterior de temas extraídos de artículos de noticias a finales de los años ochenta.
Podemos usar los temas anteriores para generar datos etiquetados y luego usar fastText para clasificar nuevos artículos. Fasttext es bastante rápido y también puede manejar términos de vocabulario, ya que usa ngrams de caracteres para representar palabras a diferencia de word2vec ( el orden de palabras local también se puede considerar para manejar frases usando el parámetro wordNgrams ).
- ¿Cuál es la diferencia entre la taxonomía automática y la generación de clasificación?
- ¿Cómo se puede utilizar el aprendizaje automático para mejorar el software de gestión de proyectos?
- Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas
- ¿Cuál es un buen algoritmo para la extracción de características y la detección de texto escrito a mano?
- ¿Cuál es la diferencia entre tagger, chunker y NER?
Actualizado. Julio de 2017.
Este trabajo Mejorar los modelos de temas con representaciones de palabras latentes de combinar LDA con incrustaciones de palabras produce muy buenos resultados. Uno de los autores de este trabajo está aquí, en Quora Dat Quoc Nguyen.
- El código también está disponible en Github datquocnguyen / LFTM.
- Una respuesta que escribió relevante a esta pregunta. Informática: ¿Cuál es la relación entre el modelo tópico y el modelo de inclusión de palabras, algún ejemplo?