¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

No conozco el método más popular, pero el método que se describe a continuación funcionaría y no supone la existencia de datos etiquetados ( es decir, no sabemos en qué temas clasificar y artículos con temas etiquetados ).

  • Comience haciendo LDA en el corpus e identifique los temas más importantes y los documentos presentes en un tema. Una vez que tengamos eso, podríamos incluir en él una palabra que incorpore modelos como texto rápido capacitados en el mismo corpus, para encontrar temas / palabras relacionadas, etc., además de clasificar un nuevo artículo.
  • Enlace de Github a una versión C de LDA. El enlace de descarga para una versión C de proyectos LDA que utilizan la licencia mpl 2.0.
  • Enlace PDF a la documentación https://github.com/wbuntine/topi…
  • Ejemplo del enlace anterior de temas extraídos de artículos de noticias a finales de los años ochenta.

Podemos usar los temas anteriores para generar datos etiquetados y luego usar fastText para clasificar nuevos artículos. Fasttext es bastante rápido y también puede manejar términos de vocabulario, ya que usa ngrams de caracteres para representar palabras a diferencia de word2vec ( el orden de palabras local también se puede considerar para manejar frases usando el parámetro wordNgrams ).

Actualizado. Julio de 2017.

Este trabajo Mejorar los modelos de temas con representaciones de palabras latentes de combinar LDA con incrustaciones de palabras produce muy buenos resultados. Uno de los autores de este trabajo está aquí, en Quora Dat Quoc Nguyen.

  • El código también está disponible en Github datquocnguyen / LFTM.
  • Una respuesta que escribió relevante a esta pregunta. Informática: ¿Cuál es la relación entre el modelo tópico y el modelo de inclusión de palabras, algún ejemplo?

Supongo que se refiere a la transmisión de noticias, al estilo de Google News, no a un corpus fijo para clasificar, estilo de biblioteca.

La noticia es la dificultad aquí.

Existen métodos de agrupamiento establecidos si desea clasificar un corpus fijo, digamos e-dicovery para aplicaciones legales. Pero la agrupación supone que hay una K fija que podemos descubrir.

Con las noticias, la incertidumbre en la clasificación crece a medida que se acumulan datos. Las noticias, y nuestros temas de interés evolucionan, cambian constantemente (un campeón de tenis se compromete con un fundador nuevo: ¿es deporte, personas, TI, multimillonarios, Nueva York, todo lo anterior? ¿Ahora? ¿En seis meses?).

Queremos un método de clasificación para a) reconocer nuevos temas a medida que aparecen. b) hacer múltiples funciones de asignación.

Los métodos “populares” que conozco pertenecen a la familia Bayes no paramétrica; LDA como lo menciona Ajit. La idea es representar documentos como mezclas de temas que rastrean palabras con ciertas probabilidades.

También Mad Bayes convierte los parámetros no paramétricos en Kmeans (puede consultar los documentos de Tamara Broderick o las conferencias en Youtube).

También puede verificar la agrupación espectral para obtener fuentes de datos más estables.

Usted mencionó la “clasificación” de los artículos de noticias, por lo que supongo que ya tiene clases predefinidas.

Luego, si desea asignar una sola etiqueta a un artículo, entonces los clasificadores binarios son lo que está buscando, por ejemplo, Naive Bayes (simple) o SVM (máquinas de vectores de soporte, un poco más complejo).

Sin embargo, si desea asignar varias etiquetas a un artículo, entonces se vuelve un poco más complicado. Puede consultar los métodos LSA / LDA mencionados por otras respuestas o ML-kNN.

More Interesting

¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?

¿Cuáles son las implicaciones epistemológicas del hecho de que no podríamos haber programado conscientemente una red neuronal para hacer lo que hace?

¿Cuáles son las diferencias entre los modelos pre-entrenados y entrenados?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

¿Cuándo es el final de la red neuronal profunda? La gente está loca por esto y muchos de ellos no saben lo que está pasando dentro

¿Cuáles son las principales diferencias entre la teoría de juegos y el aprendizaje por refuerzo?

¿De dónde obtienen los sistemas de conducción autónomos sus datos de entrenamiento?

¿Cuál es su proceso para diseñar funciones de pérdida para problemas de Machine Learning?

¿Puedo terminar en trabajos de aprendizaje automático si tengo una maestría en neurociencia?

Necesito analizar resúmenes de texto en lenguaje humano e identificar los temas mencionados en ellos. ¿Esto cae bajo el reconocimiento de la entidad nombrada?

¿A qué se refiere el concepto de sesgo de presentación-retroalimentación en el contexto del aprendizaje automático?

¿Qué es mejor para mí como estudiante? ¿Debería codificar los modelos de aprendizaje automático (donde pueda) o debería usar la biblioteca tanto como pueda?

¿Cuál es la diferencia entre un clasificador Naive Bayes y AODE?

¿Cuál es la diferencia entre una curva ROC y una curva de recuperación de precisión? ¿Cuándo debo usar cada uno?

¿Cuál es el futuro del aprendizaje por refuerzo?