Creo que quieres ver el modelado de temas. Los enfoques tradicionales incluyen el modelo de bolsa de palabras y la asignación de Dirichlet latente. Si tiene algunos ejemplos de documentos con una etiqueta en particular y algunos sin ella, puede predecir si los nuevos documentos deberían tener esa etiqueta usando un modelo de tema.
Etiquetó esta pregunta Deep Learning, por lo que hablaré un poco sobre los enfoques para esto con el aprendizaje profundo. Una buena idea en el aprendizaje profundo es el vector de párrafo (ver Le y Mikolov (2014)). Hay algunas variaciones, pero la más simple contiene la misma información que la bolsa de palabras, en una representación más sofisticada.
En los últimos meses, Andrew Dai realmente exploró el uso de vectores de párrafo para modelar temas, con Quoc Le y Greg Corrado. Funciona bastante bien, superando la bolsa de palabras y LDA en problemas de prueba.
- ¿Podría una revuelta robot / IA ser el 'Gran filtro' que algunos han propuesto para explicar la paradoja de Fermi?
- ¿Qué programas de muestra están disponibles para la inteligencia artificial?
- Cómo crear una startup en inteligencia artificial
- ¿Es posible implementar un verificador de hechos de Donald Trump como modelo de aprendizaje automático? ¿Qué tan exacto sería?
- ¿Los robots reemplazarán a los seres humanos en el lugar de trabajo por completo?
Pude jugar con visualizar sus representaciones. ¡Aquí hay una visualización de wikipedia! (Ver Dai et al. (2014))