El problema con los enfoques de clasificación de texto es que funcionan mejor si para cada categoría tiene al menos algunos documentos de capacitación. Luego, cada vez que agregue una nueva categoría, también debe proporcionar documentos etiquetados para esta categoría a fin de crear un modelo de capacitación para ella.
Sugiero que utilice el enfoque de indexación de temas en su lugar. La diferencia con la clasificación de texto es que las categorías de candidatos aquí son todas aquellas que aparecen de una forma u otra en el texto del documento, por ejemplo, a través de sinónimos. Los modelos luego se crearon para “temas típicos” y “temas no típicos”. Por lo tanto, no necesitará tantos datos de entrenamiento, y el enfoque es flexible en términos de crecimiento de vocabulario.
Hice un doctorado sobre este tema y trabajé con colecciones similares. Puede usar mi herramienta de código abierto llamada Maui, está escrita en Java: http://maui-indexer.googlecode.com/
Deberá transformar su lista de categorías en un vocabulario controlado en formato RDF, que puede ser una tarea de formateo simple, o puede ampliarla para agregar sinónimos y términos relacionados a las categorías enumeradas.
- ¿El aprendizaje automático es solo una forma de predecir con precisión resultados particulares y / o tomar acciones óptimas basadas en algún conjunto de datos?
- ¿Se reemplazará la programación de la computadora por aprendizaje automático?
- ¿Cuáles son las aplicaciones de las redes adversas generativas en imágenes médicas?
- Cómo hacer LDA
- ¿Por qué la pérdida logística es una mejor métrica para la clasificación probabilística que RMSD?
Avíseme si decide usar Maui y si tiene alguna pregunta al respecto.