Las técnicas en minería de texto se pueden clasificar en dos grandes categorías:
(Esta categorización es independiente del clasificador que use para la minería de texto (se prefiere SVM, NN, CNN, etc.)
- Sin semántica
- Con semántica (integración de ontología)
En la primera categoría, estamos enfocados en las siguientes actividades:
- ¿Dónde puedo encontrar guías de aprendizaje automático desde la perspectiva de los hackers?
- ¿Es posible que una computadora aprenda a distinguir gatos de perros de solo un conjunto de imágenes sin que le digamos qué imágenes son gatos y cuáles son perros, o incluso si hay cosas como gatos y perros, y si es así, cómo es exactamente esto? ¿hecho?
- ¿Cuáles son algunos conjuntos de datos sin resolver que son los objetivos de la investigación actual de Deep Learning?
- ¿Por qué asumiríamos que los datos son iid cuando no lo son?
- ¿La correlación entre dos variables cuenta como evidencia débil de un vínculo causal entre ellas?
- Reconocimiento de entidad de nombre (entidades explícitas)
- Sinónimos y antónimos
- Sentimiento, Emociones, Intención, Objetividad y Subjetividad.
- Categorización y resumen
En la segunda categoría, ampliamos el alcance de las actividades mencionadas anteriormente y agregamos algunas actividades conocidas. Estos se enumeran a continuación:
- Extracción y vinculación de entidades (explícito e implícito)
- Sinónimos, antónimos, hipónimos, etc. (Uso de relaciones en la ontología)
- Categorización y resumen utilizando WordNet, DbPedia (YSO – Ontología general finlandesa).
- Identificación y clasificación de términos de argot.
Espero eso ayude !!