¿Cuáles son las diferencias entre el enfoque basado en reglas y el enfoque de aprendizaje automático en el análisis de sentimientos?

Entonces, en resumen, los enfoques basados ​​en reglas tienden a tener una generalización muy pobre, pero pueden tener un rendimiento excelente dentro de un dominio estrecho. En el aprendizaje automático, esto se conoce como sobreajuste y es un gran problema que el aprendizaje automático pretende evitar. Con los sistemas basados ​​en reglas se considera en gran medida inevitable.

Los enfoques de aprendizaje automático tienen una mayor variedad de rendimiento, incluso desde modelos que crean enfoques internos basados ​​en reglas (podría decirse que el bosque aleatorio cae en esta categoría). Además, los enfoques de aprendizaje automático tienden a funcionar mejor en la mayoría de las tareas en términos de precisión absoluta cuando el conjunto de entrada tiene un tamaño decente (más de 100k ejemplos).

Además, los sistemas basados ​​en reglas tienden a ser extremadamente laboriosos de crear (a menudo requieren varias semanas de pruebas y ajustes por parte de expertos antes de que sean utilizables). Los sistemas de aprendizaje automático no son triviales de implementar, pero con la gama de herramientas poderosas que existen hoy en día, desde scikit-learn en python, hasta weka en java, hasta indico, los enfoques de aprendizaje automático pueden lograr excelentes resultados con muy poca sobrecarga.

Si tiene un conjunto de datos (al menos 10k ejemplos), entonces algo como sklearn o weka es una excelente apuesta para un buen rendimiento sin una gran sobrecarga, si no los tiene, entonces use un sistema basado en reglas o un sistema previo El sistema de aprendizaje automático (indico) probablemente sea su mejor opción.

Un enfoque basado en reglas es aquel que utiliza la regla general / heurística para determinar los sentimientos. Utiliza la investigación en Lingüística y Comunicaciones para analizar los sentimientos.

Un enfoque de aprendizaje automático es un enfoque basado en datos que utiliza un corpus de textos etiquetado y sus sentimientos para predecir.

Un buen analizador de sentimientos generalmente usa ambos.

Escribí una publicación explicando estos conceptos: Análisis de sentimientos de Twitter de Janu Verma sobre Aprender datos con los alumnos