En el análisis de sentimientos, ¿cómo son útiles los datos etiquetados por humanos para extraer características y capacitar a los clasificadores en el enfoque de aprendizaje automático?

Gracias por A2A.

Para permitir que una máquina haga una clasificación futura con la misma confianza que los humanos, debe alimentarla con una variedad de ejemplos canónicos . Después de eso, puede descomponer los enunciados en características significativas, como palabras sueltas, n-gramas, etiquetas POS, fragmentos de sustantivos y sus tipos, y otras características sintácticas con las que se pueden entrenar los clasificadores.

Por eso, el etiquetado de una forma u otra es imprescindible para permitir que los algoritmos se extrapolen a expresiones invisibles. Naturalmente, los humanos son una fuente autorizada para juzgar el sentimiento porque también son los que deberían actuar según las ideas generadas . Sin embargo, el etiquetado es costoso. Por lo tanto, un método para disminuir la dependencia del trabajo humano es el aprendizaje semi-supervisado o supervisado a distancia. En ese caso, toma otra señal que viene junto con el enunciado como un proxy para el sentimiento (etiquetas ruidosas). Para las revisiones, este puede ser el número de “estrellas”, para la presencia de tweets de emoticones 🙂 se utilizaron con resultados razonables. Para lo último, puede encontrar una demostración en línea, implementación en scala y referencia al documento original aquí: openforce / spark-mllib-scala-play