En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?

¡Por supuesto!

Cuando muchos se están metiendo en problemas de clasificación binaria, a menudo establecerán un límite para una clasificación positiva como> = 0.5.

Sin embargo, a medida que nos iluminamos más, aprendemos que dicho umbral es arbitrario y que nuestra tasa de falsos positivos se dispara.

Por lo tanto, hacemos un análisis más detallado e intentamos encontrar el umbral ideal que mantenga baja nuestra tasa de falsos positivos, pero mantenga alta nuestra verdadera tasa positiva, pero también evite el ajuste excesivo del conjunto de datos; sí, como adivinó con tantas medidas, es imposible mejorarlas todas entonces hacemos concesiones.

(Otra forma de encontrar el umbral ideal es usar el método del codo, pero puede buscarlo usted mismo)

En resumen, sí, puede establecer el valor de umbral como lo desee; si busca en la fuente muchas bibliotecas de ML, lo establecerá en 0.6.

¿Quizás algún trabajo anterior mío que involucre análisis de sentimientos pueda ayudar aquí?

He utilizado un analizador de sentimientos llamado SentiStrength para analizar el texto de los canales RSS para el sentimiento y correlacionarlo con las frecuencias de palabras clave. Para citar el sitio web de SentiStrength [1], el producto puede:

“Informar resultados binarios (positivo / negativo), trinario (positivo / negativo / neutro) y de escala única (-4 a +4). SentiStrength se desarrolló originalmente para inglés y se optimizó para textos sociales cortos en general, pero se puede configurar para otros idiomas y contextos cambiando sus archivos de entrada ”.

Lo que sigue puede ayudarlo: las escalas mencionadas anteriormente se describen más detalladamente en [2] donde funcionan “de manera similar al programa SOCAL de Taboada” [3], porque “el sentimiento positivo total se calcula y se compara con el sentimiento negativo total. Si el total positivo es mayor que 1.5 * el sentimiento negativo total, entonces la clasificación es positiva; de lo contrario, es negativa. ¿Por qué 1.5? Debido a que la negatividad es más rara que la positividad, se destaca más (ver el trabajo de Maite Taboada) “.

Referencias

[1] http://sentistrength.wlv.ac.uk/

[2] M. Thelwall. Manual de usuario de SentiStrength. http://sentistrength.wlv.ac.uk/ …, 2014.

[3] M. Taboada, J. Brooke, M. To loski, K. Voll y M. Stede. Métodos basados ​​en léxico para el análisis de sentimientos. Lingüística computacional , 37 (2): 267-307, junio de 2011.

La misma pregunta me aterroriza y por una buena causa. ¿Qué texto estás clasificando, por quién y con qué propósito? ¿Qué te califica para determinar positivo o negativo? ESTE ES UN GRAN GRADO ÉTICO … ¿dispuesto a responder esas preguntas?