En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?

¡Por supuesto!

Cuando muchos se están metiendo en problemas de clasificación binaria, a menudo establecerán un límite para una clasificación positiva como> = 0.5.

Sin embargo, a medida que nos iluminamos más, aprendemos que dicho umbral es arbitrario y que nuestra tasa de falsos positivos se dispara.

¿Cuáles son algunos de los temas candentes que se están investigando actualmente en la escucha de máquinas / procesamiento de audio?
¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?
¿Cuáles son las lecciones del desafío del Premio Netflix?
¿Hay escasez de científicos de datos?
Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

Por lo tanto, hacemos un análisis más detallado e intentamos encontrar el umbral ideal que mantenga baja nuestra tasa de falsos positivos, pero mantenga alta nuestra verdadera tasa positiva, pero también evite el ajuste excesivo del conjunto de datos; sí, como adivinó con tantas medidas, es imposible mejorarlas todas entonces hacemos concesiones.

(Otra forma de encontrar el umbral ideal es usar el método del codo, pero puede buscarlo usted mismo)

En resumen, sí, puede establecer el valor de umbral como lo desee; si busca en la fuente muchas bibliotecas de ML, lo establecerá en 0.6.

análisis de sentimientosAprendizaje automáticoProcesamiento del lenguaje natural

¿Cómo elijo theta0, thetaL y thetaU en un modelo de proceso gaussiano de scikit-learn?

¿Qué son las medidas completamente aleatorias y cómo / cuándo son útiles?

¿Cuál es la diferencia entre un enfoque de bandido multi-armado y el control estocástico?

¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?

¿Cuál es el código de aprendizaje automático más pequeño que se podría escribir en Java?

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

¿Quizás algún trabajo anterior mío que involucre análisis de sentimientos pueda ayudar aquí?

He utilizado un analizador de sentimientos llamado SentiStrength para analizar el texto de los canales RSS para el sentimiento y correlacionarlo con las frecuencias de palabras clave. Para citar el sitio web de SentiStrength [1], el producto puede:

“Informar resultados binarios (positivo / negativo), trinario (positivo / negativo / neutro) y de escala única (-4 a +4). SentiStrength se desarrolló originalmente para inglés y se optimizó para textos sociales cortos en general, pero se puede configurar para otros idiomas y contextos cambiando sus archivos de entrada ”.

Lo que sigue puede ayudarlo: las escalas mencionadas anteriormente se describen más detalladamente en [2] donde funcionan “de manera similar al programa SOCAL de Taboada” [3], porque “el sentimiento positivo total se calcula y se compara con el sentimiento negativo total. Si el total positivo es mayor que 1.5 * el sentimiento negativo total, entonces la clasificación es positiva; de lo contrario, es negativa. ¿Por qué 1.5? Debido a que la negatividad es más rara que la positividad, se destaca más (ver el trabajo de Maite Taboada) “.

Referencias

[1] http://sentistrength.wlv.ac.uk/

[2] M. Thelwall. Manual de usuario de SentiStrength. http://sentistrength.wlv.ac.uk/ …, 2014.

[3] M. Taboada, J. Brooke, M. To loski, K. Voll y M. Stede. Métodos basados en léxico para el análisis de sentimientos. Lingüística computacional , 37 (2): 267-307, junio de 2011.

Martin O’Shea

La misma pregunta me aterroriza y por una buena causa. ¿Qué texto estás clasificando, por quién y con qué propósito? ¿Qué te califica para determinar positivo o negativo? ESTE ES UN GRAN GRADO ÉTICO … ¿dispuesto a responder esas preguntas?

Martin O’Shea

More Interesting

¿Se pueden identificar las características que resultan del proceso de aprendizaje de CNN, o se puede diseñar e incrustar una cantidad de características bien definidas en una CNN?

¿Es indistinguible si el método t-SNE no muestra dos grupos claros (para un problema de clasificación de 2 clases)?

¿Cuáles son algunas ideas importantes / brillantes en el aprendizaje automático?

¿Cuál es la relevancia de la factorización matricial en el aprendizaje profundo?

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

¿Cómo puede una red neuronal convolucional aprender características invariables?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Podemos construir una máquina de visualización de sueños usando el procesamiento de señales?

¿Cómo se calculan los intervalos de confianza en un conjunto de características?