¿Cuáles son los conjuntos de datos beneficiosos para el análisis de sentimientos de Twitter como proyecto de análisis de datos? La tecnología cambia la vida futura

Echa un vistazo a un artículo llamado Sentiment Flow Through Hyperlink Networks . (Simplemente busque en Google el título. Divulgación: soy uno de los autores.) En él, encontrará referencias a dos recursos de opinión que nos fueron muy útiles y que también podrían serle útiles: SentiWordNet y Harvard Inquirer .

Tanto SWN como HI ofrecen una forma de etiquetado de sentimientos para las palabras. Por ejemplo, ¿qué tan “positiva” es la palabra “arco iris”? Harvard Inquirer le dará un valor binario para varios atributos, incluidos algunos de sentimiento (positivo o no, negativo o no, etc.); SentiWordNet le dará un valor real (por ejemplo, “unicornios” tiene positividad 0.99234. Es broma, lo inventé, pero esa es la idea).

SentiWordNet, si no recuerdo mal, en realidad fue entrenado al propagar HI a través de WordNet; El resultado es que SentiWordNet tiene mayor memoria (le ofrecerá un valor para más de sus palabras). SentiWordNet también codifica un concepto de “objetividad”, que es bastante bueno. Me tomó un momento entender por qué tendrían una palabra con un puntaje de positividad y un puntaje de negatividad la primera vez que lo vi, pero la idea es que puede mantener la relación de positivo a negativo mientras codifica simultáneamente un valor por cuán subjetiva u objetiva es la palabra. Para obtener más detalles, solo lea sobre SentiWordNet directamente. Hay muchas cosas interesantes allí, y también es un buen lugar para comenzar a buscar más recursos.

Algunas formas en que puede aplicar esto a Twitter: identifique todos los tweets de un autor en particular (usuario de twitter) y calcule el sentimiento promedio (pos, neg u obj) por palabra en sus tweets. (Probablemente primero tenga que hacer una buena cantidad de limpieza de datos). Use esto como base para la “voz” de ese autor. Luego, observe cómo alguna otra variable que le interese (tiempo hacia una elección, estación del año, ubicación si la persona viaja, predicciones del horóscopo, ¡lo que quiera!) Puede o no perturbar la línea de base de este autor. Haga esto para todos los autores. ¿Ves una tendencia? Si es así, ¿cuál es la variación entre los usuarios para esta tendencia? O para un trabajo más duro, tal vez no se moleste en separar a los usuarios y, en cambio, simplemente observe las tendencias en todos los tweets en relación con alguna otra dimensión (hora, ubicación, información demográfica de los tweeters); probablemente encontrarás algo interesante para cavar …

Algunas reflexiones adicionales: dado que tanto SWN como HI probablemente tendrán un recuerdo relativamente bajo sobre las palabras en los tweets, y los tweets son, por definición, bastante cortos, es posible que desee hacer su propio trabajo de aumento de recuerdo, con lo que quiero decir que es posible que desee decidir explícitamente sacrificar precisión por el recuerdo. Esto podría lograrse, por ejemplo, utilizando un modelo de lenguaje (Google ofrece ngramas comunes) para identificar palabras que con frecuencia se producen con palabras etiquetadas con sentimientos de acuerdo con SWN / HI y asignarles también algunos valores de sentimientos y usar este nuevo, diccionario más grande de palabras etiquetadas con sentimientos para etiquetar tus tweets. Obviamente, esto diluye su señal en relación con el ruido, pero es una compensación con la que jugar, o al menos tener en cuenta. Por supuesto, si decide que la precisión comercial para el retiro es útil para usted, probablemente desee explorar varias formas de hacerlo; Esta es solo una idea.

¡Feliz exploración!

NB: Si bien la pregunta aquí es sobre “conjuntos de datos”, también parece implicar que se utilizarán datos de Twitter, por lo que interpreté que “conjuntos de datos” significan en general “recursos” que ayudarían con el Análisis de Sentimientos (especialmente desde una pregunta sobre cómo obtener datos de Twitter, si ese fuera el objetivo, probablemente sería más apropiado como una pregunta más general, en lugar de estar bajo el paraguas del Análisis de Sentimientos). Esto puede ser un error; si es así, ¡vaya! 🙂