¿Cuáles son los conjuntos de datos beneficiosos para el análisis de sentimientos de Twitter como proyecto de análisis de datos?

Echa un vistazo a un artículo llamado Sentiment Flow Through Hyperlink Networks . (Simplemente busque en Google el título. Divulgación: soy uno de los autores.) En él, encontrará referencias a dos recursos de opinión que nos fueron muy útiles y que también podrían serle útiles: SentiWordNet y Harvard Inquirer .

Tanto SWN como HI ofrecen una forma de etiquetado de sentimientos para las palabras. Por ejemplo, ¿qué tan “positiva” es la palabra “arco iris”? Harvard Inquirer le dará un valor binario para varios atributos, incluidos algunos de sentimiento (positivo o no, negativo o no, etc.); SentiWordNet le dará un valor real (por ejemplo, “unicornios” tiene positividad 0.99234. Es broma, lo inventé, pero esa es la idea).

SentiWordNet, si no recuerdo mal, en realidad fue entrenado al propagar HI a través de WordNet; El resultado es que SentiWordNet tiene mayor memoria (le ofrecerá un valor para más de sus palabras). SentiWordNet también codifica un concepto de “objetividad”, que es bastante bueno. Me tomó un momento entender por qué tendrían una palabra con un puntaje de positividad y un puntaje de negatividad la primera vez que lo vi, pero la idea es que puede mantener la relación de positivo a negativo mientras codifica simultáneamente un valor por cuán subjetiva u objetiva es la palabra. Para obtener más detalles, solo lea sobre SentiWordNet directamente. Hay muchas cosas interesantes allí, y también es un buen lugar para comenzar a buscar más recursos.

Algunas formas en que puede aplicar esto a Twitter: identifique todos los tweets de un autor en particular (usuario de twitter) y calcule el sentimiento promedio (pos, neg u obj) por palabra en sus tweets. (Probablemente primero tenga que hacer una buena cantidad de limpieza de datos). Use esto como base para la “voz” de ese autor. Luego, observe cómo alguna otra variable que le interese (tiempo hacia una elección, estación del año, ubicación si la persona viaja, predicciones del horóscopo, ¡lo que quiera!) Puede o no perturbar la línea de base de este autor. Haga esto para todos los autores. ¿Ves una tendencia? Si es así, ¿cuál es la variación entre los usuarios para esta tendencia? O para un trabajo más duro, tal vez no se moleste en separar a los usuarios y, en cambio, simplemente observe las tendencias en todos los tweets en relación con alguna otra dimensión (hora, ubicación, información demográfica de los tweeters); probablemente encontrarás algo interesante para cavar …

Algunas reflexiones adicionales: dado que tanto SWN como HI probablemente tendrán un recuerdo relativamente bajo sobre las palabras en los tweets, y los tweets son, por definición, bastante cortos, es posible que desee hacer su propio trabajo de aumento de recuerdo, con lo que quiero decir que es posible que desee decidir explícitamente sacrificar precisión por el recuerdo. Esto podría lograrse, por ejemplo, utilizando un modelo de lenguaje (Google ofrece ngramas comunes) para identificar palabras que con frecuencia se producen con palabras etiquetadas con sentimientos de acuerdo con SWN / HI y asignarles también algunos valores de sentimientos y usar este nuevo, diccionario más grande de palabras etiquetadas con sentimientos para etiquetar tus tweets. Obviamente, esto diluye su señal en relación con el ruido, pero es una compensación con la que jugar, o al menos tener en cuenta. Por supuesto, si decide que la precisión comercial para el retiro es útil para usted, probablemente desee explorar varias formas de hacerlo; Esta es solo una idea.

¡Feliz exploración!

NB: Si bien la pregunta aquí es sobre “conjuntos de datos”, también parece implicar que se utilizarán datos de Twitter, por lo que interpreté que “conjuntos de datos” significan en general “recursos” que ayudarían con el Análisis de Sentimientos (especialmente desde una pregunta sobre cómo obtener datos de Twitter, si ese fuera el objetivo, probablemente sería más apropiado como una pregunta más general, en lugar de estar bajo el paraguas del Análisis de Sentimientos). Esto puede ser un error; si es así, ¡vaya! 🙂

Pruebe el conjunto de datos proporcionado en este experimento de clasificación de texto.

Clasificación de texto: Paso 2 de 5, preprocesamiento de texto

No necesita ninguna suscripción para abrir este conjunto de datos en Azure ML Studio.

Si está hablando de entrenar los datos, aquí hay algunos:
1.Sanders twitter 0.2 (google it)
2.A.Finn (google it)
3. Twitter Sentiment Analysis Training Corpus (conjunto de datos)
4. http://help.sentiment140.com/for-students/

Si está hablando de datos de Twitter, los encontrará en kaggle, edX o simplemente puede tomar la transmisión de Twitter en vivo o en reposo.

More Interesting

¿Cuáles son los lenguajes de programación básicos para aprendizaje automático, inteligencia artificial y big data?

¿Qué cursos debería tomar para especializarse en aprendizaje automático, ciencia de datos e IA como estudiante de MS CS en USC?

Me encanta codificar. '¿Hay alguna comunidad en la que pueda participar en pequeños proyectos para poder conectarme a ellos de forma remota y aprender?

¿Ha habido algún éxito con el aprendizaje profundo bayesiano?

¿Es Cortana de Microsoft una copia flagrante de Siri de Apple?

¿Cuáles son las diferencias entre big data, hadoop y colmena? ¿Son solo jergas con el mismo significado? ¿Puedes resumir en detalle?

¿Cuál es el método del núcleo? ¿Cómo se usa en los sistemas de recomendación?

¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?

¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?

¿Qué es una transformación de características en el aprendizaje automático?

¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?

Cómo hacer LDA

Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?

¿Cuál es una buena definición de Generalización wrt Deep Learning?

¿Cuándo harán las máquinas la física y volverán a aprender las características de los datos de observación y luego reemplazarán aquellas como masa, giro, color o carga?