¿Cuál es la fuente de datos perfecta para el análisis de sentimientos a nivel de documento?

No hay uno De hecho, no puede haber uno. El análisis del sentimiento a nivel de documento, por su propia naturaleza, va a ser específico del dominio del que está tomando los documentos, y aunque algunos trabajos han demostrado ser prometedores en generalizar sistemas diseñados para un dominio a otro, en general esperamos que esto nunca suceda perfectamente a la naturaleza del lenguaje en sí mismo, es decir, cómo usamos el lenguaje depende del contexto. Dicho esto, uno puede responder diciendo que simplemente podría crear una amalgama gigante de todos los documentos en el mundo, pero no llamaría a esto una fuente de datos perfecta, solo una más completa, ya que la “perfección” depende sobre cómo está utilizando un algoritmo de análisis de sentimientos a nivel de documento. Por ejemplo, si es para tener una idea de los sentimientos generales en los tweets en conjunto, entrenar un algoritmo en esta amalgama gigante es realmente bastante perfecto.

Notaré que hay algo que decir sobre los conjuntos de datos que se han limpiado para uso de PNL, para los conjuntos de datos que son perfectos en este sentido, recomendaría mirar algo como la colección de conjuntos de datos del LDC suponiendo que tenga una licencia industrial / académica para acceder ellos / no les importa pagar los altos costos asociados con el acceso a estos conjuntos de datos (pero las anotaciones presentes son excelentes y esenciales para muchas tareas de PNL, incluido el análisis de sentimiento a nivel de documento y el LDC tiene principalmente datos en inglés, pero también tiene datos en otros idiomas)