No hay uno De hecho, no puede haber uno. El análisis del sentimiento a nivel de documento, por su propia naturaleza, va a ser específico del dominio del que está tomando los documentos, y aunque algunos trabajos han demostrado ser prometedores en generalizar sistemas diseñados para un dominio a otro, en general esperamos que esto nunca suceda perfectamente a la naturaleza del lenguaje en sí mismo, es decir, cómo usamos el lenguaje depende del contexto. Dicho esto, uno puede responder diciendo que simplemente podría crear una amalgama gigante de todos los documentos en el mundo, pero no llamaría a esto una fuente de datos perfecta, solo una más completa, ya que la “perfección” depende sobre cómo está utilizando un algoritmo de análisis de sentimientos a nivel de documento. Por ejemplo, si es para tener una idea de los sentimientos generales en los tweets en conjunto, entrenar un algoritmo en esta amalgama gigante es realmente bastante perfecto.
Notaré que hay algo que decir sobre los conjuntos de datos que se han limpiado para uso de PNL, para los conjuntos de datos que son perfectos en este sentido, recomendaría mirar algo como la colección de conjuntos de datos del LDC suponiendo que tenga una licencia industrial / académica para acceder ellos / no les importa pagar los altos costos asociados con el acceso a estos conjuntos de datos (pero las anotaciones presentes son excelentes y esenciales para muchas tareas de PNL, incluido el análisis de sentimiento a nivel de documento y el LDC tiene principalmente datos en inglés, pero también tiene datos en otros idiomas)
- ¿Cuáles son las posibilidades del análisis de big data y cómo pueden los big data ayudar a los proveedores de servicios a diario?
- ¿Cuál es el mejor recurso en línea para aprender la programación de Python para la ciencia de datos?
- ¿Cuál es la diferencia entre el científico de datos y el científico de investigación en Google?
- Cómo aprender a ser un análisis de datos
- ¿Cómo se usa el SNA (Social Network Analysis) para combatir el fraude o las transacciones fraudulentas?