Una herramienta natural y muy simple es un clasificador de sentimientos.
Si tiene un gran corpus de textos con, por ejemplo, cinco clases: “altamente democrático”, “algo democrático”, “neutral”, “algo republicano”, “altamente republicano”, puede entrenar un modelo superficial muy simple que le dará Tiene una distribución de probabilidad sobre estas clases.
Obtener una buena métrica es otra historia. No puede confiar en el supuesto de que su clasificador no dará su texto 0.5 en “altamente democrático” y 0.5 en “altamente republicano” al mismo tiempo. Por supuesto, la función logloss intenta ocuparse de eso durante el entrenamiento, pero no es tan bueno en la práctica y no tenemos nada mejor que eso.
- ¿Cómo es ser un científico de datos en Publicis?
- ¿Es necesario tener un conocimiento profundo de Java y SQL para aprender big data?
- ¿Cuál es el mejor programa de ciencia de datos?
- ¿Qué es tendencia más, programación o ciencia de datos?
- ¿Entrar en Big Data es una buena opción ahora?
Entonces, esta es una oportunidad para experimentar. Trataría de llegar a una fórmula simple que penalice la distribución “uniforme” de los puntajes, si le da un buen resultado de inmediato, felicidades. Si no, apilar los clasificadores y reducir el número de clases gradualmente, acercándose así a la polaridad en cuestión, debería brindarle mejores resultados.