Se me ocurren dos problemas:
Primero, si no tiene cuidado con sus conjuntos de datos de capacitación y validación, no tendrá suficientes registros únicos en su conjunto de validación para estimar la verdadera precisión de su clasificador. Muchos de los registros que predice del conjunto de validación se habrán visto antes, por lo que tenderá a sobreajustar sus datos.
En segundo lugar, dependiendo de cómo se distribuyan esos tweets duplicados con respecto a las etiquetas que le interese predecir, tenderá a enfocar más su clasificador en esas etiquetas duplicadas. Esto sesgará su clasificador hacia las etiquetas más comunes. El resultado final es el mismo que el anterior; no podrá predecir bien las etiquetas de muestra si es que lo hace. La técnica de aumento de registros para igualar la representación de clase en los conjuntos de entrenamiento y validación es similar, sin embargo, está equilibrando la duplicación de datos con las características ROC del clasificador. No se está haciendo ningún favor al dejar registros duplicados en sus datos, en general.
- ¿Por qué la máquina de Bolzmann restringida se llama memoria asociativa?
- ¿Cómo explicarías la probabilidad condicional y el teorema de Bayes a un niño?
- ¿Es una buena idea dejar el aprendizaje automático después de 2 años y estudiar desarrollo web, si me di cuenta de que no soy tan inteligente para todas esas matemáticas de ML?
- ¿Cuál es la diferencia entre un clasificador Naive Bayes y AODE?
- ¿Qué computadora portátil debo obtener para aprender el aprendizaje automático, usando SAS, R, MATLAB, Python, etc.?
¡Buena suerte!