¿Cómo afectan los registros duplicados en el conjunto de datos de entrenamiento a un clasificador Naive Bayes?

Se me ocurren dos problemas:

Primero, si no tiene cuidado con sus conjuntos de datos de capacitación y validación, no tendrá suficientes registros únicos en su conjunto de validación para estimar la verdadera precisión de su clasificador. Muchos de los registros que predice del conjunto de validación se habrán visto antes, por lo que tenderá a sobreajustar sus datos.

En segundo lugar, dependiendo de cómo se distribuyan esos tweets duplicados con respecto a las etiquetas que le interese predecir, tenderá a enfocar más su clasificador en esas etiquetas duplicadas. Esto sesgará su clasificador hacia las etiquetas más comunes. El resultado final es el mismo que el anterior; no podrá predecir bien las etiquetas de muestra si es que lo hace. La técnica de aumento de registros para igualar la representación de clase en los conjuntos de entrenamiento y validación es similar, sin embargo, está equilibrando la duplicación de datos con las características ROC del clasificador. No se está haciendo ningún favor al dejar registros duplicados en sus datos, en general.

¡Buena suerte!

More Interesting

¿Cómo seleccionaría los datos para capacitar y probar los modelos?

¿Cuáles son las cosas tecnológicas que más impactarán en el futuro de los trabajos (aprendizaje automático, aprendizaje profundo, redes neuronales, etc.)?

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

¿Es C ++ un buen lenguaje para el aprendizaje automático?

¿Existe una versión de objetivos múltiples de regresión logística, regresión lineal, SVM, PCA, K-means o algún otro algoritmo de aprendizaje automático?

¿Cuáles son las aplicaciones del tensor en estadística y aprendizaje automático?

¿Cuáles son las mejores prácticas cuando se utiliza el análisis predictivo para la industria? ¿Hay algunos marcos o pautas?

¿Qué parte del autoencoder realmente representa las características aprendidas?

¿Cómo utiliza Quora el aprendizaje automático en 2015?

¿Cómo usa la NASA el aprendizaje automático?

¿Cuáles son los mayores desafíos en la enseñanza del aprendizaje automático?

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?