¿Qué pasaría si pocos puntos de datos son comunes en los conjuntos de capacitación y validación?

Entonces obtienes una calificación de precisión muy inexacta. Mi profesor de aprendizaje automático tenía una historia sobre un pequeño equipo que dirigió que hizo un filtro de spam en el pasado.

Su equipo reunió un modelo de regresión logística relativamente simple y le envió un montón de correos electrónicos. Luego, lo probó y obtuvo … 0% de error. Intentaron y trataron de entender por qué, pero terminaron concluyendo que el modelo era perfecto, incluso en cientos de miles de correos electrónicos de muestra. Luego lo soltaron. El error en el campo estaba en el 80% superior.

¿Por qué? No tuvieron en cuenta el hecho de que los spammers envían regularmente el mismo correo electrónico a docenas, si no a cientos de destinatarios. En los datos había muchas copias de los mismos correos electrónicos, excepto con los nombres cambiados. Aunque esta es una situación mucho peor que la descrita en la pregunta … muestra cuán mal sesga la calificación de error de prueba.

¿Lección? No (inadvertidamente) pruebe sus datos de entrenamiento.