Hay dos cosas que generalmente causan esto:
- Está entrenando en exceso en su conjunto de datos de entrenamiento: necesita más datos de entrenamiento o un modelo más simple.
- Su conjunto de validación no es representativo de sus datos de entrenamiento. Con el muestreo aleatorio, esto es raro: por lo general, solo veo que aparece con pequeños conjuntos de datos (en cuyo caso, probablemente el número 1 también saldrá).
“Si regresa y adapta el modelo hasta que funcione, ¿por qué molestarse en guardar datos?”
El conjunto de datos de validación es parte de sus datos de entrenamiento. Es una herramienta que usted, como modelador, utiliza para intentar simular un caso de prueba del mundo real mientras está construyendo el modelo: lo espera para encontrar (y solucionar) problemas como este. Pero sí, debe tener cuidado de no mentirse a sí mismo a través de su conjunto de validación ejecutándolo cientos de veces hasta que le cuente la historia que desea escuchar. Si sus datos son razonablemente grandes, es difícil incluso hacer esto.
- ¿Vale la pena cambiar de carrera de ciencia de datos a actuario?
- ¿Cuál es la diferencia entre Python y las herramientas de minería de datos como Knime y Rapid Miner?
- ¿Cómo se usa el SNA (Social Network Analysis) para combatir el fraude o las transacciones fraudulentas?
- ¿Por qué agregar más como primera columna de datos en el aprendizaje automático?
- ¿Qué puede hacer Java por un científico de datos que Python / R no puede?