La respuesta de John Chen tiene valiosas sugerencias. Es posible que desee considerar estos puntos también:
- Parece que su conjunto de datos tiene una distribución de clases objetivo desequilibrada, una cobertura de datos deficiente en algunas (o todas) clases, o una combinación de las anteriores. Adquirir más datos podría ser una solución.
- Visualizar el conjunto de datos podría ser útil para comprender si alguna parte del espacio vectorial de entrada es escasa.
- La deriva del concepto podría ser una posibilidad si estos datos se han recopilado en diferentes períodos de tiempo o si se trata de una instantánea de la transmisión de datos. Si se produce una deriva del concepto, entonces 2 vectores de entrada similares pueden tener etiquetas de destino diferentes. Si estos 2 vectores de entrada se dividen en diferentes pliegues en la validación cruzada, entonces se espera obtener puntajes de prueba / tren muy diferentes.
- Por último, si la implementación de la validación k-fold selecciona instancias en orden (del conjunto de datos) en lugar de instancias elegidas al azar, entonces deberíamos esperar ver variaciones si la distribución de entradas a objetivos cambia de las instancias anteriores a las posteriores en el conjunto de datos