Ambos modelos son inútiles.
Si ve un resultado como el del modelo A, que tiene la peor precisión posible en el conjunto de entrenamiento y una precisión súper sorprendente en el conjunto de prueba, significa que todo su experimento es defectuoso. Parece que la precisión del modelo B podría haber sido un resultado decente, pero dado que no se puede confiar en el experimento en sí, primero debe volver y descubrir qué está mal.
Teniendo en cuenta la información adicional en los comentarios, parece que el conjunto de datos es el problema aquí. Su conjunto de entrenamiento tiene 10,000 puntos de datos con 50/50 muestras positivas y negativas. Al mismo tiempo, su conjunto de prueba tiene 1000 puntos de datos con una relación de 90/10 positiva a negativa. Es extremadamente improbable que esto haya sucedido por casualidad. Debe repensar cómo realmente recopila y muestrea estos datos. Los dos conjuntos claramente no se recogen en condiciones similares.
- ¿Por qué elegiste trabajar en finanzas cuantitativas sobre ciencia de datos?
- Cómo comenzar una carrera como ingeniero de datos, no como científico de datos
- ¿Deberían los investigadores de educación adaptar R y alejarse del software estadístico minorista (SAS, Stata, SPSS)?
- Big data es utilizado por los científicos de datos. ¿Quién traduce esta información para que la gerencia mejore o desarrolle estrategias de gestión y operaciones?
- ¿Se automatizará el análisis de datos y el análisis empresarial teniendo en cuenta el aumento de la inteligencia artificial?
Puede que no haya ningún problema con ninguno de sus modelos per se, pero no tiene forma de saberlo con la forma en que se organizan los datos. Podría intentar dividir los datos de entrenamiento en un entrenamiento y probar con, digamos, 9000 y 1000 muestras cada uno y ver qué sucede entonces.
Por cierto, esto ilustra por qué el uso de la precisión como la única métrica de rendimiento para un clasificador es insuficiente. Debería buscar curvas y métricas ROC como precisión, recuperación y AUC.