Este es un problema general de los algoritmos de aprendizaje automático (ML) como ya se ha indicado en la mayoría de las respuestas. El problema del sobreajuste puede afectar su modelo durante la implementación, especialmente si sus conjuntos de datos no son una buena representación de la tarea real que el sistema tiene la tarea de resolver en la práctica.
Sin embargo, en ML también es un juego de compensación entre sobreajuste y falta de ajuste al tratar de tener un buen rendimiento de generalización. Normalmente, un modelo no equipado tiene un buen error de generalización (la brecha entre el entrenamiento y el error de validación) por eso se desempeñó mejor. Se puede llegar al mejor modelo haciendo suficientes pruebas para encontrar el mejor lugar entre un modelo sobreajustado con alta precisión pero con un alto error de generalización y un modelo con suficiente precisión pero con un buen error de generalización.
También puede recopilar los datos de los casos de falla durante la implementación. Si el modelo está en manos de usuarios típicos, esto viene con problemas de privacidad, por lo que depende de los datos de los que estamos hablando aquí. Si los datos son confidenciales, solicite permiso para recopilar esos datos, luego intente agregar tales ejemplos a su conjunto de datos e ingenie los modelos mientras también los evalúa en tales datos de casos de uso, especialmente aquellos que engañaron mucho a los algoritmos, los ejemplos “difíciles”.
- ¿Cómo sobreajustar el clasificador de aprendizaje automático? ¿Y cuál debo usar?
- ¿Cuál es la diferencia entre AI e IoT?
- ¿Cuándo combino algoritmos genéticos con redes neuronales?
- ¿Cómo puede Machine / Deep Learning satisfacer las necesidades de las empresas / mercado?
- ¿Alguna vez vamos a tener robots conscientes? En caso afirmativo, ¿cuándo y cuáles serán los pros y los contras de tenerlos?
E intente utilizar la validación cruzada para evaluar sus modelos. Podría darle una mejor indicación del rendimiento del modelo.
Espero que esto ayude.