El sobreajuste en ML generalmente ocurre en relación con clasificadores (redes neuronales (NN), SVM u otros). El sobreajuste está presente cuando entrena su clasificador demasiado estrictamente a su conjunto de datos de entrenamiento, logrando un (demasiado) error de entrenamiento bajo en este conjunto, y cuando aplica el clasificador al conjunto de validación obtiene un error mucho mayor. Esto indica que probablemente también funcionará mal en el mundo real.
El sobreajuste se produce en otros entornos más allá de la clasificación, como en los modelos de regresión (por ejemplo, en el ajuste polinómico a los datos).
Por otro lado, el cambio de datos significa que las cifras estadísticas de mérito (media, varianza, …) de sus datos varían significativamente entre el conjunto de datos de entrenamiento y los otros conjuntos de datos posteriores (ya sea el conjunto de validación o incluso los datos que se clasifican por el modelo entrenado, en el mundo real, en línea o fuera de línea).
- Cómo decidir qué quieres de una gran cantidad de datos
- ¿Qué temas de estadística debo aprender antes de aprender ciencia de datos si soy de un entorno no estadístico?
- ¿Cuál es la diferencia entre data warehouse / BI y data science?
- ¿Cuál es la diferencia entre análisis inferencial y descriptivo de datos?
- ¿Qué es la ciencia de datos y el análisis de big data?
Por lo tanto, estos fenómenos (sobreajuste y cambio de datos) no están relacionados en mi humilde opinión .
¿Qué puede pasar en un caso real? Suponga que entrena a un NN para reconocer imágenes de perros. Su conjunto de datos solo tiene Bulldogs y Dobermans. Entrena con estos. Luego, en el mundo real, otros perros como los chihuahuas, los “perros salchichas”, los setters, etc. (perdón, no soy un experto en carreras de perros …) a menudo se clasifican erróneamente. Esto es demasiado adecuado (supongo) … porque su conjunto de entrenamiento estaba sesgado para algunas razas de perros.
Pero, si con el mismo NN, entrenado de la misma manera, en el mundo real, sus datos de clasificación eran principalmente caballos y burros, entonces tendría en sus manos un gran problema de cambio de datos 🙂
Volvamos a la tierra. En la práctica, si el sobreajuste y el cambio de datos están presentes, puede ser afortunado y su sobreajuste puede ser beneficioso al clasificar instancias “desplazadas” reales, o puede deteriorar aún más su rendimiento de clasificación (obtiene tanto el sobreajuste “defectos” como el cambio de datos ) Al final, debes tratar de evitar ambos males y corregir tus procedimientos en relación con ellos.
¡Acabo de notar que hay al menos un libro dedicado al cambio de datos! y ya tiene 10 años … Cambio de conjunto de datos en Machine Learning. Con respecto al sobreajuste, todos los libros de ML dedican uno o algunos capítulos a este y a los remedios disponibles.