¿Cuál es la relación entre sobreajuste y cambio de datos?

El sobreajuste en ML generalmente ocurre en relación con clasificadores (redes neuronales (NN), SVM u otros). El sobreajuste está presente cuando entrena su clasificador demasiado estrictamente a su conjunto de datos de entrenamiento, logrando un (demasiado) error de entrenamiento bajo en este conjunto, y cuando aplica el clasificador al conjunto de validación obtiene un error mucho mayor. Esto indica que probablemente también funcionará mal en el mundo real.

El sobreajuste se produce en otros entornos más allá de la clasificación, como en los modelos de regresión (por ejemplo, en el ajuste polinómico a los datos).

Por otro lado, el cambio de datos significa que las cifras estadísticas de mérito (media, varianza, …) de sus datos varían significativamente entre el conjunto de datos de entrenamiento y los otros conjuntos de datos posteriores (ya sea el conjunto de validación o incluso los datos que se clasifican por el modelo entrenado, en el mundo real, en línea o fuera de línea).

Por lo tanto, estos fenómenos (sobreajuste y cambio de datos) no están relacionados en mi humilde opinión .

¿Qué puede pasar en un caso real? Suponga que entrena a un NN para reconocer imágenes de perros. Su conjunto de datos solo tiene Bulldogs y Dobermans. Entrena con estos. Luego, en el mundo real, otros perros como los chihuahuas, los “perros salchichas”, los setters, etc. (perdón, no soy un experto en carreras de perros …) a menudo se clasifican erróneamente. Esto es demasiado adecuado (supongo) … porque su conjunto de entrenamiento estaba sesgado para algunas razas de perros.

Pero, si con el mismo NN, entrenado de la misma manera, en el mundo real, sus datos de clasificación eran principalmente caballos y burros, entonces tendría en sus manos un gran problema de cambio de datos 🙂

Volvamos a la tierra. En la práctica, si el sobreajuste y el cambio de datos están presentes, puede ser afortunado y su sobreajuste puede ser beneficioso al clasificar instancias “desplazadas” reales, o puede deteriorar aún más su rendimiento de clasificación (obtiene tanto el sobreajuste “defectos” como el cambio de datos ) Al final, debes tratar de evitar ambos males y corregir tus procedimientos en relación con ellos.

¡Acabo de notar que hay al menos un libro dedicado al cambio de datos! y ya tiene 10 años … Cambio de conjunto de datos en Machine Learning. Con respecto al sobreajuste, todos los libros de ML dedican uno o algunos capítulos a este y a los remedios disponibles.

More Interesting

¿Cómo aprendo minería de datos en un mes?

¿Qué ideas procesables ha recopilado Netflix del análisis de big data? ¿Cómo influye en la habitación del escritor?

¿Cuál es el valor de los datos? A medida que las empresas recopilan los datos de los consumidores, ¿cómo pueden los economistas calcular el valor de estos datos?

¿Cómo convertirse en un científico de datos financieros? Quiero aplicar programación, matemáticas y finanzas en un solo trabajo. Tengo una licenciatura en informática, soy bueno con Java y C ++, y estoy aprendiendo R y Python. ¿Cuál debería ser mi próximo paso?

¿Qué libro o curso en línea sería el mejor para aprender estadísticas para la ciencia de datos?

¿Cuál es la parte científica de la ciencia de datos?

¿Deberían los individuos ser compensados ​​por los datos que generan? ¿Podría ser posible un negocio que facilite la recopilación y generación de datos a través de la participación individual en análisis e investigación de big data?

¿Hay algún buen conjunto de datos para realizar análisis sentimentales? Necesito un conjunto de datos con etiquetas positivas, negativas y neutrales.

¿Crees que el aprendizaje automático / ciencia de datos puede contribuir a resolver los problemas sociales, de salud y económicos del mundo?

¿Qué es la "ciencia" en ciencia de datos? ¿Se trata exclusivamente de la ciencia de monetizar grandes datos, o también hay un aspecto de no negocios?

¿Qué herramienta se puede usar para extraer puntos de datos de un gráfico en un archivo PDF y luego recrear ese gráfico con los datos extraídos?

¿Cuáles son los casos de uso de big data en el comercio electrónico?

¿Es necesario implementar algoritmos principales de aprendizaje automático desde cero al menos una vez para obtener una pasantía en ciencia de datos en una empresa prestigiosa?

¿Qué conjuntos de datos tienen variables categóricas y funcionarán bien con regresión lineal?

¿De qué trata el libro Big Data Baseball?