Fuga | Kaggle
La fuga de datos es la creación de información adicional inesperada en los datos de entrenamiento, lo que permite que un modelo o algoritmo de aprendizaje automático haga predicciones irrealmente buenas.
La fuga es un desafío generalizado en el aprendizaje automático aplicado, lo que hace que los modelos representen en exceso su error de generalización y, a menudo, los vuelvan inútiles en el mundo real. Puede ser causado por un error humano o mecánico, y puede ser intencional o no en ambos casos.
Algunos tipos de fuga de datos incluyen:
- ¿Está bien incluir un retrato personal en su currículum cuando solicite un trabajo de ciencia de datos?
- Tengo más de 9 años de experiencia en el campo del desarrollo web. ¿Qué tan buenas son mis posibilidades de entrar en el campo de la ciencia de datos si paso un año en la especialización de datos de Coursera o el analista de datos de Udacity Nanodegree?
- Cómo explorar más sobre ciencia de datos
- ¿Qué algoritmo de minería de datos se debe usar para predecir el consumo de energía para el próximo año?
- ¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?
- Fugas de datos de prueba en los datos de entrenamiento.
- Filtrando la predicción correcta o la verdad fundamental en los datos de prueba.
- Filtración de información del futuro al pasado.
- Al retener proxies para las variables eliminadas, un modelo no puede saberlo.
- Reversión de la ofuscación, aleatorización o anonimato intencionales.
- Inclusión de datos no presentes en el entorno operativo del modelo.
- Distorsionar la información de muestras fuera del alcance del uso previsto del modelo.
- Cualquiera de los anteriores presentes en datos de terceros unidos al conjunto de capacitación.
Relacionado: dragado de datos (también conocido como pesca de datos, espionaje de datos).