¿Qué es la “fuga de datos” en la ciencia de datos?

Fuga | Kaggle

La fuga de datos es la creación de información adicional inesperada en los datos de entrenamiento, lo que permite que un modelo o algoritmo de aprendizaje automático haga predicciones irrealmente buenas.

La fuga es un desafío generalizado en el aprendizaje automático aplicado, lo que hace que los modelos representen en exceso su error de generalización y, a menudo, los vuelvan inútiles en el mundo real. Puede ser causado por un error humano o mecánico, y puede ser intencional o no en ambos casos.
Algunos tipos de fuga de datos incluyen:

  • Fugas de datos de prueba en los datos de entrenamiento.
  • Filtrando la predicción correcta o la verdad fundamental en los datos de prueba.
  • Filtración de información del futuro al pasado.
  • Al retener proxies para las variables eliminadas, un modelo no puede saberlo.
  • Reversión de la ofuscación, aleatorización o anonimato intencionales.
  • Inclusión de datos no presentes en el entorno operativo del modelo.
  • Distorsionar la información de muestras fuera del alcance del uso previsto del modelo.
  • Cualquiera de los anteriores presentes en datos de terceros unidos al conjunto de capacitación.

Relacionado: dragado de datos (también conocido como pesca de datos, espionaje de datos).

Como científico de datos , siempre debe estar al tanto de las circunstancias que pueden hacer que sus algoritmos de aprendizaje automático representen en exceso su error de generalización, ya que esto puede volverlos inútiles en la solución de problemas del mundo real.

Uno de estos posibles problemas se denomina fuga de datos : cuando los datos que está utilizando para entrenar un algoritmo de aprendizaje automático tienen la información que está tratando de predecir.

No es deseable en muchos niveles, como una fuente de generalización deficiente y una sobreestimación del rendimiento esperado. La fuga de datos a menudo ocurre sutil e inadvertidamente y puede dar lugar a un sobreajuste.

Un texto líder en el campo llamado fuga de datos como uno de los diez errores principales de aprendizaje automático.

La fuga de datos puede manifestarse de muchas maneras, incluyendo:

  • Fugas de datos del conjunto de pruebas al conjunto de entrenamiento.
  • Filtrando la predicción correcta o la verdad fundamental en los datos de prueba.
  • Filtración de información del futuro al pasado.
  • Invertir la ofuscación, la aleatorización o el anonimato de los datos que se incluyeron intencionalmente.
  • Información de muestras de datos fuera del alcance del uso previsto del algoritmo.
  • Cualquiera de los anteriores existentes en datos externos junto con el conjunto de entrenamiento.

Pregúntele a un científico de datos: fuga de datos – insideBIGDATA

Siempre debe estar al tanto de las circunstancias que pueden hacer que sus algoritmos de aprendizaje automático representen en exceso su error de generalización, ya que esto puede volverlos inútiles en la solución de problemas del mundo real. Me gustaría compartir un video que lo ayudará a comprender mejor las fugas y la ciencia de datos.

Uno de esos posibles problemas se denomina fuga de datos. – cuando los datos que está utilizando para entrenar un algoritmo de aprendizaje automático tienen la información que está tratando de predecir. No es deseable en muchos niveles, como una fuente de generalización deficiente y una sobreestimación del rendimiento esperado. La fuga de datos a menudo ocurre sutil e inadvertidamente y puede dar lugar a un sobreajuste.

Un texto líder en el campo llamado fuga de datos como uno de los diez errores principales de aprendizaje automático.

La fuga de datos puede manifestarse de muchas maneras, incluyendo:

  • Fugas de datos del conjunto de pruebas al conjunto de entrenamiento.
  • Filtrando la predicción correcta o la verdad fundamental en los datos de prueba.
  • Filtración de información del futuro al pasado.

Perder las cuotas de datos por manejo o manejo de datos incorrectos. Esto puede ser en forma de gotas en inyecciones o filtración o eliminación falsa.