¿Cuáles son las ventajas y desventajas de automatizar el proceso de limpieza de un conjunto de datos?

La ventaja es que está automatizado y, por lo tanto, no requiere su tiempo ni su pensamiento.

La desventaja es que está automatizado y, por lo tanto, no requiere su tiempo o pensamiento.

No, no solo me contradije.

En general, no debe automatizar la limpieza de datos. Esto se debe a que, no importa cuán bueno sea su esquema de automatización, perderá algunas cosas. Por ejemplo, recuerdo una encuesta en la que era analista de datos. Me impresionó mucho que las personas que realizaban las entrevistas hicieran notas sobre respuestas extrañas. Bueno, una pregunta fue “altura” y una respuesta fue “3′6” y el entrevistador escribió “¡Sí! 3′6 “. Ella es una enana, ¿de acuerdo?

O para otro ejemplo, quizás apócrifo, el censo informó una vez que había 2,000 viudas de 12 años en los Estados Unidos. Hmm ¿Cómo automatizarías encontrar eso?

El buen análisis de datos requiere pensamiento . También lo hace una buena limpieza de datos.

Por otro lado, si tiene datos sobre 500 preguntas para 10,000,000 de personas, es posible que deba automatizar simplemente porque no tiene tiempo. ¡Pero no vengas a llorar cuando me digas que hay 2,000 viudas de 12 años!

Bueno, siempre he querido que esto suceda. Una biblioteca o algoritmo donde simplemente ingresaría mis datos y el resultado será un conjunto de datos limpio. No más espacios en blanco, no más valores atípicos insignificantes, no más observaciones locas o feeds equivocados o lo que sea.

Esto parece genial, pero es un poco difícil. Y la dificultad no es una estafa. El proceso, como pensaba, eliminaría los valores atípicos y los espacios en blanco sin importancia; a veces estas anormalidades pueden ser una muy buena pista para la representación de datos, por ejemplo, en un conjunto de datos de Alumni Donation, el que ha donado la mayor cantidad entre todos sería eliminado del conjunto de datos como atípico, mientras que en realidad esa persona debería centrarse en El primer lugar en los próximos dossieres o bailes de caridad.

Esto significa que, el proceso en sí mismo debe ser lo suficientemente inteligente, no solo para limpiar los campos de datos de las variables del conjunto de datos, sino que debe tener una comprensión profunda del valor de cada variable para la pregunta dada en la mano para hacer el análisis de datos. Esto ahora lo que yo llamaría una tarea difícil es.

Si puede desarrollarse un algoritmo inteligente, que registre los errores en su proceso de limpieza y los mejore, en teoría, no veo ningún inconveniente como tal.

Pro:

  • Repetible
  • Reutilizable si se hace bien
  • Programable mientras que también se puede usar en streaming.
  • Validable
  • CD / CI compatible
  • Proceso de lanzamiento compatible
  • Interportable
  • Multitud sourcable
  • Enmascaramiento de datos fácil de manejar y disputas de datos PII.

Estafa:

  • Hora de madurar
  • Hora de conseguir estabilidad
  • ¡Disciplina!
  • Necesita confiar y colaborar con colegas e ingenieros de ingeniería.
  • Tiempo para adaptar nuevos patrones de datos encontrados
  • Fácil de culpar o disponer de la responsabilidad de la calidad de los datos.
  • Batalla constante si los datos no están estructurados / son demasiado anchos / formato o si varían demasiado
  • No permite que la gente de Ds / ML sea arrogante 🙂

Para agregar a las otras respuestas, creo que limpiar un conjunto de datos puede distraer rápidamente el trabajo ocupado o el afeitado de yak, como a algunos les gusta llamarlo. Automatizar este proceso de la manera óptima podría llevar más tiempo del que vale.