La ventaja es que está automatizado y, por lo tanto, no requiere su tiempo ni su pensamiento.
La desventaja es que está automatizado y, por lo tanto, no requiere su tiempo o pensamiento.
No, no solo me contradije.
- ¿Qué tan útil es Matlab, para Kaggle, en comparación con R y Python?
- ¿Cuál es la plataforma gratuita de big data que puede admitir la transmisión de datos en tiempo real?
- Cómo agrupar la bandera de un conjunto de datos
- ¿Cuáles son los errores más comunes que cometen los nuevos científicos de datos?
- ¿Cuáles son algunos materiales de lectura de calidad para la ciencia de datos?
En general, no debe automatizar la limpieza de datos. Esto se debe a que, no importa cuán bueno sea su esquema de automatización, perderá algunas cosas. Por ejemplo, recuerdo una encuesta en la que era analista de datos. Me impresionó mucho que las personas que realizaban las entrevistas hicieran notas sobre respuestas extrañas. Bueno, una pregunta fue “altura” y una respuesta fue “3′6” y el entrevistador escribió “¡Sí! 3′6 “. Ella es una enana, ¿de acuerdo?
O para otro ejemplo, quizás apócrifo, el censo informó una vez que había 2,000 viudas de 12 años en los Estados Unidos. Hmm ¿Cómo automatizarías encontrar eso?
El buen análisis de datos requiere pensamiento . También lo hace una buena limpieza de datos.
Por otro lado, si tiene datos sobre 500 preguntas para 10,000,000 de personas, es posible que deba automatizar simplemente porque no tiene tiempo. ¡Pero no vengas a llorar cuando me digas que hay 2,000 viudas de 12 años!