¿En qué orden deben realizarse estas operaciones de ciencia de datos: munging, limpieza, escalado, transformaciones y modelado?

Aunque algunos seguirán un camino constante, la respuesta es siempre frustrante: “depende”.

La mezcla de datos suele ser el primer paso, ya que necesita convertir sus datos en un formato que pueda analizarse a través de la tubería por la que desea ejecutarlos. Munging y limpieza son generalmente términos intercambiables. Aquí está la advertencia: la mezcla de datos a menudo es un proceso iterativo, se limpian los datos, se analizan, se aíslan los valores atípicos, se retrocede y se repite.

Cuando habla de transformaciones (de las cuales la escala es una), esta es una preferencia personal. Efectivamente, está haciendo que los datos se sientan “correctos”, lo que significa que los está moviendo a una métrica personal que cree que es una mejor manera de expresar los datos. Al hacer que los datos se correspondan con una distribución normal, se encuentran entre los valores de cero a cien, y así sucesivamente. Depende y no siempre se necesita.

No diré que el modelado es el paso final, pero es un paso. Idealmente, expondrá su modelo a datos que no ha visto antes para ver si su modelo es lo suficientemente robusto como para proporcionar la información adecuada. Si no es así, hay más operaciones de limpieza para realizar en los datos.

¡El que no pusiste en tu lista que definitivamente debería estar allí es una prueba! Siempre debe probar todas sus suposiciones, cuando se trata de cada paso del camino. Incluso simplemente escribiendo lo que espera y lo que será motivo de investigación. Otro es definir la pregunta, ¿es este un problema de regresión o un problema de clasificación? Estas dos preguntas también ayudarán a que su análisis sea mucho más fácil.

More Interesting

¿Qué motivó la minería de datos?

¿Cómo resuelven los problemas los científicos de datos? ¿Cuál es el marco del proceso de pensamiento para enmarcar un problema y trabajar en la solución?

¿Cómo realizan los científicos de datos la selección del modelo? Al abordar, por ejemplo, un problema de clasificación, ¿cómo eligen los científicos de datos entre regresión logística, SVM, KNN, árboles de decisión, redes neuronales, etc.? ¿Es diferente para Kaggle?

¿Cuál es la mejor tecnología para procesar big data además de Hadoop y Spark?

¿Qué diferencia a una solución típica de Kaggle en algún lugar en el medio del paquete frente a alguien en, digamos, el 5-10% superior?

¿Cuáles son las principales aplicaciones (de la vida real) de la minería de datos y la ciencia de datos utilizadas en el mundo práctico de hoy?

¿Cómo funciona la pestaña Instagram Explore?

¿Debo ir al curso Coursera o Simplilearn for Data Science?

Big data es utilizado por los científicos de datos. ¿Quién traduce esta información para que la gerencia mejore o desarrolle estrategias de gestión y operaciones?

¿Cuál es exactamente el concepto de big data?

¿Es importante un curso de diseño y análisis de algoritmos para una carrera en análisis de datos?

En un iPhone, ¿Siri es CASE en Interestelar? ¿Cuál es el origen de Siri?

¿Cómo manejaría e investigaría típicamente los valores atípicos en un conjunto de datos?

¿Cuáles son algunos trabajos de big data en los Estados Unidos?

¿Qué significa el término 'tablero' aplicado a la ciencia de datos, particularmente a los datos del cliente?