Aunque algunos seguirán un camino constante, la respuesta es siempre frustrante: “depende”.
La mezcla de datos suele ser el primer paso, ya que necesita convertir sus datos en un formato que pueda analizarse a través de la tubería por la que desea ejecutarlos. Munging y limpieza son generalmente términos intercambiables. Aquí está la advertencia: la mezcla de datos a menudo es un proceso iterativo, se limpian los datos, se analizan, se aíslan los valores atípicos, se retrocede y se repite.
Cuando habla de transformaciones (de las cuales la escala es una), esta es una preferencia personal. Efectivamente, está haciendo que los datos se sientan “correctos”, lo que significa que los está moviendo a una métrica personal que cree que es una mejor manera de expresar los datos. Al hacer que los datos se correspondan con una distribución normal, se encuentran entre los valores de cero a cien, y así sucesivamente. Depende y no siempre se necesita.
- ¿Cuáles son las diferentes herramientas utilizadas en la industria financiera para el análisis de datos?
- ¿Qué calificaciones se requieren para un profesional de la ciencia de datos?
- ¿Cuánta experiencia en programación necesitaría para tomar el curso de especialización en ciencia de datos de Coursera?
- ¿Cuáles son los requisitos previos para los bootcamps de ciencia de datos?
- Cómo conectar un proyecto de ciencia de datos con un proyecto de aplicación Django
No diré que el modelado es el paso final, pero es un paso. Idealmente, expondrá su modelo a datos que no ha visto antes para ver si su modelo es lo suficientemente robusto como para proporcionar la información adecuada. Si no es así, hay más operaciones de limpieza para realizar en los datos.
¡El que no pusiste en tu lista que definitivamente debería estar allí es una prueba! Siempre debe probar todas sus suposiciones, cuando se trata de cada paso del camino. Incluso simplemente escribiendo lo que espera y lo que será motivo de investigación. Otro es definir la pregunta, ¿es este un problema de regresión o un problema de clasificación? Estas dos preguntas también ayudarán a que su análisis sea mucho más fácil.