Definir Limpio:
Si simplemente está cargando un conjunto de datos, entonces es el tiempo de carga asociado.
Recodificación: si se trata de variables de discretización o factorización, diría que uno o dos minutos para cada variable suponiendo un número razonable de casos.
- Cómo cambiar de carrera de soporte a tecnología de big data
- ¿Por qué no se puede usar el porcentaje (%) para la normalización de datos en estadísticas?
- ¿Qué se necesita para que los datos sean espaciales?
- ¿Qué MOOC, proyecto en línea o curso relacionado con big data \ Hadoop debería agregar a mi currículum como una habilidad adicional, como analista de datos (en ciencia de datos)?
- ¿Cuál es el historial de la base de datos?
Remodelación: según la habilidad que tenga con dplyr y el hadleyverse, los datos se pueden reformar o reagrupar con bastante rapidez. Si está escribiendo uniones más complejas o no está familiarizado con ciertos procedimientos, puede llevar más tiempo.
Estructuración : los dos ejemplos anteriores suponen que ya está trabajando con datos rectangulares limpios. Si está trabajando con datos sin procesar, la ingeniería de características y la determinación de la forma adecuada de nuestros datos puede llevar aún más tiempo.
En resumen, estas son preguntas complejas que requieren una cuidadosa reflexión. Están supeditados a una serie de parámetros, que incluyen qué tan dispuesto está a perder datos y hacer compromisos en el camino.