¿Cuál es la proporción de creatividad vs trabajo de rutina en ciencia de datos?

En primer lugar, la gran mayoría del tiempo dedicado a la ciencia de datos consiste en enmarcar el desafío o problema comercial como un problema de datos más objetivo y obtener y transformar los datos requeridos.

Enmarcar el problema: el problema generalmente siempre es nuevo; por ejemplo, una semana puede tener una gran participación del cliente en su aplicación, la siguiente puede estar perdiendo clientes, pero en la mayoría de los casos tiene demasiados datos y no está seguro de dónde Mira. Pensar en varios escenarios posibles para diagnosticar el problema requiere creatividad

Extracción de los datos y limpieza: una vez que haya identificado algunas hipótesis que desea probar. Probarlos requiere encontrar los datos y limpiarlos para conectarlos a varios modelos y análisis para extraer información. Si bien las filas de datos a menudo cambian, el esquema de datos no cambia con tanta frecuencia, por lo que este proceso a menudo puede ser muy monótono y rutinario. En particular, le gustará ejecutar las mismas transformaciones de datos una y otra vez, y debido a que probablemente esté reutilizando varios modelos que haya creado antes o que haya encontrado en línea, las transformaciones de datos deberán estar en formatos que requieren los modelos utilizados anteriormente. Aunque es posible que pueda automatizar algo de esto, debido a que las fuentes de datos para cada experimento cambian, esto todavía requiere un trabajo manual por parte del científico de datos.

Selección y prueba del modelo : durante la selección del modelo, nuevamente necesitará algo de creatividad para interpretar los resultados de cada modelo. Dado que los resultados del modelo a menudo no son deterministas y tienen muchas variaciones, el análisis requiere una mente ágil y curiosa para profundizar en la raíz central del problema y encontrar una solución.

Espero que esto ayude 🙂

More Interesting

¿Cómo podemos usar el aprendizaje automático y la ciencia de datos para tener un impacto significativo en el campo agrícola en la India?

¿Qué debe estudiar una persona de aprendizaje automático: visión artificial o ciencia de datos?

¿Soy solo yo, o es 'ciencia de datos' el peor nombre para un campo?

¿Cuál es la correlación entre PNL, IA, aprendizaje automático, big data y ciencia de datos? ¿Existe una jerarquía o algo en común entre estos? ¿Cómo se relacionan estos problemas con el mundo real?

¿Vale la pena hacer un curso de PGP en ciencia de datos de la escuela de negocios Aegis?

Si todos mis estudiantes por debajo del promedio alcanzaron el promedio de la clase, ¿cuál será el aumento porcentual en el promedio de la clase?

¿Cómo puede un negocio crecer usando Big Data?

¿Que competencia de kaggle debería elegir?

¿Qué significa exactamente la ingeniería de características en el foro de Kaggle?

¿Cómo se relaciona el aprendizaje automático con la ciencia de datos?

¿Cómo deben usarse los grandes datos?

¿Cómo mejorar mis habilidades de depuración en el aprendizaje automático? A menudo me resulta difícil entender por qué un modelo se comporta de cierta manera. ¿Cómo depuran rápidamente los grandes científicos de datos?

¿Cuánto más complejo es el desarrollo de IA en comparación con el desarrollo de aplicaciones móviles sociales?

¿Qué significa "casi todas las herramientas de software estadístico disponibles para los científicos alientan el modelado paramétrico y, por lo tanto, el diseño de experimentos basados ​​en suposiciones sobre la distribución de datos que están equivocados"?

¿Puedo usar el agrupamiento (técnicas de minería de datos) para la detección de cuentas falsas en las redes sociales?