En mi opinión, ser estadístico es un gran comienzo para convertirse en un científico de datos. Sin embargo, ser un científico de datos es como ser un estadístico que trabaja en una gran cantidad de datos, por lo tanto, la necesidad de escalabilidad es mayor.
Aquí hay algunas áreas para trabajar:
- Algoritmo de complejidad y optimización, mientras que no importa en el conjunto de datos pequeños que tiene cuando tiene cientos de millones de filas
- Los lenguajes industriales, aunque R es excelente para la creación de prototipos, no es adecuado para tareas. Aprender Python, Java y C ++ puede ser una excelente manera de escalar. Además de esto, estos idiomas ofrecen soporte de GPU con CUDA y excelentes bibliotecas.
- Aprender cómo trabajar y cómo solicitar en arquitectura distribuida (como Hadoop) es imprescindible. Le permitirá solicitar de manera eficiente una gran cantidad de datos.
- También es importante poder hacer front-end para presentar sus resultados (como con R Shiny). Tratará con personas con pocos o pocos antecedentes estadísticos, presentando su resultado de una manera clara, visual e interactiva determinará cómo se percibe su proyecto.
- Finalmente, y lo más importante, deberá comprender el negocio. ¿Cómo va a crear valor con los datos? ¿Lo que estoy haciendo es procesable? ¿Se usará?
- ¿Puedo salvar la vida de las personas con Data Science?
- ¿Cuáles son algunos buenos libros / documentos sobre aprendizaje kernelized, en general y especialmente con SVM?
- ¿Cómo funciona el Big Data cuando faltan datos?
- ¿Es la ciencia de datos una sólida trayectoria profesional o simplemente otro rol sensacional que desaparecerá después de unos años de prominencia?
- ¿Menos marcas en IA afectarán mis posibilidades de admisión a un curso de maestría en ciencias de datos en una universidad estadounidense de renombre?