Para un estadístico, ¿qué áreas necesitan mejorar para convertirse en un buen científico de datos?

En mi opinión, ser estadístico es un gran comienzo para convertirse en un científico de datos. Sin embargo, ser un científico de datos es como ser un estadístico que trabaja en una gran cantidad de datos, por lo tanto, la necesidad de escalabilidad es mayor.

Aquí hay algunas áreas para trabajar:

Algoritmo de complejidad y optimización, mientras que no importa en el conjunto de datos pequeños que tiene cuando tiene cientos de millones de filas
Los lenguajes industriales, aunque R es excelente para la creación de prototipos, no es adecuado para tareas. Aprender Python, Java y C ++ puede ser una excelente manera de escalar. Además de esto, estos idiomas ofrecen soporte de GPU con CUDA y excelentes bibliotecas.
Aprender cómo trabajar y cómo solicitar en arquitectura distribuida (como Hadoop) es imprescindible. Le permitirá solicitar de manera eficiente una gran cantidad de datos.
También es importante poder hacer front-end para presentar sus resultados (como con R Shiny). Tratará con personas con pocos o pocos antecedentes estadísticos, presentando su resultado de una manera clara, visual e interactiva determinará cómo se percibe su proyecto.
Finalmente, y lo más importante, deberá comprender el negocio. ¿Cómo va a crear valor con los datos? ¿Lo que estoy haciendo es procesable? ¿Se usará?

Ciencia de datosEmpleos y carreras en Ciencia de datosOrientación laboral

Cómo manejar grandes datos

¿Debería haber siempre más datos de entrenamiento que datos de prueba? ¿Por qué?

¿Cuál es la diferencia entre el modelo predictivo y una regla comercial descriptiva?

¿Son DataFrames el futuro de Spark?

¿Cómo nos afecta el campo cuántico?

¿Cuál es la diferencia entre el curso de MSc Business Analytics y MSc Data Science en UCL? ¿Cuál es más adecuado para convertirse en un científico de datos?

Asegúrate de que tu Macbook tenga pegatinas. No olvide las gafas sin receta y el vello facial.

Con toda seriedad, venir de un fondo de estadísticas es el fondo más ventajoso que uno podría tener. Tiene una gran plataforma para comprender el núcleo del aprendizaje automático y el análisis de datos.

En términos de mejora, estudiaría el lado computacional de big data. Es importante tener en cuenta el rendimiento y la complejidad de los algoritmos al trabajar con datos de gran tamaño. Además, recomendaría crear y romper programas para mejorar su código. Un científico de datos completo es alguien que entiende las matemáticas aplicadas, las estadísticas, el conocimiento del dominio y la codificación.

Antoine Guillot

Básicamente, estás ahí, diría que ya que puedes programar en al menos 1 lenguaje y usar SQL, estás en camino de convertirte en un científico de datos. Te aconsejo que continúes mejorando tu habilidad. Trabajo para una empresa que ejecuta un campamento de ciencia de datos que le brindará la experiencia comercial para ayudarlo a hacer la transición. También tenemos un repositorio de buenos cursos / tutoriales / blogs para ayudarlo a seguir mejorando. Simplemente regístrese con nosotros, vaya a la sección de recursos y explore las áreas que le interesan. Si necesita ayuda, contáctenos.

Drew Rice

More Interesting

¿Qué datos debo tener en cuenta al comparar el crecimiento de los países?

Dada la opción entre probar el Residency Match o hacer un curso de 2 años en ciencia de datos, ¿cuál preferirías?

MATLAB: ¿Cómo puedo convertir un código para habilitar el procesamiento de bloques con FFT, IFFT y FFT shift para que funcione para big data?

¿A cuál de los cinco paradigmas del aprendizaje automático pertenece la agrupación?

¿Qué se debe saber para tener éxito en la ciencia de datos?

Cómo manejar unos 8 millones de tweets (17 GB) para un paso de preprocesamiento

¿Cuál es la mejor práctica para el preprocesamiento de datos antes de un modelo de aprendizaje automático?

Cómo mejorar mi capacidad para resolver problemas de probabilidad

¿Los teléfonos Apple consumen más datos?

¿Vale la pena hacer ciencia de datos en una certificación R de DataCamp?