¿Les resulta fácil a los físicos trabajar como científicos de datos?

En mi experiencia, no. Tanto mi investigación en física como mi trabajo como científico de datos han sido desafiantes a su manera. Vale la pena señalar desde el principio que esto es algo bueno: ninguno de estos trabajos sería tan gratificante si no fueran un desafío.

Por contexto, hice un doctorado. en teoría de la materia condensada de 2008-2013 y luego se unió a Quora como científico de datos en agosto de 2013. Las personas con diferentes antecedentes en física y personas que ingresaron a diferentes tipos de roles de ciencia de datos podrían tener experiencias muy diferentes.

Estas son solo algunas de las formas en que mi trabajo como científico de datos en general ha sido más difícil :

  • Cantidad y ritmo de los proyectos: como científico de datos, normalmente hay muchos más proyectos que necesito hacer en paralelo. El ritmo de trabajo en consecuencia tiende a ser mucho más rápido. Esto presenta desafíos para priorizar los proyectos de manera adecuada, estimar el tiempo que requerirán y lograr que se realicen con relativa rapidez dentro de los plazos estimados.
  • Trabajando como parte de un equipo más grande: como estudiante de posgrado en física, escribí muchas simulaciones numéricas, pero personalmente las construí desde cero y las mantuve en gran medida por mi cuenta. En mi función de ciencia de datos, mi trabajo está muy enredado con el trabajo que se desarrolla en la empresa. Necesito pensar más cuidadosamente sobre cómo encaja mi trabajo como una pieza del rompecabezas que mantiene a Quora trabajando bien y creciendo. Esto significa que necesito ser mucho más consciente de lo que otras personas están haciendo y sincronizarme con ellos regularmente para asegurar que nuestras contribuciones individuales se unan en un todo beneficioso.
  • Infraestructura de datos: en mi experiencia, incluso los físicos con orientación numérica a menudo no necesitan profundizar demasiado en la infraestructura de sus herramientas computacionales. Cuando me uní a Quora, ciertamente tuve poca exposición a este lado de las cosas. Contamos con impresionantes ingenieros de infraestructura de datos en la empresa (h / t Yingji Zhang (张 迎 跻), Andrey Kurochkin, Jianfeng Hu (胡建丰)), pero los científicos de datos también deben conocer el backend y ayudar a mejorarlo. Acelerar en esta área puede requerir mucho aprendizaje en el trabajo para alguien con mi experiencia, y siento que todavía tengo mucho que aprender.

Por otro lado, estas son algunas de las formas en que siento que mi trabajo en física fue más difícil:

  • Profundidad de los proyectos: este es el otro lado del punto “cantidad y ritmo de los proyectos” anterior. El proyecto típico en investigación básica ofrece la oportunidad de explorar un problema difícil con más profundidad y, de hecho, exige ese nivel de profundidad para hacer una contribución significativa. Como punto relacionado, la investigación básica también puede exigir mucha “resistencia”. Puede trabajar durante largos períodos de tiempo en un proyecto con poco progreso o recompensa por sus esfuerzos.
  • Originalidad: Ciertamente, hay un lugar para la originalidad en la ciencia de datos, y muchos de los principales avances en el campo están impulsados ​​por ella. Sin embargo, no todas las tareas lo requieren: a menudo, hacer algo relativamente rutinario es más valioso para mantener a la empresa en movimiento. En la investigación de física básica, un cierto nivel de originalidad es un requisito previo para que su trabajo sea interesante, y la originalidad en la identificación de problemas y metodologías es difícil.
  • Defiende tu trabajo: como científico de datos, tus colegas definitivamente deberían mirar tu trabajo con un ojo escéptico y hacerte preguntas difíciles, pero creo que es menos frecuente que necesite presentar mi trabajo a un público en general poco comprensivo. Hay más de eso en la investigación básica, cuando llevas tu trabajo en el camino para presentarlo en conferencias / universidades y cuando envías tus documentos para una revisión por pares. Todavía hay suficiente camaradería dentro de los subcampos que las cosas suelen ser respetuosas, pero es bastante común tener que defender su trabajo frente a grupos competidores.

Una nota final: a menudo siento que si hubiera superado los desafíos de algo como mi rol actual de ciencia de datos antes de comenzar mi doctorado, habría incrementado significativamente mi productividad en la investigación.


Editar: en la sección de comentarios, el usuario de Quora me pidió que explicara los puntos “Trabajar como parte de un equipo más grande” y “Infraestructura de datos”. Luego me recomendó agregar mi comentario a la respuesta. Lo estoy copiando a continuación:

Trabajando como parte de un equipo más grande

Creo que uno de los desafíos más interesantes en esta área es la gestión de proyectos. Cuando estaba en la escuela de posgrado, sabía cómo tomar un gran problema y descomponerlo en otros más pequeños que pudiera abordar individualmente. A veces podría trabajar en varios de estos problemas más pequeños simultáneamente, pero a menudo, los abordaba secuencialmente.

En mi puesto actual, no soy un administrador de proyectos (en mayúsculas), pero he tenido la oportunidad de hacer algo de gestión para proyectos de datos. Al hacerlo, necesito pensar en cómo tomar un gran problema y descomponerlo en otros más pequeños en los que todo un equipo pueda ejecutar. A menudo, para que el proyecto se realice en un plazo razonable, las subtareas deben ser paralelas siempre que sea posible. Esto presenta desafíos para encontrar una división razonable del proyecto principal en subtareas paralelizables, hacer coincidir esas subtareas con las personas del equipo y luego ayudar al equipo a ejecutar las tareas. Ha sido muy instructivo trabajar en proyectos gestionados por personas que son excepcionales en este tipo de cosas, y espero estar absorbiendo algunas de sus habilidades con el tiempo.

Otro desafío en esta área que no debe pasarse por alto es la calidad del código. En mi investigación de física, debido a que era el único que mantenía mis simulaciones, podía permitirme ser más arrogante con la forma en que programaba. Hoy en día, gran parte de lo que escribo tendrá que ser mantenido o extendido por otros, por lo que necesito pensar más profundamente sobre cómo codificar de una manera que se optimice para su reutilización y desarrollo posterior. Esto me ha obligado a ser un mejor codificador.

Infraestructura de datos

Cuando todos los datos que analicé eran datos que yo mismo generé en simulaciones relativamente simples, había muchas menos formas de que las cosas salieran mal.

Por otro lado, en mi primer año en Quora, una de mis principales responsabilidades era la integridad de los datos (es decir, asegurarme de que nuestros datos estén limpios y sean correctos). Este es un componente muy importante de muchos roles de la ciencia de datos porque hay muchas maneras en que los datos web se vuelven confusos. Fue un desafío investigar el origen de los problemas de datos, razonar sobre qué partes de nuestra tubería de datos estaban afectando estos problemas, purgar las bases de datos / tableros relevantes de datos incorrectos cuando sea apropiado y, con el tiempo, ayudar a implementar sistemas que podrían evitar que ocurran errores similares en primer lugar.

¡En mi propio caso, diría que ! Investigué en astrofísica durante varios años y apliqué muchas de las mismas técnicas de aprendizaje automático que uso ahora, pero en conjuntos de datos astrofísicos. He descubierto que el conocimiento de dominio requerido para hacer ciencia de datos para problemas comerciales es mucho más simple que el conocimiento científico que utilicé con la astrofísica. También descubrí que las muchas técnicas de visualización de datos que utilizo anteriormente eran muy relevantes para mi trabajo como científico de datos.

More Interesting

¿Cuál es la diferencia entre MongoDB y big data?

¿Qué libro de ciencia de datos / blog-artículo / texto debería leer cada profesional de ciencia de datos para tener una mejor comprensión del tema?

¿Cuáles son las mejores escuelas para programas de ciencia de datos?

¿Puedo trabajar como contratista / consultor independiente en el campo de la ciencia de datos?

¿Cómo se manejan los datos faltantes en un gran conjunto de datos con características ordinales?

Usando datos y experiencia, estadísticamente, ¿cuál de ellos es más preciso y por qué?

¿Cuál es la mejor opción para las ciencias de datos: IPython o R?

¿Qué son los tipos de datos abstractos?

¿Es posible comprimir una gran cantidad de datos no redundantes, por ejemplo 1000 GB a 100 KB, sin perder ningún dato?

¿Es una buena idea pasar a Big Data (Hadoop)? Tengo más de 11 años de experiencia en .NET y C ++.

¿Cómo describiría la diferencia entre la gestión de información / datos y el análisis de datos?

¿Están sobrevaloradas las estimaciones de la escasez de científicos de datos? La inversión en herramientas y productos de big data está en aumento, al igual que los institutos que ofrecen títulos en Big Data / Data Science. ¿La inversión y el desarrollo de infraestructura significarán una disminución en el empleo?

¿Cómo se transfiere una persona trabajadora a tiempo completo a la ciencia de datos?

¿Es la ciencia de datos el fin de las estadísticas?

¿Cuáles son las buenas universidades / colegios para MS en análisis / análisis de negocios / análisis de datos / ciencia en los Estados Unidos?