¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real? La tecnología cambia la vida futura

Tomé la versión en vivo de CS109 en el otoño de 2013 y actualmente soy un científico de datos.

Todavía creo que CS 109 es una de las mejores maneras de aprender las herramientas y la mentalidad de un científico de datos (y lo recomendaría a cualquier científico de datos aspiracional). Uso python, pandas, ipython notebook y matplotlib casi todos los días en el trabajo. Sin embargo, hay algunas diferencias clave que quiero aclarar.

Como soy evaluado

En los conjuntos de problemas CS109 , soy evaluado en mi proceso: cuántos errores cometo y qué tan bien puedo seguir las instrucciones. Todos los que prueban el juego se aseguran de enviar algún tipo de respuesta válida, por lo que la mayoría de las personas terminan perdiendo puntos al olvidarse de etiquetar sus ejes, sin seguir instrucciones u olvidarse de responder una parte de la pregunta.

Esto es útil para ayudar a los estudiantes a usar nuestras herramientas correctamente, adoptar las mejores prácticas, aprender la sintaxis y aprender el proceso de la ciencia de datos. El desafortunado efecto secundario de esta forma de evaluación es que los estudiantes se frustran al perder puntos por razones “tontas” y optimizan en exceso su proceso para asegurarse de que siguen todas las instrucciones en el punto. Desafortunadamente, esto puede distraer a los estudiantes del verdadero propósito de los conjuntos de problemas: aprender y generar ideas.

Como científico de datos , soy evaluado en función de mi impacto: los conocimientos que genero, cómo los comunico y qué tan bien pueden ayudar a impulsar las decisiones en la empresa. Es mi responsabilidad asegurarme de que mi proceso sea limpio y bien entendido. El principal producto de mi trabajo no es el proceso sino las ideas. Mi tiempo se gasta mejor no “perfeccionando” mi proceso, sino refinando mis ideas. No existe una respuesta correcta predefinida para ninguna tarea de análisis como científico de datos, solo tengo que pasar mi tiempo para encontrar la mejor respuesta.

Cómo se proporcionan los conjuntos de datos

En los conjuntos de problemas CS109, los datos generalmente se le proporcionan en forma de un CSV limpio y conveniente (o, a veces, tiene que rasparlo o extraerlo de una API).

En ciencia de datos, la mayor parte de mi tiempo lo dedico a obtener los datos y limpiarlos. Hay mucha sabiduría en la sanidad al verificar sus columnas, escribir consultas SQL para obtener la métrica exacta que necesita y hacer gráficos para ver qué datos extrajo exactamente.

Tipos de conjuntos de datos que puedes analizar

Los conjuntos de datos que puede analizar en CS109 son conjuntos de datos de ciencia de datos comunes, públicos y fácilmente recuperables (elecciones, béisbol, restaurantes, MNIST, iris, coautoría de facturas, películas, etc.). No todos me interesarán, y los tipos de análisis que puedo hacer sobre ellos se han hecho muchas veces antes.

Los conjuntos de datos que puede analizar como científico de datos son los conjuntos de datos patentados que produce su empresa (¡y con suerte los conjuntos de datos que le interesan!). Por lo general, extrae información específica de conjuntos de datos que nadie más en el mundo ha descubierto antes.

El conocimiento del dominio es muy útil aquí, ya que su conocimiento del producto de su empresa y su experiencia previa en el análisis de los conjuntos de datos de su empresa pueden brindarle una capacidad adicional de intuición y formulación de hipótesis.

El tamaño de su conjunto de datos.

Los conjuntos de datos que puede analizar en CS109 generalmente están bien contenidos en un archivo CSV estático.

Los conjuntos de datos que puedo analizar en Quora están en continuo crecimiento, y puedo usar TODOS ellos, no solo una tabla.

En resumen

Hay mucho en ciencia de datos que solo puedes aprender de estar en ciencia de datos. Esto incluye las herramientas patentadas o de propiedad que su equipo ha desarrollado / comprado, y obtener acceso a la infraestructura de datos que se ha creado para ayudar a mejorar todas las etapas de la tubería.

Vea una respuesta relacionada en ¿Qué tan similares son las competencias de Kaggle con lo que hacen los científicos de datos?