¿Cuáles son los conceptos erróneos comunes sobre la ciencia de datos?

La idea errónea más dolorosa es la del Asistente – Big Data – Data Scientist. Tome el mapa bastante popular a continuación:

Además de ser muy malo para encontrar un nivel constante de granularidad, está lleno de cosas que son nicho y, por lo tanto, solo son relevantes para un conjunto específico de sectores / empresas. Incluso a nivel de seguimiento, contiene cosas que la mayoría de las personas que ingresan a la ciencia de datos nunca necesitarán:

  • Minería de texto: la mayoría de los datos para la mayoría de las empresas aún son datos estructurados.
  • Big Data: a la mayoría de las empresas les está yendo bien con su RDBMS ‘clásico’.
  • Caja de herramientas: lo más probable es que solo necesite 1 a 2 idiomas y, de nuevo, muchas empresas realmente no necesitan herramientas de Big Data (o NoSQL).

Algo similar es la visión de Data Science como una fusión de programador maestro con experto en ML de vanguardia. Nuevamente, habrá trabajos en los que necesitarás ser realmente un desarrollador de primer nivel y, para algunos otros, realmente necesitarás conocer los entresijos de lo último en tecnología. Pero ese es nuevamente un segmento muy pequeño del mercado.

La realidad es que la mayoría de las empresas preferirán implementaciones estándar, preferirán herramientas por encima de los lenguajes de programación y preferirán lenguajes de alto nivel con bibliotecas extensas sobre aquellas en las que necesitan gastar recursos para desarrollarlas ellos mismos.

Del mismo modo, hay un sesgo hacia buenos resultados mañana en lugar de mejores resultados en 3 meses. Y al final, de todos modos pasará la mayor parte de su tiempo en la limpieza de datos. 😉

Tenga en cuenta que con lo anterior, ciertamente no quiero dar a entender que es una mala idea aprender todas estas cosas. Es muy interesante, divertido y, por supuesto, te hará mejor en el trabajo. Pero al mismo tiempo, comprenda que simplemente no es justo pintarlos, ya que es necesario incluso ingresar al campo. 🙂

Que se refiere a algunas habilidades específicas. Como señala Michiel Van Herwegen , puede significar una de las muchas cosas, incluido el especialista en aprendizaje automático, ingeniero de datos, persona de minería de datos a gran escala, etc.

Que da la verdad. Los hallazgos que proporciona se basan en una muestra muy grande que es más probable que sea “correcta”, pero siempre existe la posibilidad de que pueda estar equivocada.