La ciencia de datos es una colección de herramientas preferidas para resolver problemas, combinada con alfabetización numérica y la capacidad de un individuo para comprender un problema. Si bien las herramientas se pueden comercializar (y se han comercializado, ver R), y cada vez aparecen más personas con esta alfabetización numérica, quedarán muchas áreas importantes que son difíciles de comercializar, particularmente la capacidad de comprender un problema y sugerir características .
Primero, la ingeniería de características es una tarea importante de la mayoría de los científicos de datos en algún momento. Si bien muchos, muchos problemas de predicción podrían resolverse con regresión lineal o regresión logística (y las implementaciones de estos ya están comercializadas), la parte más importante del problema es generar el conjunto de características que alimentarán la regresión. Esto requerirá (1) comprender los matices del dominio del problema en cuestión; (2) comprender las limitaciones y la disponibilidad de datos; y (3) comprender las transformaciones y combinaciones de características que tienen sentido.
En segundo lugar, muchos estadísticos dedican gran parte de su tiempo a recopilar datos. La recopilación de estos datos requiere un código específico de dominio, y alguien (ya sea un ingeniero o un científico de datos) tendrá que escribir este código. Los estadísticos también dedican gran parte de su tiempo a los datos de verificación de la cordura. Esta es una parte importante de su responsabilidad, ya que los datos están mal la mayor parte del tiempo, y es importante arreglarlos o entender cómo están mal. Basura adentro = Basura afuera (o peor).
- Quiero ser un científico de datos. ¿Cómo entreno mi sensibilidad de datos?
- ¿Se puede utilizar la ciencia de datos para ayudar a tomar decisiones personales?
- Cómo analizar la intensidad de los datos de noticias
- ¿Qué instituto es el mejor para ciencia de datos, Jigsaw Academy, Ivy Professional School, EduPristine o AnalytixLabs?
- ¿Hay periodistas / revistas dedicados a la ciencia de datos, big data y aprendizaje profundo en India?
Por lo tanto, es poco probable que la ciencia de datos en sí misma se convierta en mercancía en el corto plazo. Dicho esto, es concebible que más ingenieros y gerentes de producto comiencen a aprender suficientes estadísticas para que una fracción mayor sepa cuándo aplicar la regresión básica a un problema, colocando a algunos de los estadísticos menos capacitados (es decir, aquellos que solo saben cómo usar R pero no mucho más) sin trabajo.