Este tipo de pregunta se está volviendo cada vez más molesto. Alguien preguntó hace un tiempo “¿Las computadoras reemplazarán a los matemáticos”. La respuesta plana, simple e imparcial es un no fascinante y sorprendente.
Como introducción, la “ciencia” de datos no es ciencia. ¿Qué mide científicamente, qué estudia? ¿Los tipos de datos / información que podemos tener? Esa es la teoría de la información. ¿Las técnicas para manejar datos computacionalmente? Eso es ingeniería de software. ¿Las formas de inferir sobre las mediciones? Eso es estadística. Esta “ciencia” de datos es lo que habría hecho un secretario / contador hace 20-30 años, sin una computadora. Ya sea que esté estudiando datos de carpetas grandes o de archivos de Excel, el principio es el mismo. No entiendo cuán vergonzoso debe ser el trabajo de la ciencia de datos para que algunos lo llamen ciencia por la fuerza (e ignorantemente). ¿Por qué no llamarlo ingeniería de datos, gestión, análisis de datos (lo que realmente es)? ¿Por qué elegir la palabra ciencia? Los analistas de datos no llevan a cabo investigaciones académicas, no estudian preguntas fundamentales sobre los datos, simplemente hacen algunos trabajos de minería o realizan algunas regresiones. Hasta ahora, nada diferente de las estadísticas.
Como expansión, ¿qué estudian estos supuestos científicos? Pueden codificar una red neuronal simple, claro. ¿Pueden explicar por qué y cómo eligen los diferentes algoritmos de entrenamiento? No ¿Pueden encontrar formas de aproximar los resultados utilizando datos faltantes? No, a menos que el programa ya esté escrito para ellos. ¿Pueden hacer procedimientos más allá de los simples algoritmos de estadísticas de libros de cocina? Todavía no lo he visto. Los datos son una palabra tan ambigua como la información de hecho. ¿Qué tipo de datos analizan? Resolver y = a * x + b es una cosa, el reconocimiento de imágenes es otra.
- ¿Cómo juegan un papel los datos y el análisis en el negocio de un cliente?
- ¿Cuál es la diferencia entre datos transaccionales y datos analíticos?
- Cómo usar Python para ciencia de datos
- ¿Cuáles son las ventajas y desventajas de automatizar el proceso de limpieza de un conjunto de datos?
- ¿Qué opinas de Numerai?
Por último, realmente no parece saber lo que hacen los estadísticos. Primero, pueden escribir código y ejecutar programas igual de bien. En segundo lugar, estudian el diseño experimental y la optimización en un grado mucho mayor que cualquier otra persona. Saben muchas matemáticas (MUCHO). Tienen un conocimiento profundo de probabilidad y estadística. Un estadístico (suponiendo que sea bueno) puede hacer el análisis que un científico de datos puede hacer en un instante, comprende cómo funcionan los modelos, por qué tenemos que obedecer los supuestos de la prueba de estadísticas, por qué los algoritmos funcionan de la manera en que lo hacen. También puede expandir los campos de matemáticas / estadísticas, puede trabajar con equipos científicos y, en general, hacer bastante. No fue el científico de datos quien ideó los SEM para psicometría, no fueron los científicos de datos quienes introdujeron el NHST como parte obligatoria de la investigación.
El hecho de que algo haya sido una moda durante un par de años no significa que vaya a reemplazar a la profesión X.