¿Los estadísticos están siendo reemplazados gradualmente y actualmente por científicos de datos?

Este tipo de pregunta se está volviendo cada vez más molesto. Alguien preguntó hace un tiempo “¿Las computadoras reemplazarán a los matemáticos”. La respuesta plana, simple e imparcial es un no fascinante y sorprendente.

Como introducción, la “ciencia” de datos no es ciencia. ¿Qué mide científicamente, qué estudia? ¿Los tipos de datos / información que podemos tener? Esa es la teoría de la información. ¿Las técnicas para manejar datos computacionalmente? Eso es ingeniería de software. ¿Las formas de inferir sobre las mediciones? Eso es estadística. Esta “ciencia” de datos es lo que habría hecho un secretario / contador hace 20-30 años, sin una computadora. Ya sea que esté estudiando datos de carpetas grandes o de archivos de Excel, el principio es el mismo. No entiendo cuán vergonzoso debe ser el trabajo de la ciencia de datos para que algunos lo llamen ciencia por la fuerza (e ignorantemente). ¿Por qué no llamarlo ingeniería de datos, gestión, análisis de datos (lo que realmente es)? ¿Por qué elegir la palabra ciencia? Los analistas de datos no llevan a cabo investigaciones académicas, no estudian preguntas fundamentales sobre los datos, simplemente hacen algunos trabajos de minería o realizan algunas regresiones. Hasta ahora, nada diferente de las estadísticas.

Como expansión, ¿qué estudian estos supuestos científicos? Pueden codificar una red neuronal simple, claro. ¿Pueden explicar por qué y cómo eligen los diferentes algoritmos de entrenamiento? No ¿Pueden encontrar formas de aproximar los resultados utilizando datos faltantes? No, a menos que el programa ya esté escrito para ellos. ¿Pueden hacer procedimientos más allá de los simples algoritmos de estadísticas de libros de cocina? Todavía no lo he visto. Los datos son una palabra tan ambigua como la información de hecho. ¿Qué tipo de datos analizan? Resolver y = a * x + b es una cosa, el reconocimiento de imágenes es otra.

Por último, realmente no parece saber lo que hacen los estadísticos. Primero, pueden escribir código y ejecutar programas igual de bien. En segundo lugar, estudian el diseño experimental y la optimización en un grado mucho mayor que cualquier otra persona. Saben muchas matemáticas (MUCHO). Tienen un conocimiento profundo de probabilidad y estadística. Un estadístico (suponiendo que sea bueno) puede hacer el análisis que un científico de datos puede hacer en un instante, comprende cómo funcionan los modelos, por qué tenemos que obedecer los supuestos de la prueba de estadísticas, por qué los algoritmos funcionan de la manera en que lo hacen. También puede expandir los campos de matemáticas / estadísticas, puede trabajar con equipos científicos y, en general, hacer bastante. No fue el científico de datos quien ideó los SEM para psicometría, no fueron los científicos de datos quienes introdujeron el NHST como parte obligatoria de la investigación.

El hecho de que algo haya sido una moda durante un par de años no significa que vaya a reemplazar a la profesión X.

No. Lo que sucedió es que surgieron nuevos problemas y nuevos tipos de datos, y surgió una nueva profesión para llenar el vacío. Los estadísticos continuarán haciendo las cosas que siempre han hecho y han sido buenos, los científicos de datos aplicarán sus herramientas a los nuevos problemas.

Una buena analogía es el aumento y el establecimiento de la bioinformática en las ciencias biológicas en los últimos 20 años más o menos. Se podría argumentar que los bioinformáticos han reemplazado a los estadísticos en biología, pero la realidad es que todavía se necesitan estadísticos para los trabajos que siempre han realizado (diseño y análisis experimental, epidemiología, etc.).

La bioinformática ha abordado problemas de datos que los estadísticos no han asumido porque no se ajustan a los paradigmas estadísticos existentes (demasiado complejo, demasiado difícil computacionalmente, etc.). Han creado soluciones útiles y se han establecido como miembros importantes del equipo junto con los estadísticos y los científicos de laboratorio húmedo.

Es evidente que existe cierta superposición y cierta tensión entre las estadísticas y la bioinformática. Las personas inteligentes en ambos campamentos intentan aprender lo que pueden el uno del otro.

De ningún modo. Los roles de los estadísticos son mucho más amplios en general.

Los científicos de datos formulan hipótesis, luego emprenden todo el trabajo para adquirir datos, limpiarlos, analizarlos y desarrollar algoritmos para ello. Este es un trabajo muy complejo y difícil, pero no es algo que hagan la mayoría de los estadísticos. Los científicos de datos idealmente son buenos en programación, buenos en conceptos de negocios, buenos en aprendizaje automático, buenos en análisis, buenos en presentación, buenos en matemáticas. Los estadísticos, por el contrario, suelen asesorar sobre los análisis o realizarlos, pero no necesitan ese amplio conjunto de habilidades.

¿Cuál es la diferencia entre un científico de datos y un estadístico?

Comparación de trabajos: científico de datos vs ingeniero de datos vs estadístico

Científico de datos vs Estadístico