¿Es la ciencia de datos el fin de las estadísticas?

Tengo que estar en desacuerdo con los otros carteles. Están respondiendo una pregunta diferente de la que se hizo, y sus respuestas abordan la cuestión de si la ciencia de datos DEBERÍA ser el final de las estadísticas. Dicen que no y estoy de acuerdo con ellos en ese segundo tema, pero la pregunta que se plantea es si significará el fin de las estadísticas.

Creo que ciertamente disminuirá el papel de las estadísticas. A medida que los programas de grado en Ciencias de datos se vuelven más numerosos, muchos estudiantes que pueden haber elegido programas de Estadística antes ahora se inscribirán en Ciencia de datos. Y muchos empleadores que tradicionalmente han contratado estadísticos ahora contratarán personas con títulos de CS o Data Science; eso ya está sucediendo, y sucederá cada vez más en el futuro.

Ciertamente no será “el fin” de las estadísticas. Las compañías farmacéuticas seguirán contratando estadísticos reales, los estudiantes de economía seguirán estudiando estadísticas reales, etc. Pero la ciencia de datos representa una amenaza absoluta para las estadísticas, y la Asociación Estadounidense de Estadística ha estado trabajando mucho en esto en los últimos años. Ver, por ejemplo, el editorial, ¿No somos ciencia de datos? Un clavo más en el ataúd del pensamiento creativo y cuidadoso a nivel mundial.

No no, …

En primer lugar, las estadísticas que son la base de este campo profesional mal adaptado no son una ciencia. Tampoco pensamos en las matemáticas como una ciencia (aunque quizás deberíamos ser debatidos). Entonces, ¿cómo puede algo construido sobre estos dos considerarse una ciencia?

Ahora, esta actividad aplicada contra datos obtenidos legítimamente (por ejemplo, derivados experimentalmente) o contra sensores cuya función es más que adecuada (por ejemplo, motores de verdad) estaría utilizando datos para apoyar la ciencia. ¿Habría algo en los datos en sí para estudiar fuera del dominio en el que se interpretarán los datos?

¿No es eso como contar el número de ángeles en una cabeza de alfiler? Venga.

¿Espere? Lo sé, el comercialismo burdo y el mal uso de Internet (creando así una nube muy turbia, sin maná allí), ha resultado en una cantidad impía de cosas. Pero, basura infinita, incluso filtrada por ángeles, sigue siendo basura.

En este sentido, la estadística es el esfuerzo a largo plazo (bueno, relativamente no tan) de la mente humana para extraer significado del desorden. Como tal, continuará. La computadora, hasta la fecha, se ha sumado al problema.

Y, la mera existencia de herramientas estadísticas (y otras) que permiten un fácil cowboy no nos lleva a ninguna ciencia.

Ahora, retrocediendo. Por supuesto, las etiquetas son necesarias para mantener el interés. Sin embargo, realmente necesitamos mirar más allá de la moda, incluso con la conciencia moderna de que las multitudes podrían tener sabiduría. En la historia, ¿nos muestra a dónde nos llevó eso a algún tipo de mejora de nuestras situaciones extremas?

Tomando el desorden de internet, realmente lo arruinamos (viejo hablando).

Pregunta relacionada: ¿Realmente necesita un científico de datos ?, Ciencia de datos: Como estudiante de doctorado en Estadística, ¿cómo puedo convencer a los empleadores de que puedo ser un buen científico de datos? ¿La ciencia de datos es demasiado fácil?

¿Qué? Es como preguntar si los monitores 4K son el fin de las computadoras. Las estadísticas están en el centro de la ciencia de datos, sin estadísticas, ¿cómo extraen conclusiones de los datos que adquieren?

La ciencia de datos sin estadísticas es como la formación de hielo sin torta.

Creo que lo que sucederá en los próximos años es que mucho de lo que se está haciendo ahora bajo el nombre de “ciencia de datos” será desastroso. Esto se debe a que mucho (de ninguna manera, pero mucho) de lo que se hace como “ciencia de datos” lo hacen personas que no tienen una buena o suficiente capacitación en estadísticas y análisis de datos. Muchos de ellos no se dan cuenta de ciertas verdades básicas como:

There are no routine statistical questions, only questionable statistical routines

David Cox

y

Si tortura los datos el tiempo suficiente, confesarán cualquier cosa

(varios atribuidos y probablemente dicho en diferentes formas por varios)

La ciencia de datos con demasiada frecuencia se basa en datos que ya se recopilaron (por alguna razón u otra) sin preocuparse por qué se recopiló, cómo se recopiló, cuándo se recopiló e incluso dónde se recopiló.

Una cita más:

Si tuviera seis horas para cortar un árbol, pasaría cuatro de ellos afilando mi hacha

Abraham Lincoln.

La respuesta directa a la pregunta es un “No”.

Las estadísticas son la base sobre la cual se construye cada algoritmo de ciencia de datos. Una analogía desde la perspectiva lingüística será como preguntar:
“¿Las oraciones señalan el final de las palabras / letras?”

Mis 2 centavos 🙂

No, todo lo contrario. Yo diría que Data Science es la validación de la necesidad de estadísticas.