¿Qué piensan los estadísticos de la ciencia de datos?

Actualmente existe mucha incertidumbre sobre lo que constituye la ciencia de datos y cómo difiere de las formas de análisis más tradicionales. Por esta razón, diferentes estadísticos tendrán diferentes puntos de vista sobre el tema. Lo que puedo decir es que aquellos que piensan que la ciencia de datos es simplemente estadísticas renombradas actualmente no están trabajando en proyectos reales de ciencia de datos. Las preocupaciones de la ciencia de datos se extienden mucho más allá de las estadísticas tradicionales e involucran enfoques más basados ​​en datos para hacer predicciones y construir software. La dilución del término ciencia de datos es causada en gran medida por el bombo publicitario . Para obtener más detalles, consulte Ciencia de datos: propiedad del título.

Todo se trata del producto

Es importante darse cuenta de que el auge de la ciencia de datos nació de la convergencia de datos ampliamente disponibles y herramientas de aprendizaje automático de código abierto y accesibles. Esta combinación es lo que hace posible los productos de software de autoaprendizaje adaptativo. Este es un paso de la programación basada en reglas a un nuevo paradigma, donde el software se adapta a su entorno para convertirse en el producto que necesita ser. La ciencia de datos se trata de ser excelente en el aprendizaje automático, pero también de tener las habilidades para mapear esta tecnología a problemas empresariales del mundo real y trabajar con equipos de productos para crear una aplicación que vaya a producción. En ningún momento de la historia fue una preocupación de las estadísticas tradicionales o del aprendizaje automático académico.

2 culturas diferentes

El aprendizaje automático nació de una comunidad completamente diferente a la estadística. El famoso artículo de Leo Breiman que compara las preocupaciones de los estadísticos con los profesionales del aprendizaje automático hace un gran trabajo al mostrar cuán diferentes son estos campos. En el aprendizaje automático, el objetivo principal es la predicción , y todo lo demás debe seguir esta señal para el análisis de calidad. En estadística, la calidad no se trata de predicciones, sino más bien de la adhesión a las elecciones de diseño iniciales del experimento y los métodos de validación. En resumen, los profesionales del aprendizaje automático permiten que los datos guíen el enfoque, mientras que los estadísticos se guían por el diseño de su análisis. Lo primero es lo que lleva a la capacidad del Científico de Datos para crear aplicaciones que predicen y resuelven problemas complejos, por lo que el Científico de Datos confía en el aprendizaje automático como el campo principal. Se trata menos de hacer suposiciones ingenuas sobre el mejor enfoque (estadísticas tradicionales) y más acerca de dejar que los datos hablen de la mejor manera (aprendizaje automático). Para más detalles sobre el artículo de Leo Brieman, vea esta respuesta.

Un enfoque equilibrado

En Data Science vemos un cambio en la forma en que se aplican las estadísticas y el aprendizaje automático para crear excelentes productos. La predicción cruda de los datos de calidad es a menudo una mejor señal para resolver problemas reales que los supuestos de diseño pesado que tradicionalmente se han utilizado en estadísticas. Pero, apresurarse a ciegas, confiar absolutamente en la precisión sin hacer lo necesario para validar estadísticamente las predicciones es una receta para el desastre. Los productos de aprendizaje automático no son ejercicios de minería de datos, son software de producción que muchas personas implementan y utilizan. Las estadísticas son lo que garantiza que evaluamos el flujo de trabajo de aprendizaje automático correctamente y trabajamos hacia un flujo de datos de calidad de extremo a extremo que convierta efectivamente los datos sin procesar en salidas inteligentes.

Esto significa que las 2 culturas de estadística y aprendizaje automático deben unirse en Data Science; las estadísticas deben ser responsables de los objetivos predictivos del aprendizaje automático basado en datos, mientras que el aprendizaje automático debe mantenerse en línea con prácticas estadísticas sólidas.

Para los estadísticos que buscan ingresar al campo de la Ciencia de datos, prepárese para entregar aspectos de su enfoque a la máquina. Hay poco uso para las elecciones de diseño iniciales sobre cómo cree que se deben tratar los datos. En este mundo, la predicción es la única señal verdadera para tratar los datos correctamente. Para aquellos con antecedentes académicos de aprendizaje automático, prepárese para confiar en algo más que predicciones crudas para hacer un producto en el que las personas confíen en la producción. Deberá mostrar estadísticamente que los datos son representativos, muestreados correctamente y comprender las suposiciones que los algoritmos están haciendo sobre los datos.

Data Science es un campo nuevo porque ni las estadísticas ni el aprendizaje automático han tenido que crear los tipos de aplicaciones del mundo real que los científicos de datos ahora hacen para las empresas. Ambas culturas, cuando se llevan al extremo, depositarán su fe en ideas ingenuas nacidas de la academia, y no en el entorno del mundo real que actualmente exige un enfoque combinado.

Cuando la ciencia de datos se hace bien, es algo bueno. Pero con demasiada frecuencia, por lo que he visto, se hace mal y la razón más común por la que es malo es que la persona que realiza la ciencia de datos no conoce las estadísticas. O eso, o sus objetivos están equivocados.

Cuando hablo con personas en conferencias de estadísticas, muchos de ellos señalan cuán incompetentes son las grandes empresas en las estadísticas. Hablé con un tipo que trabaja para [una gran compañía de ropa deportiva] que dijo que les ahorró decenas de millones de dólares con un programa que solo tomó cien líneas de código y no usó “big data”. En otra [empresa realmente grande], ni siquiera estaban haciendo ningún análisis para sus presentaciones, estaban mirando tabla tras tabla de datos en bruto, tratando de discernir patrones. Oy vey

Dado eso, no es sorprendente que muchas empresas estén impresionadas con la ciencia de datos, incluso si no se hace bien: cualquier cosa sería una mejora. Pero la ciencia de datos sin estadísticas es como la formación de hielo sin pastel.

Creo que en los próximos años veremos una serie de fracasos espectaculares de la ciencia del “big data”. Espero que esto conduzca a una mayor integración de los estadísticos en el proceso, pero me temo que conducirá a más de “¿ven? ¡Les dijimos que eso estaba mal!”

Hay mucha variación. En parte, es porque hay una gran diferencia entre preguntar qué piensan los estadísticos del término “ciencia de datos” y preguntar qué piensan los estadísticos sobre el contenido y el trabajo que se designa como “ciencia de datos”, pero desafortunadamente a menudo se confunden.

Para algunas perspectivas de algunos estadísticos sobresalientes, vea
Dirección presidencial de IMS: déjanos poseer Data Science (Bin Yu)
Ciencia de datos: ¿el fin de las estadísticas? (Larry Wasserman)
Haciendo ciencia de datos: ¿de qué se trata? – Modelización estadística, inferencia causal y ciencias sociales (Andrew Gelman)
Ciencia de datos, Big Data y estadísticas: ¿podemos vivir todos juntos? (Terry Speed)
AMA: Michael I Jordan • / r / MachineLearning (Michael Jordan)

Es posible que, según los estadísticos, comencemos con los estadísticos académicos, y con esta declaración del respetado Andrew Gelman y Eric Loken.

La crisis estadística en la ciencia

Primero, sobre la prueba de hipótesis:

En general, podemos pensar en cuatro clases de procedimientos para la prueba de hipótesis:

(4) En general, se considera poco ético realizar una pesca directa, … Esto sería una cuestión de realizar pruebas J y luego informar el mejor resultado dados los datos …

Se necesitaría un investigador altamente inescrupuloso para realizar una prueba tras otra en una búsqueda de significación estadística (que casi con certeza podría encontrarse en el nivel 0.05 o incluso 0.01, dadas todas las opciones anteriores y las muchas más que serían posibles en un real estudiar).”

En segundo lugar, sobre la preparación de datos:

Dado un conjunto de datos en particular, puede parecer completamente apropiado mirar los datos y construir reglas razonables para la exclusión, codificación y análisis de datos que puedan conducir a una significación estadística.

En tal caso, los investigadores necesitan realizar solo una prueba, pero esa prueba está condicionada a los datos; …, con el mismo efecto que si hubieran pescado deliberadamente esos resultados.

Un investigador que se enfrenta a múltiples medidas razonables puede pensar, tal vez correctamente, que el que produce un resultado significativo es más probable que sea la medida menos ruidosa, pero luego decide, incorrectamente, hacer inferencias basadas solo en esa medida. En el ejemplo hipotético presentado anteriormente, encontrar una diferencia en el contexto sanitario podría tomarse como evidencia de que ese es el contexto más importante para explorar las diferencias “.

Pero, aunque muchas de las mismas herramientas se usan en la minería de datos, la perspectiva de la minería de datos es muy diferente. Como Daniel Larose y Chantal Larose escribieron en Data Mining Predictive Analytics (2a edición), página 161:

La metodología estadística y la metodología de minería de datos difieren de dos maneras:

La aplicación de la inferencia estadística utilizando los enormes tamaños de muestra encontrados en la minería de datos tiende a dar lugar a una significación estadística, incluso cuando los resultados no son significativos.

En metodología estadística, el analista de datos tiene en mente una hipótesis a priori. Los procedimientos de minería de datos por lo general no tienen una hipótesis a priori, sino que revisan libremente los datos para obtener resultados procesables ” [énfasis agregado]

Entonces, desde el punto de vista de muchos estadísticos, los mineros de datos son herejes, o tal vez la forma computarizada de la profesión más antigua del mundo.

En minería de datos (como con muchos trabajos analíticos reales realizados, incluso por académicos) el trolling es aceptado, no evitado. La gracia salvadora en esto es el uso de varias formas de validación cruzada, técnicas que fueron desarrolladas por estadísticos, pero menos enfatizadas allí (después de todo, es como Woody Hayes dijo sobre el pase hacia adelante: una vez que tiene p <.05, tres las cosas pueden suceder con la validación cruzada, y dos de ellas son malas).

Entonces, ambas partes usan muchas de las mismas herramientas, pero se usan de diferentes maneras, con diferentes objetivos y con diferentes formas de asegurar la calidad. [y, en ambos campos, hay mucho trabajo que es schlock].

Hay muchas áreas grises entre los sujetos.

Si define a un Científico de Datos, como alguien que aplica la ciencia a los datos, bueno, eso lo deja al método científico y los estadísticos son casi los padres de ese tipo de conclusiones.

Ahora, si desea separarse, los científicos de datos que se centran en gran medida en la inteligencia artificial (podrían estar más inclinados a la CS) y los que utilizan enfoques clásicos más frecuentes, entonces hablamos en términos diferentes.

El interior que cada uno de ellos podría obtener de los datos es muy diferente.

Veamos un ejemplo práctico:

Quiero explicar mis datos con un modelo lineal. Entonces, el CS-DS dice: “¡Ok, sigamos el enfoque de regularización y hagamos un modelo lineal con Elastic-Net, Ridge o Lasso para hacer ese modelo!”. Se ajusta al modelo, y eso es todo. Tiene un modelo que ajustó los datos sin sobreajustar (debido a la restricción de regularización).

Ahora, vayamos al clásico, dice: “Ok, primero hagamos una Prueba F Global para ver si hay una posible relación lineal en los datos”. Conduce la prueba, el valor p le da un rechazo de la hipótesis nula, lo que significa que no hay un modelo lineal allí.

¿Así que lo que sucede? ¿Alguno de ellos está equivocado? Probablemente no. Apostaré a que la sintonización de CV K-fold Hyper param de los coeficientes de regularización en el modelo ML es muy alta, lo que conduce a una significancia muy baja en el modelo, o incluso el AUC en una prueba fuera de muestra es muy malo. Entonces ambos parecen llegar a la misma conclusión.

“Podría haber una mala hipótesis para asumir una relación lineal”

Como puede ver, los datos son los que hablaron aquí, y si se llevan a cabo de una manera muy sólida, las conclusiones deberían ser las mismas. Ahora, si uno de ellos no está haciendo su trabajo correctamente, es culpa suya como profesional.

Caso ideal? Usted es un científico de datos que conoce la teoría clásica (frequentista y bayesiana), la codificación y la inteligencia artificial. ¡Pero como todo lleva tiempo desarrollarlo!

Nota adicional: Trabajo con un estadístico en mi equipo de ciencia de datos y ella es muy capaz de abordar ambas cosas, sin embargo, parece preparada, para pruebas de hipótesis que para enfoques de controlador de datos de ML puro.

La ciencia de datos tiene demasiados componentes. Algunos científicos de datos son buenos en ciertos componentes pero no en otros. Las estadísticas y las pruebas de hipótesis se minimizan. No siempre por falta de conocimiento, sino porque los datos elegidos no están realmente en una forma adecuada para ningún tipo de análisis real. Por lo tanto, es difícil determinar si los resultados (visualizaciones particulares) son correctos. “Percepción” puede significar cualquier cosa. Una gran cantidad de ciencia de datos parece orientada al lenguaje de marketing, proveedor o programación. Demasiado énfasis en las redes sociales, los motores de recomendación y la discusión insuficiente sobre los datos en sí y las relaciones entre ellos. Demasiada dependencia de los algoritmos.

Mi campo original eran las estadísticas. Realmente depende de lo que se esté haciendo (como lo han mencionado otros). Gran parte de la ciencia de los datos son aplicaciones deficientes de bosques aleatorios en un gran conjunto de datos sin tener en cuenta el problema o los matices en el análisis creado por el conjunto de datos (cómo se capturó, cómo se trataron los datos faltantes …). Cuando se hace bien, es increíble. Cuando no se hace bien, es difícil tomarlo en serio.

Dicho esto, incluso los métodos de análisis deficientes pueden ser una mejora con respecto a los métodos sin análisis en una empresa. Creo que en los próximos 5 años, veremos la necesidad de un proyecto de ciencia de datos cuidadosamente pensado si queremos continuar obteniendo ingresos de los proyectos de análisis. Esto implicará que la ciencia de datos sea realizada por aquellos que tienen un conocimiento profundo de las matemáticas / estadísticas, así como un conocimiento del funcionamiento interno del aprendizaje automático y los métodos de aprendizaje profundo. Esto es particularmente cierto para las empresas que no tienen billones de observaciones sobre las cuales entrenar sus modelos.

Un estadístico que trabaja en una empresa competitiva con aplicaciones para análisis cuantitativo, análisis estadístico o programación combinada con estadísticas ya realiza muchas partes de la ciencia de datos. Un estadístico en una agencia gubernamental tradicional, un bioestadístico en una compañía farmacéutica o una institución académica con menos lazos de empresa modernos y avanzados, considera que la ciencia de datos es progresiva, tal vez con un poco de escepticismo y menos respeto. Esto se desprende de unos pocos siglos de estadísticas, organización de personas e instituciones, y trabajos aceptables que aplican estadísticas y habilidades. El enfoque sensato de la ciencia de datos y las estadísticas los uniría, estrecharía la mano de conservadores y liberales por igual, con la agenda para desarrollar estadísticas con enfoques computacionales modernos. Las principales universidades de investigación con departamentos de estadísticas tradicionales y programas computacionales suficientemente buenos ya han desarrollado la ciencia de datos en su posición. Esto significa que universidades como Stanford, Yale, Harvard o similares ya reconocen el conocimiento y las habilidades requeridas de los empleados con la identificación de la ciencia de datos . Y han realizado ajustes para transferir la organización departamental y desarrollar la ciencia de datos para satisfacer la demanda del mercado y de la compañía, así como disposiciones para un departamento que pueda sostenerse por sí mismo.

Algunos puntos de vista que he encontrado de los estadísticos en el último año:

  • Estuve haciendo ciencia de datos hace 15 años porque probé una red neuronal en el pasado
  • Es “big data” porque estoy analizando una hoja de cálculo Excel de 6,000 filas
  • Un árbol de decisión es “inteligencia artificial”
  • ¿Por qué alguien necesitaría más de 32 GB de RAM?

En otras palabras, al menos desde mi experiencia, muchos estadísticos piensan que están haciendo ciencia de datos pero realmente no lo están haciendo.

Si les proporcionó un conjunto de datos que era, digamos, 1 millón de filas y contenía 5.000 características, se ahogarían y probablemente necesitarían meses para resolverlo.

Descargo de responsabilidad : Esto se basa en mi experiencia con los estadísticos. Por supuesto, hay excelentes estadísticos que hacen un trabajo fantástico.

La ciencia de datos nunca se ha definido rigurosamente. Nos guste o no, el término “científico de datos” está en curso de colisión para convertirse en el nuevo título para analista. He escuchado a ejecutivos senior alardear de que [de repente] tienen 250 científicos de datos. He visto compañías cambiar el nombre de sus analistas de negocios (por ejemplo, usuarios de Excel / SQL / Tableau) como el “equipo de ciencia de datos”. He visto a los estadísticos cambiar su título de currículum a “científico de datos” para que puedan exigir salarios un 25% más altos. He visto reclutadores ajetreados “científicos de datos” que tienen exactamente las mismas habilidades que los analistas de hace cinco años. He visto ofertas de trabajo para “científicos de datos” que son idénticos a los puestos de analista de hace solo unos meses.

¿Qué significa Data Science para ti?

Mucho se ha dicho sobre la ciencia de datos y su importancia en el mundo corporativo actual. En el mundo corporativo, casi todas las decisiones se toman en base a un análisis cuidadoso y científico de los datos. Los datos se han generado en petabytes y Exabyte a diario. Los datos solo van a crecer, eso también a un ritmo extremadamente rápido. Entonces, una cosa es segura de que Data Science no es una burbuja que explotará en algún momento, sino que irá mucho más avanzada y más rápida en los próximos días. En este artículo descubrirá qué son estos “datos” y qué es la “ciencia de datos” y qué significa para usted.

La ciencia de datos se puede definir como una combinación de varios métodos, procesos y sistemas científicos para extraer información de los grandes conjuntos de datos (que de otro modo estaría oculto). Desde el surgimiento de Internet, ha habido un aumento constante en el aumento de datos, y la introducción de plataformas de redes sociales como Facebook, Twitter, Instagram, etc., junto con los teléfonos inteligentes avanzados ha contribuido enormemente en la generación de datos. . Independientemente de lo que haga un individuo en las plataformas de redes sociales, comparta una publicación, publique un comentario, como un anuncio, e incluso una simple búsqueda se registra y agrega a la enorme cantidad de datos.

Todo está en línea hoy. De la lista de amigos de las personas, el comportamiento de compra, las imágenes, lo que les gusta y lo que no les gusta, su opinión sobre una cosa o tema en particular, etc. Todos estos detalles (datos) sobre las personas pueden analizarse científicamente y utilizarse para crear un mejor entorno en línea. Desde sugerir los libros, películas y videos que podrían gustarles, o sugerir un artículo que podría estar interesado en comprar.

Un ejemplo incluiría, Netflix, utiliza los datos de millones de usuarios con respecto a las películas y los programas que han visto, los actores que les gustan y el tipo de películas que les gustan. Después de ejecutar un algoritmo avanzado (parte de la ciencia de datos) en estos datos, vienen con la lista de películas o programas que un individuo estará más interesado en ver y comienzan a “sugerirles” estas películas.

Es posible que ya haya notado lo mismo en YouTube, cuando ve pocos videos en YouTube; comienza automáticamente sugiriéndote más videos según lo que viste. Esto puede parecer muy simple, pero hay algoritmos complejos que se ejecutan en segundo plano que lo hacen posible.

Los datos pueden haber recorrido un largo camino, pero la verdad es que apenas ha comenzado. Existe un enorme potencial en el campo de la ciencia de datos y campos relacionados como el aprendizaje automático y la inteligencia artificial. Si está interesado en saber más sobre ciencia de datos, no dude en escribir a [correo electrónico protegido]

La ciencia de datos es el componente industrial aplicado de las estadísticas. Si está familiarizado con la investigación y piratería de sistemas informáticos, son análogos a las estadísticas y la ciencia de datos, respectivamente. Tanto la piratería como la ciencia de datos se preocupan por hacer que los sistemas funcionen, escalarlos y ganar dinero con ellos. La investigación y las estadísticas de los sistemas informáticos académicos están relacionadas con los principios y las mejores prácticas que hacen que las cosas funcionen, y comprenden por qué y en qué condiciones pueden fallar.

Actualmente estoy definido profesionalmente como un “estadístico” pero me convertiré en un “científico de datos” en aproximadamente un mes cuando comience mi nuevo trabajo.

Según mi comprensión del nuevo trabajo, yo (el estadístico) creo que la ciencia de datos es estadística con un mayor enfoque en el aprendizaje automático y la informática. Sin embargo, espero (y espero) que una buena comprensión de las estadísticas clásicas sea muy importante (como se menciona en la respuesta de Peter Flom).

“Esas personas de CS están tomando nuestros trabajos”.

El sobreajuste reflexivo es el mayor problema.

Esto es tanto como el trabajo, por cierto.