¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

TL; DR Sí, para seguir siendo relevante.

Mis amigos Jessy Hwang y Keli Liu le preguntaron esto a Xiao-Li Meng, ex presidente del Departamento de Estadística de Harvard y actual decano de la Escuela de Graduados de Artes y Ciencias de Harvard. En resumen, dijo:

  • Se siente incómodo porque las estadísticas se quedan fuera cuando la gente habla sobre ciencia de datos.
  • Le preocupa que los practicantes de ciencias de datos / ML se burlen de las estadísticas de la misma manera que los estadísticos se burlan de los matemáticos.
  • Señala el destino divertido de que las estadísticas son un spin-off más aplicable de las matemáticas, pero ahora es el turno de ML / data science para ser un spin-off más aplicable de las estadísticas.
  • Como los estadísticos han ayudado a reorientar las matemáticas para que sean más relevantes, él cree que la ciencia de ML / datos reorientará las estadísticas para que sean más relevantes.
  • Admite que las estadísticas deben adaptarse para seguir siendo relevantes, sin embargo, quiere preservar el “panorama general de las estadísticas”: varios conceptos clave que incluyen el condicionamiento, el equilibrio de sesgo-varianza, etc.

(He hecho todo lo posible para representar con precisión lo que dijo. Si hubo alguna mala interpretación, ¡la culpa es mía!)

Aquí está su respuesta completa del artículo (el énfasis es mío):

¿Crees que las estadísticas necesitan un cambio de marca, en respuesta a la ciencia de datos y el aprendizaje automático?

No me he convencido de ninguna manera. Recientemente me pidieron que me uniera a un equipo de personas que escribían un artículo argumentando que necesitamos contratar a más personas en ciencia de datos. Finalmente me sentí incómodo al decir que necesitamos ciencia de datos sin mencionar las estadísticas. Había informáticos y científicos de la información en este equipo, pero ninguno de ellos discutía por sus campos; Todos estaban discutiendo por la ciencia de datos. Eso me hizo hacer una pausa, porque estaba más preocupado por las estadísticas.

Tal vez hay una imagen más amplia para la que todos debemos unirnos, pero si lo hacemos, ¿qué pasará con las estadísticas? Tengo dos pensamientos, una preocupación egoísta y una noble preocupación. Mi preocupación egoísta es preservar mi identidad como estadístico. Mi preocupación más noble es, ¿estamos perdiendo el pensamiento estadístico? ¿Los conceptos como el condicionamiento, que consideramos tan fundamental, van a ser marginados? Sin juego de palabras. Entiendo por qué algunos filósofos se agitan, porque la filosofía solía ser todo, pero ahora escuchas a algunas personas decir: “Oh, aquí hay un filósofo, no trabajan en nada real”. También hay un paralelo histórico: una forma de pensar sobre el aprendizaje automático y la ciencia de datos es que son spin-offs de estadísticas.

Pero nosotros mismos somos un spin-off de las matemáticas. Todos hablaban de ciencias matemáticas, pero un pequeño grupo se hacía llamar estadísticos, y crecieron y crecieron hasta convertirse en nosotros. Los matemáticos deben pensar: “Estas personas nunca hacen matemáticas serias y rigurosas”. Pero también escuchan a los estadísticos decir que los matemáticos no se ocupan de problemas de la vida real y que tenemos las respuestas porque tenemos todos estos principios estadísticos. Lo que me preocupa es, ¿dicen los científicos de datos: “Estos estadísticos, colgados de estos modelos rigurosos, no entienden los cálculos y las complicaciones de la vida real”?

Esta historia muestra que necesitamos adaptarnos al nuevo entorno de datos de manera proactiva, pero ¿podemos convertir esto en una transformación que conserve la información? Mi formación matemática me hace darme cuenta de que la parte de las matemáticas que no funciona para nosotros es una parte tan pequeña. Un estadístico nunca debe decir: “Las matemáticas no se ocupan de problemas reales, así que cerremos el departamento de matemáticas”. Eso sería completamente incorrecto. Lo que hemos hecho es reorientar las matemáticas hacia construcciones y suposiciones prácticamente relevantes, manteniendo al mismo tiempo el pensamiento lógico. ¿Cómo continuamos pensando en el panorama general de las estadísticas, como el equilibrio de la variación de sesgo, la minimización de la pérdida de información, el condicionamiento, la elección de las réplicas correctas, mientras se renuevan las partes de estadísticas inapropiadas para las aplicaciones modernas?

Fuente: http://icsa.org/bulletin/issues/…

Como científico de datos y ex especialista en estadísticas, diré que al menos una de las preocupaciones de Xiao-Li está completamente fundada. Desafortunadamente, los estadísticos se burlan ocasionalmente, exactamente de la misma manera que él imaginó: “Estos estadísticos, colgados de estos modelos rigurosos, no entienden los cálculos y las complicaciones de la vida real”.

Otras lecturas:

  • ¿Cuál es la diferencia entre ciencia de datos y estadística?
  • ¿Cuál es la diferencia entre estadística y aprendizaje automático?
  • ¿Cuál es la relación entre estadísticos y científicos de datos? (Resumo otra de las respuestas de Xiao-Li)

Las estadísticas tienen problemas que van mucho más allá de la marca. Hace poco asistí a una charla de un s̶t̶a̶t̶i̶s̶t̶i̶c̶i̶a̶n̶ científico de datos que se renombró exactamente de esa manera en su primera diapositiva, alegando que los estadísticos fueron percibidos como personas que principalmente “se enojan por los intervalos de confianza”.

Los estadísticos tienen una reputación bien merecida por centrarse en temas que a nadie le importan, por alentar la aplicación ritual de nuestros métodos y por ser comunicadores terribles:

¿Quiere saber si es probable que el medicamento sea efectivo, según sus datos? Lo siento, no puede usar la palabra “probable” de esa manera, y aunque no puedo responder a su pregunta, puedo decir que bajo la hipótesis nula de cero efecto del tratamiento, los datos observados serían altamente improbables a ser observado. Por lo tanto, debe rechazarse, al nivel de significancia del 5%.

Yo mismo no estoy demasiado apegado a la marca “Estadísticas” y estoy feliz de trabajar para hacer que los datos sean útiles bajo alguna otra rúbrica. Me ha encantado trabajar con informáticos, sociólogos, físicos, investigadores de operaciones, economistas, lingüistas, matemáticos, psicólogos, ingenieros eléctricos e incluso otros estadísticos que, como yo, quieren usar bien los datos. Algunas de estas colaboraciones ocurrieron antes de que el término “ciencia de datos” se pusiera de moda, y algunas después.

Por otro lado, creo que los estadísticos tienen algunas perspectivas útiles que no han captado tanto en otros sectores. Algunos ejemplos:

  • El hábito de pensar en modelos subyacentes a los datos . En muchos conjuntos de datos reales, los registros ni siquiera son independientes. Los valores pueden estar censurados o truncados o faltar de forma no aleatoria. Los datos a menudo se muestrean en formas sesgadas que deben tenerse en cuenta. En estas situaciones, la predicción de recuadro negro no será suficiente; en realidad, debe pensar qué significan las cosas. Los estadísticos entienden esto; No estoy seguro de que otros científicos de datos hagan tanto.
  • Recopilación de datos de manera eficiente . Los estadísticos han pensado mucho más en los métodos de muestreo de encuestas y el diseño experimental que la mayoría de los demás.
  • Escepticismo apropiado sobre la “narración de cuentos”. Los estadísticos saben que si revisa los datos encontrará algo. Se necesita disciplina para no hacer esto de una manera perniciosa, y no creo que los científicos de datos de otros orígenes también lo hayan internalizado.
  • Conciencia de las trampas de un análisis aparentemente simple . La paradoja de Simpson no es solo una barra lateral en un libro de texto, surge una y otra vez en el mundo real. Los estadísticos a menudo son mordidos por eso, pero al menos saben lo que los muerde.

Para volver a la pregunta original: no creo que las estadísticas necesiten un cambio de marca. Pero entonces, siento poca necesidad de preservar las estadísticas de capital-S como campo. Espero que los científicos de datos del futuro (como se llamen entonces, probablemente otra cosa) continúen haciendo uso de las valiosas ideas, técnicas y actitudes que los estadísticos han contribuido.

La respuesta de William Chen es excelente, y estoy ampliamente de acuerdo con Xiao-Li. En un nivel más personal, me he vuelto cada vez más reacio a identificarme como estadístico en entornos profesionales desde que abandoné la academia. Las habilidades estadísticas se valoran constantemente en mi experiencia, pero identificarse como un estadístico en lugar de un científico de datos o un ingeniero de ML puede conducir a la encasillamiento. La suposición predeterminada puede ser que su trabajo está lejos de los detalles esenciales de los datos del mundo real o que carece de las habilidades de ingeniería para trabajar con sistemas a gran escala. Encuentro el primero algo ridículo, mientras que el segundo es comprensible dado el estado del campo. Con suerte, las estadísticas se adaptarán como lo discutió Xiao-Li. Hasta entonces, aquellos de nosotros que trabajamos en la industria tendremos que hacer nuestros propios cálculos sobre el cambio de marca.

Independientemente de cómo lo logre, las estadísticas deben ser recapturadas o mejor enseñadas en primer lugar. Los científicos usan estadísticas todo el tiempo. La mayoría de ellos no tienen formación en la disciplina y, en la mayoría de los casos, llegan a conclusiones erróneas en muchos campos críticos de la ciencia debido a la grave aplicación incorrecta de los métodos estadísticos. Sí, escribí “la mayoría de las veces” y me refiero a ciertos campos. Los científicos en las ciencias más blandas (como las ciencias de la salud y gran parte de la biología), diablos, incluso los ingenieros que se supone que son más cuantitativos, apenas saben qué es una distribución gaussiana o cómo hacer una prueba t; y, sin embargo, allí están produciendo trabajos publicados que influyen en las decisiones políticas importantes. También están trabajando en agencias gubernamentales que producen estas políticas … y así sucesivamente. La gente no puede hacer estadísticas y, sin embargo, confiamos en que estas personas influyan directa o indirectamente en las decisiones de mayor impacto global. Entonces, si necesita cambiar el nombre de las estadísticas, hágalo. Haz lo que sea necesario para que la gente realmente lo aprenda bien.

El aprendizaje automático no se basa solo en estadísticas.

Un buen ejemplo de esto es Deep Learning, que está más cerca de la física teórica de la materia condensada y no de la estadística. Está utilizando ideas sutiles como la teoría del grupo de renormalización y los embudos de giro
¿Por qué funciona el aprendizaje profundo?

Del mismo modo, el aprendizaje transductivo no es estadística. A menos que considere la optimización convexa avanzada y los métodos numéricos no convexos como el recocido simulado y la optimización cóncava convexa, una rama de las estadísticas
Relajaciones convexas del aprendizaje transductivo

Las estadísticas tradicionales ni siquiera responden una pregunta básica: ¿cuándo es una correlación una causalidad?
Causalidad versus correlación: causalidad de Granger

Si bien las estadísticas son útiles, simplemente no es lo mismo. Si se va a “renombrar”, entonces se debe mostrar cómo aborda problemas difíciles como el aprendizaje de características multiescala, el aprendizaje en sistemas altamente ruidosos y poco informativos, y la causalidad frente a la correlación.

Desde mi punto de vista como científico de datos, diría que la estadística juega un papel integral en casi todo lo que hago, junto con la informática, las diferentes áreas de las matemáticas y la teoría de la probabilidad. El campo de las estadísticas exige mucho respeto en mi comunidad. No creo que necesite ningún tipo de “cambio de marca” en absoluto. Eso es como preguntar si “Mathicas” necesita un cambio de marca.

Las estadísticas ya se renombran a sí mismas, lo llaman Data Scientist.

En el fondo no es más que ser un estadístico. D / S hace un poco más. También entran en el aprendizaje automático y la programación porque les gusta entrar en “Big Data”. Pero eso es solo una evolución de lo que los estadísticos solían hacer, pero ahora en la era de Internet.

No hay nada nuevo bajo el sol.

Data Science es el cambio de nombre de las estadísticas. También he escuchado Analytics.

More Interesting

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

¿Cuál es la ventaja de una red neuronal entrenable de extremo a extremo?

¿Por qué los diseñadores o los PM deben aprender sobre el aprendizaje automático?

Cómo expresar un modelo de árbol de decisión en modelos gráficos

¿Algunas funciones de activación son mejores que otras en la red neuronal artificial?

¿Cuál es la diferencia entre el clasificador Naive Bayes y la máquina Bayes Point?

Cómo automatizar la selección de características en un conjunto de datos que involucra muchos datos no numéricos

¿Es posible crear sistemas de recomendación combinando datos de Twitter / Facebook y datos de preferencia del cliente? Si es así, ¿con qué herramientas?

¿Cuál es / son los métodos para iniciar / elegir filtros en redes neuronales convolucionales?

Cómo aplicar mis conocimientos de aprendizaje automático para invertir en el mercado de valores indio

Cómo acceder a las funciones extraídas por OverFeat

¿El éxito de un algoritmo particular causa una lentitud de progreso en el desarrollo de mejores algoritmos?

¿Cuál es la diferencia entre datos etiquetados y datos no etiquetados?

¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

¿Existe una diferencia práctica y significativa entre los términos 'función objetivo' y 'función de pérdida' en el aprendizaje profundo?