¿Los estadísticos viven en la tierra de la teoría, los aprendices de máquinas crean las soluciones prácticas y los científicos de datos son los que se ensucian las manos? Por supuesto, hay quienes viven en más de uno de estos mundos.

Stephen Senn bromeó

Un estadístico teórico sabe todo acerca de la teoría de la medida, pero nunca ha visto una medición, mientras que el uso real de la teoría de la medida por parte del estadístico aplicado es un conjunto de medida cero.

Afortunadamente, en Estadísticas no solo hay un amplio espectro desde la teoría hasta la aplicación, sino que también hay un punto óptimo en el medio: la metodología . Mejor aún, los estadísticos a menudo tienen mucha libertad en las proporciones de su tiempo para gastar en teoría, métodos y aplicaciones, y muchos estadísticos disfrutan haciendo una combinación de estos. De hecho, cualquier buen programa de estadísticas debería dar al menos algunos antecedentes en teoría, métodos y aplicaciones.

El aprendizaje automático también tiene un amplio espectro desde la teoría hasta las aplicaciones.

La ciencia de datos , por definición, requiere datos , y esos datos deberían ser de interés para alguna aplicación (¡aunque la teoría y los métodos siguen siendo extremadamente importantes!). La ciencia de datos debe ser “problema hacia adelante, no solución hacia atrás”; vea la gran publicación de blog de Jeff Leek Qué deberían hacer las estadísticas sobre big data: problema hacia adelante, no solución hacia atrás.

La ciencia de datos sin datos sería absurda, como Hamlet sin Hamlet de Jára Cimrman (un intento hilarante de producir Hamlet sin tener que interpretar a un actor en el papel de Hamlet). Así es como sería Hamlet sin Hamlet , citado de The Stand-In: una obra completa traducida por Andrew Roberts

Reina : malas noticias, rey! Hamlet se fue y se escondió de nosotros otra vez.

Rey : una pena. Quería preguntarle justo ahora: ¿cómo es que las nubes aún cuelgan de ti? Pero, como siempre, me contestaba: no es así, mi señor. Estoy demasiado al sol.

Reina : Sí, así es como él. ¿Sabes lo que le habría dicho? Hubiera dicho: Good Hamlet, desecha tu color de la noche y deja que tu ojo se vea como un amigo en Dinamarca. No busques siempre con tus párpados velados a tu noble padre en el polvo que sabes que es común; Todo lo que vive debe morir.

Rey : Eso es correcto. ¿Y sabes lo que te diría?

Reina : no.

Rey : Diría: Ay, señora, es común.

Mi aspecto favorito de la estadística, el aprendizaje automático y la ciencia de datos es cuando el pensamiento matemático, computacional y científico se une para ayudarnos a aprender de los datos.

No, es todo lo contrario, en realidad.

Los estadísticos producen resultados útiles y procesables que las empresas, el gobierno, los medios de comunicación, los deportes y el público en general utilizan constantemente.

Mientras que el aprendizaje automático produce resultados ridículos en muchos casos y efectos nocivos en otros casos. Los resultados van desde los bots de Quora trastornados hasta diagnósticos médicos que son completamente inexactos. Ver resumen ejecutivo.

La ciencia de datos / big data es un nombre inapropiado en el mejor de los casos y completamente inútil en el peor. Los grandes datos simplemente requieren un mayor almacenamiento que el año pasado (BFD).

La ciencia de datos es estadística en grandes conjuntos de datos; son estadísticas sobre los esteroides. Debido a la gran escala, puede encontrar todo lo que desee en un conjunto de datos si lo mira con la suficiente atención.

Por ejemplo, Big Data afirma que pueden hacer predicciones meteorológicas, cuando en realidad es un hecho matemáticamente comprobado que el clima es un sistema complejo con propiedades emergentes y, por lo tanto, impredecible. Solo puede predecir promediando entre modelos.

Los estadísticos teóricos viven en tierra teórica. También lo hacen las personas que se especializan en la teoría del aprendizaje automático y, en unos años más, probablemente habrá una teoría de la ciencia de datos (si no la hay).

Los estadísticos aplicados se ensucian las manos, al igual que los especialistas en aprendizaje automático aplicado y la mayoría de los científicos de datos.

Y los seis grupos mejor crean soluciones o están haciendo girar sus ruedas.

Definitivamente no. Como estadístico, una parte considerable de mi tiempo lo paso entendiendo las necesidades del negocio y desarrollando soluciones que requieren una combinación de teoría estadística, conocimiento de aprendizaje automático y habilidades de nivel de producción. Cumplir solo con la teoría no me ha ayudado y nunca me ayudará a satisfacer a los consumidores de mi trabajo.

ATA Esto parece más una declaración que una pregunta. Pero si es una pregunta, diría que la respuesta es no.

More Interesting

¿Qué se considerará más respetable, un puesto de ingeniería de ciencia de datos en IBM Watson o Google?

¿Cuáles son las perspectivas para el análisis de big data en India?

Estoy interesado en obtener un título de licenciatura en línea post-bac de la Oregon State University en Data Science. ¿Sería una responsabilidad obtener un título en línea?

¿Sería mejor tomar un curso de análisis de datos? ¿Hay mejores oportunidades para un nuevo análisis en India como analista de datos?

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático?

¿Se reemplazará la econometría por la ciencia de datos?

¿Es bueno aprender que la analítica de datos es más fresca cuando no tengo idea de la analítica de datos?

¿Qué datos debo tener en cuenta al comparar el crecimiento de los países?

¿Cuán vital será la ciencia de datos en los próximos diez años?

¿Puedo solicitar puestos de trabajo en Data Science si he aprendido el campo con MOOC?

¿Se automatizará el análisis de datos y el análisis empresarial teniendo en cuenta el aumento de la inteligencia artificial?

¿Cuáles son las desventajas de hacer una investigación utilizando datos de registros de salud electrónicos anónimos?

¿Existen buenos MOOC sobre inferencia causal, análisis de series temporales y diseño experimental?

¿Debo ir para el desarrollo de Android o la ciencia de datos o la programación de Python o el aprendizaje automático?

¿Cuáles son los sectores de big data?