¿Es el big data y la ciencia de datos una amenaza para los estadísticos profesionales?

OMI sí, hasta cierto punto. Big data implica métodos analíticos que requieren más habilidades de programación en lugar de las viejas y buenas “estadísticas de tamaño de muestra bajo y mediano”. Big Data también lucha contra diferentes enemigos: problemas de memoria y velocidad de cómputo en algoritmos en tiempo real en lugar de pruebas de poca potencia, supuestos violados, valores atípicos, diseños desequilibrados (¿y qué suma de cuadrados deberías usar en este caso en particular?) muestra…

La inferencia estadística clásica no tiene sentido en millones de registros. Modelado, por supuesto, pero dado que no hay inferencia, no hay problemas con supuestos, correcciones (por ejemplo, error tipo I), hipótesis a priori, análisis de potencia, etc. Se vuelve más y más descriptivo a medida que te acercas más y más a la población. OK, con una excepción: pronosticar la serie temporal.

Pero las cosas no se ponen tan mal porque:

  • la ciencia de datos no se trata solo de explorar grandes conjuntos de datos y crear tablas dinámicas para su gerente 🙂 La econometría y el pronóstico, por ejemplo, aún requieren habilidades estadísticas, por lo que puede capacitarse en los problemas típicos de modelado. La intuición de su estadístico será útil allí.
  • Todavía hay áreas en las que los “datos pequeños” son la realidad cotidiana, por ejemplo, la evaluación de la calidad en el desarrollo de medicamentos o la medicina basada en la evidencia, incluida la investigación clínica. 200 sujetos? ¡Eres afortunado! Su vida es tan fácil en comparación con la mía con 40 observaciones y una pila completa de análisis solicitados … 🙂
  • para jugar con seguridad con big data, algunos antecedentes estadísticos siguen siendo útiles. Alguien tiene que enseñarle a los analistas de big data los conceptos básicos. Quizás no sea el teorema de Radon-Nikodym, pero aún así … 🙂

Hace aproximadamente dos siglos, cuando el campo de la termodinámica estaba creciendo, había una pelea entre la física y la ingeniería mecánica. Ambos progresaron y prosperaron. Fue un esfuerzo simbiótico.

Ahora, cuando los campos de Data Science y Big Data están creciendo, existe una disputa entre las estadísticas y la informática. Ambos están progresando y prosperando. Es un esfuerzo simbiótico.

¿Una amenaza para los estadísticos? No.

¿Una herramienta para estadísticos? – Si

La ciencia de datos no es más que la capacidad de practicar estadísticas sobre conjuntos de datos que no teníamos la capacidad de capturar antes.

Un científico de datos necesita saber ambos: programación de computadoras y estadísticas. Además, la mayoría de los equipos de ciencia de datos generalmente tienen al menos un estadístico de carrera.

Digo que no realmente, aunque el big data y la ciencia de datos pueden alterar ligeramente los conjuntos de habilidades que necesitan. Big data es algo así como una solución que todavía busca un problema y sin una comprensión adecuada de las estadísticas y la probabilidad crea más problemas de los que resuelve. La ciencia de datos es un término más general que incluye descubrimiento de información, ingeniería de datos que requiere la comprensión de estadísticas y probabilidad, visualización y desarrollo de algoritmos. En cuanto a un conjunto de habilidades cambiantes. Cuando me gradué de la universidad, los analistas de negocios solían ser contadores, personas de finanzas o abogados que aún no habían aprobado. Ahora, muchos son programadores fallidos.

No, no es una amenaza. Estas son herramientas que los estadísticos pueden usar para mejorar las estadísticas. Los estadísticos utilizarán estadísticas sobre grandes cantidades de datos al igual que solían usar estadísticas sobre pequeñas cantidades de datos. Los algoritmos avanzados de aprendizaje automático son todos creados por matemáticos y estadísticos. Los programadores pueden escribir el código para que las masas puedan utilizar los algoritmos, pero las estadísticas y los estadísticos son quienes los desarrollan. Los estadísticos utilizarán las nuevas herramientas para hacer más de lo que pudieron antes.

More Interesting

¿Quién es elegible para el entrenamiento Hadoop de Big Data?

¿Cuál es la diferencia entre buscar puestos de aprendizaje automático y ciencia de datos?

Desde la licenciatura en biología molecular hasta el aprendizaje automático de Python, ¿cómo y qué lo inspiró a emprender el camino hacia la ciencia de datos?

¿Qué es la evidencia anecdótica en la ciencia? ¿Cómo se usa?

Estoy planeando aprender la herramienta de visualización de datos, ¿cuál debería considerar tableau, Qlik view, Power BI?

¿Quién proporciona la mejor certificación de ciencia de datos que puedo llevar junto con mi trabajo?

Si necesito aprender ciencia de datos, ¿qué puedo aprender en el primer paso o de la A a la Z?

¿Cómo cambiará el mercado laboral de la ciencia de datos en los próximos diez años?

¿Cuál es la importancia del big data?

¿Es necesario implementar algoritmos principales de aprendizaje automático desde cero al menos una vez para obtener una pasantía en ciencia de datos en una empresa prestigiosa?

¿Cuáles son los inconvenientes de Mongo DB? ¿Es bueno comenzar una carrera con la ciencia de datos?

¿Existen nuevas empresas de almacenamiento de datos en Pune / Mumbai?

¿Cuál es un buen método para encontrar series de tiempo crecientes o caracterizar la pendiente de una serie de tiempo?

¿Cuáles son los modelos de confianza utilizados en la seguridad de big data?

Como analista de negocios de TI, ¿cómo pasar de un fondo de depósito de datos a análisis de datos y proyectos de inteligencia empresarial?