¿La ciencia de datos necesita estadísticas?

Respuesta corta: SI . Respuesta larga: ¡El consenso general engañoso en la industria es NO !

Aquí es por qué:

En la industria, especialmente para fines de implementación (aquellos con EM y calificación inferior), las personas generalmente quieren personas que puedan codificar e implementar los algoritmos de aprendizaje automático. Para eso, su mayor énfasis está en alguien que conoce una codificación decente y un poco de algos ml tradicionales. Y esto es sobre todo lo que las personas que no son doctoras terminan haciendo la mayor parte de su tiempo. Solo las principales empresas que contratan buenos doctorados les obligan a investigar sobre ml algos. Entonces, la concepción engañosa en la industria es que solo se necesita conocer Coursera o el conocimiento del nivel de aprendizaje automático en línea con muy buenas habilidades de codificación y ella es científica de datos.

Pero aquí está la parte de captura. La mayoría de ellos nunca pensó que aprender Estadística podría ser útil para comprender ml. Después de todo, para ejecutar una máquina de vectores de soporte, terminas escribiendo tres líneas de código en python scikit-learn. Pero a menos que aprenda estadísticas, nunca entendería cómo y dónde es útil en ciencia de datos y especialmente en aprendizaje automático si alguna vez quiere ser un científico de datos genuino y bueno.

Déjame decirte por qué:

Mito La teoría de distribución de probabilidad y los principios de estimación son inútiles para la ciencia de datos

La mayoría de las personas que nunca se han molestado en estudiar la teoría de distribución estadística, piensan que el aprendizaje automático no requiere el uso de la teoría de distribución. No pueden estar más equivocados. Si no comprende cuál es el principio de Estimación de máxima verosimilitud, entonces realmente no ha entendido ni siquiera el ml básico algo como la regresión logística. ¿Qué te hizo pensar que la Estimación de máxima verosimilitud y otras no son del todo útiles? Si no comprende MLE, ¿podría entender algo de Expectation-Maximation? Pero como ni siquiera piensas que saber Expectativa es importante, definitivamente no podrás comprender EM algo por completo. Ahora diría que no se requiere EM. De Verdad? ¿No necesita EM para hacer la estimación de densidad? No lo usas en análisis discriminante. ¿Para el modelo de mezcla gaussiana o modelos de mezcla infinita como la distribución de Dirichlet latente? Si no comprende el concepto de probabilidad, nunca ha entendido los principios bayesianos. Lo que significa que no entiendes qué es anterior, qué es posterior y qué efecto tiene la función de probabilidad en el Teorema de Bayes.

Entonces, ¿cómo esperas entender Naive Bayes? Y si no comprende la teoría básica de distribución estadística, entonces no comprende la simulación. Entonces, ¿cómo espera comprender técnicas como MCMC y modelos jerárquicos bayesianos? ¿No se usa MCMC también en el aprendizaje profundo ? ¿No es la forma restringida de máquinas de Boltzmann modelos jerárquicos? La gente siente que Deep Learning es puramente una creación de Ciencias de la Computación y, por lo tanto, no contiene estadísticas. Si realmente desea comprender el aprendizaje profundo , debe comprender los Modelos jerárquicos bayesianos, que lamento decir que requiere conocer los principios bayesianos. Lo que se remonta al primer punto con el que comencé.

Déjame hacerte una pregunta simple. Se sabe que los bosques aleatorios tienen un mejor rendimiento que los árboles en saco, que funcionan mejor que los árboles normales. Se puede decir que una razón es que en Random Forests solo tomamos un subconjunto aleatorio de variables bajo consideración en cada nodo en lugar de todas las variables. Ok tiene sentido. Ahora si pregunto ¿por qué eso ayuda? Entonces me dirías que correlaciona los árboles. Ok tiene sentido de nuevo. ¿Cómo ayuda eso? Más lecturas le dirían que, oh, descorrelacionar los árboles ayuda a reducir la varianza del estimador final. Okay. ¿Pero cómo? Si le pregunto cuál es la base matemática de su último enunciado, ¿cómo me lo demostrará a menos que me diga cuál es la fórmula de la varianza de una combinación de variables aleatorias? Diría que si tengo dos variables aleatorias como X e Y, entonces Var (X, Y) = Var (X) + Var (Y) + 2Cov (X, Y) . Esta es una fórmula cruda, la fórmula de variación real de los bosques aleatorios si los árboles están correlacionados es un poco diferente, pero da una idea. Si no hay correlación, cov es cero y, por lo tanto, la varianza es menor y total. Pero incluso para tratar de explicar algo a ese nivel, ¿no necesitaría comprender qué son las variables aleatorias y la teoría de distribución y cómo se relacionan las variables aleatorias en términos de expectativas y variaciones?

¿No te das cuenta de que hablar de reducir la varianza del estimador y todo es inherentemente estadística? ¿Por qué tiene que reducir la varianza de un estimador, por qué no tomar ningún estimador? ¿Cómo funciona tu curva de sesgo-varianza? ¿La descomposición completa del error cuadrático medio de una regresión en sesgo cuadrado + varianza es una teoría fundamentalmente estadística en estimadores? ¿Y cómo crees que entenderías la teoría sobre los estimadores si ni siquiera quieres estudiar qué estimación es en primer lugar?

¿O qué hay de su validación cruzada favorita o de las técnicas LOOCV para la selección y evaluación de modelos? ¿Puedo preguntar por qué funciona la validación cruzada y por qué no usar solo un solo dato de entrenamiento como una estimación del error de prueba? ¿No crees que si alguien entiende la Ley de Grandes no. Según la teoría aquí, sería capaz de entender por qué los métodos de remuestreo como la validación cruzada y LOOCV, etc., son estimaciones cercanas del error de generalización en lugar de utilizar un solo error de entrenamiento. ¿Puedes entender la razón por la cual la validación cruzada funciona más allá de solo decir que se usa para ajustar los hiperparámetros, etc. sin conocer la Ley de Grandes no. teoría etc.

El trabajo de un científico de datos no es solo el aprendizaje automático. Muchas veces tienes que hacer un trabajo basado en inferencia como prueba A / B. Pregunte a compañías como Google, Facebook y MS que hacen toneladas de pruebas A / B todos los días. ¿Cómo se supone que debe hacer una prueba A / B si no comprende la prueba de hipótesis, el diseño experimental, etc.?

La ciencia de datos sin estadísticas es como tener un Ferrari sin frenos. Puedes disfrutar sentado en Ferrari, presumir tu auto recién adquirido a otros, pero no puedes disfrutar el viaje por mucho tiempo porque pronto chocarías contra tierra.

Probablemente no si comienzas, pero un sólido si te tomas en serio la ciencia de datos.

De hecho, puedes comenzar a jugar con datos y modelos de aprendizaje automático con muy poco conocimiento de estadísticas. Eche un vistazo a los ejemplos de pandas y scikit-learn para tener una idea de lo que podría construir rápidamente.

Ahora, una vez que haya entrenado un modelo y obtenido algunos resultados, ¿qué debe hacer?

Bueno, necesitaría algunos conocimientos estadísticos para evaluar los resultados producidos y responder las siguientes preguntas:

  • ¿Tienes valores atípicos ?
  • ¿Sus datos son independientes o están correlacionados ?
  • ¿Su muestra de datos está distribuida de manera idéntica ?
  • ¿La métrica que ha utilizado para evaluar su modelo es la mejor?
  • ¿Qué tan seguro está de los resultados producidos?
  • ¿Cómo puede construir un intervalo de confianza para sus resultados?

Dicho esto, Data Science es un campo amplio y está constituido por múltiples disciplinas y áreas de experiencia donde el conocimiento estadístico varía de básico a muy avanzado.

De hecho, si trabaja en el diseño de tuberías de procesamiento de datos más rápidas (como ingeniero de datos) no necesitaría un amplio conocimiento de las estadísticas. Por otro lado, si planea convertirse en un experto en aprendizaje automático y trabajar en modelos de aprendizaje profundo, por ejemplo, necesitaría mucho conocimiento estadístico.

En general, las estadísticas son un componente importante para cualquier científico de datos serio. Debe tener al menos una comprensión básica de los conceptos básicos (estimación, probabilidad, sesgo y varianza, intervalo de confianza …). Luego puede especializarse en áreas que usan más o menos estadísticas.

Finalmente, tenga en cuenta que si opta por algo que se basa en menos estadísticas, entonces necesitaría saber más sobre otros temas como: optimización, arquitectura, procesamiento de datos, visualización …

¡Espero que esto ayude!

Si disfrutaste esto, sígueme para obtener más respuestas relacionadas con Data Science. Para ir más lejos, comienza a leer las siguientes respuestas:

  • La respuesta de Yassine Alouini a ¿Cómo puedo convertirme en científico de datos?
  • La respuesta de Yassine Alouini a ¿Es estresante ser un científico de datos?
  • La respuesta de Yassine Alouini a ¿Cuál es la diferencia entre un científico de datos y un estadístico?

Algunas fuentes:

  • Página de ejemplos de Scikit-learn : Ejemplos – documentación de scikit-learn 0.16.1
  • Un video tutorial de pandas agradable: recorrido de 10 minutos por los pandas
  • Una hoja de trucos de estadísticas básicas: página en mit.edu

Sí. En la respuesta de Michael Hochster a ¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando a las estadísticas en términos de relevancia? ¿Por qué o por qué no? En general, era crítico con el campo de la estadística, pero también intenté aclarar la importancia del pensamiento estadístico en la ciencia de datos. Explicaré eso ahora en esta respuesta pro estadística.

A grandes rasgos, la marca habitual de la ciencia de datos es “desbloquear la magia de sus datos”. Esta es una imagen poderosa, aunque vaga, y creo que en parte explica el calor del campo en este momento. La esencia de las estadísticas es menos glamorosa: se trata de tener cuidado con los datos . Contrarresta los aspectos mágicos de la ciencia de datos. Hace preguntas escépticas como:

  • ¿Estamos seguros de que el resultado genial no es solo ruido?
  • ¿Cómo se recopilaron estos datos? ¿La muestra está sesgada? Si es así, ¿qué se puede hacer al respecto?
  • ¿Cuántas métricas miramos antes de llegar a ese sorprendente hallazgo? ¿Mucho? ¿Qué podemos hacer al respecto?
  • ¿Podría algo más que la causalidad explicar por qué X e Y se mueven juntos? ¿Cómo podemos controlar otros factores Z que podrían estar involucrados?

Tales preguntas a veces asignan al estadístico en el papel de una manta húmeda, muy diferente de la imagen amigable del mago a menudo asociada con la ciencia de datos. Pero hacer este tipo de preguntas y poder responderlas bien es absolutamente crítico para tomar buenas decisiones con los datos.

Ejemplo: si queremos medir el valor de agregar una foto al perfil de un usuario en una red social, un enfoque simple de “análisis” podría ser comparar las páginas vistas para usuarios con fotos con las que no tienen fotos. Este análisis, incluso si va acompañado de una pequeña nota al pie de página de que la correlación no es causalidad, es muy probable que sea muy erróneo y engañoso (ya que esos dos conjuntos de usuarios son obviamente muy diferentes en muchas otras formas). Un enfoque estadístico sería hacer el análisis controlando de alguna manera estos otros factores relevantes. Este análisis sería más lento de realizar y más difícil de entender, pero a diferencia del otro, existe la posibilidad de que sea correcto.

En resumen: sí, la ciencia de datos necesita estadísticas. Porque usar datos descuidadamente es a menudo peor que no usarlos en absoluto.

Me apilaré aquí también.

Cualquier cosa que deba etiquetarse como ‘ciencia’ probablemente no sea una ciencia.

La “ciencia” de datos sin estadísticas no tiene posibilidades de convertirse en ciencia. (Por cierto, la ‘ciencia’ de datos sin análisis algorítmico tampoco tiene posibilidades de convertirse en una ciencia.) En la medida en que la ‘ciencia’ de datos es una ciencia, vive en la intersección de estadística, informática, matemáticas (bajo la apariencia de algorítmica análisis).

He visto muchas tonterías al escribir sobre ‘Ciencia’ de datos sobre algoritmos ML y EM, sobre CV, etc. ¿Maximizando la probabilidad con respecto a qué modelo ? ¿Qué sucede si eliges el modelo incorrecto? ¿Cómo eliges tus sets de espera para propósitos de validación cruzada?

Si tiene que validar un modelo, ¿cómo diseñará el experimento / estudio para hacerlo?

Estas son todas preguntas fundamentalmente estadísticas. Si no conoce Estadísticas, tendrá que aprenderlo o reinventar la rueda.

Los roles principales de las estadísticas en la ciencia de datos son los siguientes.

  • Enmarcar las preguntas estadísticamente permite a los investigadores aprovechar los recursos de datos para extraer conocimiento y obtener mejores respuestas.
  • El dogma central de la inferencia estadística, que existe un componente de aleatoriedad en los datos, permite a los investigadores formular preguntas en términos de procesos subyacentes y cuantificar la incertidumbre en sus respuestas.
  • Un marco estadístico permite a los investigadores distinguir entre causalidad y correlación e identificar intervenciones que causen cambios en los resultados.
  • También les permite establecer métodos de predicción y estimación, cuantificar su grado de certeza y hacer todo esto utilizando algoritmos que exhiben un comportamiento predecible y reproducible.
  • De esta manera, los métodos estadísticos tienen como objetivo centrar la atención en los hallazgos que pueden ser reproducidos por otros investigadores con diferentes recursos de datos.
  • Los métodos estadísticos permiten a los investigadores acumular conocimiento.

El ciclo de consulta estadística :

Para obtener más información, consulte mi respuesta aquí: Análisis de datos

Esta es una pregunta interesante y la respuesta es sí, pero esa no es la imagen completa. Diría que la ciencia de datos necesita estadísticas, pero no se trata solo de estadísticas. para convertirme en un exitoso científico de datos, yo diría que el conocimiento de estadísticas, programación de computadoras, conocimiento de dominios, bla, bla, bla, es solo un requisito. Sin embargo, entre todos estos, pondría la curiosidad intelectual en primer lugar, es esta curiosidad la que le permite extraer características de los datos y hacer que toda la experiencia sea agradable. Para más detalles, puede echar un vistazo a la siguiente publicación de Analytics Bodhi.
Habilidades clave necesarias para convertirse en un Data Scientist o un Business Analytics Professional – Parte 1

Absolutamente sí.

La ciencia de datos necesita estadísticas, pero no se trata solo de estadísticas . Data Science es un campo multidisciplinario que combina estadísticas, aprendizaje automático, inteligencia artificial y tecnología de bases de datos.

Si desea aprender más sobre ciencia de datos y estadísticas, ¿por qué no tratar de aprender de los mejores? Los instructores de esta plataforma son de expertos de la industria en Harvard, Columbia, Cisco, Apple y Google.

Aquí hay algunos enlaces que hablan sobre cómo aplicar estadísticas a la ciencia de datos que no te quieres perder:

Probabilidad y estadística para la ciencia de datos con R

Modelos de clasificación

Esta es la diferencia entre estadística y ciencia de datos.

Estudiar bien.

Sí.

Sin estadísticas, no tiene idea de si el patrón que encontró es real, si es predictivo, en qué suposiciones se basa en su análisis, etc.

No Data Science utiliza métodos estadísticos, junto con los de otras disciplinas, incluida la teoría de la información y el aprendizaje automático. Un profesional elegiría qué métodos de las disciplinas relacionadas usar según los requisitos de una aplicación específica de Data Science.

¿La formación de hielo necesita un pastel?

Sin estadísticas, la ciencia de datos es pura espuma. Claro, el resto de la ciencia de datos puede ser muy útil (o no), pero tratar de hacer ciencia de datos sin estadísticas es prácticamente garantizar un desastre.

La ciencia de datos procesa grandes datos, por supuesto sin estadísticas, aún puede trabajar en ellos, pero potencialmente con un tamaño de datos mucho menor.

Las estadísticas tienden a pasar por alto una gran cantidad de detalles, que podrían capturar mejor la imagen general. Al igual que tu ignorante CEO.

Para etiquetar a Peter Flom (como siempre)

¿El pastel necesita relleno?

Sin estadísticas, todo lo que uno tiene es una masa de datos que asegura que si nunca se tiene un pastel real, puede comerlo y pensar que es un pastel. Las estadísticas son el delicioso núcleo de bondad del pastel de ciencia de datos. Es como decir: ¿puedes tener computadoras sin ingeniería de software? Puedes hacerlo, pero te estarías engañando a ti mismo sin llenarte (refiérase mi pastel nuevamente: P)

La ciencia de datos es estadística IS, solo aplicada a conjuntos de datos grandes y / o complicados y aplicando algoritmos de extensión de modelos estadísticos comunes (aprendizaje automático).