¿Qué tan importante es la causalidad en la ciencia de datos?

Inferir causalidad puramente de datos es extremadamente difícil. En las redes bayesianas, por ejemplo, existen algunas técnicas para tratar de inferir las direcciones causales en la red. Sin embargo, estos generalmente no son suficientes y uno debe ser extremadamente cuidadoso al confiar en ellos.

Por otro lado, el conocimiento experto, es decir , su conocimiento como un ser humano inteligente que trabaja como científico de datos es mucho más valioso e incluye información sobre la causalidad.

Dos ejemplos simples de situaciones en las que poder hacer suposiciones sobre la causalidad son importantes en la ciencia de datos:

  • Diseñar una red bayesiana con las variables correctas y las direcciones causales correctas (cuando dicha red es un buen modelo para el fenómeno que estudia)
  • Selección de funciones: imagine que tiene un conjunto de datos sobre el número de clientes que vienen a una tienda en un día determinado en Francia. Probablemente sepa que en este país en particular, la gente va de compras mucho más de lo normal poco antes de Navidad. Y puede hacer predicciones similares para otros eventos culturales en otros países, etc. Así que, naturalmente, tratará de tener esto en cuenta en su modelo.

En pocas palabras, la causalidad es importante porque la estadística / aprendizaje automático / ciencia de datos tiene que ver con la predicción. Lo que sabe sobre los datos incluye información sobre qué causa qué , y la información sobre causas es invaluable para hacer predicciones.

Esencial. Si no tiene una idea de los mecanismos causales involucrados en lo que está estudiando, no tiene razón para creer que las relaciones que encuentre en sus datos continuarán manteniéndose en el futuro.

More Interesting

¿Podría evitar usar una tecnología distribuida en el trabajo en un solo nodo y pasar entrevistas de ciencia de datos?

¿Dónde puedo obtener datos de los trenes locales de Mumbai para hacer un análisis de datos en ellos?

Cómo realizar análisis de datos antes y después de desarrollar una aplicación

¿Con qué lenguaje de programación debo comenzar para la ciencia de datos, considerando que soy nuevo en ambos?

¿Hay un programa de maestría para ciencia de datos / aprendizaje automático en ETH Zurich? ¿Qué tan bueno es en comparación con los de las universidades de los Estados Unidos, por ejemplo, Berkeley, etc.?

¿Cuáles son las habilidades necesarias para la ciencia de datos?

¿Debería una persona aprender sobre ciencia de datos en general antes de entrar en el aprendizaje automático? ¿Por qué?

¿Hay revistas revisadas por pares para análisis de datos y BI? ¿Dónde puedo encontrar la información o la inspiración sobre cuáles son los conocimientos de los datos de ventas que suelen ser útiles para las empresas?

¿En qué se diferencian las matemáticas que usan los cuantos de las matemáticas que usan los científicos de datos?

¿Qué modelos de datos, protocolos, especificaciones de archivo se utilizan para los árboles IVR?

¿Cuáles son las habilidades ideales de un gerente de producto 'big data'?

Cómo adelantarme a mi competencia con la ayuda de Big Data

¿Cuál es la diferencia entre Hadoop y big data?

¿Cuáles son los mejores paquetes de R? ¿Por qué?

¿Qué temas de estadística debo aprender antes de aprender ciencia de datos si soy de un entorno no estadístico?