Inferir causalidad puramente de datos es extremadamente difícil. En las redes bayesianas, por ejemplo, existen algunas técnicas para tratar de inferir las direcciones causales en la red. Sin embargo, estos generalmente no son suficientes y uno debe ser extremadamente cuidadoso al confiar en ellos.
Por otro lado, el conocimiento experto, es decir , su conocimiento como un ser humano inteligente que trabaja como científico de datos es mucho más valioso e incluye información sobre la causalidad.
Dos ejemplos simples de situaciones en las que poder hacer suposiciones sobre la causalidad son importantes en la ciencia de datos:
- ¿Qué herramienta se puede usar para extraer puntos de datos de un gráfico en un archivo PDF y luego recrear ese gráfico con los datos extraídos?
- ¿Qué es la agregación de datos?
- ¿Qué papel juegan las estadísticas en la ciencia de datos en comparación con habilidades como programación o visualización y comunicación?
- ¿Es posible aprender el aprendizaje automático y la ciencia de datos a través de MOOCS y otras fuentes en línea o debería estudiar una maestría en CS?
- Cuando los departamentos universitarios cambian su nombre para incluir la palabra 'Ciencia de datos', ¿se trata principalmente de marketing?
- Diseñar una red bayesiana con las variables correctas y las direcciones causales correctas (cuando dicha red es un buen modelo para el fenómeno que estudia)
- Selección de funciones: imagine que tiene un conjunto de datos sobre el número de clientes que vienen a una tienda en un día determinado en Francia. Probablemente sepa que en este país en particular, la gente va de compras mucho más de lo normal poco antes de Navidad. Y puede hacer predicciones similares para otros eventos culturales en otros países, etc. Así que, naturalmente, tratará de tener esto en cuenta en su modelo.
En pocas palabras, la causalidad es importante porque la estadística / aprendizaje automático / ciencia de datos tiene que ver con la predicción. Lo que sabe sobre los datos incluye información sobre qué causa qué , y la información sobre causas es invaluable para hacer predicciones.