Me gusta decir que un científico de datos es un científico con la arrogancia de creer que no está limitado a ningún campo.
He realizado marketing, seguros, fraude, fractura hidráulica, exploración de minerales, medicina y más. En cada proyecto, trabajar con expertos en el campo y, sin embargo, un enfoque de ciencia de datos podría aportar un valor agregado casi siempre.
La ciencia se trata de recopilar información haciendo un modelo haciendo predicciones y verificándolas en nuevos datos. Esta es la esencia del aprendizaje automático supervisado, una rama de la ciencia de datos que estudia familias de modelos aplicables a muchos dominios problemáticos.
- ¿Cómo se deben responder preguntas sobre las métricas de productos en entrevistas con científicos de datos?
- ¿El comercio de alta frecuencia y la ciencia de datos comparten muchas similitudes?
- ¿Cuáles son las buenas bibliotecas de código abierto en Python o R para los métodos de Tensor? ¿Su equipo mantiene alguna?
- ¿Cuáles son las materias universitarias más útiles para una carrera en ciencia de datos, aprendizaje automático o análisis?
- ¿Hay personas trabajando en big data en salud en India?
La mayoría de los campos de la ciencia se enfocan en explicar el mecanismo de algún sistema, usualmente usando otros mecanismos bien entendidos. Los modelos resultantes tienden a ser simples en el sentido humano con pocos parámetros. Estos modelos tienden a extrapolarse bien y transferirse relativamente bien (dentro de lo razonable), debido a su simplicidad.
En ciencia de datos modelamos sistemas complejos con una comprensión limitada del sistema, para bien o para mal no nos enfocamos en las relaciones causales, sino que encontramos correlaciones. Podemos modelar casi cualquier cosa con datos suficientes y con distribuciones estacionarias, lo hacemos bastante bien. Por supuesto, el mundo cambia y con modelos complejos que no entendemos podemos hacer excelentes declaraciones sobre la distribución de la muestra que estudiamos, pero nos resulta muy difícil generalizar con confianza. Parece que lo hacemos bastante bien en la práctica, pero hay un poco de agitación de la mano involucrada.
En ciencia de datos también estudiamos la metodología básica de la ciencia. Estudiamos estadísticas y problemas de muestreo, confianza, etc. Otros científicos usan estas herramientas. En muchos sentidos, la ciencia de datos es un nuevo giro en las estadísticas aplicadas.