Actualmente existe mucha incertidumbre sobre lo que constituye la ciencia de datos y cómo difiere de las formas de análisis más tradicionales. Por esta razón, diferentes estadísticos tendrán diferentes puntos de vista sobre el tema. Lo que puedo decir es que aquellos que piensan que la ciencia de datos es simplemente estadísticas renombradas actualmente no están trabajando en proyectos reales de ciencia de datos. Las preocupaciones de la ciencia de datos se extienden mucho más allá de las estadísticas tradicionales e involucran enfoques más basados en datos para hacer predicciones y construir software. La dilución del término ciencia de datos es causada en gran medida por el bombo publicitario . Para obtener más detalles, consulte Ciencia de datos: propiedad del título.
Todo se trata del producto
Es importante darse cuenta de que el auge de la ciencia de datos nació de la convergencia de datos ampliamente disponibles y herramientas de aprendizaje automático de código abierto y accesibles. Esta combinación es lo que hace posible los productos de software de autoaprendizaje adaptativo. Este es un paso de la programación basada en reglas a un nuevo paradigma, donde el software se adapta a su entorno para convertirse en el producto que necesita ser. La ciencia de datos se trata de ser excelente en el aprendizaje automático, pero también de tener las habilidades para mapear esta tecnología a problemas empresariales del mundo real y trabajar con equipos de productos para crear una aplicación que vaya a producción. En ningún momento de la historia fue una preocupación de las estadísticas tradicionales o del aprendizaje automático académico.
- ¿Puedes explicar la agrupación en cuadrícula en la minería de datos?
- ¿Cómo realizan las empresas el análisis predictivo utilizando herramientas Hadoop / Big Data a gran escala?
- ¿Debo aprender R y Python para Data Science y luego dominar uno de ellos?
- ¿Es Python el lenguaje de programación más importante para el análisis de datos?
- ¿Qué es ciudadano de datos?
2 culturas diferentes
El aprendizaje automático nació de una comunidad completamente diferente a la estadística. El famoso artículo de Leo Breiman que compara las preocupaciones de los estadísticos con los profesionales del aprendizaje automático hace un gran trabajo al mostrar cuán diferentes son estos campos. En el aprendizaje automático, el objetivo principal es la predicción , y todo lo demás debe seguir esta señal para el análisis de calidad. En estadística, la calidad no se trata de predicciones, sino más bien de la adhesión a las elecciones de diseño iniciales del experimento y los métodos de validación. En resumen, los profesionales del aprendizaje automático permiten que los datos guíen el enfoque, mientras que los estadísticos se guían por el diseño de su análisis. Lo primero es lo que lleva a la capacidad del Científico de Datos para crear aplicaciones que predicen y resuelven problemas complejos, por lo que el Científico de Datos confía en el aprendizaje automático como el campo principal. Se trata menos de hacer suposiciones ingenuas sobre el mejor enfoque (estadísticas tradicionales) y más acerca de dejar que los datos hablen de la mejor manera (aprendizaje automático). Para más detalles sobre el artículo de Leo Brieman, vea esta respuesta.
Un enfoque equilibrado
En Data Science vemos un cambio en la forma en que se aplican las estadísticas y el aprendizaje automático para crear excelentes productos. La predicción cruda de los datos de calidad es a menudo una mejor señal para resolver problemas reales que los supuestos de diseño pesado que tradicionalmente se han utilizado en estadísticas. Pero, apresurarse a ciegas, confiar absolutamente en la precisión sin hacer lo necesario para validar estadísticamente las predicciones es una receta para el desastre. Los productos de aprendizaje automático no son ejercicios de minería de datos, son software de producción que muchas personas implementan y utilizan. Las estadísticas son lo que garantiza que evaluamos el flujo de trabajo de aprendizaje automático correctamente y trabajamos hacia un flujo de datos de calidad de extremo a extremo que convierta efectivamente los datos sin procesar en salidas inteligentes.
Esto significa que las 2 culturas de estadística y aprendizaje automático deben unirse en Data Science; las estadísticas deben ser responsables de los objetivos predictivos del aprendizaje automático basado en datos, mientras que el aprendizaje automático debe mantenerse en línea con prácticas estadísticas sólidas.
Para los estadísticos que buscan ingresar al campo de la Ciencia de datos, prepárese para entregar aspectos de su enfoque a la máquina. Hay poco uso para las elecciones de diseño iniciales sobre cómo cree que se deben tratar los datos. En este mundo, la predicción es la única señal verdadera para tratar los datos correctamente. Para aquellos con antecedentes académicos de aprendizaje automático, prepárese para confiar en algo más que predicciones crudas para hacer un producto en el que las personas confíen en la producción. Deberá mostrar estadísticamente que los datos son representativos, muestreados correctamente y comprender las suposiciones que los algoritmos están haciendo sobre los datos.
Data Science es un campo nuevo porque ni las estadísticas ni el aprendizaje automático han tenido que crear los tipos de aplicaciones del mundo real que los científicos de datos ahora hacen para las empresas. Ambas culturas, cuando se llevan al extremo, depositarán su fe en ideas ingenuas nacidas de la academia, y no en el entorno del mundo real que actualmente exige un enfoque combinado.