El hecho de que su pregunta equipare la Ciencia de datos con Big Data (no es su culpa) es un ejemplo del problema. El otro se relaciona con la naturaleza excesivamente académica de la ciencia de datos contemporánea.
Primero, una definición adecuada de Data Science. Data Science se trata de crear productos de datos , que son piezas de software que aprovechan el aprendizaje automático. Al encontrar nuevas formas de automatizar el aprendizaje que conecta la información en bruto con las decisiones, los productos de datos pueden reducir drásticamente la cantidad de pasos necesarios para tomar acciones inteligentes.
Ahora abordemos los 2 puntos mencionados al inicio; Big Data y ciencia de datos académicos
- ¿Existe algún conjunto de datos abierto de imágenes de resonancia magnética / rayos X que incluya diagnósticos, tratamiento, período de tratamiento, enfermedades crónicas si las hay y posibilidad de supervivencia?
- ¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?
- ¿Cuál es la diferencia entre minería de datos, ciencia de datos y bigdata?
- ¿Cuáles son las ventajas del procesamiento de datos?
- ¿Cómo funciona el análisis espacial con datos topológicos?
La cuestión del “Big Data”
Big Data se refiere a los avances en la recopilación y gestión de datos escalables. Las empresas necesitaban una forma de lidiar con su enorme base de usuarios en línea para sus aplicaciones web escaladas. Con la capacidad de recopilar grandes cantidades de datos surgió la idea obvia de que sería beneficioso analizar todos esos datos.
Si bien el nuevo enfoque en los datos fue excelente para los analistas, que habían estado promocionando los beneficios del análisis durante décadas, lo que siguió fue la desafortunada idea de que todas las técnicas de análisis perfeccionadas en las últimas 5 décadas también deben escalar. Específicamente, el aprendizaje automático, que es un análisis que se presta para el autoaprendizaje y el software adaptativo, debía situarse sobre estas arquitecturas de escala masiva; arquitecturas construidas completamente para un propósito que no tiene nada que ver con el análisis de datos.
La pérdida de algoritmos …
No solo una cantidad abrumadora de problemas del mundo real no requiere conjuntos de datos masivos para obtener información, sino que la cantidad de algoritmos que existen en las “soluciones escalables” es muy limitada. La información que obtienes al atacar un problema desde una variedad de ángulos, como se puede hacer usando los ricos y variados paquetes de computación científica en R y Python, supera drásticamente los supuestos beneficios de aplicar solo un puñado de algoritmos que suceden a escala. Todo el campo de la estadística se inventó con el único propósito de aprender algo sobre una población más grande utilizando solo un subconjunto más pequeño de esa población. Del mismo modo, la generalización buscada en el aprendizaje automático es solo eso; una generalización de ejemplos invisibles hacia alguna “idea” general de cómo funciona el sistema.
Esto significa que “aprender” es el objetivo principal, y pensar que el aprendizaje mejora con más datos pierde el punto de cómo funciona el aprendizaje. Sí, más información ayuda, hasta cierto punto. Pero aprender algo bien significa crear una buena aproximación de lo que estás estudiando. Las aproximaciones son las que hacen posible la generalización ya que solo las piezas conectivas centrales en los datos (“conceptos”) se utilizan para inferir el comportamiento futuro o explicar observaciones. El aprendizaje automático y, lo que es más importante, los productos de datos creados con él, funcionan cuando los datos pueden analizarse utilizando una variedad de algoritmos que construyen una aproximación (modelo) única de los datos. Por prueba y error, muchos intentos pueden intentarse rápidamente con el mundo diciéndonos qué funciona y qué no. La capacidad de analizar datos mediante la construcción de diferentes modelos, comparar esos modelos y elegir el mejor en cualquier momento es lo que hace posible el aprendizaje. Las aproximaciones revisadas es cómo ocurre el aprendizaje, y sin la variedad algorítmica para hacer esas revisiones, todos los datos del mundo no van a generar un aprendizaje relevante y continuo en el software.
Recuerde que las compañías reales no están interesadas en reconocer la expresión en la cara de un perro. Necesitan un producto que descargue gran parte del aprendizaje necesario para conectar la información en bruto con mejores decisiones. Esto requiere un producto que respalde una narrativa y produzca los tipos de resultados que se superponen con las decisiones del día a día. Con todas las compensaciones que entran y salen de consideración al usar diferentes algoritmos, no se puede saber por adelantado qué enfoque de aprendizaje automático es el mejor. La variedad algorítmica es clave para desarrollar productos relevantes y siempre supera la escalabilidad.
Ciencia de datos y Big Data: dos bestias muy diferentes
La cuestión esotérica
La segunda cuestión se relaciona con el enfoque académico utilizado en la ciencia de datos contemporánea. La mayoría de los avances en el aprendizaje automático provienen de detrás de las torres de marfil. Si bien le debemos mucho a la academia por estas innovaciones, el “mundo real” de la empresa adquiere un conjunto completamente nuevo de complejidad y demandas. Una consecuencia del uso del aprendizaje automático como herramienta central del científico de datos es la separación drástica que existe actualmente entre el análisis y el desarrollo de productos.
En las empresas, las personas están al frente y al centro y cualquier análisis realizado debe ser responsable de la forma en que las personas usan el software. Cuando el aprendizaje automático académico se inclina ante el Dios de la precisión predictiva (generalmente validado en conjuntos de datos sintéticos), la ciencia de datos se inclina solo ante los requisitos del mundo real de un producto que funciona.
La ciencia de datos debe salir de las “malas hierbas” académicas y aprender a involucrarse directamente en el desarrollo de productos. Esto significa llevar el aprendizaje automático al desarrollo temprano, ser ágil al intentar muchos algoritmos y validar los análisis con personas, tanto como las estadísticas.
Fuera de las malas hierbas y en el producto: API y el futuro de la ciencia de datos
¿Los científicos de datos estarán a la altura de las expectativas? Si esas expectativas son sinónimo de Big Data, entonces no, no lo creo. Sin embargo, si Data Science evoluciona hacia algo más alineado con el desarrollo de productos, creo que su futuro es muy brillante. Veo productos que utilizan el aprendizaje automático como una extensión natural del software, y listos para realizar cambios importantes en la forma en que la sociedad se involucra con la tecnología. Esto eliminará la capacidad de abstraerse de las preocupaciones excesivamente académicas y centrarse en los esfuerzos creativos y centrados en las personas de los analistas inteligentes que entienden lo que realmente se necesita para crear un software que aprenda.