¿Cuál es la diferencia entre data warehouse / BI y data science?

Gracias por el A2A.

Primero, el diagrama de Venn de Abdelbarre Chafik es perfecto. Podría agregar ‘experimentación’ pero ¿quizás esto es lo mismo que ‘probar’? DS también se centra en gran medida en la investigación (expandiendo el qué / por qué / cómo / cuándo de un tema), pero tal vez eso cae bajo el paraguas de ‘estadísticas’. Como ya respondió “qué”, tal vez pueda agregar mi comprensión de “por qué”.

La tendencia de ‘big data’:

A medida que el mundo se vuelve más digital, más de nuestros conocimientos y actividades cotidianas se escriben en el disco (en nuestros propios dispositivos o en aquellos que pertenecen a empresas y gobiernos). Los datos tienen un valor inmediato (por ejemplo, su publicación de esta pregunta de Quora) pero también tienen un valor residual, especialmente cuando se agregan (por ejemplo, comprender qué tipos de temas le interesan más). A medida que aumenta el volumen de datos almacenados, muchos creen que su valor residual también lo hace.

¿A quién le importa esta tendencia?

Emprendedores, educadores, empresas y gobiernos se preocupan (¿otros?).

Emprendedores: Christian Chabot, por ejemplo, vio surgir esta tendencia alrededor de 2003 y comenzó Tableau Software. El objetivo de Tableau (mi opinión) es hacer que la minería de datos sea fácil y llave en mano para quienes no son ingenieros (uso intensivo de la interfaz de usuario). Tableau no estaba solo. Qlik y otros en el Cuadrante Mágico de Gartner ahora compiten en este espacio de software de desarrollo de informes y paneles. Algunas son aplicaciones independientes (Tableau, SAS), mientras que otras son complementos para sistemas con licencia existentes (SAP). Los sistemas suelen ser altamente estructurados y patentados. La motivación son las ventas de software (para los proveedores) y las bajas barreras de entrada (para sus clientes). La desventaja (para las empresas clientes) es que los proveedores controlan los casos de uso, que inevitablemente se centran en la presentación sobre la interpretación (un proveedor no puede decirle “por qué” la tendencia es negativa o qué analizar a continuación). Esto, creo, es la fuerza impulsora detrás de la “inteligencia empresarial”. Se centra principalmente en las herramientas OTS (estándar) que las empresas pueden comprar, implementar y configurar.
Educadores: Stanford, NYU, MIT, UC Berkeley, John Hopkins, U de Michigan, U de Washington y muchos otros también vieron esta tendencia. Sin embargo, son mejores vendiendo educación en lugar de software. Esta es una diferencia crítica. Las compañías de software compiten en la construcción del mejor software que automatiza los casos de uso más comunes. La variación es mala. Por el contrario, los educadores compiten en la construcción de las mejores mentes, que pueden pensar fuera de la caja. Empujan la frontera del conocimiento al expandirse en casos de uso menos conocidos (es decir, doctorados). La variación no solo es buena, es obligatoria. La tecnología no tiene fines de lucro aquí (Python, R, D3.JS). Casi siempre es de código abierto para que otros puedan experimentar y ampliar la funcionalidad. También se basa en gran medida en la línea de comandos (donde la nueva funcionalidad es más simple). Existen fuerzas competitivas para el espacio de big data, incluso dentro de las instalaciones educativas, entre Estadística, Informática y otros (ver ’50 años de ciencia de datos ‘). Esto, creo, es la fuerza impulsora detrás de la ‘ciencia de datos’. Se centra principalmente en el conocimiento (en estadística, informática e intuición de datos) que los estudiantes pueden ‘comprar’ para vender sus habilidades a las empresas. En mi experiencia, esto obtiene un salario más alto (en comparación con los profesionales de BI) en gran parte porque los empleados han acumulado una gran deuda de matrícula o han sacrificado años de ingresos para estar en la escuela.
Empresas: las empresas (excluyendo a los emprendedores de BI anteriores) están atrapadas en medio de la inteligencia empresarial y la ciencia de datos. Supongo que a la mayoría de las empresas tampoco les importa, sino más bien obtener respuestas a sus problemas comerciales. Si implementan una gran solución de BI, el problema más común que he visto es ‘muerte por hojas de cálculo’ y ‘parálisis de análisis’. Los mercados de datos aparecen en cada silo de la empresa (para disgusto del enfoque Enterprise DWH de Ralph Kimball). Hay una sensación común de que la compañía tiene tantos paneles de control pero tan pocas ideas. Irónicamente, los datos que realmente necesitan requieren un nuevo tablero (porque los problemas comerciales han evolucionado). Esto proviene de una inversión excesiva en las herramientas sin que nadie esté calificado para interpretar (o guiar) los resultados. Por el contrario, si contratan a un equipo de científicos de datos, hay menos enfoque en la infraestructura de informes y más en resolver preguntas comerciales con plazos (generalmente a través de una presentación con código de respaldo … si alguien puede leerlo). Sin embargo, existe la sensación de que esto no puede escalar (contratar a 2x científicos para investigar 2x problemas comerciales). Por lo general, hay una solicitud para que el equipo de DS convierta la investigación exitosa en informes de BI para el monitoreo continuo (lo que probablemente harán, pero serán simples si no es su pasión).
Gobiernos: No tengo experiencia en este espacio pero, dadas las discusiones en torno a la NSA y WikiLeaks, obviamente está sucediendo mucho (¿tal vez está clasificado?). ¿Los gobiernos tienen su propia escuela de pensamiento en torno a la recopilación de grandes datos y darle sentido? Me encantaría saber de otros que puedan elaborar aquí.

Resumen:

La inteligencia empresarial es un concepto impulsado en gran medida por los proveedores de software que venden paquetes de informes y paneles a las empresas. Entrenan a empleados menos técnicos sobre cómo implementar y usar el software (generalmente por un costo adicional), una habilidad que los empleados pueden comercializar a otros empleadores. El énfasis se encuentra comúnmente en el análisis descriptivo y la visualización (aunque predictivo y prescriptivo se presentan como el santo grial).

La ciencia de datos es un concepto impulsado en gran medida por educadores que se centran en desarrollar estudiantes empleables (y fomentar la investigación). El software libre y de código abierto reina ya que el valor es la interpretación de los datos (no la presentación de los datos en sí). Se hace hincapié en la investigación, experimentación, previsión y consultoría.

¿Qué es exactamente la minería de datos y cuál es su importancia?

¿Cuál es el mejor instituto en Hyderabad para aprender Hadoop y big data?

¿Vale la pena aprender sobre ciencia de datos?

¿Cuál tiene una mejor oportunidad de carrera, desarrollo web, estructuras de datos, codificación algorítmica, ciencia de datos o algo más para un estudiante de BTech CSE en cuarto año en India?

Mi computadora se enciende, aparece el logotipo de Windows y luego se vuelve negro. Reemplacé el disco duro y reinstalé Windows, lo mismo de siempre. ¿Qué debo hacer?

¿Cuáles son las diferencias entre Data Science y Data Mining, son las mismas?

Gracias Aoullay Amine por A2A

Esta imagen vale más que mil palabras,

Data Science es un paraguas que contiene muchos otros campos como aprendizaje automático, minería de datos, big data, estadísticas, visualización de datos, análisis de datos, …

Artículo para leer:

Inteligencia de negocios vs ciencia de datos
¿Qué es la inteligencia empresarial (BI)? – Definición de WhatIs.com
Ciencia de datos para el profesional de inteligencia empresarial – Halo

Paul Buttery

La ciencia de datos es de autoaprendizaje, de naturaleza avanzada y experimental, mientras que el almacenamiento de datos y la inteligencia de negocios son de naturaleza estratégica, robusta y operativa. Dicho esto, la ciencia de datos también está emergiendo como un término general para todas las iniciativas que implican el aprovechamiento de datos para decisiones, tanto en tiempo real como estratégicos.

** Muchos profesionales de Business Intelligence se están adaptando rápidamente a las nuevas tecnologías y se renuevan como profesionales de la ciencia de datos.

La ciencia de datos está evolucionando como una rama académica separada y se especula fuertemente que el número de aplicaciones de la ciencia de datos va a superar con creces las aplicaciones de la tecnología de la información, y se necesita un esfuerzo dedicado para capacitar a la nueva fuerza laboral para aprovechar Esta nueva tecnología emergente. Años de inversiones de varios institutos académicos en el campo de la inteligencia artificial finalmente están dando sus frutos, ya que la industria es testigo de la creciente demanda en las aplicaciones de tecnologías de ciencia de datos, principalmente debido a la proliferación y accesibilidad de los datos.

Aunque todavía estamos al comienzo de esta evolución, ya vemos muchas aplicaciones reales de la ciencia de datos, y se espera que estas aplicaciones crezcan aún más. La diferencia clave entre los sistemas tradicionales de inteligencia empresarial y los nuevos sistemas de inteligencia artificial (que se crean utilizando tecnologías de ciencia de datos) es la eliminación de la intervención humana intermedia. Esto significa que las máquinas tomarán muchas decisiones por su cuenta, solo para administrar sus operaciones regulares.

Lo que impulsa estas decisiones son los algoritmos que se ejecutan en segundo plano, y habría miles de estos algoritmos interconectados entre sí que ayudarían a las máquinas a tomar decisiones. Los algoritmos de autoaprendizaje dependen de los datos a los que están expuestos, y de repente vemos que la calidad de los datos comenzará a influir en el comportamiento de estas máquinas de autoaprendizaje.

La seguridad y la integridad de los datos se volverán enormemente importantes con la ciencia de los datos, y aunque la mayoría de las actividades serán realizadas por las máquinas en el futuro, la gestión de la ética de los datos y los algoritmos que influyen en el comportamiento de las máquinas definitivamente mantendrán ocupados a los futuros humanos.

Paul Buttery

Business Intelligence (BI) es un proceso impulsado por la tecnología para analizar datos y presentar información procesable para ayudar a los ejecutivos corporativos, gerentes de negocios y otros usuarios finales a tomar decisiones comerciales más informadas. BI abarca una variedad de herramientas, aplicaciones y metodologías que permiten a las organizaciones recopilar datos de sistemas internos y fuentes externas, prepararlos para el análisis, desarrollar y ejecutar consultas contra los datos, y crear informes, paneles y visualizaciones de datos para que los resultados analíticos estén disponibles. a tomadores de decisiones corporativas, así como a trabajadores operativos.

Ciencia de datos = Estadística + Matemáticas + CS + Conocimiento del dominio + Excelentes habilidades de comunicación

La ciencia de datos implica métodos para analizar cantidades masivas de datos y extraer conocimiento de ellos.

Alcance de BI / Data Science / Analytics:

Debido a que esta área temática (“Datos”) también tiene un enorme potencial para la próxima década, acaba de comenzar ahora.

Usted sabe que en todo el mundo, la mayoría (70–80%) del desarrollo de la aplicación se ha completado y todos tienen datos y los datos están creciendo exponencialmente a través de esas aplicaciones, ya sean datos de sensores, datos médicos, datos de viajes, datos ambientales, etc.

Ahora es el momento de analizar y administrar esos datos en crecimiento … y se continuará …

Las personas buscan un crecimiento en su carrera e incluso buscan una carrera sostenible durante al menos los próximos 10-15 años, por lo que se están cambiando al área de DW-BI y Ciencia de datos / Análisis / Big Data.

Aoullay Amine

More Interesting

¿Qué se entiende por clasificación de datos?

¿Cuáles son los consejos prácticos para trabajar con una gran cantidad de datos para el análisis en Excel?

¿Qué debo hacer para convertirme en analista de datos una vez que mi título esté completo?

¿Dónde encuentras datos? Entonces, ¿cómo lo usas?

¿Cuáles son las diferencias en una maestría en ingeniería eléctrica (procesamiento de señales / aprendizaje automático) y una maestría en informática (aprendizaje automático)?

Cómo limpiar, preparar y transformar datos en ciencia de datos

¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

¿Se acabará alguna vez la información?

¿Los estadísticos están siendo reemplazados gradualmente y actualmente por científicos de datos?

¿Cómo diferenciará el campo de análisis predictivo y ciencia de datos?