Gracias por el A2A.
Primero, el diagrama de Venn de Abdelbarre Chafik es perfecto. Podría agregar ‘experimentación’ pero ¿quizás esto es lo mismo que ‘probar’? DS también se centra en gran medida en la investigación (expandiendo el qué / por qué / cómo / cuándo de un tema), pero tal vez eso cae bajo el paraguas de ‘estadísticas’. Como ya respondió “qué”, tal vez pueda agregar mi comprensión de “por qué”.
La tendencia de ‘big data’:
- ¿Cuáles son las universidades del mundo que no requieren una carta de recomendación para una maestría en estadística / ciencia de datos?
- ¿Es Data Science un futuro mejor que Java?
- ¿Cuáles son algunos buenos cursos en Hyderabad para Python y R para ciencia de datos?
- Cómo proteger todos los datos de mi computadora para que cualquier persona sin la clave de acceso no pueda ver ni eliminar nada
- ¿Cómo se usan los conceptos de probabilidad y estadística en la ciencia de datos?
A medida que el mundo se vuelve más digital, más de nuestros conocimientos y actividades cotidianas se escriben en el disco (en nuestros propios dispositivos o en aquellos que pertenecen a empresas y gobiernos). Los datos tienen un valor inmediato (por ejemplo, su publicación de esta pregunta de Quora) pero también tienen un valor residual, especialmente cuando se agregan (por ejemplo, comprender qué tipos de temas le interesan más). A medida que aumenta el volumen de datos almacenados, muchos creen que su valor residual también lo hace.
¿A quién le importa esta tendencia?
Emprendedores, educadores, empresas y gobiernos se preocupan (¿otros?).
- Emprendedores: Christian Chabot, por ejemplo, vio surgir esta tendencia alrededor de 2003 y comenzó Tableau Software. El objetivo de Tableau (mi opinión) es hacer que la minería de datos sea fácil y llave en mano para quienes no son ingenieros (uso intensivo de la interfaz de usuario). Tableau no estaba solo. Qlik y otros en el Cuadrante Mágico de Gartner ahora compiten en este espacio de software de desarrollo de informes y paneles. Algunas son aplicaciones independientes (Tableau, SAS), mientras que otras son complementos para sistemas con licencia existentes (SAP). Los sistemas suelen ser altamente estructurados y patentados. La motivación son las ventas de software (para los proveedores) y las bajas barreras de entrada (para sus clientes). La desventaja (para las empresas clientes) es que los proveedores controlan los casos de uso, que inevitablemente se centran en la presentación sobre la interpretación (un proveedor no puede decirle “por qué” la tendencia es negativa o qué analizar a continuación). Esto, creo, es la fuerza impulsora detrás de la “inteligencia empresarial”. Se centra principalmente en las herramientas OTS (estándar) que las empresas pueden comprar, implementar y configurar.
- Educadores: Stanford, NYU, MIT, UC Berkeley, John Hopkins, U de Michigan, U de Washington y muchos otros también vieron esta tendencia. Sin embargo, son mejores vendiendo educación en lugar de software. Esta es una diferencia crítica. Las compañías de software compiten en la construcción del mejor software que automatiza los casos de uso más comunes. La variación es mala. Por el contrario, los educadores compiten en la construcción de las mejores mentes, que pueden pensar fuera de la caja. Empujan la frontera del conocimiento al expandirse en casos de uso menos conocidos (es decir, doctorados). La variación no solo es buena, es obligatoria. La tecnología no tiene fines de lucro aquí (Python, R, D3.JS). Casi siempre es de código abierto para que otros puedan experimentar y ampliar la funcionalidad. También se basa en gran medida en la línea de comandos (donde la nueva funcionalidad es más simple). Existen fuerzas competitivas para el espacio de big data, incluso dentro de las instalaciones educativas, entre Estadística, Informática y otros (ver ’50 años de ciencia de datos ‘). Esto, creo, es la fuerza impulsora detrás de la ‘ciencia de datos’. Se centra principalmente en el conocimiento (en estadística, informática e intuición de datos) que los estudiantes pueden ‘comprar’ para vender sus habilidades a las empresas. En mi experiencia, esto obtiene un salario más alto (en comparación con los profesionales de BI) en gran parte porque los empleados han acumulado una gran deuda de matrícula o han sacrificado años de ingresos para estar en la escuela.
- Empresas: las empresas (excluyendo a los emprendedores de BI anteriores) están atrapadas en medio de la inteligencia empresarial y la ciencia de datos. Supongo que a la mayoría de las empresas tampoco les importa, sino más bien obtener respuestas a sus problemas comerciales. Si implementan una gran solución de BI, el problema más común que he visto es ‘muerte por hojas de cálculo’ y ‘parálisis de análisis’. Los mercados de datos aparecen en cada silo de la empresa (para disgusto del enfoque Enterprise DWH de Ralph Kimball). Hay una sensación común de que la compañía tiene tantos paneles de control pero tan pocas ideas. Irónicamente, los datos que realmente necesitan requieren un nuevo tablero (porque los problemas comerciales han evolucionado). Esto proviene de una inversión excesiva en las herramientas sin que nadie esté calificado para interpretar (o guiar) los resultados. Por el contrario, si contratan a un equipo de científicos de datos, hay menos enfoque en la infraestructura de informes y más en resolver preguntas comerciales con plazos (generalmente a través de una presentación con código de respaldo … si alguien puede leerlo). Sin embargo, existe la sensación de que esto no puede escalar (contratar a 2x científicos para investigar 2x problemas comerciales). Por lo general, hay una solicitud para que el equipo de DS convierta la investigación exitosa en informes de BI para el monitoreo continuo (lo que probablemente harán, pero serán simples si no es su pasión).
- Gobiernos: No tengo experiencia en este espacio pero, dadas las discusiones en torno a la NSA y WikiLeaks, obviamente está sucediendo mucho (¿tal vez está clasificado?). ¿Los gobiernos tienen su propia escuela de pensamiento en torno a la recopilación de grandes datos y darle sentido? Me encantaría saber de otros que puedan elaborar aquí.
Resumen:
La inteligencia empresarial es un concepto impulsado en gran medida por los proveedores de software que venden paquetes de informes y paneles a las empresas. Entrenan a empleados menos técnicos sobre cómo implementar y usar el software (generalmente por un costo adicional), una habilidad que los empleados pueden comercializar a otros empleadores. El énfasis se encuentra comúnmente en el análisis descriptivo y la visualización (aunque predictivo y prescriptivo se presentan como el santo grial).
La ciencia de datos es un concepto impulsado en gran medida por educadores que se centran en desarrollar estudiantes empleables (y fomentar la investigación). El software libre y de código abierto reina ya que el valor es la interpretación de los datos (no la presentación de los datos en sí). Se hace hincapié en la investigación, experimentación, previsión y consultoría.