La respuesta corta es que no hay diferencia y que una organización competente tendrá cierto equilibrio de ambos. Ambas son aplicaciones de interpretación humana de datos informáticos. La diferencia esencial es que el “análisis de datos” es cualquier cosa que su contador promedio reconocerá en una hoja de cálculo, en el contexto de lo que se presenta en una hoja de cálculo. Es decir cuentas, porcentajes, tendencias. Mientras que la ciencia de datos da un paso más allá hacia medidas más sofisticadas como correlaciones, intervalos de confianza, momentos. También con la ciencia de datos, es más probable que uno se involucre con la predicción y diseñe algunos subconjuntos representativamente significativos de los datos completos.
Así que tomemos un ejemplo de hamburguesa.
Una cadena de comida rápida en California contrató a mi empleador anterior para que pusiera una aplicación analítica sobre sus datos de punto de venta. Nadie antes de ese momento tenía nada más que una comprensión muy amplia de cuánto dinero ganaban diariamente sus 400 tiendas impares. Los nuevos datos de POS utilizaron códigos de producto, y ahora sabíamos hasta cada recibo, cuánto dinero gastaba cada cliente en cada producto en el menú. Recuentos simples por tiempo. Esto le dijo a la cadena qué períodos del día vendían qué comida y cuánto. Luego hicieron algunos cálculos matemáticos simples para calcular la eficiencia de sus cocineros y cajeros y descubrieron que estaban contratando personal y turnos en el momento equivocado. Entonces, solo contando, descubrieron que debían realizar un turno de cuatro horas de 10 a.m. a 2 p.m. en lugar de uno de 8 a.m. a mediodía porque romper el turno al comienzo de la ‘hora del almuerzo’ estaba mal. No hubo una hora de almuerzo, hubo un almuerzo de cuatro horas con un pico alrededor de las 12:20 pm.
Cambiaron sus patrones de personal, aumentaron la moral de los empleados y la satisfacción del cliente simplemente siguiendo lo que los * datos * decían sobre los tiempos de compra de los clientes, en lugar de las ideas estándar sobre lo que es la hora del almuerzo. Lo mismo con el desayuno, lo mismo con la cena, lo mismo con la noche. Eso es analítica.
- ¿Cuál es el flujo de trabajo habitual de un científico de datos antes de comenzar a analizar un conjunto de datos?
- ¿Por qué no hay un estándar para el estilo de codificación en GNU R?
- Cómo concentrarme en mis planes (ciencia de datos y programación) para vacaciones de verano
- En la era de Big Data, ¿cómo elegimos información efectiva?
- Si me uno a Microsoft como Científico de datos sénior y obtengo un rendimiento superior al promedio, ¿cuánto tiempo debo esperar para llegar al nivel principal?
Ahora tome el mismo conjunto de datos y ejecute correlaciones en qué partes se venden con qué hamburguesas. (No hicieron esto). Y descubriría que, por ejemplo, las personas que ordenaron tacos casi nunca pidieron papas fritas con ellos. Entonces eso reorganizaría lo que venden como un ‘combo de comida’. Luego, cuando alguien ordena un taco en el camino, un aviso en tiempo real podría decirle al cajero que sugiera un lado de taquitos o salsa extra.
Mi experiencia me dice que el grueso del valor a extraer de los datos está operativo. Es decir que los recuentos por tiempo son muy valiosos, al igual que agregar dimensiones y atributos a datos simples. Pero cuando desea comenzar la predicción, necesita herramientas más sofisticadas que la simple agregación. La recompensa está en el análisis, refinando que la recompensa está en el modelo predictivo. Pero sí, siempre necesita la intuición de los gerentes que operan el negocio para comprometerse (o no) con las proyecciones de su computadora. Ahí radica el arte de la inteligencia empresarial, que es conocer el equilibrio correcto de datos informáticos frente al conocimiento humano para aplicarlo a un problema empresarial. [1]
La parte más importante del trabajo de un científico de datos, en mi opinión, es comprender las restricciones matemáticas de los datos para determinar cuánto se puede confiar y cuál es un tamaño de muestra adecuado para considerar dadas las posibilidades de seguir su salida. En otras palabras, se trata de un tipo especializado de inferencia. Ahora que la tecnología y la metodología han hecho que sea menos costoso agregar cantidades masivas de datos, los estadísticos y los científicos de datos deben decirnos cuánto arriesgamos al depender de esos datos, o si no tenemos suficiente para tomar las decisiones adecuadas. [2]
Notas al pie
[1] Los cuatro pilares de la inteligencia empresarial
[2] Barreras al valor agregado en el análisis de datos