En pocas palabras: significa que usa los datos para tomar decisiones y no intuir.
Ejemplo 1 – cuántos datos estamos perdiendo – la verificación intestinal dice “Siento que …”. Los datos impulsados responden con un diagrama de linaje de datos de alto nivel y pueden identificar cada punto del linaje y expresar el% de pérdida de datos en cada paso del procesamiento en el ciclo de vida y expresar los umbrales (pérdida aceptable versus riesgo).
Ejemplo 2: hemos visto un aumento significativo en las llamadas de los clientes en los últimos dos meses: verificación intestinal: “vemos un 20%, creo que se debe a la actualización v2”. La respuesta basada en datos es “en los últimos 12 meses hemos visto un crecimiento constante de las llamadas de los clientes con respecto a las nuevas funciones, en los últimos dos meses vimos un aumento del 15% en estas llamadas y otro aumento del 5% en los clientes que solicitaron desconectar su servicio de que 2 de ese 5% de las llamadas mencionan específicamente la última actualización de software.
Se trata de detalles. Pero no es solo que tenga datos, es que tiene los datos correctos para la pregunta y que los datos tienen que ser de alta calidad, momento en el que ahora puede tomar una decisión informada frente a seguir las intuiciones.
- ¿Cómo se toman los estados de Facebook o Tweets, que están escritos en un idioma mixto, en el análisis de sentimientos?
- ¿Por qué el bosque aleatorio (scikit-learn) usa tanta memoria? ¿Existen otras implementaciones además de scikit-learn que son más eficientes en memoria?
- Soy ingeniero industrial (nunca he estado en ciencias de la computación) pero estoy interesado en la ciencia de datos. ¿Qué tengo que hacer?
- ¿De qué manera un maestro en estadística de la Universidad de Delhi consigue un puesto de científico de datos de nivel de entrada en las principales empresas?
- ¿Vale la pena aprender sobre ciencia de datos?