Por lo tanto, desea saber qué sucede entre los datos del cliente y el informe final.
Explicaría la arquitectura y la tubería, con referencia a la que he construido; y la mayoría de las arquitecturas analíticas poseen un flujo de trabajo y arquitectura similares.
En primer lugar, los datos se almacenan en una base de datos. Puede haber muchas fuentes desde las que se pueden almacenar diferentes tipos de datos. Como ejemplo, los registros de llamadas de ventas pueden almacenarse en una base de datos separada, las compras en una separada, el código registra en una separada, etc.
- ¿Por qué se prefiere Mechanical Turk sobre Crowdflower para obtener datos etiquetados para Machine Learning?
- ¿La 'arquitectura lambda' sigue siendo la mejor manera de construir canalizaciones de datos a gran escala (en 2017) o ha sido reemplazada por otras arquitecturas?
- ¿Por qué son útiles los modelos generativos profundos?
- ¿Cuáles son los requisitos previos para aprender Hadoop y big data en master of science para nosotros?
- ¿Dónde puedo encontrar datos para construir un modelo de prepago de hipoteca usando conceptos de ciencia de datos?
Entonces, ahora tenemos muchos datos en muchas bases de datos dispersas. Y, por otro lado, tiene un problema que quería resolver y desea utilizar los datos.
Para obtener los datos correctos, puede usar las bases de datos directamente y, en la mayoría de los casos, desearía realizar funciones como UNIRSE, AGREGAR, etc. en las bases de datos; probablemente en la mayoría de ellos. Esto es solo el comienzo de la fase de ” análisis “.
Estas operaciones se convierten en un problema, si hay millones de filas en cada base de datos, y estas operaciones tardan años en completarse.
¿Solución?
En viene los almacenes de datos en columnas. Las bases de datos que están diseñadas especialmente para este propósito. Uno de esos almacenes es el “Amazon Redshift”.
Entonces, ahora tenemos muchos db’s y Amazon Redshift. Ahora, comienza la parte de migración.
Para llevar a cabo esta migración con éxito, los datos deben almacenarse en Amazon S3 (otro almacén de datos de Amazon, que literalmente almacena cualquier cosa); y luego use el comando COPIAR para migrarlo a Redshift.
¡¡Hurra!! Hemos terminado con la migración.
Ahora, continúe y realice sus operaciones complejas de SQL en los datos y cree sus modelos. Pero espera, ¿pueden tus modelos funcionar con datos tan grandes? Tal vez quieras usar Map Reduce.
Por lo tanto, ejecuta con éxito sus modelos en sus datos y una vez que esté satisfecho, almacene los resultados nuevamente en una base de datos, o tal vez lo conecte con una herramienta de Inteligencia de Negocios o una herramienta de Visualización como Looker o Tableau, para ver sus análisis cobrar vida en vivo visualizaciones
Pero, podría haber una tubería muy larga, y cientos de esas tuberías podrían atravesar su empresa por colegas científicos de datos. Por lo tanto, tomaría años completarlo y, a veces, una tarea podría fallar si la tarea dependiente no funciona correctamente. ¿Confuso?
Dejame explicarte con un ejemplo:
Considere un modelo de regresión lineal. Este modelo debe ejecutarse en los datos que preparó. ¿Qué sucede si la preparación de datos tiene algún error y no se ejecutó a tiempo, y como el paso de regresión lineal no lo sabe, y comienza en el tiempo asignado? DESASTRES, ¿verdad?
Por lo tanto, vienen las canalizaciones de datos como Luigi de Spotify y Airflow de Airbnb, que lo ayudan a construir tales dependencias sin grandes dolores de cabeza.
Entonces, ¿espero haber respondido tu pregunta? Si no (o incluso si es así), entonces las dudas pueden entrar en los comentarios.