¿Cómo es una implementación de ciencia de datos de producción?

Por lo tanto, desea saber qué sucede entre los datos del cliente y el informe final.

Explicaría la arquitectura y la tubería, con referencia a la que he construido; y la mayoría de las arquitecturas analíticas poseen un flujo de trabajo y arquitectura similares.

En primer lugar, los datos se almacenan en una base de datos. Puede haber muchas fuentes desde las que se pueden almacenar diferentes tipos de datos. Como ejemplo, los registros de llamadas de ventas pueden almacenarse en una base de datos separada, las compras en una separada, el código registra en una separada, etc.

Entonces, ahora tenemos muchos datos en muchas bases de datos dispersas. Y, por otro lado, tiene un problema que quería resolver y desea utilizar los datos.

Para obtener los datos correctos, puede usar las bases de datos directamente y, en la mayoría de los casos, desearía realizar funciones como UNIRSE, AGREGAR, etc. en las bases de datos; probablemente en la mayoría de ellos. Esto es solo el comienzo de la fase de ” análisis “.

Estas operaciones se convierten en un problema, si hay millones de filas en cada base de datos, y estas operaciones tardan años en completarse.

¿Solución?
En viene los almacenes de datos en columnas. Las bases de datos que están diseñadas especialmente para este propósito. Uno de esos almacenes es el “Amazon Redshift”.

Entonces, ahora tenemos muchos db’s y Amazon Redshift. Ahora, comienza la parte de migración.

Para llevar a cabo esta migración con éxito, los datos deben almacenarse en Amazon S3 (otro almacén de datos de Amazon, que literalmente almacena cualquier cosa); y luego use el comando COPIAR para migrarlo a Redshift.

¡¡Hurra!! Hemos terminado con la migración.

Ahora, continúe y realice sus operaciones complejas de SQL en los datos y cree sus modelos. Pero espera, ¿pueden tus modelos funcionar con datos tan grandes? Tal vez quieras usar Map Reduce.

Por lo tanto, ejecuta con éxito sus modelos en sus datos y una vez que esté satisfecho, almacene los resultados nuevamente en una base de datos, o tal vez lo conecte con una herramienta de Inteligencia de Negocios o una herramienta de Visualización como Looker o Tableau, para ver sus análisis cobrar vida en vivo visualizaciones

Pero, podría haber una tubería muy larga, y cientos de esas tuberías podrían atravesar su empresa por colegas científicos de datos. Por lo tanto, tomaría años completarlo y, a veces, una tarea podría fallar si la tarea dependiente no funciona correctamente. ¿Confuso?

Dejame explicarte con un ejemplo:
Considere un modelo de regresión lineal. Este modelo debe ejecutarse en los datos que preparó. ¿Qué sucede si la preparación de datos tiene algún error y no se ejecutó a tiempo, y como el paso de regresión lineal no lo sabe, y comienza en el tiempo asignado? DESASTRES, ¿verdad?

Por lo tanto, vienen las canalizaciones de datos como Luigi de Spotify y Airflow de Airbnb, que lo ayudan a construir tales dependencias sin grandes dolores de cabeza.

Entonces, ¿espero haber respondido tu pregunta? Si no (o incluso si es así), entonces las dudas pueden entrar en los comentarios.

En el medio, hay una cosa valiosa llamada Conocimiento empresarial.

No puede agregar valor a un negocio del que no sabe nada. En mi experiencia, necesitarás:

– Conocimiento empresarial (como se indicó anteriormente). Puede aprenderlo usted mismo o reunirse con usuarios clave en su cliente, lo que le dará los conceptos básicos de lo que falta diariamente. Los mejores aliados son aquellos que pasan el 90% de sus horas de trabajo montando informes y 10% analizando. Probablemente lo sepa por su experiencia en la construcción de DW.

– Un patrocinador del proyecto. Nadie dedicará horas de trabajo si la alta dirección no ejerce presión para que el proyecto se realice a tiempo.

– Un fuerte análisis de correlación de datos. No desea que su modelo muestre información “valiosa” como esta.


Entonces hay tiempo para hacer y estar orgulloso de su modelo de regresión, cuando tiene la información correcta que lo alimenta.

TL; DR

Recuerda la regla que establece que Garbage In -> Garbage out.
Asegúrese de comprender las necesidades del cliente antes de comenzar cualquier modelo.