Hace unos años, si quería hacer ETL, probablemente implementó un dispositivo costoso de la talla de Netezza, Teradata u otro proveedor de hardware. Tendrás que asegurarte de que tu caja pueda manejar la demanda máxima, lo que significa que estará infrautilizada la mayor parte del tiempo. Y tendría que designar al personal de TI para instalar y administrar el hardware y el software.
Cuando la gente estaba encerrada en un costoso hardware local, tenía sentido extraer, transformar y cargar en ese orden. Las bases de datos en columnas en las instalaciones eran tan costosas y difíciles de aprovisionar que tenía sentido hacer la mayor cantidad de trabajo de preparación posible (es decir, transformación) antes de cargar datos en ellas. Hoy, sin embargo, los almacenes de datos en la nube como Amazon Redshift, Google BigQuery y Snowflake tienen un poder de cómputo casi infinitamente escalable, por lo que puede omitir las transformaciones de precarga y volcar todos sus datos sin procesar en su almacén de datos. Luego puede definir transformaciones en SQL y ejecutarlas en el almacén de datos en el momento de la consulta.
Esta transición de ETL a ELT tiene una serie de beneficios. Primero, su canalización de datos puede ser dramáticamente más simple, ya que ya no tiene que manejar la fase de transformación. Además, con sus transformaciones definidas en el mismo lenguaje que sus análisis, cualquiera puede comprender y auditar la ruta completa desde la fuente de datos sin procesar hasta el informe terminado. Finalmente, un almacén de datos en bruto centralizado facilita el soporte de diferentes transformaciones para diferentes herramientas, análisis y procesos comerciales. Su motor de recomendación de productos probablemente requiera transformaciones muy diferentes que su herramienta de BI, pero ambos se basan en los mismos datos de entrada sin procesar.
Además, gracias a la nube, puede obtener el rendimiento que necesita cuando lo necesita: no es necesario prever la carga máxima cuando puede escalar automáticamente a pedido. Eso reduce los costos, al igual que el hecho de que ya no necesita admitir hardware y software interno.
Dependiendo de su plataforma de almacenamiento de datos, también puede separar los costos de los recursos informáticos y de almacenamiento. (Puede hacer esto con BigQuery y Snowflake, pero con Redshift, aún paga por los recursos de cómputo incluso si está almacenando pero no está consultando datos). El almacenamiento en sí mismo es relativamente barato y cada vez más barato, lo que significa que no ‘ No tiene que tomar decisiones sobre qué datos serán útiles para capturar: simplemente puede almacenar todo en un lago de datos.
La generación actual de herramientas de BI (Modo, Periscopio, Looker, Chartio) supone que se encuentran en la parte superior de los datos no transformados y tienen características que le permiten modelar sus datos. Ya sea que se trate de definiciones reutilizables en SQL o de un lenguaje propietario como LookML que compila a SQL, estas modernas herramientas de BI aprovechan los almacenes de datos en la nube para permitir una experiencia de usuario que no era posible hace 10 años.