¿Cómo está cambiando el concepto tradicional de ETL con la llegada de plataformas analíticas basadas en la nube como Amazon RedShift, Snowflake, etc.?

Creo que una de las grandes diferencias es que estás viendo más y más ELT en lugar de ETL tradicionales. Las grandes bases de datos MPP como Redshift, Vertica, BigQuery, etc. tienen tanta potencia que, en lugar de hacer el resumen, los resúmenes y los cubos fuera del clúster antes de cargar, es posible realizar una gran parte de la transformación en el momento de la consulta.

Entonces, en Upworthy, nuestras grandes tablas en Redshift tenían muchos miles de millones de filas y docenas de columnas de ancho, pero no fue un gran problema consultar esas tablas directamente. Realizamos una gran transformación de los datos una vez que estuvieron en Redshift, pero muy poco antes de la carga.

Y eso significa que cada vez más herramientas de front-end, como Looker (donde ahora trabajo), Chartio, Periscope, etc., pueden conectarse directamente a la base de datos y ejecutar consultas ad hoc en conjuntos de datos completos, sin tener que hacer un toneladas de resumen primero.

Hace unos años, si quería hacer ETL, probablemente implementó un dispositivo costoso de la talla de Netezza, Teradata u otro proveedor de hardware. Tendrás que asegurarte de que tu caja pueda manejar la demanda máxima, lo que significa que estará infrautilizada la mayor parte del tiempo. Y tendría que designar al personal de TI para instalar y administrar el hardware y el software.

Cuando la gente estaba encerrada en un costoso hardware local, tenía sentido extraer, transformar y cargar en ese orden. Las bases de datos en columnas en las instalaciones eran tan costosas y difíciles de aprovisionar que tenía sentido hacer la mayor cantidad de trabajo de preparación posible (es decir, transformación) antes de cargar datos en ellas. Hoy, sin embargo, los almacenes de datos en la nube como Amazon Redshift, Google BigQuery y Snowflake tienen un poder de cómputo casi infinitamente escalable, por lo que puede omitir las transformaciones de precarga y volcar todos sus datos sin procesar en su almacén de datos. Luego puede definir transformaciones en SQL y ejecutarlas en el almacén de datos en el momento de la consulta.

Esta transición de ETL a ELT tiene una serie de beneficios. Primero, su canalización de datos puede ser dramáticamente más simple, ya que ya no tiene que manejar la fase de transformación. Además, con sus transformaciones definidas en el mismo lenguaje que sus análisis, cualquiera puede comprender y auditar la ruta completa desde la fuente de datos sin procesar hasta el informe terminado. Finalmente, un almacén de datos en bruto centralizado facilita el soporte de diferentes transformaciones para diferentes herramientas, análisis y procesos comerciales. Su motor de recomendación de productos probablemente requiera transformaciones muy diferentes que su herramienta de BI, pero ambos se basan en los mismos datos de entrada sin procesar.

Además, gracias a la nube, puede obtener el rendimiento que necesita cuando lo necesita: no es necesario prever la carga máxima cuando puede escalar automáticamente a pedido. Eso reduce los costos, al igual que el hecho de que ya no necesita admitir hardware y software interno.

Dependiendo de su plataforma de almacenamiento de datos, también puede separar los costos de los recursos informáticos y de almacenamiento. (Puede hacer esto con BigQuery y Snowflake, pero con Redshift, aún paga por los recursos de cómputo incluso si está almacenando pero no está consultando datos). El almacenamiento en sí mismo es relativamente barato y cada vez más barato, lo que significa que no ‘ No tiene que tomar decisiones sobre qué datos serán útiles para capturar: simplemente puede almacenar todo en un lago de datos.

La generación actual de herramientas de BI (Modo, Periscopio, Looker, Chartio) supone que se encuentran en la parte superior de los datos no transformados y tienen características que le permiten modelar sus datos. Ya sea que se trate de definiciones reutilizables en SQL o de un lenguaje propietario como LookML que compila a SQL, estas modernas herramientas de BI aprovechan los almacenes de datos en la nube para permitir una experiencia de usuario que no era posible hace 10 años.

Creo que herramientas como Amazon Redshift, Snowflake y BigQuery le permiten cambiar el centro de atención de la administración de sus propios almacenes de datos para realmente llevar sus datos a esos almacenes.

Además, debido a que estos son almacenes muy potentes, le permite ser mucho menos restrictivo en los datos que carga en el almacén.

Esto significa que es importante decidir cómo cargar sus datos en estos almacenes.

Idealmente, desearía una herramienta que tenga muchas integraciones a diferentes fuentes de datos, se amplíe bien a medida que crezcan sus volúmenes de datos, le permita personalizarla para una limpieza y ajustes simples de los datos, y esté optimizada específicamente para cargarla en el almacén de datos elegido. .

Desde mi experiencia trabajando en una herramienta ETL basada en la nube que se integra con los principales almacenes de datos, hemos descubierto que Amazon Redshift parece ser uno de los favoritos entre nuestros clientes.

Los conceptos y principios generales son los mismos. Se hace más hincapié en los problemas de transporte, como la seguridad en movimiento y la optimización de WAN.

Sí, estoy de acuerdo con la última tecnología y herramientas que cambian la tradicional. Al igual que el almacén de datos de Amazon Redshift MPP, principalmente en análisis de inteligencia empresarial para almacenar los datos en forma de columna. En este tipo de bases de datos podemos realizar operaciones agregadas más rápido.