¿Cómo las herramientas de BI modernas como Good Data, RJMetrics, Chartio, Yellowfin, Tableau, etc. procesan una gran cantidad de datos sin usar un almacén de datos?

AJ de Chartio aquí. Me alegraría arrojar algo de luz sobre esto. La respuesta breve es que trae la tecnología de base de datos que mejor se adapta a sus necesidades (Amazon Redshift, que es una base de datos columnar MPP, es muy popular entre nuestros clientes) y proporcionamos un generador de consultas de arrastrar y soltar personalizable optimizado para su base de datos, una información gráfica canalización implementada en Java en el back-end para el procesamiento posterior y una memoria caché en memoria de los resultados agregados. Para una inmersión un poco más profunda, ¡sigue leyendo!

En primer lugar, estamos muy centrados en proporcionar no solo un gran rendimiento, sino la forma más fácil de obtener respuestas en el menor tiempo posible. Como mencionó, no lo obligamos a realizar ningún almacenamiento de ETL / datos. Para que pueda conectarse a una variedad de proveedores de bases de datos y ejecutar análisis con nuestro generador de consultas de arrastrar y soltar o la variante SQL que elija en minutos.

En segundo lugar, si elige ir con un almacén de datos, Chartio ha sido probado en batalla contra almacenes de datos muy grandes con miles de millones de filas. Nuestro generador de consultas de arrastrar y soltar es muy cuidadoso de no generar una versión normalizada de SQL que sea el mínimo común denominador de todos los proveedores que admitimos, sino que genera SQL dirigido a su proveedor y sus mejores prácticas de rendimiento. Por ejemplo, Amazon Redshift emplea un montón de tácticas que le permiten escalar su almacén a más de un petabyte de datos, siendo las claves una de ellas. Somos muy cuidadosos con la forma en que generamos nuestras cláusulas WHERE para Redshift para que nuestras consultas aprovechen cualquier clave de clasificación definida que permita la eliminación de bloques de datos irrelevantes y reduzca en gran medida las E / S. Tomamos este tipo de precauciones con todos nuestros proveedores compatibles.

En tercer lugar, si hay casos extremos en los planes de ejecución del proveedor de la base de datos que cree que no tenemos en cuenta, definitivamente háganoslo saber, pero también siéntase cómodo sabiendo que proporcionamos tanto un modo SQL sin procesar para gráficos únicos como una capa de modelado de datos que le permite personalizar el SQL generado por nuestra interfaz de arrastrar y soltar. Ambos usan la variante SQL de su base de datos, por lo que puede copiar y pegar todo lo que tiene hoy y simplemente funcionará.

Finalmente, nuestra canalización de datos, que es excelente para fusionar y procesar datos agregados de bases de datos dispares (piense en las cosas que puede hacer hoy en Excel), está escrita en Java y utiliza un caché en memoria para el procesamiento intermedio y el almacenamiento en caché de resultados. súper rápido. La duración de la memoria caché para los resultados también es configurable, por lo que, por ejemplo, si solo carga su almacén de datos una vez al día, podría aumentar la duración de la memoria caché a 24 horas.

Si tiene más preguntas o simplemente quiere hablar sobre BI / almacenamiento de datos en general, nos encantaría hablar con usted. ¡No dude en comunicarse conmigo directamente o enviarme un correo electrónico [protegido por correo electrónico] para configurar una versión de prueba!

Depende de las herramientas. Algunas herramientas simplemente se conectan a su almacén de datos, otras tienen un servicio de ingestión de datos que recibe y transforma los datos de acuerdo con la configuración deseada.

Algunos (si no la mayoría) de los servicios de alto rendimiento que vi basan su oferta en columnas en bases de datos de memoria con algún tipo de compresión e indexación. Esos son a menudo un rendimiento muy alto incluso en los cuerpos de datos más grandes.

Le diré acerca de Tableau que usa tipos de conexión en vivo y de extracción para obtener datos de varias fuentes de datos.

En el tipo de conexión Extraer, extraerá los datos de la fuente y guardará una copia local en él. Y obtendrá los datos rápidamente en el tablero.

El motor de extracción de datos de Tableau realiza el almacenamiento de datos en columnas. mientras lee los datos de las fuentes, leerá valores únicos para ejemplificar en una columna que tenga 10k registros con 100 valores únicos y luego leerá esos 100 solamente. Por lo tanto, los extractos de datos de Tableau siguen los modelos en columnas para permitir la máxima compresión de datos.

Si tomó Excel o la base de datos SQL como fuente de datos en Tableau con el tipo de conexión como en vivo, cada vez enviará la consulta a la fuente de datos y obtendrá los datos en el informe.