¿Cómo las herramientas de BI modernas como Good Data, RJMetrics, Chartio, Yellowfin, Tableau, etc. procesan una gran cantidad de datos sin usar un almacén de datos? La tecnología cambia la vida futura

AJ de Chartio aquí. Me alegraría arrojar algo de luz sobre esto. La respuesta breve es que trae la tecnología de base de datos que mejor se adapta a sus necesidades (Amazon Redshift, que es una base de datos columnar MPP, es muy popular entre nuestros clientes) y proporcionamos un generador de consultas de arrastrar y soltar personalizable optimizado para su base de datos, una información gráfica canalización implementada en Java en el back-end para el procesamiento posterior y una memoria caché en memoria de los resultados agregados. Para una inmersión un poco más profunda, ¡sigue leyendo!

En primer lugar, estamos muy centrados en proporcionar no solo un gran rendimiento, sino la forma más fácil de obtener respuestas en el menor tiempo posible. Como mencionó, no lo obligamos a realizar ningún almacenamiento de ETL / datos. Para que pueda conectarse a una variedad de proveedores de bases de datos y ejecutar análisis con nuestro generador de consultas de arrastrar y soltar o la variante SQL que elija en minutos.

En segundo lugar, si elige ir con un almacén de datos, Chartio ha sido probado en batalla contra almacenes de datos muy grandes con miles de millones de filas. Nuestro generador de consultas de arrastrar y soltar es muy cuidadoso de no generar una versión normalizada de SQL que sea el mínimo común denominador de todos los proveedores que admitimos, sino que genera SQL dirigido a su proveedor y sus mejores prácticas de rendimiento. Por ejemplo, Amazon Redshift emplea un montón de tácticas que le permiten escalar su almacén a más de un petabyte de datos, siendo las claves una de ellas. Somos muy cuidadosos con la forma en que generamos nuestras cláusulas WHERE para Redshift para que nuestras consultas aprovechen cualquier clave de clasificación definida que permita la eliminación de bloques de datos irrelevantes y reduzca en gran medida las E / S. Tomamos este tipo de precauciones con todos nuestros proveedores compatibles.

En tercer lugar, si hay casos extremos en los planes de ejecución del proveedor de la base de datos que cree que no tenemos en cuenta, definitivamente háganoslo saber, pero también siéntase cómodo sabiendo que proporcionamos tanto un modo SQL sin procesar para gráficos únicos como una capa de modelado de datos que le permite personalizar el SQL generado por nuestra interfaz de arrastrar y soltar. Ambos usan la variante SQL de su base de datos, por lo que puede copiar y pegar todo lo que tiene hoy y simplemente funcionará.

Finalmente, nuestra canalización de datos, que es excelente para fusionar y procesar datos agregados de bases de datos dispares (piense en las cosas que puede hacer hoy en Excel), está escrita en Java y utiliza un caché en memoria para el procesamiento intermedio y el almacenamiento en caché de resultados. súper rápido. La duración de la memoria caché para los resultados también es configurable, por lo que, por ejemplo, si solo carga su almacén de datos una vez al día, podría aumentar la duración de la memoria caché a 24 horas.

Si tiene más preguntas o simplemente quiere hablar sobre BI / almacenamiento de datos en general, nos encantaría hablar con usted. ¡No dude en comunicarse conmigo directamente o enviarme un correo electrónico [protegido por correo electrónico] para configurar una versión de prueba!

Big DataBig Data AnalysisBusiness IntelligenceDataData AnalysisData Science