Un sistema de almacenamiento de datos de sopas a nueces incluye un componente ETL, el propio almacén e interfaces para interactuar con los datos en el almacén.
Comenzando con ETL: Existen muchos otros productos como Datastage (componente ETL de IBM), por ejemplo, Talend, Pentaho e Informatica. El componente ETL es responsable de extraer los datos de los sistemas donde vive, masajeándolos para limpiarlos, normalizarlos y prepararlos para el análisis, y finalmente cargarlos en el almacén. Si desea construir el componente ETL usted mismo, necesitaría sondear todas las fuentes de datos relevantes, identificar datos nuevos o modificados, realizar el procesamiento posterior y cargar esos datos en el almacén. La parte difícil es resolver todos estos problemas para grandes conjuntos de datos que están cambiando rápidamente y requieren un procesamiento posterior complicado.
El almacén en sí es típicamente un RDBMS que admite SQL. Cada vez más, las plataformas de bases de datos diseñadas específicamente para análisis, como Redshift o Vertica, se están volviendo de uso común.
- ¿Cuál es el propósito de los servicios de transformación de datos?
- Me uní a una pequeña startup que trabaja en análisis de datos, y mi posición es analista de datos. ¿Qué tan prometedor es el futuro en el análisis de datos?
- ¿Cuáles son algunos buenos proyectos de ciencia de datos?
- ¿Cuáles son los principales desafíos con big data en epidemiología?
- ¿Puedo comenzar a aprender ciencia de datos y big data a los 34 años o es demasiado tarde?
Las opciones de interfaz vienen en una amplia variedad, y la mayoría se ubicará sobre cualquier base de datos que interactúe con ODBC o JDBC. Los ejemplos incluyen Tableau, Looker y R. Tampoco es raro complementar esas herramientas con informes personalizados que extraen datos directamente del almacén.
Armar todo este sistema de almacenamiento de datos puede ser costoso y llevar mucho tiempo, y hay muchas razones por las cuales los proyectos de almacenamiento de datos fallan . En RJMetrics , creamos y mantenemos cada parte del sistema de almacenamiento de datos para usted. Gestionamos la canalización de ETL, personalizada para sus fuentes de datos y sus reglas comerciales, y almacenamos los datos en un almacén masivo impulsado por Amazon RedShift. Podemos tomar cualquier información de cualquier fuente, y podemos cambiar fácilmente cualquier aspecto de su almacén con unos pocos clics. Nuestra interfaz fácil de usar le permite usar sus datos para obtener rápidamente la información que necesita para hacer crecer su negocio.