¿Cuáles son las tecnologías de big data utilizadas en el almacenamiento de datos?

Teniendo en cuenta los desafíos planteados por Big Data, el costo de escalar los almacenes de datos tradicionales es alto y el rendimiento sería inadecuado para satisfacer las crecientes necesidades del volumen, la variedad y la velocidad de los datos. El ecosistema de Hadoop responde a ambas deficiencias. Hadoop tiene la capacidad de almacenar y analizar grandes conjuntos de datos en paralelo en un entorno distribuido, pero no puede reemplazar los almacenes de datos existentes y los sistemas RDBMS debido a sus propias limitaciones explicadas en este documento. En este documento, identifico las razones por las cuales muchas empresas fallan y luchan por adaptarse a las tecnologías de Big Data. En este documento se presentará un breve resumen de dos tecnologías diferentes para manejar Big Data: el uso del sistema Pure Data de IBM para análisis (Netezza), que generalmente se usa en informes, y Hadoop con Hive, que se usa en análisis. Además, este documento cubre la arquitectura Enterprise que consiste en Hadoop que las empresas exitosas se están adaptando para analizar, filtrar, procesar y almacenar los datos que se ejecutan a lo largo de un depósito de datos de procesamiento masivamente paralelo. A pesar de contar con la tecnología para soportar y procesar Big Data, las industrias todavía están luchando por cumplir sus objetivos debido a la falta de personal calificado para estudiar y analizar los datos, en resumen, científicos de datos y estadísticos de datos. https://goo.gl/UVfsY3

Paso la mayor parte de mi tiempo en servicios financieros, donde hay una gran cantidad de transacciones. La mayoría de ellos están utilizando Ab Initio para ETL y Oracle y / o la base de datos Terradata. El O / S es abrumadoramente un poco de sabor de UNIX en los servidores. Ocasionalmente veo algunas bases de datos UDB, pero estas son la excepción, no la regla. En varios casos, estamos hablando de datos que se procesan en varios servidores de alta gama y requieren altos Terabytes y, en algunos casos, bajos Pedabytes de almacenamiento de datos. Por supuesto, esto puede incluir un ODS y múltiples marts de datos. A mis clientes no les importa gastar dinero donde ven valor y definitivamente obtienen valor del software anterior. El hardware varía mucho. Nadie ha analizado hadoop u otras tecnologías. Parte de la razón fue que algunos se quemaron alrededor de 2003–04 cuando algunos creían que Neteeza entregaría lo imposible. No hay nada malo con Neteeza. Como todas las cosas, debe usarse de manera apropiada.

Ciertamente no sé qué utilizan todos los bancos del mundo. Estoy hablando estrictamente de los clientes de servicios financieros con los que trabajo. Tenga en cuenta que dije servicios financieros, no necesariamente bancos. No me interesa entrar en un debate sobre qué empresa está utilizando qué. Sin intención de ofender.

Big data con más organizaciones que almacenan, procesan y extraen valor de datos de todas las formas y tamaños. En 2017, los sistemas que admiten grandes volúmenes de datos estructurados y no estructurados continuarán aumentando. El mercado demandará plataformas que ayuden a los custodios de datos a gobernar y asegurar los grandes datos mientras que permite a los usuarios finales analizar esos datos. Estos sistemas madurarán para funcionar bien dentro de los sistemas y estándares de TI empresariales.
Lea más sobre las 10 principales tendencias de Big Data para 2017

Probablemente, el modelo de programación de código abierto Aster by Teradata y Hadoop.