¿Cuáles son las tecnologías de big data utilizadas en el almacenamiento de datos?

Teniendo en cuenta los desafíos planteados por Big Data, el costo de escalar los almacenes de datos tradicionales es alto y el rendimiento sería inadecuado para satisfacer las crecientes necesidades del volumen, la variedad y la velocidad de los datos. El ecosistema de Hadoop responde a ambas deficiencias. Hadoop tiene la capacidad de almacenar y analizar grandes conjuntos de datos en paralelo en un entorno distribuido, pero no puede reemplazar los almacenes de datos existentes y los sistemas RDBMS debido a sus propias limitaciones explicadas en este documento. En este documento, identifico las razones por las cuales muchas empresas fallan y luchan por adaptarse a las tecnologías de Big Data. En este documento se presentará un breve resumen de dos tecnologías diferentes para manejar Big Data: el uso del sistema Pure Data de IBM para análisis (Netezza), que generalmente se usa en informes, y Hadoop con Hive, que se usa en análisis. Además, este documento cubre la arquitectura Enterprise que consiste en Hadoop que las empresas exitosas se están adaptando para analizar, filtrar, procesar y almacenar los datos que se ejecutan a lo largo de un depósito de datos de procesamiento masivamente paralelo. A pesar de contar con la tecnología para soportar y procesar Big Data, las industrias todavía están luchando por cumplir sus objetivos debido a la falta de personal calificado para estudiar y analizar los datos, en resumen, científicos de datos y estadísticos de datos. https://goo.gl/UVfsY3

Almacenamiento de datosAnálisis deBig DataCiencia dedatos

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático?

¿Es la velocidad de la luz una restricción para los grandes datos?

¿Cuáles son las fortalezas / debilidades de los diferentes algoritmos de aprendizaje automático?

¿Qué campos de las matemáticas son más esenciales para la ciencia de datos?

¿Ha habido alguna investigación sobre cómo las pérdidas de capacitación en la convergencia de los algoritmos de aprendizaje profundo varían con el tamaño de los datos que ingresan?

¿Cuáles son los procesos involucrados en el Servicio de refinamiento de datos?

Paso la mayor parte de mi tiempo en servicios financieros, donde hay una gran cantidad de transacciones. La mayoría de ellos están utilizando Ab Initio para ETL y Oracle y / o la base de datos Terradata. El O / S es abrumadoramente un poco de sabor de UNIX en los servidores. Ocasionalmente veo algunas bases de datos UDB, pero estas son la excepción, no la regla. En varios casos, estamos hablando de datos que se procesan en varios servidores de alta gama y requieren altos Terabytes y, en algunos casos, bajos Pedabytes de almacenamiento de datos. Por supuesto, esto puede incluir un ODS y múltiples marts de datos. A mis clientes no les importa gastar dinero donde ven valor y definitivamente obtienen valor del software anterior. El hardware varía mucho. Nadie ha analizado hadoop u otras tecnologías. Parte de la razón fue que algunos se quemaron alrededor de 2003–04 cuando algunos creían que Neteeza entregaría lo imposible. No hay nada malo con Neteeza. Como todas las cosas, debe usarse de manera apropiada.

Ciertamente no sé qué utilizan todos los bancos del mundo. Estoy hablando estrictamente de los clientes de servicios financieros con los que trabajo. Tenga en cuenta que dije servicios financieros, no necesariamente bancos. No me interesa entrar en un debate sobre qué empresa está utilizando qué. Sin intención de ofender.

Simon Herrera

Big data con más organizaciones que almacenan, procesan y extraen valor de datos de todas las formas y tamaños. En 2017, los sistemas que admiten grandes volúmenes de datos estructurados y no estructurados continuarán aumentando. El mercado demandará plataformas que ayuden a los custodios de datos a gobernar y asegurar los grandes datos mientras que permite a los usuarios finales analizar esos datos. Estos sistemas madurarán para funcionar bien dentro de los sistemas y estándares de TI empresariales.
Lea más sobre las 10 principales tendencias de Big Data para 2017

Simon Herrera

Probablemente, el modelo de programación de código abierto Aster by Teradata y Hadoop.

Simon Herrera

More Interesting

¿Qué se sigue investigando en bosques aleatorios?

Cómo convertir datos categóricos a datos continuos

¿Cuáles son los componentes de software comunes de un kit de herramientas de almacenamiento de datos?

¿Cuál es la mejor hoja de ruta para aprender Ingeniería de Datos?

¿Qué es la ciencia de datos? Estoy interesado en los conceptos de minería de datos ¿Alguien podría sugerir por dónde empezar?

Entre Data Analytics y JavaScript, ¿qué habilidad es más valiosa y por qué? Si tuvieras que estudiar uno de ellos, ¿cuál elegirías?

¿Sería ingenuo obtener un doctorado en física teórica con el objetivo final de un papel de ciencia de datos en la industria?

¿Cuáles son algunas escuelas de EE. UU. Que ofrecen títulos universitarios en ciencias de datos?