¿Cuáles son las nuevas tecnologías de big data?

Hadoop

Hadoop es la plataforma central para estructurar Big Data y resuelve el problema de formatearlo para fines analíticos posteriores. Hadoop utiliza una arquitectura de computación distribuida que consta de múltiples servidores que utilizan hardware básico, lo que hace que sea relativamente económico escalar y admitir almacenes de datos extremadamente grandes.

Chispa

Apache Spark es un marco de cómputo de clúster de código abierto desarrollado originalmente en AMPLab en UC Berkeley. Las primitivas en memoria de Spark proporcionan un rendimiento hasta 100 veces más rápido para ciertas aplicaciones.

Mapa reducido

Un programa MapReduce se compone de un procedimiento Map () que realiza el filtrado y la clasificación y un procedimiento Reduce () que realiza una operación de resumen. Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos.

Colmena

Hive tiene tres funciones principales: resumen de datos, consulta y análisis. Admite consultas expresadas en un lenguaje llamado HiveQL, que traduce automáticamente consultas similares a SQL en trabajos MapReduce ejecutados en Hadoop. Además, HiveQL admite scripts personalizados de MapReduce para ser conectados a consultas.

Cerdo

Apache Pig es una plataforma para analizar grandes conjuntos de datos que consta de un lenguaje de alto nivel para expresar programas de análisis de datos, junto con una infraestructura para evaluar estos programas. La propiedad sobresaliente de los programas Pig es que su estructura es susceptible de paralelización sustancial, lo que a su vez les permite manejar conjuntos de datos muy grandes.

HBase

Apache HBase es una base de datos de código abierto, distribuida, versionada y no relacional modelada a partir de Bigtable de Google: un sistema de almacenamiento distribuido para datos estructurados por Chang et al. Al igual que Bigtable aprovecha el almacenamiento de datos distribuido proporcionado por el Sistema de archivos de Google, Apache HBase ofrece capacidades similares a Bigtable además de Hadoop y HDFS.

Cassandra

Apache Cassandra es un sistema de gestión de bases de datos distribuidas de código abierto diseñado para manejar grandes cantidades de datos en muchos servidores básicos, proporcionando alta disponibilidad sin un solo punto de falla. La escalabilidad lineal y la probada tolerancia a fallas en hardware básico o infraestructura de nube lo convierten en la plataforma perfecta para datos de misión crítica.

Hay muchas otras tecnologías como Phoenix, Zookeeper, Mahout, etc.

Estas son las siguientes 11 tecnologías de Big Data.

1. El ecosistema de Hadoop

2. chispa

Apache Spark es parte del ecosistema de Hadoop, Spark es uno de los subproyectos de Hadoop.

Tiene las siguientes características.

  • Velocidad
  • Soporta múltiples idiomas.
  • También admite consultas SQL, transmisión de datos, aprendizaje automático y algoritmos de gráficos, además de MapReduce.

3. R

R, también es un proyecto de código abierto. Es un paquete de software que puede ayudar a la tarea de manipulación de datos y también mostrar datos gráficamente.

R Entorno incluye: –

  • Puede almacenar y manejar datos de manera efectiva.
  • Gran colección de herramientas para el análisis de datos.
  • Lenguaje de programación simple y efectivo bien desarrollado.

4. Lagos de datos

Un lago de datos es un lago de datos no estructurados y estructurados.

El lago de datos admite las siguientes capacidades:

  • Para capturar y almacenar datos en bruto a escala por un bajo costo
  • Para almacenar muchos tipos de datos en el mismo repositorio
  • Para realizar transformaciones en los datos
  • Para definir la estructura de los datos en el momento en que se utilizan, se denomina esquema en la lectura.

5. Bases de datos NoSQL

  • Es un DBMS donde MapReduce se usa con consultas en lugar de programación manual para iterar sobre conjuntos de datos completos, por ejemplo, Hadoop, MongoDB.
  • Es un motor MapReduce con un pequeño lenguaje de consulta en la parte superior, no es un SQL completo: HIVE en la parte superior de Hadoop proporciona HIVEQL
  • Es un DBMS con un nuevo lenguaje de consulta para nuevas aplicaciones –Virtuoso, Neo4J, Amos II • Otras bases de datos no relacionales – Incluidos los almacenes de objetos

MongoDB es una de las conocidas bases de datos NoSQL.

6. Análisis predictivo

El análisis predictivo es una parte del análisis de big data que intenta informar sobre los eventos futuros o el comportamiento basado en análisis de datos anteriores. Se necesita la ayuda de técnicas de minería de datos, modelado y aprendizaje automático para predecir las ganancias o pérdidas futuras. A menudo se utiliza con fines de detección de fraude, marketing, finanzas y análisis de negocios.

7. Bases de datos en memoria

La tecnología de base de datos en memoria procesa los datos que se almacenan en la memoria, en lugar de los datos almacenados en un disco duro para que pueda funcionar dramáticamente más rápido

SAP, Oracle, Microsoft e IBM ofrecen tecnología de base de datos en memoria

8. Soluciones de seguridad de Big Data

Debido a que los repositorios de big data son una fuente de miel para los hackers y las amenazas persistentes avanzadas, la seguridad de big data es una preocupación creciente para las empresas. La encuesta de AtScale mostró que la seguridad era la segunda área de preocupación de más rápido crecimiento relacionada con los grandes datos.

Los tipos más populares de soluciones de seguridad de big data para los problemas incluyen, cifrado de datos y segregación de datos. Apache Ranger es un proyecto de código abierto del ecosistema Hadoop, también está recibiendo atención.

9. Soluciones de gobierno de Big Data

El concepto de gobernanza está muy relacionado con la idea de seguridad. El gobierno de datos consiste en todos los procesos relacionados con la disponibilidad, usabilidad e integridad de los datos. Se asegura de que los datos utilizados para el análisis de big data sean precisos y de manera adecuada, y también permite que los analistas o ejecutivos de negocios vean de dónde provienen los datos.

10. Inteligencia artificial

Sabemos acerca de la inteligencia artificial (IA) desde el día en que escuchamos sobre las computadoras, pero la tecnología solo ha surgido en los últimos años. Esta tendencia de big data ha impulsado los avances en Inteligencia Artificial, principalmente en dos campos de la disciplina, como el aprendizaje automático y el aprendizaje profundo.

Podemos definir el aprendizaje automático como una tecnología que brinda a las “computadoras la capacidad de aprender sin ser programadas explícitamente”. En el análisis de big data, la tecnología ML permite a los sistemas ver datos previamente rastreados o recuperados, reconocer patrones, construir modelos y predecir resultados futuros. Casi lo mismo que el análisis predictivo.

El aprendizaje profundo es un tipo de tecnología de aprendizaje automático que se basa en ANN (redes neuronales artificiales). Para analizar datos, utiliza múltiples capas de algoritmos.

11. Blockchain

Blockchain es un favorito entre los analistas con visión de futuro y me gusta más tener demanda dentro de un año más o menos, BC es la tecnología de base de datos distribuida que subyace a la moneda digital de Bitcoin. Es altamente seguro, lo que lo convierte en una excelente opción para aplicaciones de big data en industrias sensibles como la banca, etc. porque una vez que los datos se han escrito en su base de datos, no se pueden eliminar ni cambiar.

Blockchain es una tecnología de contabilidad distribuida que ofrece un gran potencial para el análisis de datos.

Quiere saber más sobre Big Data. Asista a una sesión de demostración gratuita sobre Big Data & Analytics para saber más.

alguna última tecnología de big data como

Búsqueda y descubrimiento de conocimiento : herramientas y tecnologías para apoyar la extracción de información por autoservicio

Análisis de transmisión: software que puede filtrar, agregar, enriquecer y analizar un alto rendimiento de datos de múltiples fuentes de datos en vivo dispares y en cualquier forma de datos

Almacenes de archivos distribuidos : una red informática donde los datos se almacenan en más de un nodo, a menudo de forma replicada, para redundancia y rendimiento. y busca en los sitios para más información
Big Data Hadoop Pro

En primer lugar, Apache Drill , acercándose a la calidad de producción y, aunque todavía no tiene mucho sentido tener eso en su currículum como algo importante, pero familiarícese con él. Bien podría ser el próximo Spark.

Luego Apache Flink como una próxima tormenta.

Las otras tecnologías como Spark , Cassandra , Kafka son bien establecidas y maduras.

Algunos como Flume y Pig ya están fuera de foco.

MapReduce ya es legado desde la perspectiva del profesional de Big Data.

Hadoop es una tecnología muy madura que permanecerá en los años venideros, ya que es un habilitador para la agrupación en general. No te olvides de Mesos , YARN , Tachyon.

Las tecnologías de Big Data crecen día a día y todavía se esperaban demasiadas tecnologías en el futuro cercano porque algunas de las tecnologías de Big Data no están mucho más maduras y día a día se realizan mejoras y cada 1-2 meses se lanzan nuevos parches.

Aquí está la lista de las 20 principales tecnologías de big data.