¿Qué tecnologías admiten el análisis de Hadoop y Big Data? La tecnología cambia la vida futura

Apache Hadoop y el análisis de big data implican varias tecnologías subyacentes:

Programación R

R es un lenguaje de programación de código abierto y un entorno de software diseñado para computación estadística y visualización. R fue diseñado por Ross Ihaka y Robert Gentleman en la Universidad de Auckland, Nueva Zelanda a partir de 1993 y se está convirtiendo rápidamente en la herramienta de referencia para el análisis estadístico de conjuntos de datos muy grandes. Ha sido comercializado por una compañía llamada Revolution Analytics, que está buscando un modelo de servicios y soporte inspirado en el soporte de Red Hat para Linux. R está disponible bajo la Licencia Pública General de GNU.

Cascada

Cascading, una capa de abstracción de software de código abierto para Hadoop, permite a los usuarios crear y ejecutar flujos de trabajo de procesamiento de datos en clústeres de Hadoop utilizando cualquier lenguaje basado en JVM. Su objetivo es ocultar la complejidad subyacente de los trabajos de MapReduce. Chris Wensel diseñó la conexión en cascada como una API alternativa a MapReduce.

Escriba

Scribe es un servidor desarrollado por Facebook y lanzado en 2008. Está destinado a agregar datos de registro transmitidos en tiempo real desde una gran cantidad de servidores. Facebook lo diseñó para cumplir con sus propios desafíos de escala, y ahora usa Scribe para manejar decenas de miles de millones de mensajes al día. Está disponible bajo la licencia Apache 2.0.

Búsqueda elástica

Desarrollado por Shay Banon y basado en Apache Lucene, ElasticSearch es un servidor de búsqueda de código abierto RESTful distribuido. Es una solución escalable que admite búsquedas casi en tiempo real y multicliente sin una configuración especial. Ha sido adoptado por varias empresas, incluidas StumbleUpon y Mozilla. ElasticSearch está disponible bajo la licencia Apache 2.0.

HBase

Escrita en Java y modelada a partir de BigTable de Google, Apache HBase es una base de datos distribuida en columnas no relacional de código abierto diseñada para ejecutarse sobre el Sistema de archivos distribuidos de Hadoop (HDFS). Proporciona almacenamiento tolerante a fallas y acceso rápido a grandes cantidades de datos dispersos. HBase es uno de una multitud de almacenes de datos NoSQL que han estado disponibles en los últimos años. En 2010, Facebook adoptó HBase para servir su plataforma de mensajería. Está disponible bajo la licencia Apache 2.0

Apache Cassandra

Otro almacén de datos NoSQL, Apache Cassandra es un sistema de gestión de bases de datos distribuidas de código abierto desarrollado por Facebook para potenciar su función de búsqueda en la bandeja de entrada. Facebook abandonó a Cassandra a favor de HBase en 2010, pero Cassandra todavía es utilizada por varias compañías, incluida Netflix, que usa a Cassandra como la base de datos de back-end para sus servicios de transmisión. Cassandra está disponible bajo la licencia Apache 2.0

MongoDB

Creado por los fundadores de DoubleClick, MongoDB es otro almacén de datos NoSQL de código abierto popular. Almacena datos estructurados en documentos similares a JSON con esquemas dinámicos llamados BSON (para Binary JSON). MongoDB ha sido adoptado por varias grandes empresas, incluidas MTV Networks, craigslist, Disney Interactive Media Group, The New York Times y Etsy. Está disponible bajo la Licencia Pública General Affero de GNU, con controladores de idioma disponibles bajo una Licencia Apache.

CouchDB

CouchDB es una base de datos de código abierto desarrollada por la fundación de software Apache. La atención se centra en la facilidad de uso, abarcando la web. Es una base de datos del almacén de documentos NoSQL. Utiliza JSON, para almacenar datos (documentos), script java como lenguaje de consulta para transformar los documentos, protocolo http para api para acceder a los documentos, consultar los índices con el navegador web. Es una aplicación multimaestro lanzada en 2005 y se convirtió en un proyecto apache en 2008.

Apache Spark

Desarrollado originalmente por Matel Zaharia en el AMPLab en UC Berkeley, Apache Spark es un motor de procesamiento de código abierto de Hadoop que es una alternativa a Hadoop MapReduce. Spark utiliza primitivas en memoria que pueden mejorar el rendimiento hasta 100X sobre MapReduce para ciertas aplicaciones.

Tormenta Apache

Apache Storm es un sistema de procesamiento de datos grandes distribuido en tiempo real. Storm está diseñado para procesar una gran cantidad de datos en un método escalable horizontal y tolerante a fallas. Es un marco de transmisión de datos que tiene la capacidad de tasas de ingestión más altas. Aunque Storm no tiene estado, administra el entorno distribuido y el estado del clúster a través de Apache ZooKeeper. Es simple y puede ejecutar todo tipo de manipulaciones en datos en tiempo real en paralelo.

Apache Ranger

Apache Ranger es un marco para habilitar, monitorear y administrar la seguridad integral de datos en toda la plataforma Hadoop. Basado en la tecnología del especialista en seguridad de big data XA Secure, Apache Ranger se convirtió en un proyecto de Apache Incubator después de que el proveedor de distribución de Hadoop, Hortonworks, adquiriera esa compañía. Ranger ofrece un marco de seguridad centralizado para administrar el control de acceso preciso sobre Hadoop y componentes relacionados (como Apache Hive, HBase, etc.). También puede habilitar el seguimiento de auditorías y el análisis de políticas

Apache Knox Gateway

Apache Knox Gateway es una puerta de enlace API REST que proporciona un único punto de acceso seguro para todas las interacciones REST con clústeres Hadoop. De esa manera, ayuda en el control, integración, monitoreo y automatización de las necesidades administrativas y analíticas críticas de la empresa. También complementa los clústeres Hadoop seguros de Kerberos. Knox es un proyecto de Apache Incubator.

Apache Kafka

Apache Kafka, desarrollado originalmente por LinkedIn, es un intermediario de mensajes de publicación-suscripción tolerante a errores de código abierto escrito en Scala. Kafka funciona en combinación con Apache Storm, Apache HBase y Apache Spark para el análisis en tiempo real y la representación de la transmisión de datos. Su capacidad de intercambiar flujos de mensajes masivos para análisis de baja latencia, como enviar mensajes de datos geoespaciales de una flota de camiones de larga distancia o datos de sensores de equipos de calefacción y refrigeración, lo hace útil para aplicaciones de Internet de las cosas

Apache Nifi

Apache Nifi es un proyecto de Apache de nivel superior para orquestar flujos de datos de fuentes de datos dispares. Agrega datos de sensores, máquinas, dispositivos de ubicación geográfica, archivos de flujo de clics y fuentes sociales a través de un agente seguro y liviano. También media los flujos de datos seguros punto a punto y bidireccionales y permite analizar, filtrar, unir, transformar, bifurcar o clonar flujos de datos.

y Hadoop mismo.