¿Qué herramientas se requieren para hacer un proyecto en Hadoop Big Data? La tecnología cambia la vida futura

1. Hadoop
El proyecto Hadoop de Apache se ha convertido casi en sinónimo de Big Data. Ha crecido hasta convertirse en un ecosistema completo de herramientas de código abierto para computación distribuida altamente escalable. Sistema operativo: Windows, Linux, OS X.
2. Ambari
Parte del ecosistema de Hadoop, este proyecto de Apache ofrece una interfaz intuitiva basada en la web para el aprovisionamiento, la administración y el monitoreo de clústeres de Hadoop. También proporciona API RESTful para desarrolladores que desean integrar las capacidades de Ambari en sus propias aplicaciones. Sistema operativo: Windows, Linux, OS X.
3. Avro
Este proyecto de Apache proporciona un sistema de serialización de datos con estructuras de datos enriquecidas y un formato compacto. Los esquemas se definen con JSON y se integra fácilmente con lenguajes dinámicos. Sistema operativo: sistema operativo independiente.
4. Cascada
Cascading es una plataforma de desarrollo de aplicaciones basada en Hadoop. Soporte comercial y capacitación están disponibles. Sistema operativo: sistema operativo independiente.
5. Chukwa
Basado en Hadoop, Chukwa recopila datos de grandes sistemas distribuidos para fines de monitoreo. También incluye herramientas para analizar y mostrar los datos. Sistema operativo: Linux, OS X.
6. Canal
Flume recopila datos de registro de otras aplicaciones y los entrega en Hadoop. El sitio web se jacta de que “es robusto y tolerante a fallas con mecanismos de confiabilidad ajustables y muchos mecanismos de recuperación de fallas”. Sistema operativo: Linux, OS X.
7. HBase
Diseñado para tablas muy grandes con miles de millones de filas y millones de columnas, HBase es una base de datos distribuida que proporciona acceso aleatorio de lectura / escritura en tiempo real a grandes datos. Es algo similar al Bigtable de Google, pero construido sobre Hadoop y HDFS. Sistema operativo: sistema operativo independiente.
8. Sistema de archivos distribuidos de Hadoop
HDFS es el sistema de archivos para Hadoop, pero también se puede usar como un sistema de archivos distribuido independiente. Está basado en Java, es tolerante a fallas, altamente escalable y altamente configurable. Sistema operativo: Windows, Linux, OS X.
9. colmena
Apache Hive es el almacén de datos para el ecosistema Hadoop. Permite a los usuarios consultar y administrar grandes datos utilizando HiveQL, un lenguaje similar al SQL. Sistema operativo: sistema operativo independiente.
10. Hivemall
Hivemall es una colección de algoritmos de aprendizaje automático para Hive. Incluye algoritmos altamente escalables para clasificación, regresión, recomendación, vecino más cercano k, detección de anomalías y hashing de características. Sistema operativo: sistema operativo independiente.
11. Mahout
Según su sitio web, el objetivo del proyecto Mahout es “crear un entorno para crear rápidamente aplicaciones escalables de aprendizaje automático”. Incluye una variedad de algoritmos para realizar minería de datos en Hadoop MapReduce, así como algunos algoritmos más nuevos para entornos Scala y Spark. Sistema operativo: sistema operativo independiente.
12. MapReduce
Una parte integral de Hadoop, MapReduce es un modelo de programación que proporciona una forma de procesar grandes conjuntos de datos distribuidos. Originalmente fue desarrollado por Google, y también fue utilizado por varias otras herramientas de Big Data en nuestra lista, incluidas CouchDB, MongoDB y Riak. Sistema operativo: sistema operativo independiente.
13. Oozie
Este planificador de flujo de trabajo está diseñado específicamente para administrar trabajos de Hadoop. Puede activar trabajos por tiempo o por disponibilidad de datos, y se integra con MapReduce, Pig, Hive, Sqoop y muchas otras herramientas relacionadas. Sistema operativo: Linux, OS X.
14. cerdo
Apache Pig es una plataforma para el análisis distribuido de big data. Se basa en un lenguaje de programación llamado Pig Latin, que cuenta con programación paralela simplificada, optimización y extensibilidad. Sistema operativo: sistema operativo independiente.
15. Sqoop
Las empresas con frecuencia necesitan transferir datos entre sus bases de datos relacionales y Hadoop, y Sqoop es una herramienta que hace el trabajo. Puede importar datos a Hive o HBase y exportar desde Hadoop a RDBMSes. Sistema operativo: sistema operativo independiente.
16. chispa
Una alternativa a MapReduce, Spark es un motor de procesamiento de datos. Afirma ser hasta 100 veces más rápido que MapReduce cuando se usa en la memoria o 10 veces más rápido cuando se usa en el disco. Se puede usar junto con Hadoop, con Apache Mesos o solo. Sistema operativo: Windows, Linux, OS X.
17. Tez
Construido sobre Apache Hadoop YARN, Tez es “un marco de aplicación que permite un complejo gráfico acíclico dirigido de tareas para procesar datos”. Permite a Hive y Pig simplificar trabajos complicados que de otra forma tomarían múltiples pasos. Sistema operativo: Windows, Linux, OS X.
18. Zookeeper
Esta herramienta administrativa de big data se describe a sí misma como “un servicio centralizado para mantener la información de configuración, nombrar, proporcionar sincronización distribuida y proporcionar servicios grupales”. Permite que los nodos dentro de un clúster de Hadoop se coordinen entre sí. Sistema operativo: Linux, Windows (solo desarrollo), OS X (solo desarrollo).

19. discoteca
Originalmente desarrollado por Nokia, Disco es un marco informático distribuido que, al igual que Hadoop, se basa en MapReduce. Incluye un sistema de archivos distribuido y una base de datos que admite miles de millones de claves y valores. Sistema operativo: Linux, OS X.
20. HPCC
Una alternativa a Hadoop, HPCC es una plataforma de big data que promete velocidades muy rápidas y una escalabilidad excepcional. Además de la versión gratuita de la comunidad, HPCC Systems ofrece una versión empresarial paga, módulos pagos, capacitación, consultoría y otros servicios. Sistema operativo: Linux.

Apache HadoopBig DataBig Data AnalysisData AnalysisData AnalyticsData Science