Hadoop
Hadoop es la plataforma central para estructurar Big Data y resuelve el problema de formatearlo para fines analíticos posteriores. Hadoop utiliza una arquitectura de computación distribuida que consta de múltiples servidores que utilizan hardware básico, lo que hace que sea relativamente económico escalar y admitir almacenes de datos extremadamente grandes.
Chispa
- Siendo un experto en ciencia de datos, ¿es necesario implementar todo desde cero?
- ¿Cuál es la mejor manera de probar los motores de recomendación en los datos históricos del usuario?
- ¿Qué áreas de negocio impulsadas por los resultados del análisis de datos?
- Cómo construir un modelo de abandono de clientes que también puede identificar los motivos del abandono
- ¿Qué programas / certificados cortos me recomiendan sobre Machine Learning, Big Data, AI y campos relacionados?
Apache Spark es un marco de cómputo de clúster de código abierto desarrollado originalmente en AMPLab en UC Berkeley. Las primitivas en memoria de Spark proporcionan un rendimiento hasta 100 veces más rápido para ciertas aplicaciones.
Mapa reducido
Un programa MapReduce se compone de un procedimiento Map () que realiza el filtrado y la clasificación y un procedimiento Reduce () que realiza una operación de resumen. Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos.
Colmena
Hive tiene tres funciones principales: resumen de datos, consulta y análisis. Admite consultas expresadas en un lenguaje llamado HiveQL, que traduce automáticamente consultas similares a SQL en trabajos MapReduce ejecutados en Hadoop. Además, HiveQL admite scripts personalizados de MapReduce para ser conectados a consultas.
Cerdo
Apache Pig es una plataforma para analizar grandes conjuntos de datos que consta de un lenguaje de alto nivel para expresar programas de análisis de datos, junto con una infraestructura para evaluar estos programas. La propiedad sobresaliente de los programas Pig es que su estructura es susceptible de paralelización sustancial, lo que a su vez les permite manejar conjuntos de datos muy grandes.
HBase
Apache HBase es una base de datos de código abierto, distribuida, versionada y no relacional modelada a partir de Bigtable de Google: un sistema de almacenamiento distribuido para datos estructurados por Chang et al. Al igual que Bigtable aprovecha el almacenamiento de datos distribuido proporcionado por el Sistema de archivos de Google, Apache HBase ofrece capacidades similares a Bigtable además de Hadoop y HDFS.
Cassandra
Apache Cassandra es un sistema de gestión de bases de datos distribuidas de código abierto diseñado para manejar grandes cantidades de datos en muchos servidores básicos, proporcionando alta disponibilidad sin un solo punto de falla. La escalabilidad lineal y la probada tolerancia a fallas en hardware básico o infraestructura de nube lo convierten en la plataforma perfecta para datos de misión crítica.
Hay muchas otras tecnologías como Phoenix, Zookeeper, Mahout, etc.