Hay un montón de ellos. Algunos de ellos son:
Ecosistema Apache Hadoop:
- Los paradigmas informáticos de propósito general : Apache Hadoop MapReduce, Apache Spark, Apache Flink, Apache Pig
- Sistema de archivos distribuidos: Sistema de archivos distribuidos de Hadoop o HDFS
- Procesamiento de flujo : Apache Storm, Spark-Streaming, Apache Samza
- Integración de datos: Apache Kafka, Apache Flume, Apache Sqoop
- Almacenes de datos NoSQL: Apache HBase, Apache Cassandra
- Búsqueda e indexación: Apache Solr, ElasticSearch
- Gobierno de datos y flujos de trabajo : Apache Falcon, Apache Oozie
- SQL sobre HDFS : Apache HIVE, Spark SQL, Apache Drill
- Aprendizaje automático : MLLib de Spark, Apache mahout
- Procesamiento de gráficos : Apache Giraph, GraphX
- Apache Zookeeper para la coordinación distribuida
- Gestión de recursos : APache Mesos, Apache YARN
- UI : Apache Hue
- Gestión de clúster y despliegue : Apache Ambari
De Berkeley Data Analytics Stack
- Como científico de datos, ¿sería prudente familiarizarme con los servicios de informes SQL?
- ¿De qué manera el big data y el aprendizaje automático cambiarán el mundo de los restaurantes?
- ¿Necesito saber / aprender Machine Learning si quiero seguir una carrera en Data Analytics?
- ¿Cuáles son las mejores bibliotecas y paquetes de Python para la ciencia de datos?
- ¿Se cuestiona la utilidad de las estadísticas tradicionales debido a las técnicas modernas de aprendizaje automático y la prevalencia de Big Data?
- Apache Spark , Spark Streaming, GraphX, MLlib, SparkSQL (Spark Ecosystem)
- Tachyon : sistema de archivos distribuidos en memoria
- BlinkDB : (en la etapa aplha) – Resultados extremadamente rápidos por SQL como consultas sobre big data a través del muestreo (resultados aproximados)
Proyectos por Twitter:
1. Álgebird : análisis escalable con álgebra abstracta, también útil para análisis escalables en tiempo real
2. Strorehaus : para trabajar con almacenes de valores de clave asincrónicos
3. Escaldado : MapReduce con scala
4. SummingBird: Streaming MapReduce encima de Storm and Scalding
Distribuciones Hadoop :
1. Plataforma de datos de Hortonworks
2. Cloudera Distribuido Hadoop
Otros :
1. OpenSoc : un SIEM de código abierto (Security Analytics Software) de CISCO creado con Kafka, Storm, HIVE y ElasticSearch
2. OpenTSDB : Base de datos de series temporales construida sobre HBase