¿Hay algún software de Big Data de código abierto disponible en este momento?

Hay un montón de ellos. Algunos de ellos son:

Ecosistema Apache Hadoop:

  • Los paradigmas informáticos de propósito general : Apache Hadoop MapReduce, Apache Spark, Apache Flink, Apache Pig
  • Sistema de archivos distribuidos: Sistema de archivos distribuidos de Hadoop o HDFS
  • Procesamiento de flujo : Apache Storm, Spark-Streaming, Apache Samza
  • Integración de datos: Apache Kafka, Apache Flume, Apache Sqoop
  • Almacenes de datos NoSQL: Apache HBase, Apache Cassandra
  • Búsqueda e indexación: Apache Solr, ElasticSearch
  • Gobierno de datos y flujos de trabajo : Apache Falcon, Apache Oozie
  • SQL sobre HDFS : Apache HIVE, Spark SQL, Apache Drill
  • Aprendizaje automático : MLLib de Spark, Apache mahout
  • Procesamiento de gráficos : Apache Giraph, GraphX
  • Apache Zookeeper para la coordinación distribuida
  • Gestión de recursos : APache Mesos, Apache YARN
  • UI : Apache Hue
  • Gestión de clúster y despliegue : Apache Ambari

De Berkeley Data Analytics Stack

  • Apache Spark , Spark Streaming, GraphX, MLlib, SparkSQL (Spark Ecosystem)
  • Tachyon : sistema de archivos distribuidos en memoria
  • BlinkDB : (en la etapa aplha) – Resultados extremadamente rápidos por SQL como consultas sobre big data a través del muestreo (resultados aproximados)

Proyectos por Twitter:
1. Álgebird : análisis escalable con álgebra abstracta, también útil para análisis escalables en tiempo real
2. Strorehaus : para trabajar con almacenes de valores de clave asincrónicos
3. Escaldado : MapReduce con scala
4. SummingBird: Streaming MapReduce encima de Storm and Scalding

Distribuciones Hadoop :
1. Plataforma de datos de Hortonworks
2. Cloudera Distribuido Hadoop

Otros :
1. OpenSoc : un SIEM de código abierto (Security Analytics Software) de CISCO creado con Kafka, Storm, HIVE y ElasticSearch
2. OpenTSDB : Base de datos de series temporales construida sobre HBase

Sí. Casi todo el software de Big Data es de código abierto solamente. Apache Hadoop, Hive, Pig, Spark, etc.

More Interesting

¿Podemos hacer aprendizaje automático escalable con R? ¿Puede R trabajar con Hadoop para procesar una matriz de 100 GB?

¿Addepar tiene roles de tipo científico de datos?

¿Cuáles son las desventajas de las notebooks iPython para el análisis de datos? ¿Hay algún trabajo de investigación disponible que hable sobre la rigidez y la linealidad del portátil?

¿Cuáles son algunos de los mejores algoritmos de minería de datos de predicción de ventas?

¿Son iguales los trabajos de análisis de datos y ciencia de datos?

¿Qué campos de las matemáticas son más esenciales para la ciencia de datos?

¿Big Data contiene programación?

¿Cuáles son los pros y los contras de una carrera en ciencia de datos?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Son útiles las estadísticas bayesianas en la ciencia de datos?

¿Dónde encuentras datos? Entonces, ¿cómo lo usas?

¿Existe alguna herramienta de inteligencia empresarial que aproveche algoritmos como "Edgerank" para controlar qué informes se muestran?

¿Podría evitar usar una tecnología distribuida en el trabajo en un solo nodo y pasar entrevistas de ciencia de datos?

¿Puedes citar un ejemplo de ley escrita usando Big Data?

¿Qué tipo de eventos de usuario deben enviarse a Kafka para sitios de comercio electrónico clásicos?