¿Hay algún software de Big Data de código abierto disponible en este momento?

Hay un montón de ellos. Algunos de ellos son:

Ecosistema Apache Hadoop:

Los paradigmas informáticos de propósito general : Apache Hadoop MapReduce, Apache Spark, Apache Flink, Apache Pig
Sistema de archivos distribuidos: Sistema de archivos distribuidos de Hadoop o HDFS
Procesamiento de flujo : Apache Storm, Spark-Streaming, Apache Samza
Integración de datos: Apache Kafka, Apache Flume, Apache Sqoop
Almacenes de datos NoSQL: Apache HBase, Apache Cassandra
Búsqueda e indexación: Apache Solr, ElasticSearch
Gobierno de datos y flujos de trabajo : Apache Falcon, Apache Oozie
SQL sobre HDFS : Apache HIVE, Spark SQL, Apache Drill
Aprendizaje automático : MLLib de Spark, Apache mahout
Procesamiento de gráficos : Apache Giraph, GraphX
Apache Zookeeper para la coordinación distribuida
Gestión de recursos : APache Mesos, Apache YARN
UI : Apache Hue
Gestión de clúster y despliegue : Apache Ambari

De Berkeley Data Analytics Stack

Apache Spark , Spark Streaming, GraphX, MLlib, SparkSQL (Spark Ecosystem)
Tachyon : sistema de archivos distribuidos en memoria
BlinkDB : (en la etapa aplha) – Resultados extremadamente rápidos por SQL como consultas sobre big data a través del muestreo (resultados aproximados)

Proyectos por Twitter:
1. Álgebird : análisis escalable con álgebra abstracta, también útil para análisis escalables en tiempo real
2. Strorehaus : para trabajar con almacenes de valores de clave asincrónicos
3. Escaldado : MapReduce con scala
4. SummingBird: Streaming MapReduce encima de Storm and Scalding

Distribuciones Hadoop :
1. Plataforma de datos de Hortonworks
2. Cloudera Distribuido Hadoop

Otros :
1. OpenSoc : un SIEM de código abierto (Security Analytics Software) de CISCO creado con Kafka, Storm, HIVE y ElasticSearch
2. OpenTSDB : Base de datos de series temporales construida sobre HBase

Related Content

¿Puedo solicitar puestos de trabajo en Data Science si he aprendido el campo con MOOC?

¿Cuál es la mayor barrera para la adopción de soluciones de big data en la asistencia sanitaria?

Necesito aprender ciencia de datos desde cero, ¿por dónde empiezo?

¿En qué se diferencia la minería de datos de los sistemas de bases de datos?

Al hacer una prueba A / B sobre la tasa de conversión (proporción de visitas que incluyen una compra), ¿cómo abordo el hecho de que no todas las visitas son independientes?

¿Cuáles son las ventajas de ser un científico de datos?

¿Qué debe saber un CEO, gerente de producto y analista de comercio electrónico sobre la medición del desempeño, los KPI del producto (indicadores clave de desempeño), las métricas, etc.

Sí. Casi todo el software de Big Data es de código abierto solamente. Apache Hadoop, Hive, Pig, Spark, etc.

Chandrashekhar Kotekar

More Interesting

¿Podemos hacer aprendizaje automático escalable con R? ¿Puede R trabajar con Hadoop para procesar una matriz de 100 GB?

¿Addepar tiene roles de tipo científico de datos?

¿Cuáles son las desventajas de las notebooks iPython para el análisis de datos? ¿Hay algún trabajo de investigación disponible que hable sobre la rigidez y la linealidad del portátil?

¿Cuáles son algunos de los mejores algoritmos de minería de datos de predicción de ventas?

¿Son iguales los trabajos de análisis de datos y ciencia de datos?

¿Qué campos de las matemáticas son más esenciales para la ciencia de datos?

¿Big Data contiene programación?

¿Cuáles son los pros y los contras de una carrera en ciencia de datos?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Son útiles las estadísticas bayesianas en la ciencia de datos?

¿Dónde encuentras datos? Entonces, ¿cómo lo usas?

¿Existe alguna herramienta de inteligencia empresarial que aproveche algoritmos como "Edgerank" para controlar qué informes se muestran?

¿Podría evitar usar una tecnología distribuida en el trabajo en un solo nodo y pasar entrevistas de ciencia de datos?

¿Puedes citar un ejemplo de ley escrita usando Big Data?

¿Qué tipo de eventos de usuario deben enviarse a Kafka para sitios de comercio electrónico clásicos?

Web Analytics