¿Cuáles son las diferencias entre big data, hadoop y colmena? ¿Son solo jergas con el mismo significado? ¿Puedes resumir en detalle?

Escribí algunos artículos sobre los mismos temas para aclarar.

El primero es ¿qué es Big Data?

Finalmente llegué a la conclusión de que Doug Laney, de Gartner, fue quien definió claramente qué es Big Data. Lo definió de la siguiente manera.

Big Data es ‘activos de información de gran volumen, alta velocidad y / o gran variedad que exigen formas rentables e innovadoras de procesamiento de información que permitan una mejor comprensión, toma de decisiones y automatización de procesos’.

25 debe conocer los términos de Big Data para impresionar su fecha. Este artículo es algo irónico para hacerlo interesante.

Hadoop: Cuando la gente piensa en big data, inmediatamente piensa en Hadoop. Hadoop (con su lindo logotipo de elefante) es un marco de software de código abierto que consta de lo que se denomina un Sistema de archivos distribuidos de Hadoop (HDFS) y permite el almacenamiento, la recuperación y el análisis de conjuntos de datos muy grandes utilizando hardware distribuido.

Apache Hive es un sistema de código abierto para consultar y analizar grandes conjuntos de datos almacenados en archivos Hadoop. Hive tiene tres funciones principales: resumen de datos, consulta y análisis. Admite consultas expresadas en un lenguaje llamado HiveQL, que traduce automáticamente consultas similares a SQL.

Básicamente, si queremos aprender o conocer la diferencia entre Big Data y Hadoop, debemos centrarnos en lo que realmente son Big Data y Hadoop. Hay una gran diferencia en la mentalidad de las personas acerca de qué es Hadoop y qué es el big data porque hay mucha confusión sobre ambas cosas. Los profesionales también se confunden cuando se les pide que definan Big Data y Hadoop. Primero definamos Hadoop y big data en detalle. Big data como término tiene un gran significado, se puede describir de varias maneras, pero en realidad big data significa conjuntos de datos que son tan grandes o complejos que las aplicaciones convencionales de procesamiento de datos no son apropiadas. Los desafíos a los que se enfrenta cada profesional son el análisis, la captura, la conservación de datos, la búsqueda, el intercambio, el almacenamiento, la transferencia, la visualización, la consulta y la actualización y la privacidad de la información. El término a menudo se refiere simplemente al uso de análisis que pueden ser predictivos o ciertos otros métodos avanzados para extraer valor de los datos y clasificarlos en un tamaño particular de conjunto de datos. Los grandes datos deben ser precisos de modo que conduzcan a una toma de decisiones más segura, y mejores decisiones pueden resultar en una mayor eficiencia operativa, reducción de costos y menor riesgo. Ahora hablemos sobre Hadoop, qué es Hadoop y cómo está impactando el mundo de datos de hoy. Hadoop es un marco de programación gratuito basado en Java que admite el procesamiento de grandes conjuntos de datos en un entorno informático distribuido. Es parte del proyecto Apache patrocinado por la Apache Software Foundation. El uso de Hadoop permite ejecutar aplicaciones en sistemas con miles de nodos que involucran miles de terabytes. Su sistema de archivos distribuido ayuda a velocidades rápidas de transferencia de datos entre nodos y permite que el sistema continúe operando sin interrupciones en caso de falla de un nodo. Este enfoque reduce el riesgo de fallas catastróficas del sistema, incluso si un número significativo de nodos deja de funcionar. Hadoop se basa en MapReduce de Google, un marco de software en el que una aplicación se divide en una gran cantidad de partes pequeñas. Cualquiera de estas partes se puede ejecutar en cualquier nodo del clúster. Lleva el nombre del elefante de peluche infantil del creador. El ecosistema actual de Hadoop consta del núcleo de Hadoop, MapReduce, el sistema de archivos distribuidos de Hadoop (HDFS) y una serie de proyectos relacionados. El marco Hadoop es utilizado por las principales empresas, incluidas Google, Yahoo e IBM, principalmente para aplicaciones que involucran motores de búsqueda y publicidad. Los sistemas operativos preferidos son Windows y Linux, pero Hadoop también puede funcionar con BSD y OS X. Como hemos discutido qué es Hadoop y qué es Big Data ahora, hablemos sobre la diferencia entre Hadoop y Big Data en la forma en que se diferencian entre sí. ¿Cuáles son las principales cosas en las que podemos centrarnos para representar una diferencia entre Hadoop y Big Data? Big Data no es más que un concepto que facilita el manejo de grandes cantidades de conjuntos de datos. Hadoop es solo un marco único de docenas de herramientas. Hadoop se utiliza principalmente para el procesamiento por lotes. La diferencia entre Big Data y el software de código abierto Hadoop es distinta y fundamental. El primero es un activo, a menudo complejo y tiene muchas interpretaciones, mientras que el segundo es un programa que logra un conjunto de metas y objetivos. Big data es simplemente el gran conjunto de datos que las empresas y otras partes reúnen para cumplir objetivos y operaciones específicos. Big data puede incluir muchos tipos diferentes de datos en muchos tipos diferentes de formatos. Por ejemplo, las empresas pueden dedicar mucho trabajo a recopilar miles de datos sobre compras en formatos de moneda, puede haber muchos identificadores como nombre y número especial, o puede haber información sobre productos, ventas e inventario.

Si desea saber más sobre la diferencia entre Big Data y Hadoop, visite: http://www.scholarspro.com/diffe … Aquí obtienes mucha más información de calidad que te será útil.

Esquemáticamente, [math] \ texttt {big \ data} \ supset \ texttt {Hadoop} \ supset \ texttt {Hive}. [/ Math]

  • La colmena es un front-end. No tan front-end como una GUI, pero más front-end que los circuitos y los fibreópticos. Con comandos similares a SQL puede consultar big data administrado con Hadoop.
  • Hadoop es un marco de big data que comprende Hive y otras herramientas. Cuando le dice a Hive / Pig que [math] \ texttt {READ} [/ math] o [math] \ texttt {CREATE} [/ math] una “tabla”, Hadoop decodifica lo que eso significa en términos más cercanos al hardware. Por ejemplo, [math] \ texttt {map / reduce} [/ math] implica redundancia que se gestiona automáticamente cuando “dice lo que quiere decir” ([math] \ texttt {READ} [/ math]).
  • Big data no es software. Es algo que se gestiona con software, Hadoop es un marco que gestiona big data.

No creo que quisieras implicar que Big Data y Hadoop son los mismos en tu pregunta. Debe haber sido un problema de redacción. Además, “breve en detalle” es un oxímoron. Es posible que desee editar su pregunta para ser un poco más claro.

Lors Soren lo ha explicado bien en la respuesta de Lors Soren =>

Solo quería agregar un formulario gráfico que muestre la relación entre big data , hadoop y colmena .

Big Data es un campo de análisis de datos que se ocupa de cantidades inusualmente grandes de datos. (En realidad, se está volviendo más común hoy en día, pero como término de marketing “Big Data” es la palabra de moda que escuchará).

Apache Hadoop es una aplicación de software de código abierto que puede ayudar a procesar grandes datos, distribuyendo grandes cálculos y procesamiento de datos a varias computadoras, lo que permite hacer análisis que antes hubieran sido muy lentos o imposibles. Por supuesto, hay otras herramientas utilizadas por los practicantes de Big Data además de Hadoop.

Una analogía pobre: ​​Excel y SQL son para el procesamiento de datos tradicional lo que Hadoop es para Big Data.

More Interesting

¿Cuál es el gradiente de la función de probabilidad logarítmica en la regresión logística multinomial?

Como persona con una maestría en química y un doctorado en ingeniería eléctrica y nanotecnología, a los 26 años sin experiencia en ciencias de la computación, ¿es demasiado tarde o demasiado difícil enseñarme a mí mismo el aprendizaje automático?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Qué es el análisis de componentes principales?

¿Qué consejo le darías a alguien que acaba de comenzar el curso de Andrew Ng sobre aprendizaje automático?

¿Cuáles son los mejores cursos introductorios para el aprendizaje automático disponibles en Internet para principiantes?

¿Cuál es la mejor manera de crear un conjunto de redes neuronales?

¿Cuáles son buenos recursos para aprender sobre la ejecución distribuida en redes neuronales profundas (MPI, allreduce, etc.)?

¿Qué es la mente profunda de Google?

En los algoritmos de aprendizaje automático, ¿por qué la función sigmoidea se usa principalmente y no funciones como tanh (x)? En tanhx por ej. parece dividir el eje y de manera uniforme y aplanarse rápidamente a medida que x se aproxima a +/- infinito. El rango es: sigmoide [0-1] y tanh (x) [-1,1].

¿Existe algún conjunto de datos disponible públicamente para la clasificación étnica / nacionalidad de los nombres humanos?

¿Cómo se puede aplicar el aprendizaje profundo al procesamiento de imágenes subacuáticas?

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Qué conocimiento se requiere para usar bibliotecas de aprendizaje automático pero no implementarlas?

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?