En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?

Cuando inicia sesión en Amazon por primera vez y comienza a navegar, los algoritmos inteligentes de Amazon comienzan a aprender sobre usted. Cosas como el tiempo que pasó mirando diferentes categorías de productos, qué artículos navega más, qué cosas termina comprando, la cantidad que gasta en una semana determinada, por nombrar algunos.

Esta es una gran cantidad de información sobre usted: lo que le gusta, cuánto gasta. Amazon gana dinero cuando compras cosas. Por lo tanto, para asegurarse de que gane más dinero, intentará atraerlo con ofertas y ofertas especiales en productos que generalmente compraría en Amazon. Para saber lo que te gusta, Amazon necesita saber más sobre ti. ¡Y recopila toda esta información cuando compra en Amazon!

Esa es una gran cantidad de datos para un solo usuario. ¡Ahora multiplíquelo por millones de usuarios activos de Amazon y obtendrá grandes datos!

Pero las computadoras no son humanos y no pueden asociar una acción con una causa. Por ejemplo, si compra un cuaderno de Amazon, no sabrá para qué necesitaría un cuaderno y no puede vender otros artículos que van con un cuaderno: bolígrafo, lápiz, lápices, goma de borrar, más cuadernos, etc.

Sin embargo, las computadoras son buenas con patrones repetitivos. Si 5 de cada 8 personas compran cuadernos con un bolígrafo, pueden reconocer ese patrón. Entonces, la próxima vez que compre un libro, Amazon podría sugerirle que compre un bolígrafo. Cuando compra ese bolígrafo, con su cuaderno, le está haciendo a Amazon más dinero: vino por un cuaderno de $ 3 y se fue con una compra de $ 5 (cuaderno + lápiz). Ahora, si hay 100,000 personas como tú que hacen lo mismo en una ventana de 10 minutos, ustedes le hicieron a Amazon $ 200,000 adicionales ($ 2 pen x 100,000).

Además, las ganancias monetarias inmediatas le enseñaron al algoritmo de Amazon que si está comprando una computadora portátil y si le recomienda comprar una pluma con ella, comprará una.

Big data y big data analysis están alimentando a las computadoras con una tonelada de datos y enseñándoles a encontrar patrones relativos en él para hacer una correlación significativa entre dos puntos de datos. En palabras más simples, enseñar a las computadoras a asociar una causa con una acción.

Apache es un servidor web que hace que un servicio como Amazon sea accesible a través de la World Wide Web y Hadoop es una plataforma que almacena y procesa grandes datos capturados por Amazon al rastrearlo mientras navega y compra en Amazon.

¿Cuáles son los buenos libros que proporcionan casos de estudio en ciencia de datos?

¿Cuáles son algunos buenos proyectos iniciales para alguien que está aprendiendo ciencia de datos por sí mismo?

¿Es valioso un Máster en Ciencia de Datos después de un MBA para una carrera en análisis de negocios?

¿Qué es la programación de análisis de datos?

¿Qué algoritmos debe aprender un estudiante interesado en ciencia de datos?

Cómo hacer que un sitio web sea popular

Para responder a esta pregunta, profundicemos un poco en la historia de Hadoop, ¿de acuerdo?

Hadoop surgió de un documento sobre MapReduce y GFS de Google, y la mayor parte de su desarrollo provino de los esfuerzos de Doug Cutting y Yahoo a mediados de la década de 2000. En ese momento, las únicas compañías capaces de trabajar con datos a esa escala son los gigantes de Silicon Valley, cuando el resto del mundo todavía dependía principalmente de soluciones SQL. En 2006, Hadoop fue lanzado como un proyecto de código abierto a través de Apache, como un Como resultado, creció increíblemente rápido en términos de proyectos relacionados, ecosistema y adopción.

Hadoop es una piedra angular de las ofertas de datos comerciales de hoy, principalmente debido a su gran comunidad y ecosistema, así como a la facilidad de adopción. Como empresa, puede gastar relativamente poco para almacenar la misma cantidad de datos usando Hadoop en comparación con los almacenes de datos tradicionales. Aquí en Vertafore, descubrimos que nuestro costo de almacenamiento es de aproximadamente 1/5 por gigabyte después de migrar a Hadoop de lo que era en un almacén de datos SQL para nuestro caso de uso particular. Hadoop también es prácticamente infinitamente escalable tanto en términos de almacenamiento como de rendimiento, por lo que casi no hay grandes preocupaciones sobre los desafíos futuros al adoptar Hadoop.

En estos días, Hadoop se ha convertido en una solución de referencia para big data en muchas implementaciones diferentes. Para las empresas comerciales, Hadoop puede ser una plataforma de análisis para impulsar las decisiones comerciales. Por ejemplo, grandes cantidades de datos de clientes históricos y en tiempo real transaccionales se pueden almacenar y procesar para determinar ciertos mercados de referencia en el área de Nueva Inglaterra. Muchos de estos consumidores son analistas, inteligencia de negocios, ingenieros industriales, etc. Hadoop es ligeramente diferente para las compañías tecnológicas. Compañías como LinkedIn, Netflix, etc. también lo usan para almacenar y procesar datos en el rango de terabytes / petabytes. Sin embargo, estos datos a menudo se vuelven a consumir por otros procesos para crear funciones de software, como el sistema de recomendación de Netflix o la función “Personas que quizás conozcas” de LinkedIn. Según mi experiencia, los dos casos de uso más populares son para Business Analytics (seguimiento de datos históricos para determinar el comportamiento del cliente para mejorar los procesos comerciales), y como un motor distribuido para procesar grandes cantidades de datos, a menudo para empresas tecnológicas (es decir, ingerir datos de docenas de productos en tiempo real, y luego usarlo para alimentar otras funciones de software). No hay ninguna razón para limitar Hadoop a estos dos casos, ya que ha encontrado adopción en cosas como el modelado de los mercados de valores, la computación paralela, el almacenamiento de archivos distribuidos y mucho más. Esto dio lugar a muchos proyectos complementarios en el ecosistema como Spark, HBase, Kafka / Storm, etc.

En cuanto a Amazon, Facebook, Google, etc., no utilizan exactamente Hadoop como la mayoría del mundo. Aunque hay muchos procesos que se ejecutan en MapReduce / HDFS dentro de esas organizaciones, Amazon / FB / Google también tiene muchas tecnologías patentadas y de vanguardia que han complementado o reemplazado muchos componentes de Hadoop. Por ejemplo, Facebook usa Presto / RocksDB, Google tiene GFS / Beam. La idea sigue siendo la misma: dentro de sus productos, realice un seguimiento de todo, para que pueda determinar el comportamiento del usuario. Para alguien como Google / Facebook / Amazon, saben qué páginas le gusta ver, qué productos le gustan, a qué personas le gusta seguir. Todo esto es crítico para construir productos que a usted como consumidor le gusta usar. Google y Facebook también ofrecen alternativas de Hadoop o Hadoop como modelo de infraestructura como servicio (AWS, Google Data Platform), pero creo que eso no está relacionado con la pregunta que está haciendo.

Lo que describí anteriormente es solo la punta del iceberg, en estos días los datos han dejado de depender de Hadoop. Es mejor pensarlo como una herramienta, ya que Hadoop = / = Big Data. Simplemente es la oferta más popular para cualquier empresa para comenzar a sumergirse en Big Data. Recuerde, el conocimiento es poder, y en 2016, los datos son conocimiento. Tome todo lo que escribí con un grano de sal, esta es simplemente mi percepción del estado actual del mundo.

Jesse Zhao

Apache o Apache Software Foundation es una corporación sin fines de lucro que apoya sus proyectos de software. Hadoop es uno de sus productos. Los otros productos de Apache son: Apache Flink, Apache Spark, Apache Scala, etc. Todas estas son las herramientas de Big Data.

En términos simples, Big Data solo significa una gran cantidad de datos. Puede verlo de una manera que Big Data es un problema y Hadoop y otras herramientas son su solución.

Veamos como

¿Sabes que nuestro mundo se está digitalizando y conectando cada vez más con dispositivos electrónicos en todos los aspectos? Todo esto genera “2.5 bytes quintilianos” de datos todos los días. Puede recopilar estos enormes datos de todas sus actividades durante todo el día.

Veamos de dónde provienen estos datos y luego te diré cuál es el problema de Big Data.

Los datos se generan a partir de sus actividades en las redes sociales y proporcionan su información a diferentes aplicaciones y sitios web . Cada vez que hace clic en la casilla de verificación ‘Acepto’, permite que esas aplicaciones rastreen todas sus actividades en el teléfono móvil y el escritorio, como sus búsquedas en la web, actividades de compras de comercio electrónico, lista de contactos, imágenes, etc.

Los datos también se producen a partir de sus actividades que no sean en ‘su’ dispositivo móvil o de escritorio cuando visita un hospital, centro comercial, tienda minorista, surtidor de gasolina, bancos e incluso restaurantes y cines. Las cámaras de CCTV y diferentes tipos de sensores también generan datos.

Los artículos no humanos como un poste de electricidad, un avión o un automóvil automático también generan Big Data.

Tomemos el ejemplo de los automóviles.

En los automóviles conectados, se obtienen grandes datos de la multitud de sensores y se pueden hacer inferencias sobre el comportamiento del consumidor. Por ejemplo, si hay un vínculo entre la música que la gente escucha y conduce por los restaurantes que frecuentan.

También hay un gran potencial para la conducción autónoma para mantener nuestras carreteras más seguras. Para que este tipo de vehículos se hagan realidad, necesitan Big Data. Sus vehículos están integrados con sensores que miden todo, desde la posición, la velocidad, la dirección y el frenado de las señales de tránsito, la proximidad de peatones y los peligros. Con esta información, el vehículo podrá tomar decisiones y llevar a cabo respuestas apropiadas sin errores humanos.

Este tipo de conexiones puede afectar la toma de decisiones de seguridad, el diseño de productos, la asignación de recursos publicitarios y los presupuestos, y por lo tanto la información recopilada de diferentes fuentes es invaluable comercialmente.

A estas alturas ya debe poder imaginar cuán grande es el Big Data. Ahora veamos los problemas relacionados con el big data.

El problema de Big Data

Big Data son datos masivos, menos estructurados, heterogéneos, difíciles de manejar hasta incluir y más allá del petabyte. Esta gran cantidad de datos es incomprensible para la escala humana. Estamos obteniendo nuestros propios datos.

Hadoop como solución

Hace más de una década, Google desarrolló una forma en que Yahoo clonó para distribuir datos a través de grandes grupos de productos básicos y procesar trabajos por lotes simples para comenzar a extraer grandes conjuntos de datos en forma de lotes ad-hoc de manera rentable. Ese método luego evolucionó como Hadoop.

Hadoop es la herramienta de Big Data más popular. También hay otros como Spark, Lumify, Apache strom, Apache samoa, etc.

Solo una pequeña parte de la población es lo suficientemente experta con estos métodos para dar sentido a los grandes datos.

Hay pirámides de comprensión que tenemos que construir con los datos y la información que generan.

Las tareas y desafíos relacionados con Big Data son

Reorganización de datos.
Descubra formas de encontrar los datos específicos que pueden ayudarlo.
Modelado y simulación o formas inteligentes de modelar los problemas que los grandes datos pueden resolver.
Formas efectivas y eficientes de contextualizar los datos para que sean relevantes para individuos y grupos específicos
Formas eficientes de analizar y visualizar los resultados de Big Data.
almacenamiento, transmisión y procesamiento de Big Data para extraer información de él.

Hay varios otros desafíos secundarios debajo de los problemas. Pero la tecnología ha encontrado soluciones a estos problemas. El reconocimiento de Big Data como problema hace unos años era una solución en sí misma.

Aquí adjunto un breve video sobre los conceptos básicos de Hadoop

También puede ver mi última respuesta sobre Futuro en Big Data y Hadoop

Espero que la respuesta haya ayudado!

Todo lo mejor

Parashar Borkotoky

Por Apache, te refieres a Apache Software Foundation, una comunidad de usuarios entusiastas y desarrolladores que contribuyen a proyectos de código abierto. Apache Hadoop es uno de esos proyectos y, en términos simples, es un marco de software para procesar grandes conjuntos de datos.

Ahora, llegando a su pregunta sobre de dónde provienen estos datos y por qué todo esto es tan importante de repente. Bueno, algunos de los datos siempre han estado allí: información meteorológica, resultados científicos, datos genómicos humanos, datos federales, información de tarjetas de crédito, transacciones de compras, etc. Y con la revolución de las redes sociales, usuarios como usted y yo generan mucho más hoy. Todas nuestras fotos, tweets, publicaciones de blog, comentarios deben ser persistentes y procesados casi instantáneamente. Con millones de usuarios, eso se traduce en varios petabytes de datos. Para almacenar y procesar estos conjuntos de datos, las empresas tuvieron que construir nuevas plataformas de datos.

Posiblemente, Google golpeó este problema antes que otros y construyó una nueva plataforma interna. Publicó varios artículos sobre él, y un equipo de Yahoo, dirigido por Doug Cutting, comenzó a trabajar en lo que ahora es Hadoop.

Hadoop pronto se incorporó como un proyecto Apache de alto nivel y varias personas contribuyen a él. Se formaron nuevas empresas nuevas como Cloudera, Hortonworks y MapR y comenzaron sus propias distribuciones de Apache Hadoop. Muchos proyectos de ecosistemas surgieron para complementar Hadoop. Apache Hive, Apache Drill, Apache Pig son algunos ejemplos.

Volviendo a lo que realmente es Hadoop, y qué problema resuelve, tomemos un escenario en Google. Hay más de un millón de personas que usan y confían activamente en Gmail, Youtube, Maps y Search. Para habilitar esto, Google necesita mucha capacidad de procesamiento y almacenamiento. Varios miles de servidores, cada uno de ellos con capacidad para almacenar TeraBytes de datos. Los servidores individualmente no pueden escalar para alimentar a estos millones de usuarios, por lo que es necesario un sistema informático distribuido que pueda comportarse como un gran entorno informático. Este sistema debe ser resistente a fallas de hardware individuales y estar altamente disponible. Con Hadoop, tal sistema de almacenamiento y procesamiento de datos distribuidos es posible. Hay un nodo maestro que se coordina con el resto para atender las solicitudes de los usuarios. Los trabajos se distribuyen a donde residen los datos y resuelven colectivamente el problema. Incluso cuando uno de los servidores componentes no está disponible, las solicitudes pueden continuar siendo atendidas, ya que hay réplicas de datos dentro del clúster. Un servidor alternativo puede continuar donde dejó uno fallido.

Con distribuciones disponibles comercialmente, muchas compañías comenzaron a explorar las ventajas de usar Hadoop. Existen varias ventajas económicas para construir plataformas de datos con hardware básico y Hadoop. Una empresa de compras ahora puede almacenar datos sobre los hábitos de compra de los clientes y ofrecer ofertas personalizadas. Los secuenciadores de ADN que anteriormente llevaban varios años ahora pueden decodificar genomas en un día. Los pronósticos del tiempo pueden hacerse con mucha anticipación y pueden ser más precisos. Las transacciones fraudulentas se pueden detectar y bloquear en minutos. Hay mucho que se puede hacer.

Espero que esto dé algo de claridad sobre el auge de Big Data y Hadoop.

Abhishek Girish

Apache es una comunidad de desarrolladores y usuarios de código abierto. Hadoop es un marco para almacenar y procesar grandes cantidades de datos utilizando computación distribuida. La forma predominante de almacenar datos durante mucho tiempo han sido las bases de datos centralizadas, generalmente denominadas RDBMS, como Oracle y SQL Server. Con la cantidad de datos generados especialmente por las empresas de Internet, una arquitectura centralizada tenía limitaciones de almacenamiento y poder de procesamiento y para superar estas limitaciones, en general había dos formas de lidiar con eso: seguir agregando memoria y poder de procesamiento o hacer distribuido el almacenamiento y procesamiento de la base de datos – El framework Hadoop está basado en este último. Con respecto al aspecto comercial, muchos analistas han comenzado a decir que los datos son el nuevo petróleo en la economía digital; es un activo invaluable si se utiliza y utiliza correctamente. Esto se debe a la rápida proliferación de Internet y al crecimiento de nuevas formas de comunicación como la social. Networks ha lanzado una inmensa cantidad de datos en el lote de Internet, que son datos de usuario que pueden utilizarse para marketing y otras actividades comercialmente rentables.

Burke Strang

Algunos problemas computacionales pueden resolverse muy fácilmente dividiendo los datos en cubos más pequeños. Para un ejemplo (bastante simple), supongamos que está tratando de encontrar el número más grande en cien millones de números. Puedes verlos todos uno por uno. Digamos que tiene una computadora poderosa que puede mirar a través de un millón de números por hora, necesitará 100 horas o poco más de 4 días para hacer esto.

Ahora, si dividió sus datos en 100 unidades y se los dio a 100 computadoras, cada computadora encontrará su número más grande en 1 hora y luego pasará unos segundos más para encontrar la más grande entre esos cientos, ya ha terminado. en aproximadamente una hora.

Problemas como estos se llaman vergonzosamente paralelos y el método de dividirlo (Mapeo) en pedazos y luego unir los resultados individuales para formar un resultado global (Reducción) se describió en un documento de Google, y la técnica se llama MapReduce.

Hadoop es un software de código abierto que facilita la programación del tipo mapreduce. No tiene que preocuparse por instalar el programa en sus 100 máquinas, dividir sus datos iniciales en partes, copiarlos en las 100 máquinas, copiar los resultados de más de 100 máquinas, etc. Hadoop se encarga de todo el mantenimiento. Una vez que configura un clúster hadoop en las 100 máquinas, puede darle cualquier programa y datos y se encarga de todo el trabajo detrás de escena y le devuelve el resultado.

Burke Strang

Para explicar en términos simples, creo que una analogía funciona mejor.

Digamos que usted es un oficial investigador y tiene que atrapar a un ladrón en poco tiempo; de lo contrario, escapará. Para conocer su comportamiento, cree que es mejor leer los 100 archivos de casos anteriores en su contra. Pero no tienes tiempo. Entonces, llamas a 10 de tus suboficiales y les pides que encuentren un patrón o que encuentren el comportamiento. Le darán un informe individualmente. Harás un análisis final y atraparás al ladrón.

Hadoop hace lo mismo. Eres un maestro en Hadoop que asigna una tarea a cada uno de tus nodos esclavos (esos son los términos. No los estoy inventando). Y se procesan individualmente y te dan un resultado. El nodo maestro puede o no dar una tarea más nueva de estos. Pero finalmente devolverá un resultado.

Por Apache, creo que te refieres a la chispa de Apache que se usa comúnmente con Hadoop. Apache spark es un conjunto de bibliotecas que nos ayudan a lograr lo mismo.

Y la razón para usarlos es la misma. Los datos son enormes, los resultados se necesitan más rápido.

Abhishek Girish

Reconocimiento de patrones a gran escala. Permitir que los datos den una idea de cómo funcionan los sistemas. Los modelos van desde pequeños grupos de patrones de lodo hasta enjambres de masas / dinámica de fluidos … Creo que lo he esquivado

Ambos pueblos que están siendo enjuagados. Bhopal realmente
O tecnología de servicio web. Vlad, el ruso masivo, explicará a través de su mentira todo el patio de la escuela x

Jesse Zhao

More Interesting

¿Cómo logra Coffee Meets Bagel tener éxito sin ningún científico de datos?

¿Cómo evaluaría la calidad de los datos y cómo se pueden mejorar?

¿Cuál es la importancia de las estadísticas y las matemáticas en el campo de la ciencia de datos? ¿Cuántas matemáticas y estadísticas se requieren para convertirse en un científico de datos?

¿Es bueno tener un doctorado en estadística después de completar mi doctorado en ciencia de datos o alguna otra buena idea?

¿El plan de estudios de Hack Reactor cubre alguna ciencia de datos?

¿Cómo puede un oficial de admisiones universitarias usar la programación de computadoras y la ciencia de datos para mejorar su grupo de solicitantes?

¿La ciencia de datos tiene una amplia gama de sectores laborales como la informática o la ingeniería de software si me gradúo de la Universidad de Waterloo con la cooperativa?

¿Es Python el lenguaje de programación más importante para el análisis de datos?

¿Cuál es la diferencia entre Data Science y Big Data?

¿Existe un papel significativo para el big data en la economía?