¿Hadoop está saliendo? ¿Se avecina una tecnología que pueda reemplazar toda la forma en que MapReduce consulta en un grupo de máquinas? ¿No puede simplemente automatizar la forma en que ejecuta estas consultas? ¿Es esto lo que Blaze está tratando de lograr?

HDFS y YARN y Spark ciertamente no están saliendo, como señala Attila Csordas. HDFS es un estándar de facto para un sistema de archivos informáticos distribuidos de productos básicos, y se están construyendo muchas tecnologías sobre HDFS, tanto propietarias como de código abierto, diseñadas para funcionar sobre Spark o YARN o no. Esta combinación de técnicas constituye una evolución de Hadoop: adoptan y extienden Hadoop, en lugar de rechazarlo.

En lugar de escalar, también existe una mayor posibilidad de escalar de manera más rentable mediante el uso de la “virtualización inversa”, lo que podría reducir o incluso eliminar la necesidad de usar técnicas de computación distribuida como Hadoop cuando se trata de grupos de productos más pequeños. Conceptualmente, Hadoop no sería necesario, excepto para grandes grupos.

Compañías como TidalScale están permitiendo abordar pequeños grupos de servidores básicos cargados de RAM como una sola entidad virtual, lo que implica que podría extender el uso de un solo nodo, sistema operativo de instancia única y software de aplicación asociado a mayor escala. Los beneficios serían una mayor utilización y eficiencia de costos en varios niveles de la pila, así como RAM prácticamente contigua. La virtualización inversa de este tipo implica el equivalente de la supercomputación de productos básicos. Quizás la mayor recompensa sería la capacidad de reducir la necesidad de capacitación en sistemas distribuidos.

Video de TidalScale de Pete Jarvis, 2014

Se podría imaginar que la capacidad de escalar de manera más rentable podría traer a la luz otros desafíos de escala. ¿Cuándo se vuelve inviable administrar grandes cantidades de combinaciones de tablas o el modelado de datos asociado en bases de datos relacionales, por ejemplo? El hecho de que mantenga el margen de maniobra para ejecutar un solo nodo, software de instancia única en docenas de nodos no significa que no se encuentre con otros problemas de escalado. Pero a nivel de base de datos, al menos algunos problemas de escala asociados con bases de datos relacionales o gráficas, por ejemplo, podrían evitarse hasta cierto punto.

También podría imaginar otras mejoras emergentes que podrían reducir la necesidad de usar Hadoop. Mucho depende de qué tan rápido se introduzcan y evolucionen las tecnologías. Hadoop está evolucionando rápidamente a medida que se comercializa.

Publicaremos nuevo contenido sobre virtualización inversa y evolución de la base de datos durante los próximos meses en http://www.pwc.com/techforecast, y esos artículos incluirán más detalles, resultados de investigaciones y nuestras ideas sobre las implicaciones comerciales de estos desarrollos. Gracias por la pregunta

Creo que tienes un malentendido fundamental de la tecnología.

Si bien tienen cierta superposición, en su mayor parte Spark resuelve una clase diferente de problemas que MapReduce y tiene un perfil de rendimiento diferente. Spark tiene una latencia más baja, pero esto necesariamente tiene el costo de un menor rendimiento. MapReduce tiene una mayor latencia, pero también un mayor rendimiento.

Spark es ideal para procesar pequeños lotes de datos que se ingieren en el sistema de manera regular, y que se debe actuar dentro de un período de tiempo limitado.

MapReduce es ideal para realizar análisis complejos o generar informes sobre conjuntos de datos de múltiples petabytes.

Ambas herramientas tienen su lugar. Spark es un buen martillo, pero no todos los trabajos requieren un martillo. A veces necesitas una astilladora de madera.

Hadoop en general no está saliendo, por ejemplo, HDFS llegó para quedarse, pero MapReduce clásico como motor de procesamiento, subyacente a Hadoop 1.0, está saliendo y siendo reemplazado por Spark. Spark es un motor de procesamiento de MapReduce generalizado que está tratando de admitir la mayoría de las aplicaciones dentro de Hadoop mediante la introducción de 2 extensiones principales: RDD, colección distribuida de elementos que intenta almacenar en caché y DAG generales para permitir flujos de trabajo más complicados. Así que Hadoop 1.0 está a punto de desaparecer, pero Hadoop 2.0 y YARN están aquí para quedarse al separar la administración de recursos del clúster y permitir múltiples motores de procesamiento. Consulte mis diapositivas en Hadoop 1.0 y 2.0 aquí: Hadoop 101 para bioinformáticos: curso intensivo de 1 hora, código y diapositivas Para resumir, Spark está transformando y extendiendo el cálculo en Hadoop, esto es solo el final del principio, no el comienzo de el fin.

Creo que tanto Hadoop como MapReduce están aquí para quedarse. Lo uso, muchas compañías lo usan, de hecho, las compañías han invertido tanto tiempo en desarrollar un software MapReduce sólido que necesitarían un gran incentivo para reemplazar ese código con algo más. Esta es más o menos la razón por la que Java sigue existiendo después de todo este tiempo y no ha sido completamente reemplazado por otra cosa como Python a pesar de su facilidad de uso y popularidad entre los científicos de datos.

Ambas herramientas tienen su lugar. Intenté convertir un código de Hadoop a Spark que procesaba grandes imágenes de varios GB y no vi un aumento de velocidad debido a que no podía aprovechar los resistentes conjuntos de datos distribuidos de Spark para la persistencia en memoria. No tuve tiempo de descubrir cómo persistir las imágenes como RDD. Por el contrario, podría rápidamente asignar mis trabajos a nodos y recuperar algunos resultados del proceso durante el paso de reducción de Hadoop. De acuerdo, si está trabajando con muchos textos y números que se reutilizan una y otra vez, Spark será más ventajoso que Hadoop. Diferentes casos de uso solo requieren diferentes herramientas.

Hadoop está en constante desarrollo con nuevas características agregadas en cada versión. Y no se equivoque, cuando digo características, me refiero a características como la función de codificación de borrado de última generación agregada a HDFS, por ejemplo. Puede ver un breve resumen en Apache Hadoop 3.0.0-alpha2 lanzado – Blog de ingeniería de Cloudera.

Además, con el soporte de Amazon Web Services, como Amazon EMR – Amazon Web Services, ya es uno de los estándares industriales de facto.

En resumen, no, Hadoop definitivamente no está saliendo.

No. En absoluto … Hadoop está evolucionando y seguirá siendo la plataforma de big data de facto durante al menos los próximos años. Poner map-reduce encima del marco YARN es un ejemplo de la evolución de Hadoop. Puede usar las funciones R si lo desea a través de la transmisión Hadoop. También hay nuevos desarrollos prometedores como SPARK, que es el procesamiento en memoria (afirman una aceleración de 100x). Entonces, hadoop continuará evolucionando y madurando. En su salida? No es probable, ya que todavía está en una trayectoria ascendente. ¡Los mejores deseos!

Como otros antes de mí ya han señalado, depende en gran medida de las aplicaciones que necesite ejecutar. En mi opinión, la mayoría de las empresas tienen que administrar una gran cantidad de datos, pero su análisis generalmente se concentra en una pequeña porción, y en este caso Spark es el camino. Sin embargo, otras compañías extraordinarias, cuya ventaja competitiva se basa en los datos, realmente tratan con conjuntos de datos interminables. Han invertido mucho en Hadoop, y no cambiarán a Spark solo por los RDD.

En conclusión, supongo que Hadoop continuará existiendo y creciendo, pero como una solución de nicho, y solo será empleado por quien realmente lo solicite.

Depende de lo que llames Hadoop. Si te refieres a MapReduce y sus sucesores, definitivamente lo es. Sin embargo, si te refieres al ecosistema que contiene HDFS, Spark, Pig, Hive y muchos otros, entonces está vivo y bien.

Llámame un cascarrabias tecnológico, pero nunca pensé que Hadoops debería haber entrado.

Hasta el día de hoy, el único ejemplo razonable y funcional de la tecnología que he visto es contar palabras en los documentos. Si alguna empresa alguna vez necesita eso, Hadoop está listo para ellos. Para cualquier otro caso de uso, existen soluciones más fáciles, más rápidas y más eficientes.

Creo que te refieres a ejecutar Spark dentro de Hadoop usando Yarn.

Es cierto que MapReduce se volverá menos popular porque Yarn permite que otros motores se ejecuten en los nodos de datos, pero esos otros motores hacen que Hadoop sea más flexible y más potente.

Entonces, no Hadoop no está en camino. De hecho, Spark ayudará a Hadoop a hacerse más popular.

De ninguna manera. Permanecerá por mucho tiempo. Todo depende de qué tipo de aplicación desea crear. Si necesita una aplicación que responda rápidamente o donde el tiempo de respuesta sea en minutos o tal vez una hora, entonces Hadoop no es el adecuado. Spark / Storm puede ser una mejor opción. Pero Hadoop tiene su propio dominio de aplicación. Por ejemplo, si necesita procesar los productos recomendados todas las semanas y enviar el correo electrónico a los suscriptores, entonces hadoop es la mejor opción, debido a su bajo costo. ¿Por qué tendrá un hardware que procesará los datos en 10 minutos y luego dice inactivo para descansar durante la semana, mientras que hadoop puede procesar los mismos datos en unas 10 horas? Pero aún así los resultados deben enviarse después de la semana. entonces, en ese tipo de situaciones, Hadoop es la mejor alternativa

Software de gestión de casos legales

Instalación de Apache Hadoop 2.7.1 Single Node Cluster en Ubuntu

Sí.