HDFS y YARN y Spark ciertamente no están saliendo, como señala Attila Csordas. HDFS es un estándar de facto para un sistema de archivos informáticos distribuidos de productos básicos, y se están construyendo muchas tecnologías sobre HDFS, tanto propietarias como de código abierto, diseñadas para funcionar sobre Spark o YARN o no. Esta combinación de técnicas constituye una evolución de Hadoop: adoptan y extienden Hadoop, en lugar de rechazarlo.
En lugar de escalar, también existe una mayor posibilidad de escalar de manera más rentable mediante el uso de la “virtualización inversa”, lo que podría reducir o incluso eliminar la necesidad de usar técnicas de computación distribuida como Hadoop cuando se trata de grupos de productos más pequeños. Conceptualmente, Hadoop no sería necesario, excepto para grandes grupos.
Compañías como TidalScale están permitiendo abordar pequeños grupos de servidores básicos cargados de RAM como una sola entidad virtual, lo que implica que podría extender el uso de un solo nodo, sistema operativo de instancia única y software de aplicación asociado a mayor escala. Los beneficios serían una mayor utilización y eficiencia de costos en varios niveles de la pila, así como RAM prácticamente contigua. La virtualización inversa de este tipo implica el equivalente de la supercomputación de productos básicos. Quizás la mayor recompensa sería la capacidad de reducir la necesidad de capacitación en sistemas distribuidos.
- ¿Cuáles son los programas similares a Data Science for Social Good y The Fellowship | Código para América?
- Si planeo enfocarme en Data Science usando Python en el futuro, actualmente para desarrolladores web ¿debería pasar tiempo aprendiendo Node / Express o enfocarme en Django?
- ¿Sería ingenuo obtener un doctorado en física teórica con el objetivo final de un papel de ciencia de datos en la industria?
- ¿Con qué lenguaje de programación debo comenzar para la ciencia de datos, considerando que soy nuevo en ambos?
- ¿Quiénes son los mejores expertos en aprendizaje automático (ML)?
Video de TidalScale de Pete Jarvis, 2014
Se podría imaginar que la capacidad de escalar de manera más rentable podría traer a la luz otros desafíos de escala. ¿Cuándo se vuelve inviable administrar grandes cantidades de combinaciones de tablas o el modelado de datos asociado en bases de datos relacionales, por ejemplo? El hecho de que mantenga el margen de maniobra para ejecutar un solo nodo, software de instancia única en docenas de nodos no significa que no se encuentre con otros problemas de escalado. Pero a nivel de base de datos, al menos algunos problemas de escala asociados con bases de datos relacionales o gráficas, por ejemplo, podrían evitarse hasta cierto punto.
También podría imaginar otras mejoras emergentes que podrían reducir la necesidad de usar Hadoop. Mucho depende de qué tan rápido se introduzcan y evolucionen las tecnologías. Hadoop está evolucionando rápidamente a medida que se comercializa.
Publicaremos nuevo contenido sobre virtualización inversa y evolución de la base de datos durante los próximos meses en http://www.pwc.com/techforecast, y esos artículos incluirán más detalles, resultados de investigaciones y nuestras ideas sobre las implicaciones comerciales de estos desarrollos. Gracias por la pregunta