Hadoop permite la informática distribuida, es decir, delegar tareas a múltiples sistemas informáticos conectados en una red (un bastidor o un clúster o en la nube)
Tener un rack o un clúster en las instalaciones brinda la seguridad, a menos que las necesidades de una organización más grande como (Google y Amazon)
La computación en la nube permite arrendar hardware de computación remota para nuestros requisitos de Hadoop. AWS y Azure son dos soluciones principales en la nube. Hortonworks y Cloudera son dos soluciones principales de Hadoop (MapReduce2 / Spark).
- ¿Cuáles son algunos buenos libros sobre computación en la nube para principiantes?
- ¿Quiénes son los principales actores en la computación de alto rendimiento en la nube (HPC)?
- ¿Cuáles son las mayores brechas de competencia que ha visto cuando las empresas adoptan la computación en la nube?
- ¿Por qué no todos estamos usando computadoras virtuales en la nube?
- ¿Qué servicios gratuitos para compartir archivos permiten carpetas o archivos protegidos por contraseña accesibles para cualquier persona con el enlace (incluidas las personas sin una cuenta)?
La implementación del software Hadoop en un clúster es un trabajo tedioso, ya que depende de nuestros requisitos.
Azure viene con un Sandbox de Hortonworks preinstalado (virtualbox generalmente disponible) en el que puede experimentar sus soluciones de Hadoop.
No voy a entrar en muchos detalles, pero la administración de hadoop se encarga de configurar y mantener el clúster, ya sea en la nube o en las instalaciones y Cloudera o Hortonworks. Hay suficientes herramientas y ejemplos para configurar un clúster hadoop (si no es un sandbox)
Si sus necesidades son principalmente educativas, le sugiero que cree una suscripción de Azure gratuita por un mes e inicie Hortonworks Sandbox Virtual Machine o en un VirtualBox