Cómo usar Hadoop con la nube

Hadoop permite la informática distribuida, es decir, delegar tareas a múltiples sistemas informáticos conectados en una red (un bastidor o un clúster o en la nube)

Tener un rack o un clúster en las instalaciones brinda la seguridad, a menos que las necesidades de una organización más grande como (Google y Amazon)

La computación en la nube permite arrendar hardware de computación remota para nuestros requisitos de Hadoop. AWS y Azure son dos soluciones principales en la nube. Hortonworks y Cloudera son dos soluciones principales de Hadoop (MapReduce2 / Spark).

La implementación del software Hadoop en un clúster es un trabajo tedioso, ya que depende de nuestros requisitos.

Azure viene con un Sandbox de Hortonworks preinstalado (virtualbox generalmente disponible) en el que puede experimentar sus soluciones de Hadoop.

No voy a entrar en muchos detalles, pero la administración de hadoop se encarga de configurar y mantener el clúster, ya sea en la nube o en las instalaciones y Cloudera o Hortonworks. Hay suficientes herramientas y ejemplos para configurar un clúster hadoop (si no es un sandbox)

Si sus necesidades son principalmente educativas, le sugiero que cree una suscripción de Azure gratuita por un mes e inicie Hortonworks Sandbox Virtual Machine o en un VirtualBox