¿Qué es la meta copia de seguridad de Hadoop Namenode y cómo la uso?

Hadoop NameNode contiene los metadatos de los archivos presentes en HDFS. Estos metadatos están presentes en forma serializada dentro de un solo archivo llamado fsimage. NameNode también contiene un archivo de ediciones que tiene un registro de todos los cambios realizados en el sistema de archivos. El archivo fsimage se mantiene en disco y en memoria. Todos los cambios en el sistema de archivos se reflejan en la memoria y se transfieren periódicamente al disco.
Los detalles sobre cómo recuperar el archivo fsimage y ediciones se dan aquí Copia de seguridad de metadatos del sistema de archivos HDFS.

NameNode es el único punto de falla en un clúster de Hadoop es el. Aunque la pérdida de cualquier otra máquina (de forma intermitente o permanente) no produce pérdida de datos debido a la replicación de datos, la pérdida de NameNode da como resultado la falta de disponibilidad del clúster. La pérdida permanente de datos de NameNode haría inoperable el HDFS del clúster.
Por lo tanto, se debe dar otro paso en esta configuración para hacer una copia de seguridad de los metadatos NameNode para iniciarlo nuevamente.

Tenga en cuenta que Namenode admite alta disponibilidad y no es un solo punto de falla y no lo ha sido durante bastante tiempo: consulte Diario basado en quórum en CDH4.1.

Con Namenode HA, las ediciones generalmente se almacenan en más de 5 lugares NN, SNN, QJM [1-n], por lo que es muy improbable (prácticamente imposible) que las ediciones se pierdan por completo, pero eso todavía deja la imagen. Se puede hacer una copia de seguridad de fsimage con bastante facilidad con: $ hdfs dfsadmin -fetchImage backup_dir.

Básicamente es una instantánea de la metainformación almacenada en HDFS administrada por namenode.

Esto puede ser útil: http://www.cloudera.com/content/

Vijay Thakorlal también tuvo una buena publicación: http://vijayjt.blogspot.com/2013