¿Cuál es la mejor manera de configurar una estructura de archivo / directorio en una plataforma de Big Data?

Lo que hicimos en Adidas Group para configurar la estructura de nivel superior debajo de la raíz y preservar por separado los subdirectorios estructurados y no estructurados. Se realiza una ramificación similar debajo de eso hasta el directorio de datos. Se crea un conjunto de subdirectorios paralelos con el directorio de datos y se nombran como metadatos, archivo, scripts. Como su nombre indica, los datos tienen los datos sin procesar descargados en HDFS antes del procesamiento, los metadatos tienen toda la información de metadatos y el archivo tendrá todos los datos posteriores al procesamiento. De esta forma, los archivos procesados ​​posteriormente se guardan por separado en el área de archivo y se pueden purgar según sea necesario. Se crea un esquema de nivel superior en la parte superior del archivo procesado para que Impala y Hive puedan consultarlos. Data Scientist tiene acceso a esta capa para consultar diferentes tablas bajo demanda a través de la interfaz SQL.