Lo que hicimos en Adidas Group para configurar la estructura de nivel superior debajo de la raíz y preservar por separado los subdirectorios estructurados y no estructurados. Se realiza una ramificación similar debajo de eso hasta el directorio de datos. Se crea un conjunto de subdirectorios paralelos con el directorio de datos y se nombran como metadatos, archivo, scripts. Como su nombre indica, los datos tienen los datos sin procesar descargados en HDFS antes del procesamiento, los metadatos tienen toda la información de metadatos y el archivo tendrá todos los datos posteriores al procesamiento. De esta forma, los archivos procesados posteriormente se guardan por separado en el área de archivo y se pueden purgar según sea necesario. Se crea un esquema de nivel superior en la parte superior del archivo procesado para que Impala y Hive puedan consultarlos. Data Scientist tiene acceso a esta capa para consultar diferentes tablas bajo demanda a través de la interfaz SQL.
¿Cuál es la mejor manera de configurar una estructura de archivo / directorio en una plataforma de Big Data?
Related Content
¿Cuáles son los datos más valiosos cuando un usuario aleatorio de Internet usa su sitio web?
More Interesting
¿Está Microsoft Excel fuera de moda y menospreciado por los profesionales de la ciencia de datos?
¿Cómo debo aprender ciencia de datos y aprendizaje automático?
¿Los científicos de datos usan Rapid Miner?
¿Cómo se puede usar la ciencia de datos en la aviación?
¿Cuáles son algunos algoritmos utilizados en un sistema de recomendación de música?
¿Qué tan confiables son las estadísticas oficiales del gobierno en los Estados Unidos?
¿Cómo debo planificar cuando aspiro a ser un científico de datos?
Cómo convertirse en un científico actuarial y de datos al mismo tiempo
¿Por qué muchos científicos de datos de LinkedIn se fueron después de la reorganización?
¿Qué es el software Tally? ¿Cómo ayuda a capturar los datos del canal?