¿Cuál es la mejor manera de configurar una estructura de archivo / directorio en una plataforma de Big Data?

Lo que hicimos en Adidas Group para configurar la estructura de nivel superior debajo de la raíz y preservar por separado los subdirectorios estructurados y no estructurados. Se realiza una ramificación similar debajo de eso hasta el directorio de datos. Se crea un conjunto de subdirectorios paralelos con el directorio de datos y se nombran como metadatos, archivo, scripts. Como su nombre indica, los datos tienen los datos sin procesar descargados en HDFS antes del procesamiento, los metadatos tienen toda la información de metadatos y el archivo tendrá todos los datos posteriores al procesamiento. De esta forma, los archivos procesados posteriormente se guardan por separado en el área de archivo y se pueden purgar según sea necesario. Se crea un esquema de nivel superior en la parte superior del archivo procesado para que Impala y Hive puedan consultarlos. Data Scientist tiene acceso a esta capa para consultar diferentes tablas bajo demanda a través de la interfaz SQL.

Big DataBig Data AnalysisData AnalysisData Science

Related Content

¿Qué porcentaje del conocimiento humano global ya es accesible en internet? ¿Existe una medida para la cantidad de conocimiento cargado en la red mundial?

¿Cuáles son los datos más valiosos cuando un usuario aleatorio de Internet usa su sitio web?

¿Cuál es la diferencia entre MongoDB y big data?

¿Cuál es el paquete de software más útil para aprender sobre pronósticos de series de tiempo y análisis de regresión?

# redes de computadoras (CSE) Tengo una duda sobre el enfoque de capas. Los datos reales se transfieren a través de la capa física, pero ¿por qué todas las otras capas, como el transporte o la red, también transfieren datos en diferentes formas, como paquetes o segmentos? ¿Qué tipo de datos es ese?

Ciencia de datos: dados los buenos datos estructurados, ¿qué técnica de modelado predictivo se puede implementar en R dentro de una semana?

¿Qué tan bueno es el nuevo proveedor emergente de servicios de Internet, Tikona, en West Delhi?

More Interesting

¿Alguien puede ayudarme en qué consiste el análisis de datos y cuál es la diferencia entre este y el científico de datos?

¿Cuáles son las áreas de investigación en el análisis de big data, especialmente relacionadas con la minería de datos?

¿Está Microsoft Excel fuera de moda y menospreciado por los profesionales de la ciencia de datos?

¿Cómo debo aprender ciencia de datos y aprendizaje automático?

¿Completan los siguientes dos certificados en ciencia de datos lo suficiente como para ser competitivos para un trabajo de aprendizaje automático si estoy comenzando este campo desde cero?

¿Los científicos de datos usan Rapid Miner?

¿Es bueno tener un doctorado en estadística después de completar mi doctorado en ciencia de datos o alguna otra buena idea?

¿Cómo se puede usar la ciencia de datos en la aviación?

¿Cuáles son algunos algoritmos utilizados en un sistema de recomendación de música?

¿Qué tan confiables son las estadísticas oficiales del gobierno en los Estados Unidos?

¿Cómo debo planificar cuando aspiro a ser un científico de datos?

¿Un "científico de datos" en un negocio basado en datos realiza esencialmente las mismas funciones que un Wall Street Quant?

Cómo convertirse en un científico actuarial y de datos al mismo tiempo

¿Por qué muchos científicos de datos de LinkedIn se fueron después de la reorganización?

¿Qué es el software Tally? ¿Cómo ayuda a capturar los datos del canal?

Web Analytics