En mi experiencia, crear tablas a partir de datos existentes es un paso inicial común para un proceso ETL en Hive. Por ejemplo, puede tener exportaciones desde una tienda NoSQL como MongoFB en formato JSON, exportaciones CSV desde un SQL almacenado y archivos de texto como registros.
El primer paso sería crear tablas sobre los datos para hacerlos accesibles. Los datos CSV generalmente se pueden usar sin trabajo adicional en los siguientes pasos. Los datos JSON requieren análisis, es decir, definir una tabla con cada fila que consta solo de una columna de cadena con el objeto JSON y luego analizarla en una instrucción de selección con get_json_object (), por ejemplo.
Los resultados intermedios, por ejemplo, de unir y transformar los datos, se pueden almacenar en tablas HDFS si se usan varias veces en la siguiente etapa para cambiar el tiempo de procesamiento por espacio. Usar la compresión RCFile y BLOCK con Snappy es una buena práctica en la mayoría de los casos.
- ¿Cuáles son algunos buenos libros / documentos sobre aprendizaje kernelized, en general y especialmente con SVM?
- ¿Cómo es el título de MS Data Science and Analytics @Worcester Polytechnic Institute en términos de conexiones industriales y empleo después de la graduación?
- ¿Dónde puedo descargar los documentos y conjuntos de datos de Panama Papers?
- ¿Qué es el ERP? ¿Cómo apoya ERP a las empresas? ¿Es una herramienta que ayuda con el mantenimiento de registros y ofrece una instalación de almacenamiento de datos?
- ¿Cómo es el MTech en Data Science en SEAS, Universidad de Ahmedabad?
En el paso final, los datos se generan a partir de los pasos intermedios para la exportación. Esos podrían ser datos CSV que se importarán en almacenes SQL, por ejemplo, datos agregados para analistas, a través de sqoop o formatos personalizados, o incluso transmisión de datos en trabajos de solo mapa a los puntos finales de servicios de la red.
S3 puede desempeñar un papel importante además de HDFS si trabaja con AWS. S3 es un sumidero de datos útil y una ubicación de respaldo para los procesos. La capacidad de crear una tabla que haga referencia a una carpeta S3 simplifica los flujos de trabajo en estas situaciones. El primer paso del escenario anterior se puede vincular a S3 y las salidas posteriores se pueden almacenar allí. Sin embargo, los resultados intermedios se almacenan mejor en HDFS para retener la localidad y el rendimiento de los datos. Recuperar datos de S3 no es tan rápido y barato como HDFS.