Cómo fusionar archivos pequeños en Amazon S3 usando Spark

Aquí hay un ejemplo en Python que combina archivos .lzo que contienen líneas de texto. Para otros tipos de compresión, deberá cambiar el formato de entrada y el códec de salida. Tenga en cuenta que este código también puede usarse para dividir archivos grandes en archivos pequeños.

de pyspark import SparkContext

ruta = ‘s3n: // / ‘
output_path = ‘s3n: // / ‘
num_output_files = 5

con SparkContext () como sc:
rdd = sc.newAPIHadoopFile (
camino,
‘com.hadoop.mapreduce.LzoTextInputFormat’,
‘org.apache.hadoop.io.LongWritable’,
‘org.apache.hadoop.io.Text’,
keyConverter = Ninguno
)
rdd = rdd.repartition (num_output_files)
rdd = rdd.map (lambda clave_val: clave_val [1])
rdd.saveAsTextFile (
ruta de salida,
compressCodecClass = ‘com.hadoop.compression.lzo.LzopCodec’
)

Apache SparkCloud Computing

¿Por qué todos prefieren Dropbox?

¿Debo usar MBaaS / DBaaS o Azure / Bluemix App Engine para mi aplicación de Android?

¿Cómo se habilitan nuevas funciones para usuarios seleccionados en una aplicación web?

¿Cuál es la diferencia entre el servicio de alojamiento de archivos y el servicio de almacenamiento en la nube?

¿Cuál es el futuro de mainframe? ¿Cuánto tiempo estará allí esta tecnología?

¿Cuáles son algunos consejos de optimización de nube procesables?

Puedo decirle que para las fuentes compatibles con Hadoop, como el sistema de archivos local y HDFS, (no estoy seguro si S3 es compatible como un esquema de URL, o si puede conectar dicho procesador de esquema para S3, pero,), CombineFileInputFormat es un Hadoop FileInputFormat , que, en lugar de crear 1 división de entrada por 1 archivo de entrada, crea 1 división de entrada por n archivos, donde n se decide dinámicamente en función del tamaño total de esos archivos de entrada, para crear divisiones de entrada de tamaño uniforme, alrededor del número que pasa como configuración, digamos 256 MB.

Quizás exista algo similar para S3, o primero puede sincronizar sus archivos de s3 al sistema de archivos local, desde el cual puede leer en map-reduce, o spark o lo que sea, a través de InputFormat discutido anteriormente. ¡Buena suerte!

Alan Yiu

Nos enfrentamos a un desafío similar, donde tenemos que leer miles de archivos json pequeños (pocos mb) de S3. Observamos una latencia enorme, cargar 300mb de datos en un marco de datos tomó 20 minutos.

Solución: no es la mejor, pero esto es lo que hicimos. Archivos combinados a nivel mensual y diario, ahora los tiempos de lectura tan rápido.

Tomando este problema con la gente en los ladrillos de datos. Se actualizará una vez que encuentre un mejor enfoque.

Alan Yiu

More Interesting

¿Cuáles son las consideraciones básicas en las que debo concentrarme, antes de migrar la infraestructura de mis aplicaciones de las instalaciones a un entorno en la nube como AWS?

Cómo establecer un límite mensual en Amazon Web Services

¿Cuál es el mejor enfoque para medir la utilización de recursos de una instancia virtual para fines de facturación?

¿Dónde puedo obtener la mejor capacitación en computación en la nube en Kolkata?

¿Cuál es la mejor solución de almacenamiento si estoy buscando crear una comunidad en línea donde los usuarios puedan subir fotos?

¿Qué ha cambiado en AWS en 2015?

¿Las aplicaciones en la nube serán tan rápidas como la RAM local?

¿Qué sucede si los datos permanecen en almacenamiento en la nube incluso después de que el usuario elimine su cuenta?