Hola,
Hay varios formatos de datos para elegir para cargar sus datos en el Sistema de archivos distribuidos de Hadoop (HDFS). Cada uno de los formatos de datos tiene sus propias fortalezas y debilidades, y comprender las compensaciones lo ayudará a elegir un formato de datos que se adapte a su sistema y objetivos.
Realizamos pruebas en Hortonworks, Cloudera, Altiscale y Amazon EMR distribuciones de Hadoop.
- ¿La demanda de un analista de datos es mayor que la de un científico de datos?
- ¿Qué son la ciencia de datos y el aprendizaje automático?
- ¿Cuáles son buenas métricas para la polarización política en las redes sociales?
- ¿Existe una definición de "Big" en el contexto de "Big Data"? ¿Cuál es exactamente el significado de "Big" desde el punto de vista de la ciencia de datos?
- ¿Cómo ha creado Big Data una mayor demanda de personas con habilidades de investigación?
Para las pruebas de escritura, medimos cuánto tiempo le tomó a Hive escribir una nueva tabla en el formato de datos especificado.
Para las pruebas de lectura, utilizamos Hive e Impala para realizar consultas y registrar el tiempo de ejecución de cada una de ellas.
Utilizamos la compresión rápida para la mayoría de los formatos de datos, con la excepción de Avro, donde también utilizamos la compresión desinflada.
Las consultas se ejecutaron para medir la velocidad de lectura, en forma de:
SELECT COUNT(*) FROM TABLE WHERE …
La consulta 1 no incluye condiciones adicionales.
La consulta 2 incluye 5 condiciones.
La consulta 3 incluye 10 condiciones.
La consulta 4 incluye 20 condiciones.
Gracias,
Priyanka
Desarrollador Hadoop.