Cómo encontrar un buen formato para big data

Hola,

Hay varios formatos de datos para elegir para cargar sus datos en el Sistema de archivos distribuidos de Hadoop (HDFS). Cada uno de los formatos de datos tiene sus propias fortalezas y debilidades, y comprender las compensaciones lo ayudará a elegir un formato de datos que se adapte a su sistema y objetivos.

Realizamos pruebas en Hortonworks, Cloudera, Altiscale y Amazon EMR distribuciones de Hadoop.

Para las pruebas de escritura, medimos cuánto tiempo le tomó a Hive escribir una nueva tabla en el formato de datos especificado.

Para las pruebas de lectura, utilizamos Hive e Impala para realizar consultas y registrar el tiempo de ejecución de cada una de ellas.

Utilizamos la compresión rápida para la mayoría de los formatos de datos, con la excepción de Avro, donde también utilizamos la compresión desinflada.

Las consultas se ejecutaron para medir la velocidad de lectura, en forma de:

SELECT COUNT(*) FROM TABLE WHERE …

La consulta 1 no incluye condiciones adicionales.

La consulta 2 incluye 5 condiciones.

La consulta 3 incluye 10 condiciones.

La consulta 4 incluye 20 condiciones.

Gracias,

Priyanka

Desarrollador Hadoop.

Tienes que pensar en ellos como todos. ¿Qué es? La calidad de la información es el acto de garantizar que la información sea exacta y utilizable por su razón planificada. Al igual que la administración de calidad ISO 9000 en el ensamblaje, la calidad de la información debe utilizarse en cada avance de una preparación de administración de información. Esto comienza desde el momento en que se obtiene la información, a través de diferentes enfoques de coordinación con otra información, e incluso incorpora-http: //bigdatahadooppro.com/

More Interesting

¿Qué tiene más alcance y permanecerá durante mucho tiempo en el mercado, la ciencia de datos, la computación en la nube o Hadoop y big data?

¿Por qué elegiste trabajar en ciencia de datos sobre finanzas cuantitativas?

Ciencia de datos: dados los buenos datos estructurados, ¿qué técnica de modelado predictivo se puede implementar en R dentro de una semana?

¿Cómo es un día típico para un científico de datos en Microsoft?

Si quiero hacer ciencia de datos, ¿es una buena manera de hacerlo si estudio estadísticas?

¿Cuáles son los desafíos de la migración de datos?

¿Cuáles son las principales herramientas de ciencia de datos utilizadas por las organizaciones líderes?

¿Cuál es el lenguaje de programación más poderoso en el campo de Analytics / Data Science: Python, R o SAS?

¿Cuál es el mejor idioma para aprender a entrar en la ciencia de datos o big data en los requisitos actuales como graduado de comercio?

Cómo analizar un conjunto de datos de viaje que contiene tiempo / modo / ingresos por persona

Quiere aprender Big data. ¿Cómo debo aprender desde una perspectiva de prueba, por favor responda?

¿Cuáles son las mejores compañías de big data en INDIA para un desarrollador de software?

¿Por qué el Titanic de Kaggle: Machine Learning del desastre es un problema de aprendizaje supervisado?

¿Hacer una certificación CCNA ayudará de todos modos en los campos de Big Data / Hadoop?

¿Cuáles son algunos buenos proyectos sobre aprendizaje automático y minería de datos?