Cómo manejar datos incrementales en la tabla de la colmena

Hola,

Cuando diseñe los datos, cree las particiones lógicas en las tablas de la colmena.

Si sus datos son series de tiempo, puede crear una partición basada en año / mes /.

Para datos basados ​​en geografía, cree particiones a nivel de país o región.

Pero demasiadas particiones reducirán el rendimiento. No estoy seguro de su volumen de datos y no de particiones. Si tiene demasiadas particiones y desea buscar / filtrar los datos particulares en “TODAS” las particiones, puede enfrentar problemas de rendimiento en Hive.

Por lo tanto, cree una tabla externa en Hive y en el futuro podrá acceder a esos datos utilizando otra aplicación (como Pig) en caso de que Hive no proporcione un mejor rendimiento.

Visite esto para ajustar el rendimiento de Hive.

Ajuste de rendimiento de Apache Hive

Gracias | Muthu Kumar

Soy un ingeniero de software

Puede dividir su tabla en función del tiempo y seguir cargando datos en lotes de tiempo. Por ejemplo, si particiona su tabla en “hora”, puede comenzar a copiar los datos entrantes en la siguiente estructura de directorios:

/ data / / / /

y luego puede programar un script cron para cargar estos datos cada hora en la tabla de la colmena.

Considerando que la fuente de datos es cualquier base de datos, puede usar sqoop con palabras clave incrementales para seguir insertando los datos periódicos en la tabla de la colmena.

More Interesting

¿Cuáles son algunos museos que son líderes en el uso de análisis de datos?

El modelado dimensional popularizado por Ralph Kimball es quizás la metodología de implementación del almacén de datos más popular. Sin embargo, algunos cuestionan la escalabilidad de la metodología de Kimball. ¿Cuáles son algunas desventajas del método K?

¿Cuál es el rol del controlador de datos en GDPR?

¿Hay alguna similitud entre el desarrollo front-end y la ciencia de datos?

¿Tener experiencia en ciencia de datos es útil para los negocios?

¿Está bien incluir una variable no significativa en un modelo lineal generalizado (GLM)?

Cómo ingresar al campo de la ciencia de datos

¿Cuáles son algunas de las buenas certificaciones de Big Data para principiantes que desean desarrollar una carrera en Big Data?

¿Cuáles son algunas ideas de investigación para la minería de datos en la agricultura?

¿Cómo se delinean las startups entre las funciones de un científico de datos y una persona analítica más general / orientada a la adquisición?

¿Con qué lenguaje de programación debo comenzar para la ciencia de datos, considerando que soy nuevo en ambos?

¿Cuáles son las cosas "imprescindibles" sobre ciencia de datos y análisis?

¿Cómo utilizan las principales empresas la ciencia de datos en las finanzas?

¿Qué gráficos de Nvidia, GeForce o Quadro, son los mejores para aplicaciones de análisis de datos grandes, modelado computacional y ciencia de datos?

¿Qué debería estudiar Bsc para convertirme en un científico de datos?