Cómo manejar datos incrementales en la tabla de la colmena

Hola,

Cuando diseñe los datos, cree las particiones lógicas en las tablas de la colmena.

Si sus datos son series de tiempo, puede crear una partición basada en año / mes /.

¿Cómo es ser un científico de datos en Apple?
¿Qué herramientas usan los periodistas de datos para crear visualizaciones de datos? ¿Qué características les gustan más?
¿Un científico de datos necesita conocer algoritmos y estructuras de datos, así como un ingeniero de software?
¿Cuán vital será la ciencia de datos en los próximos diez años?
Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante

Para datos basados en geografía, cree particiones a nivel de país o región.

Pero demasiadas particiones reducirán el rendimiento. No estoy seguro de su volumen de datos y no de particiones. Si tiene demasiadas particiones y desea buscar / filtrar los datos particulares en “TODAS” las particiones, puede enfrentar problemas de rendimiento en Hive.

Por lo tanto, cree una tabla externa en Hive y en el futuro podrá acceder a esos datos utilizando otra aplicación (como Pig) en caso de que Hive no proporcione un mejor rendimiento.

Visite esto para ajustar el rendimiento de Hive.

Ajuste de rendimiento de Apache Hive

Gracias | Muthu Kumar

Soy un ingeniero de software

¿Cómo aprender análisis y análisis de datos en SQL? ¿Hay un libro o curso para ello?

¿Cuáles son algunos problemas de ciencia de datos que deben resolverse?

¿Por qué elegiste trabajar en finanzas cuantitativas sobre ciencia de datos?

¿Alguna vez hay una buena razón para cambiar los datos sin procesar al realizar análisis estadísticos o modelos?

¿Cuáles son los desafíos para clasificar los datos informáticos de salud?

Si todos comenzaran a usar Tor hoy (incluidas las personas malas), ¿caerían los gobiernos y el mundo terminaría en un aumento en el crimen, el caos y la anarquía?

Puede dividir su tabla en función del tiempo y seguir cargando datos en lotes de tiempo. Por ejemplo, si particiona su tabla en “hora”, puede comenzar a copiar los datos entrantes en la siguiente estructura de directorios:

/ data / / / /

y luego puede programar un script cron para cargar estos datos cada hora en la tabla de la colmena.

Nagulapati Suresh

Considerando que la fuente de datos es cualquier base de datos, puede usar sqoop con palabras clave incrementales para seguir insertando los datos periódicos en la tabla de la colmena.

Nagulapati Suresh

More Interesting

¿Cuáles son algunos museos que son líderes en el uso de análisis de datos?

El modelado dimensional popularizado por Ralph Kimball es quizás la metodología de implementación del almacén de datos más popular. Sin embargo, algunos cuestionan la escalabilidad de la metodología de Kimball. ¿Cuáles son algunas desventajas del método K?

¿Cuál es el rol del controlador de datos en GDPR?

¿Hay alguna similitud entre el desarrollo front-end y la ciencia de datos?

¿Tener experiencia en ciencia de datos es útil para los negocios?

¿Está bien incluir una variable no significativa en un modelo lineal generalizado (GLM)?

Cómo ingresar al campo de la ciencia de datos

¿Cuáles son algunas de las buenas certificaciones de Big Data para principiantes que desean desarrollar una carrera en Big Data?

¿Cuáles son algunas ideas de investigación para la minería de datos en la agricultura?

¿Cómo se delinean las startups entre las funciones de un científico de datos y una persona analítica más general / orientada a la adquisición?