Hola,
Cuando diseñe los datos, cree las particiones lógicas en las tablas de la colmena.
Si sus datos son series de tiempo, puede crear una partición basada en año / mes /.
- ¿Cómo es ser un científico de datos en Apple?
- ¿Qué herramientas usan los periodistas de datos para crear visualizaciones de datos? ¿Qué características les gustan más?
- ¿Un científico de datos necesita conocer algoritmos y estructuras de datos, así como un ingeniero de software?
- ¿Cuán vital será la ciencia de datos en los próximos diez años?
- Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante
Para datos basados en geografía, cree particiones a nivel de país o región.
Pero demasiadas particiones reducirán el rendimiento. No estoy seguro de su volumen de datos y no de particiones. Si tiene demasiadas particiones y desea buscar / filtrar los datos particulares en “TODAS” las particiones, puede enfrentar problemas de rendimiento en Hive.
Por lo tanto, cree una tabla externa en Hive y en el futuro podrá acceder a esos datos utilizando otra aplicación (como Pig) en caso de que Hive no proporcione un mejor rendimiento.
Visite esto para ajustar el rendimiento de Hive.
Ajuste de rendimiento de Apache Hive
Gracias | Muthu Kumar
Soy un ingeniero de software