Cómo implementar el algoritmo de colocación dinámica para Hadoop

Ya se están realizando algunas investigaciones en esta área y se ha publicado un artículo.

Puede consultar la publicación en ResearchGate: Algoritmo de colocación dinámica para Hadoop

Research Gate le permite ponerse en contacto con los autores del artículo; por lo tanto, puede tratar de comunicarse con ellos y discutir el enfoque y la técnica.

Si bien no tengo absolutamente ningún antecedente en una implementación práctica; El desarrollador de software en mí me pide que apunte a un posible enfoque.

La premisa fundamental para tal algoritmo (sin referirse al anterior) sería identificar los atributos relacionados con los archivos que pueden usarse como base para la ubicación conjunta.

Tenga en cuenta que, por atributos, no solo me refiero a los atributos del archivo, como la fecha de creación, la fecha de modificación, etc., sino también a consideraciones adicionales, como si contienen el mismo tipo de datos, si provienen de la misma fuente, etc. o cómo se usan los archivos juntos en un consulta particular o un trabajo de reducción de mapas. Por ejemplo, si una compañía financiera está realizando un análisis para el uso de datos de la tarjeta de crédito del cliente para el marketing dirigido, entonces tendría sentido tener los archivos de datos para el cliente y el archivo de datos para el historial de transacciones de la tarjeta de crédito para ubicarse conjuntamente con el fin de acelerar el procesamiento

Si bien la ubicación conjunta de datos para el rendimiento puede ser útil, también se debe tener cuidado de que el algoritmo de ubicación conjunta no sesgue el proceso de replicación de datos en tal medida que la confiabilidad y disponibilidad de los datos. Recuerde, Hadoop almacena los datos de la manera que lo hace hoy para garantizar la disponibilidad y la confiabilidad de los datos.