¿Cómo tenemos equilibrio de carga en los reductores en caso de sesgo de datos?

Pruebe Skewtune – Adaptive Hadoop MapReduce – Alojamiento de proyectos de Google

Documento relacionado: – http://nuage.cs.washington.edu/p…

Lo he intentado … Es bastante decente … También puede lidiar con Mapper Side Skew

Los equilibrios se cargan dinámicamente al reorganizar grupos clave sobre la marcha … utiliza la heurística como un “reductor que está inactivo”

Aquí hay una encuesta decente sobre este tema: – http://nuage.cs.washington.edu/p…

Otro documento de encuesta más reciente: – http://www.cs.cmu.edu/~kair/pape…

Pero si su implementación / aplicación puede permitir la división de grupos de claves (es decir, no se requiere una acción de reducción global por clave), puede leer un documento publicado recientemente por mí que trata el problema de diseñar una función eficiente de Particionamiento de claves optimizando un objetivo – Anotación de entidad a escala web usando MapReduce