Creo que debería considerar estudiar / comprender los componentes centrales de Hadoop: HDFS y Map-Reduce.
En HDFS, un archivo se divide en trozos de tamaño de bloque; el tamaño del bloque es configurable, el valor predeterminado es 64 MB
El número de mapeadores generados depende del tamaño del bloque HDFS, por lo que si el tamaño de su archivo es de 1 GB = 1024 MB, para un HDFS configurado con un tamaño de bloque de 64 MB, se generarían 16 mapeadores.
La implementación predeterminada ejecutaría Single Reducer en o / p de estos 16 Mappers.
Para aumentar el número de Reductor, se puede implementar un Particionador, pero esto depende mucho del caso de uso.
Si desea generar Mappers roscados dentro de un Mapper, puede marcar Class MultithreadedMapper, sin embargo, no es aconsejable ya que el objetivo básico del marco es procesar datos en paralelo en los nodos del clúster.
Marque Habilitar múltiples subprocesos en un mapeador también conocido como MultithreadedMapper para obtener más detalles.
El reductor procesa datos alimentados desde la salida de Mapper, incluso si escribe reductores roscados, ¿cómo controlaría la ingestión de datos en el reductor?
Hadoop no proporciona ningún mecanismo para anularlo y personalizarlo; Y parece innecesario también.
- ¿Cuáles son las mayores deficiencias de JavaScript?
- ¿Hay mejores funciones hash que SHA-512?
- Entre todas las máquinas de Turing posibles, ¿qué tan comunes son las máquinas de Turing universales?
- ¿Cómo afecta la inteligencia artificial a la vida humana?
- ¿Hay alguna prueba de usabilidad con respecto a las ventanas modales de Facebook Connect?