¿Puedo usar más mapeadores y reductores simultáneamente en un programa MapReduce usando el concepto de subprocesamiento de Java? Si es así, ¿cómo? Si no, ¿por qué?

Creo que debería considerar estudiar / comprender los componentes centrales de Hadoop: HDFS y Map-Reduce.
En HDFS, un archivo se divide en trozos de tamaño de bloque; el tamaño del bloque es configurable, el valor predeterminado es 64 MB
El número de mapeadores generados depende del tamaño del bloque HDFS, por lo que si el tamaño de su archivo es de 1 GB = 1024 MB, para un HDFS configurado con un tamaño de bloque de 64 MB, se generarían 16 mapeadores.
La implementación predeterminada ejecutaría Single Reducer en o / p de estos 16 Mappers.
Para aumentar el número de Reductor, se puede implementar un Particionador, pero esto depende mucho del caso de uso.

Si desea generar Mappers roscados dentro de un Mapper, puede marcar Class MultithreadedMapper, sin embargo, no es aconsejable ya que el objetivo básico del marco es procesar datos en paralelo en los nodos del clúster.
Marque Habilitar múltiples subprocesos en un mapeador también conocido como MultithreadedMapper para obtener más detalles.

El reductor procesa datos alimentados desde la salida de Mapper, incluso si escribe reductores roscados, ¿cómo controlaría la ingestión de datos en el reductor?
Hadoop no proporciona ningún mecanismo para anularlo y personalizarlo; Y parece innecesario también.

Related Content

¿Qué es el autómata pushdown?

Cómo minar bitcoin desde cero sin experiencia

¿Cuándo se prefiere la agrupación del subespacio?

¿Cómo usan los hackers Linux?

¿Google está bajando su barra de contratación para ingenieros?

¿Cuáles son algunos de los mejores libros sobre economía computacional?

¿Cómo obtiene Prismatic el contenido principal de cada artículo de noticias?

More Interesting

¿Cuáles son los tipos de inteligencia artificial?

¿Debo usar el formato .wav o .flac?

Como persona del campo de la medicina interesada en la investigación de inteligencia artificial, ¿cuál es la mejor manera de aprender al respecto?

¿Qué es un flujo de trabajo general para abordar un problema de aprendizaje automático?

¿Existe una diferencia de preferencia de software entre estadística y aprendizaje automático?

¿Cuál es el almacenamiento primario de la computadora?

¿Cómo es el programa de Ciencias de la Computación en Harvard, en relación con otras escuelas superiores de ingeniería?

¿Cuál será el código para contar a las personas que entraron o salieron de la sala en Mega 8?

Si hiciéramos un grupo de Navy Seals junto con diferentes tipos de IA de Red vs. Blue, ¿podrían ser derrotados?

Si el mundo en Minecraft está representado en el servidor, y suponemos que el servidor tiene gigabytes de memoria, ¿por qué el mundo no es mucho más grande de lo que es?

¿Qué significa ejecutar una consulta?

¿Cuál es la diferencia entre una maestría en informática (MS) y una maestría en aplicaciones informáticas (MCA)? Este año busqué una Licenciatura en Aplicación de Computadoras (BCA), ¿qué título debo elegir ahora?

¿Cómo mostraban las computadoras letras y formas antes de las pantallas de mapa de bits?

¿Sería útil para un estudiante de CS estudiar Señales y Sistemas, así como el Procesamiento de Señal Digital?

¿Es suficiente Nagios para capturar el estado completo de un sistema distribuido?

Web Analytics