¿Cuál es el algoritmo predeterminado utilizado para buscar en MapReduce?

MapReduce es un componente central del marco de software Apache Hadoop. Hadoop permite el procesamiento flexible y distribuido de conjuntos de datos no estructurados a través de clústeres de computadoras, en los que cada nodo del clúster incluye su propio almacenamiento.

En general, el paradigma MapReduce se basa en enviar programas de reducción de mapas a las computadoras donde residen los datos reales.

  • Durante un trabajo de MapReduce, Hadoop envía tareas de Mapa y Reducir a los servidores apropiados en el clúster.
  • El marco gestiona todos los detalles del paso de datos, como la emisión de tareas, la verificación de la finalización de tareas y la copia de datos alrededor del clúster entre los nodos.
  • La mayor parte de la informática tiene lugar en los nodos con datos en discos locales que reducen el tráfico de la red.
  • Después de completar una tarea determinada, el clúster recopila y reduce los datos para formar un resultado apropiado, y los envía de vuelta al servidor Hadoop.

El marco MapReduce opera en pares clave-valor, es decir, el marco visualiza la entrada al trabajo como un conjunto de pares clave-valor y produce un conjunto de pares clave-valor como la salida del trabajo, posiblemente de diferentes tipos.

El algoritmo de reducción de mapa (o flujo) es altamente efectivo en el manejo de big data.

Supongamos que está procesando una gran cantidad de datos e intentando averiguar qué porcentaje de su base de usuarios hablaba de juegos.

Primero, identificaremos las palabras clave que vamos a mapear a partir de los datos para concluir que es algo relacionado con los juegos.

A continuación, escribiremos una función de mapeo para identificar dichos patrones en nuestros datos. Por ejemplo, las palabras clave pueden ser medallas de oro, medallas de bronce, medallas de plata, fútbol olímpico, baloncesto, cricket, etc.

En el mapa anterior, reduzca el flujo:

  1. Los datos de entrada se pueden dividir en n número de fragmentos dependiendo de la cantidad de datos y la capacidad de procesamiento de la unidad individual.
  2. A continuación, se pasa a las funciones del mapeador. Tenga en cuenta que todos los fragmentos se procesan simultáneamente al mismo tiempo, lo que abarca el procesamiento paralelo de datos.
  3. Después de eso, se produce una combinación aleatoria que conduce a la agregación de patrones similares.
  4. Finalmente, los reductores los combinan todos para obtener una salida consolidada según la lógica.
  5. Este algoritmo abarca la escalabilidad ya que, dependiendo del tamaño de los datos de entrada, podemos seguir aumentando el número de unidades de procesamiento en paralelo.

Más información sobre el examen de certificación Hadoop

Aquí le proporciono información útil para aprender el examen de certificación de Hadoop.

  • Certificación HDPCA en Hortonworks
  • Certificación de administrador certificado HDP (HDPCA)
  • ¿Qué es Apache Hadoop?
  • ¿Por qué es importante Hadoop?

¡¡Espero que esto ayude!!

Si está buscando ayuda para prepararse para los exámenes de certificación de Hadoop, envíeme un mensaje.