Hay tres ejemplos fáciles de asimilar, que demuestran cómo utilizamos el paralelismo embarazoso (mapeadores) para agregar la tarea en fases reducidas. En la fase de reducción, generalmente procesamos un conjunto agregado de datos donde los datos deben compartirse, acumularse o analizarse colectivamente para obtener el resultado final.
Al incluir el “rastreo web”, creo que tiene una idea de cómo MapReduce no es solo un algoritmo para análisis, sino también una forma de interactuar con otros servicios web de una manera amigable para Internet.
El recuento de palabras
Calcular PI
Rastreo web
- ¿Cómo deberías comenzar una carrera en Machine Learning?
- ¿Por qué funciona la función de costo de regresión logística?
- Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?
- ¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?
- ¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?
En WordCount:
Mapa: cada palabra se emite con el valor 1.
Reducir: las palabras (claves) tienen sus valores sumados.
En Calcular Pi:
En la fase de Mapa, probamos aleatoriamente calcular s qrt (1-x ^ 2) una y otra vez, y sacamos el promedio. Producimos el promedio de lo anterior.
En la fase Reducir, promediamos todas las salidas del mapa de arriba para una sola estimación final de pi.
En el rastreo web:
En la fase de Mapa, revisamos una lista de URL totalmente calificadas, cada vez que emitimos SOLO el nombre de dominio como clave y la URL completa como valor.
En la fase Reducir, leemos robots.txt del nombre de dominio principal y luego iteramos a través de cada página web (obedeciendo robots.txt) en un solo redductor. La fase del mapa fue crítica: agrupó todas las URL de un solo dominio para que una sola máquina lo leyera. De lo contrario, se vería en grandes problemas, porque sus rastreadores podrían causar un ataque DOS por accidente en un momento.