¿Hay una buena lista de ejemplos de cómo los problemas genéricos se convierten a MapReduce?

Hay tres ejemplos fáciles de asimilar, que demuestran cómo utilizamos el paralelismo embarazoso (mapeadores) para agregar la tarea en fases reducidas. En la fase de reducción, generalmente procesamos un conjunto agregado de datos donde los datos deben compartirse, acumularse o analizarse colectivamente para obtener el resultado final.

Al incluir el “rastreo web”, creo que tiene una idea de cómo MapReduce no es solo un algoritmo para análisis, sino también una forma de interactuar con otros servicios web de una manera amigable para Internet.

El recuento de palabras
Calcular PI
Rastreo web

En WordCount:
Mapa: cada palabra se emite con el valor 1.
Reducir: las palabras (claves) tienen sus valores sumados.

En Calcular Pi:
En la fase de Mapa, probamos aleatoriamente calcular s qrt (1-x ^ 2) una y otra vez, y sacamos el promedio. Producimos el promedio de lo anterior.
En la fase Reducir, promediamos todas las salidas del mapa de arriba para una sola estimación final de pi.

En el rastreo web:
En la fase de Mapa, revisamos una lista de URL totalmente calificadas, cada vez que emitimos SOLO el nombre de dominio como clave y la URL completa como valor.
En la fase Reducir, leemos robots.txt del nombre de dominio principal y luego iteramos a través de cada página web (obedeciendo robots.txt) en un solo redductor. La fase del mapa fue crítica: agrupó todas las URL de un solo dominio para que una sola máquina lo leyera. De lo contrario, se vería en grandes problemas, porque sus rastreadores podrían causar un ataque DOS por accidente en un momento.

Tengo más de media docena de ejemplos de MapReduce en mi GitHub, que demuestran conceptos fundamentales como particionadores, contadores, etc.

También muestran conceptos avanzados como uniones reductoras laterales y búsquedas realizadas dentro del mapeador.

También estoy en el proceso de completar varios proyectos más grandes, como el análisis de registros de múltiples servidores y una búsqueda de expresiones regulares.

No dude en consultarlos y bifurcar el repositorio:
http://www.github.com/adam-wanninger

Esta lista de patrones comunes es un buen comienzo:

MapReduce patrones, algoritmos y casos de uso

More Interesting

¿Cómo puede un estudiante graduado de primer año en ciencias de la computación encontrar un trabajo en minería y análisis de datos después de graduarse?

¿Debo usar un cursor o usar el paquete R directamente?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

En un problema de optimización no convexo, ¿es posible determinar si dos puntos pertenecen al mismo valle o no?

¿Las PGM son esenciales para el aprendizaje profundo?

¿Dónde puedo encontrar el código fuente para construir un árbol de decisión usando el algoritmo ID3 en C?

ELI5: ¿Qué son las redes neuronales?

¿Cómo debo proceder después de completar el curso de aprendizaje automático de Andrew Ng?

Cómo hacer ingeniería de características en aprendizaje automático

Cómo lidiar con la oclusión, deformación o distorsión de perspectiva para la detección de objetos

Cómo manejar una imagen de diferentes tamaños en una red convolucional de MatConvNet con un contenedor DagNN

¿Cómo resolverías el siguiente diagrama de perceptrón?

¿Qué proyectos principales puedo hacer en R después de aprender minería de datos, análisis de sentimientos de limpieza, regresión y técnicas de agrupamiento?

¿Cómo podemos hacer csv o dataset textual a partir de imágenes?

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características