El procesamiento paralelo se usa cuando el volumen y / o la velocidad y / o el tipo de datos es enorme. (En resumen, para Big Data).
Entonces, considere el ejemplo de regresión lineal en un conjunto de datos y las dimensiones de los datos de entrenamiento son n (n => no. De puntos / filas) y d (d => no. De dimensiones / columnas).
Por lo tanto, si vamos a aplicar la solución de forma cerrada para calcular los pesos, aplicarla sería muy costoso si n y d son enormes.
- ¿Cuáles son los peores gráficos que has encontrado?
- ¿Por qué Udacity se enfoca en Python para el análisis de datos y el aprendizaje automático en lugar de R?
- ¿Qué piensan los empleadores sobre las menciones de las competencias de Kaggle en una solicitud de empleo?
- ¿Cuál es la última versión de Talend Platform for Big Data?
- ¿Todavía vale la pena hacer MS en aprendizaje automático clásico o minería de datos sin un módulo en profundidad sobre aprendizaje profundo que está en tendencia?
Entonces, generalmente usamos el supuesto de escasez latente; o intente calcular productos a través del método de producto externo.
Entonces, discutamos ahora cómo se hace el trabajo. Todo el conjunto de datos se divide en fragmentos más pequeños y se envía a los trabajadores, donde se realiza un cálculo similar en esos fragmentos de datos; y esos resultados se acumulan nuevamente y se calcula el resultado.
Ej: Considere una oración: “El zorro saltó sobre la luna”. Queremos contar las palabras ocurridas; y lo dividimos en 3 trabajadores [paso del mapa]. Este paso se llama paso de mapeo.
En Python, es:
sentence.map(lambda x: (x,1))
Lo hacemos en cada trabajador.
Y luego obtenemos la palabra ocurrencias como un par clave-valor como salida en cada trabajador.
Asi que,
Trabajador 1: (El: 1), (zorro: 1)
Trabajador 2: (saltado: 1), (sobre: 1)
Trabajador 3: (el: 1), (luna: 1)
Luego, queremos reducir los resultados completos como una matriz general de conteo de palabras.
Entonces, aquí viene el paso Reducir:
De nuevo en Python, es algo como esto:
words.map(lambda (k,v): (k, sum(v)))
Entonces, así es como usamos la computación paralela en la ciencia de datos. Dividiendo los datos entre máquinas (trabajadores); distribuyendo así la tarea y computándola. De ahí la palabra, computación paralela.