¿Qué es la computación paralela y cómo se usa en ciencia de datos?

El procesamiento paralelo se usa cuando el volumen y / o la velocidad y / o el tipo de datos es enorme. (En resumen, para Big Data).

Entonces, considere el ejemplo de regresión lineal en un conjunto de datos y las dimensiones de los datos de entrenamiento son n (n => no. De puntos / filas) y d (d => no. De dimensiones / columnas).

Por lo tanto, si vamos a aplicar la solución de forma cerrada para calcular los pesos, aplicarla sería muy costoso si n y d son enormes.

Entonces, generalmente usamos el supuesto de escasez latente; o intente calcular productos a través del método de producto externo.

Entonces, discutamos ahora cómo se hace el trabajo. Todo el conjunto de datos se divide en fragmentos más pequeños y se envía a los trabajadores, donde se realiza un cálculo similar en esos fragmentos de datos; y esos resultados se acumulan nuevamente y se calcula el resultado.

Ej: Considere una oración: “El zorro saltó sobre la luna”. Queremos contar las palabras ocurridas; y lo dividimos en 3 trabajadores [paso del mapa]. Este paso se llama paso de mapeo.
En Python, es:
sentence.map(lambda x: (x,1))
Lo hacemos en cada trabajador.

Y luego obtenemos la palabra ocurrencias como un par clave-valor como salida en cada trabajador.
Asi que,
Trabajador 1: (El: 1), (zorro: 1)
Trabajador 2: (saltado: 1), (sobre: ​​1)
Trabajador 3: (el: 1), (luna: 1)

Luego, queremos reducir los resultados completos como una matriz general de conteo de palabras.
Entonces, aquí viene el paso Reducir:
De nuevo en Python, es algo como esto:
words.map(lambda (k,v): (k, sum(v)))

Entonces, así es como usamos la computación paralela en la ciencia de datos. Dividiendo los datos entre máquinas (trabajadores); distribuyendo así la tarea y computándola. De ahí la palabra, computación paralela.

More Interesting

¿Qué son los tipos de datos abstractos?

Quería ser un científico de datos, pero desde que me uní a la industria justo después de los estudiantes universitarios, no obtengo ese tipo de roles. Ir a un MS es muy difícil ahora que ya he pasado algunos años en la industria del software. ¿Qué tengo que hacer?

¿Qué necesito saber para convertirme en científico de datos?

¿Qué puedo seguir en el dominio de la ciencia de datos? Tengo conocimiento en el programa R.

¿Quiénes son algunos reporteros que cubren Data Science?

¿Cuáles son las diferencias entre la desigualdad de Hoeffding y la desigualdad de VC?

¿Cuáles son algunos buenos libros de texto en selección / ingeniería de características al construir algoritmos de aprendizaje automático?

¿Cuáles son y cuántas oportunidades laborales hay para trabajos de ciencia de datos en India?

¿Cómo eligen Kagglers el algoritmo de aprendizaje automático de mejor rendimiento para un conjunto de datos dado?

17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)

¿Qué es la gobernanza de datos?

¿Por qué se usa el análisis de datos?

¿Qué opinas sobre Big Data? ¿Es bueno o malo?

¿Me puede recomendar un curso avanzado de ciencia de datos?

¿Qué tan malo es estandarizar variables ficticias?