¿Con qué frecuencia se usa el paralelismo en la ciencia de datos?

Hay muy pocas tareas de ciencia de datos que no sean susceptibles de paralelismo. Para ser secuencial, los datos tendrían que consistir principalmente en punteros de esa cadena, lo que obligaría a completar una tarea tras otra. También es posible que una búsqueda de información dependa del resultado de una búsqueda previa, y si se encadenan, aumentaría el contenido en serie del trabajo.

Gran parte del desarrollo del procesamiento paralelo fue impulsado por lo que ahora a menudo se llama “ciencia de datos”. Uno de los primeros éxitos de los grandes grupos de microprocesadores fue en Fermilab, donde la carga de peinar a través de grandes cantidades de datos experimentales de la física de partículas se distribuyó en cientos de pares de memoria de procesador de bajo costo a mediados de la década de 1980, mucho antes de “pasar el mensaje”. se convirtió en una forma estándar de usar sistemas de memoria distribuida.

Otro impulsor ha sido durante mucho tiempo la industria del petróleo y el gas, que también ha tenido que luchar con cargas de camiones de datos de exploración sísmica. Shell fue la primera gran compañía petrolera en darse cuenta de que su carga de trabajo podría ser manejada mejor por una computadora paralela masiva (en su caso, un nCUBE con 512 procesadores) que con una unidad central de vector Cray, que había sido el sistema universal de elección para el más grande compañías petroleras. Y, por supuesto, incluso un Cray tenía mucho paralelismo, pero generalmente estaba oculto al usuario tanto como era posible para acomodar los modelos de programación en serie tradicionales.

Cuando un Google, un Facebook o un Amazon quieren analizar datos, ¿cómo crees que lo hacen? Utilizan grupos masivos de procesadores de productos básicos, que consumen megavatios de potencia y millones de núcleos independientes. Si alguien sigue usando un solo núcleo para la ciencia de datos, es porque tienen un conjunto de datos tan pequeño que el análisis lleva muy poco tiempo.

Big DataCiencia de datosComputación paralelaProgramación informática