¿Cuál es el mejor marco de Python para el procesamiento en paralelo (procesamiento SMP y de clúster)?

La mayoría de las herramientas en esta página están bastante desactualizadas. (Hay algunos que no han sido tocados por más de 10 años)
La mejor herramienta para Python SMP es la biblioteca de multiprocesamiento incorporada (que es en mi humilde opinión por qué estas otras herramientas no ganaron tracción). Hay un envoltorio a su alrededor llamado joblib que también es bueno.
La mejor herramienta para usar Python en clúster (si no usa Hadoop y otras arquitecturas distribuidas similares) es primicia en Python puro (tiene un enlace en esta página). Hay herramientas comparativamente más nuevas basadas en C como blaze y versiones distribuidas de numpy que están por venir. El kit de herramientas Fortran Global Array también se puede usar con Python en un clúster.
Mientras tanto, la última tendencia en la comunidad Python no es distribuir tareas en clústeres, sino colocarlas en GPU de alto rendimiento (la mayoría de las supercomputadoras serán GPU en un futuro próximo). Hay muchas bibliotecas de Python para hacer frente a estas tareas, incluidos los enlaces a OpenCL y CUDA.

Ciencia deCiencias de laComputaciónComputación paraleladatosPython

Related Content

¿Cual es mejor? ¿Minería de datos o análisis para inteligencia de negocios?

¿Cuáles son las principales aplicaciones (de la vida real) de la minería de datos y la ciencia de datos utilizadas en el mundo práctico de hoy?

¿Cuál es el software más eficiente para el análisis de big data?

¿Por qué se requiere la minería de datos?

¿Qué tipo de métodos de ciencia de datos se pueden aplicar a los datos de tráfico web?

¿Cómo es trabajar con DJ Patil?

Mi juego está congelado en PC, ¿cómo puedo solucionarlo?

OpenMP a través de Cython y MPI de mpi4py funcionan bastante bien. El primero requiere que no use el GIL, por lo que no debe usar objetos Python, pero si está buscando un alto rendimiento, debe hacerlo de todos modos. Sin embargo, estas bibliotecas son principalmente adecuadas para aplicaciones numéricas, y no estoy seguro de qué tan bien se pueden usar en general. Además, pyCUDA también es bastante bueno para las GPU.

Abhinav Maurya

More Interesting

¿Soy solo yo, o es 'ciencia de datos' el peor nombre para un campo?

¿Cómo se ve la arquitectura de datos de una red publicitaria?

¿Por qué Data Science es tan popular en los Estados Unidos pero casi inexistente en Suiza?

¿Cuáles son las alternativas a los cursos como Big Data?

¿Cuál es la diferencia entre un científico de datos y un profesional de inteligencia de negocios?

¿De qué trata el libro Big Data Baseball?

¿Cuáles son algunas buenas áreas de investigación en minería de datos y análisis de datos?

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático?

¿Cuál es la diferencia entre Data Science y Data Analytics?

¿Cómo puedo usar el aprendizaje automático en Python?

¿Qué es la "ciencia" en ciencia de datos? ¿Se trata exclusivamente de la ciencia de monetizar grandes datos, o también hay un aspecto de no negocios?

Cómo cambiar de ingeniería de datos a modelos de construcción, aprendizaje automático, etc.

¿Existe alguna relación entre las habilidades de un desarrollador web full stack y un científico de datos?

¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?

¿Cuál puede ser un buen comienzo para una persona que no es de TI como yo en el campo de los datos?

Web Analytics