Gráfico distribuido: ¿Cuál es la forma más efectiva de distribuir los nodos de un gráfico en diferentes servidores en un sistema distribuido?

Tener miles de millones de nodos y solo millones de bordes indica que muchos nodos están aislados. ¿Es este realmente el caso?

Sin embargo, parece que solo le interesa una carga equilibrada durante el procesamiento. En este caso, definitivamente debe considerar el Hashing simple de nodos a máquinas. Esto da como resultado particiones casi perfectamente equilibradas y es extremadamente rápido.

Si le interesa la localidad de los vértices (lo cual recomendaría encarecidamente) para minimizar la sobrecarga de la comunicación y mejorar la latencia de extremo a extremo, debería considerar la posibilidad de transmitir algoritmos de partición . Este es uno de los documentos clave de KDD 2012.

Por cierto, Victor definitivamente tiene un punto en recomendar la partición de corte de vértice en lugar de la partición de corte de borde. Esto puede resultar en un mejor equilibrio de carga y menos sobrecarga de comunicación para gráficos con distribución de grados sesgada (es decir, la mayoría de los gráficos del mundo real; piense en el número de seguidores de Twitter de Justin Bieber en comparación con cualquier usuario aleatorio de Twitter). Sin embargo, también hay MUCHOS sistemas de gráficos extremadamente escalables basados en corte de bordes (es decir, asignación de vértices) que pueden procesar gráficos de billones de escalas (!). Echa un vistazo a este documento VLDB, por ejemplo.

Los algoritmos de particionamiento de transmisión tienen un tiempo de ejecución lineal y proporcionan una ubicación razonable (es decir, calidad de particionamiento). Para tareas de procesamiento de gráficos de complejidad baja a media, esta clase algorítmica debe estar muy cerca de lo óptimo. Si tiene tareas de procesamiento de gráficos más complejas, puede valer la pena verificar algoritmos más sofisticados que mejoran aún más la localidad, a costa de una mayor inversión de tiempo inicial para la partición.

¿Qué es el algoritmo em, cómo se hace paso a paso?

Informática: ¿Cuál es el futuro de la investigación en algoritmos?

¿Por qué procesar una matriz ordenada es más rápido que una matriz sin clasificar?

¿Cuál es el algoritmo de clasificación menos eficiente?

¿Qué causa que el rendimiento de una computadora disminuya gradualmente a largo plazo?

¿Cuáles son algunos algoritmos básicos en el aprendizaje automático para que su programa aprenda de otros datos (aprendizaje supervisado)?

Tu premisa básica es incorrecta. No debe distribuir los nodos pero debe distribuir los bordes. Lo sé, distribuir los nodos suena como una idea tan intuitiva. Sin embargo, si considera un gráfico como su matriz de conectividad, la distribución de los nodos corresponde a una distribución unidimensional de la matriz, y los analistas numéricos han sabido durante décadas que eso no escala. La distribución de los bordes corresponde a una distribución bidimensional, que sí escala. Si está hablando de miles de millones de nodos, entonces su problema es lo suficientemente grande como para preocuparse por los efectos de escala.

Como dije, los analistas numéricos lo saben desde siempre. Pero como no estamos haciendo “big data” o cualquier palabra de moda del día, las personas que piensan que están haciendo algo radicalmente nuevo (como big data o personas de biocomputación) no hablan con los científicos de computación tradicionales. Como resultado, pierden años reinventando la rueda.

Lo siento, tuve que sacar eso de mi pecho.

Victor Eijkhout

More Interesting

¿Los números en pi imitan una distribución aleatoria? Si es así, ¿cómo es esto compatible con el uso de algoritmos para generar los números?

Cómo implementar un algoritmo de sincronización de reloj Berkeley en C ++

¿Cómo lidiar con la gestión eficiente de versiones y la compresión de múltiples versiones para bases de datos científicas?

¿Qué es particionar en chispa, por qué lo necesitamos?

¿Qué estructura de datos usaría para diseñar un programa de planificación de producción?

¿Por qué es importante el crossover en el algoritmo genético?

¿Cuál es la diferencia entre la clasificación rápida y el algoritmo de clasificación de burbujas?

Dado un gráfico de N vértices con m1 bordes unidireccionales y m2 bordes bidireccionales, ¿cómo podemos dirigir los bordes bidireccionales de modo que no tengamos ninguna caminata cerrada?

Cómo resolver el problema ALCATRAZ3 (The honeycomb maze) en SPOJ