¿Cómo los grandes centros de datos, como los utilizados para el almacenamiento en la nube y los motores de búsqueda, distribuyen datos relacionados entre servidores y evitan la pérdida de datos?

Sugiero leer algunos documentos sobre cómo Google distribuye su almacenamiento. Hay documentos similares de Facebook y Netflix.

Algunas anécdotas de casos muy simples:

LLUVIA, no RAID
Los fragmentos no se basan en partes de archivos, sino más bien en archivos completos.
Los servidores de metadatos también deben distribuirse
Separe las ubicaciones de metadatos y archivos de los servidores de datos reales
Paralelo Estás distribuyendo de todos modos. Piensa torrentes.
ACID es difícil de hacer en un nivel distribuido, por lo tanto, realice actualizaciones de área amplia en lote entre zonas geográficas y solo en los cambios
Dirija a los clientes a granjas de aplicaciones geo-locales en función de su ubicación; DNS es tu amigo. Sincronizar en lotes.
La compresión es asombrosa
Tablas hash distribuidas
BigTable, HDFS, Lustre (de antaño) son ejemplos instructivos. También lo es GlusterFS y su configuración. Cassandra también es un caso de estudio interesante.

¿Box (empresa) apesta? ¿Por qué o por qué no?

¿Qué ventajas puedo tener si obtengo la certificación AWS?

¿La cuenta de Batch en Azure podría hacer las funciones que hace HPC o es solo un engranaje en el proceso de HPC?

¿Realmente vale la pena obtener las certificaciones de Amazon AWS? ¿Cuáles son las posibilidades de que pueda conseguirte un trabajo / ayuda con un cambio de carrera en la nube?

Dado que Amazon, Google y Microsoft están involucrados en los servicios en la nube, ¿cómo sobrevive una empresa de administración de contenido como Akamai?

Cómo calcular el coeficiente de un qubit

Se trata del software que impulsa estos sistemas. El software en la nube, ya sea que esté ejecutando un trabajo analítico o colocando un archivo en el almacenamiento, está diseñado para asumir que algunos de los procesos que está ejecutando o el hardware en el que se está ejecutando fallarán. La razón por la que los servicios en la nube son baratos es que se ejecutan en hardware ‘básico’ en lugar del hardware empresarial tradicional ‘a prueba de bombas’.

El hardware básico es (relativamente) barato, pero se espera que finalmente falle, por lo que en los sistemas en la nube, el software es responsable de proporcionar resistencia. Normalmente, el enfoque es utilizar la replicación para evitar la pérdida de datos. Por ejemplo, el sistema de almacenamiento Swift Object de OpenStack mantendrá tres réplicas de cualquier objeto (archivo de pensamiento, video, imagen, etc.) y ejecutará controles para asegurarse de que los tres estén presentes y sean equivalentes. Si hay un problema, el software puede replicar un archivo para reemplazar un archivo dañado o faltante. Otro popular sistema de almacenamiento de código abierto, Ceph, utiliza un proceso de almacenamiento diferente y mantiene dos copias de cualquier cosa almacenada.

John Starmer

More Interesting

¿Cuáles son algunos de los usos geniales del EC2 de nivel gratuito de AWS?

¿Cuál es la mejor plataforma de blogs basada en la nube para usar en un blog personal?

¿Qué es FCM (Firebase Cloud Messaging)?

¿Cuál es la mejor y más simple forma de configurar una copia de seguridad en la nube de una oficina pequeña?

¿Qué servicio de alojamiento usó Jumia?

Cómo establecer un límite mensual en Amazon Web Services

A Collaborative Drug Discovery (CDD) le gustaría saber: ¿Qué características hacen que sean más importantes en un portátil electrónico basado en la nube?

¿Por qué DigitalOcean afirma ser simple cuando sus usuarios deben ser expertos en la línea de comandos de Linux? Otros proveedores le permiten simplemente cargar un archivo WAR (o similar).

¿Qué lenguaje de programación necesitas para escribir software basado en la nube?

¿Cuáles son las ventajas de usar una nube híbrida?