¿Cómo los grandes centros de datos, como los utilizados para el almacenamiento en la nube y los motores de búsqueda, distribuyen datos relacionados entre servidores y evitan la pérdida de datos?

Sugiero leer algunos documentos sobre cómo Google distribuye su almacenamiento. Hay documentos similares de Facebook y Netflix.

Algunas anécdotas de casos muy simples:

  • LLUVIA, no RAID
  • Los fragmentos no se basan en partes de archivos, sino más bien en archivos completos.
  • Los servidores de metadatos también deben distribuirse
  • Separe las ubicaciones de metadatos y archivos de los servidores de datos reales
  • Paralelo Estás distribuyendo de todos modos. Piensa torrentes.
  • ACID es difícil de hacer en un nivel distribuido, por lo tanto, realice actualizaciones de área amplia en lote entre zonas geográficas y solo en los cambios
  • Dirija a los clientes a granjas de aplicaciones geo-locales en función de su ubicación; DNS es tu amigo. Sincronizar en lotes.
  • La compresión es asombrosa
  • Tablas hash distribuidas
  • BigTable, HDFS, Lustre (de antaño) son ejemplos instructivos. También lo es GlusterFS y su configuración. Cassandra también es un caso de estudio interesante.

Se trata del software que impulsa estos sistemas. El software en la nube, ya sea que esté ejecutando un trabajo analítico o colocando un archivo en el almacenamiento, está diseñado para asumir que algunos de los procesos que está ejecutando o el hardware en el que se está ejecutando fallarán. La razón por la que los servicios en la nube son baratos es que se ejecutan en hardware ‘básico’ en lugar del hardware empresarial tradicional ‘a prueba de bombas’.

El hardware básico es (relativamente) barato, pero se espera que finalmente falle, por lo que en los sistemas en la nube, el software es responsable de proporcionar resistencia. Normalmente, el enfoque es utilizar la replicación para evitar la pérdida de datos. Por ejemplo, el sistema de almacenamiento Swift Object de OpenStack mantendrá tres réplicas de cualquier objeto (archivo de pensamiento, video, imagen, etc.) y ejecutará controles para asegurarse de que los tres estén presentes y sean equivalentes. Si hay un problema, el software puede replicar un archivo para reemplazar un archivo dañado o faltante. Otro popular sistema de almacenamiento de código abierto, Ceph, utiliza un proceso de almacenamiento diferente y mantiene dos copias de cualquier cosa almacenada.

More Interesting

¿Cuáles son algunos de los usos geniales del EC2 de nivel gratuito de AWS?

¿Cuál es la mejor plataforma de blogs basada en la nube para usar en un blog personal?

¿Qué es FCM (Firebase Cloud Messaging)?

¿Cuál es la mejor y más simple forma de configurar una copia de seguridad en la nube de una oficina pequeña?

¿Qué servicio de alojamiento usó Jumia?

Cómo establecer un límite mensual en Amazon Web Services

A Collaborative Drug Discovery (CDD) le gustaría saber: ¿Qué características hacen que sean más importantes en un portátil electrónico basado en la nube?

¿Por qué DigitalOcean afirma ser simple cuando sus usuarios deben ser expertos en la línea de comandos de Linux? Otros proveedores le permiten simplemente cargar un archivo WAR (o similar).

¿Qué lenguaje de programación necesitas para escribir software basado en la nube?

¿Cuáles son las ventajas de usar una nube híbrida?

¿Dónde puedo aprender Amazon Web Services (Cloud Computing)?

¿Es cierto que todo estará en la nube en el futuro y no habrá computación de escritorio?

¿Cuántas veces AWS ha bajado su precio? Desde su lanzamiento en 2006, AWS ha estado bajando sus precios en varios servicios como EC2 / S3 / RDS ... etc. muchas veces. Estoy empezando a perder la cuenta la cantidad de veces que ha hecho con eso ... ¿Alguien obtiene la cuenta exacta?

¿Cómo se sienten los desarrolladores web sobre Google Cloud Platform?

¿Cómo se compran los servidores en los centros de datos?