¿De qué manera las compañías de Internet almacenan una cantidad tan grande de datos como páginas web, cuentas de personas y almacenamiento en la nube?

Hay algo llamado Storage Area Network (SAN). Una SAN típica tendría un servidor de almacenamiento, un conmutador SAN, servidores de cómputo con HBA, cables de conexión de fibra, etc.

Los servidores de almacenamiento son servidores diseñados solo para el almacenamiento de datos. No utilizan aplicaciones tradicionales como el servidor de correo o la oficina de MS. Tienen un sistema operativo especializado proporcionado por el fabricante. Estos servidores están diseñados para agregar una gran cantidad de discos. Los primeros 9-12 discos se pueden agregar directamente a un servidor típico. Luego, cada servidor puede admitir 10-100 gabinetes adicionales, cada uno de los cuales puede alojar 9-12 discos adicionales. Teniendo en cuenta los discos sata de 2 TB, incluso los servidores de almacenamiento más pequeños disponibles pueden almacenar más de 100 TB de datos. Los más grandes se almacenan bien en algunos PB.

Estos servidores de almacenamiento tienen todo redundante. Entonces, incluso si falla un solo procesador, RAM, batería, etc., no hay problema con la conectividad al servidor. RAID se utiliza para solucionar fallas de disco. Estos servidores vienen con tarjetas RAID superiores en comparación con los servidores informáticos y también con un soporte de batería mucho más grande para RAID.

Los servidores de almacenamiento están conectados a conmutadores de almacenamiento para formar SAN. Los servidores de la computadora se instalan con adaptadores de bus host (HBA), que son básicamente tarjetas PCI más avanzadas con soporte de conectividad de fibra. Los cables de conexión de fibra conectan las tarjetas HBA a los conmutadores de almacenamiento. En los conmutadores de almacenamiento, se realiza la configuración adecuada para reenviar los volúmenes de almacenamiento deseados (similares a los discos duros) a los servidores apropiados que utilizan zonas (similares a las VLAN).

De esta manera, un servidor de cómputo no almacena datos directamente (evita DAS) y usa SAN para almacenar información. Por lo tanto, incluso si un servidor de cómputo falla (placa base, falla de energía, etc.) incluso entonces, los datos completos están disponibles para ser utilizados por otros servidores restantes.

Saurabh Barjatiya ha dado una respuesta muy detallada. Solo puedo agregar este video

Centro de datos de Facebook:
Al igual que Facebook, todas las empresas en la nube tienen grandes centros de datos con granjas de servidores