Hay dos caminos hacia la alta disponibilidad: asegúrese de que cada componente (hardware y software) sea robusto (lo cual es costoso); o adopte componentes económicos y propensos a fallas y diseñe una arquitectura tolerante a fallas.
En el primer enfoque, la probabilidad de que todo el sistema permanezca activo es el producto de las probabilidades de que cada uno de los componentes individuales permanezca activo. Es difícil construir sistemas complejos confiables de esta manera.
El último enfoque es difícil, pero es la única forma de construir sistemas realmente complejos con alta disponibilidad. Los usuarios de AWS que adoptaron múltiples zonas de disponibilidad y el almacenamiento redundante pudieron seguir atendiendo a los clientes. Los usuarios de AWS que portaron una arquitectura clásica en la zona afectada sufrieron las consecuencias.
- ¿Cómo funciona el software de gestión de distribuidores basado en la nube Excellon?
- Para una gran aplicación web, con medios, documentos y capacidades de búsqueda, ¿cuál es el mejor servicio en la nube que puede alojar una aplicación de este tipo?
- ¿Chef-provisioning-aws hace todo lo que AWS Cloud Formation puede hacer?
- ¿Qué servicio de alojamiento VPS proporciona almacenamiento barato y grande?
- ¿Qué se incluye en el plan Cloud Academy Professional?
La falla de AWS fue desafortunada, pero no más allá de los criterios de diseño que los usuarios de AWS deberían haber anticipado . O bien, ese es un SLA aceptable para transmitir a sus usuarios, o usted diseña para aprovechar las características que permiten la creación de redundancia para llegar al nivel requerido.
AWS es un maravilloso campo de juego de componentes avanzados que facilitan la construcción de arquitecturas redundantes: múltiples zonas de disponibilidad, replicación automática de almacenamiento redundante (S3), almacenamiento de datos sin SQL (SimpleDB), equilibradores de carga redundantes, escalado automático, etc.
No es que sea fácil para los arquitectos acertar. Se necesitaría una arrogancia extrema para afirmar que debido a que sobrevivimos en gran medida a abril, lo hicimos bien, o sobreviviremos a la próxima interrupción. Pero estoy seguro de que estamos en el camino correcto con el enfoque de buscar cuatro nueves adoptando dos componentes de nueve nueves con una arquitectura tolerante a fallas.