Como dijo Matthew, todo depende de su infraestructura, su pila y cuánto trabajo (lea: tiempo / dinero / fuerza laboral).
Hay dos conceptos que me gustaría definir: recuperación de fallas y tolerancia a fallas. La recuperación de fallas es cuando un desastre puede desactivar su aplicación, pero la aplicación puede recuperarse de ella. La tolerancia a fallas es cuando un desastre interrumpe el servicio, pero no quita la aplicación. La tolerancia a fallas es más costosa que la recuperación de fallas, ya que debe tener servidores redundantes en ejecución. Si su aplicación es lo suficientemente importante para usted, puede preferir la tolerancia a fallas sobre la recuperación de fallas.
Trabajo en SCALR (www.scalr.net) y nuestro software ofrece varias estrategias de recuperación ante desastres, ya que buscamos ser un alivio masivo del estrés. No los describiré a todos, pero aquí hay algunos puntos de partida que un administrador de sitios web puede considerar:
- ¿Cuáles son las ventajas y desventajas de usar el almacenamiento en la nube?
- ¿Puede BestBuy / GeekSquad vender efectivamente servicios en la nube?
- ¿Es el big data una mejor opción que la computación en la nube?
- Escalabilidad: ¿Cómo funciona Heroku?
- ¿Qué es la nube? ¿Dónde está? ¿Quién lo dirige? ¿Es seguro?
- Distribuya las instancias por igual entre las AZ de Ec2 para el servidor de aplicaciones / DB: la activación de nuevas instancias en una zona de disponibilidad diferente será automática: (recuperación de fallas: la aplicación está inactiva pero se recupera en breve). Por supuesto, si todos los Ec2 AZ experimentan interrupción, no es suficiente.
- Clone las granjas en una región diferente y programe la base de datos como esclavos. Luego, cambie la zona DNS para redirigir el tráfico a la granja us-west si el us-est falla. Una herramienta como Chef / Puppet le ayuda a implementar la misma configuración en ambas regiones. (tolerancia a fallas: su aplicación no se cae porque tiene servidores redundantes ejecutándose, también es más extensa);
- Tome instantáneas más regularmente.
- La recuperación ante desastres en varias nubes es muy compleja de configurar manualmente, pero no imposible si realmente lo desea.