Gracias por el A2A.
Ocurre todo el tiempo en los centros de datos a gran escala (es decir, los creados por Google, AWS, Microsoft Azure, Facebook, etc.) porque los componentes de la fuente de alimentación finalmente fallan. Lo que sucede a continuación depende de la unidad de falla: cuántos servidores dependen de esa fuente de alimentación.
La mayoría de los centros de datos corporativos tienen dos fuentes de alimentación redundantes para cada servidor, por lo que puede cambiar una PSU (unidad de fuente de alimentación) fallida y mantener el servidor en funcionamiento mientras lo hace. Los centros de datos a gran escala no utilizan unidades de suministro de energía redundantes por servidor, para ahorrar energía, refrigeración y dinero; en su lugar, debe asumir que un servidor puede fallar y escribir su código en consecuencia para soportar tales fallas. Algunos de los diseños OpenCompute de Facebook ejecutan todo el rack de fuentes de alimentación comunes, por lo que puede perder un grupo completo de servidores a la vez si hay una falla. El código de Facebook asume que ese tipo de falla puede suceder.
- ¿Qué es el modelo de software como servicio (SaaS)?
- ¿Cuál es la diferencia entre las computadoras mini y main frame? ¿Todavía se producen o han sido reemplazados por soluciones en la nube?
- ¿Alguien puede explicar la tecnología de computación en la nube?
- ¿AWS o Azure facilitan que un cliente configure una nube híbrida?
- ¿Cuál es el mejor servidor en la nube dedicado para procesar datos de 4 TB +?
La red: lo que sucede es que el servidor falla y se lleva sus máquinas virtuales / instancias con él. Ha escrito su código para esperar este tipo de falla y, por lo tanto, ha almacenado sus datos en un almacenamiento persistente fuera del servidor (por ejemplo, servicios de almacenamiento de bloques u objetos, o servicios de bases de datos), para que pueda iniciar nuevas instancias para reemplazar las antiguas y No perder ningún dato.
Es menos común perder toda la fuente de alimentación a un centro de datos, pero eso sucede. Por ejemplo, si la compañía eléctrica tiene un corte de energía. La mayoría de los centros de datos están construidos con al menos 2 fuentes de alimentación redundantes y, a menudo, baterías y generadores diésel que pueden asumir el control por un corto tiempo si hay una pérdida catastrófica de energía externa.
AWS tuvo una interrupción en sus centros de datos irlandeses hace algunos años, donde un transformador falló de tal manera que los generadores diésel en DC no pudieron ser utilizados. No está claro qué sucedió exactamente, pero todo el centro de datos se oscureció por algún tiempo [1] Microsoft también tuvo una interrupción al mismo tiempo, por lo que parece que hubo un problema en la compañía eléctrica. Cuando eso sucede, debe tener máquinas virtuales redundantes ejecutándose en una geografía diferente con replicación de datos entre geos para garantizar la continuidad.
A menudo, los condensadores se conectan a las fuentes de alimentación porque están sometidos a un esfuerzo físico debido a la carga de corriente: el dieléctrico entre los electrodos se está separando físicamente por la fuerza electrostática, por lo que finalmente fallan. Por lo tanto, esto no es algo que se pueda evitar. En una gran población de servidores, cientos de miles o incluso millones, verá que estos eventos físicos hacen que los servidores fallen regularmente.
Notas al pie
[1] La interrupción en Dublín golpea a Amazon, los centros de datos de Microsoft están desconectados | Conocimiento del centro de datos