¿Puede ‘explotar’ la nube de Microsoft?

Microsoft Cloud o, en otras palabras, cualquier oferta de nube pública se construye teniendo en cuenta las fallas.

Mientras escribo, hay varios discos que han fallado en el MS DC. Antes de completar la lectura de esta respuesta, los datos en los discos se mueven a otros discos en buen estado, sin que el cliente note ningún problema. Si bien los discos fallaron, muchos servidores se han caído, pero las cargas de trabajo alojadas en ellos se trasladan a servidores en buen estado. Por lo tanto, la falla es un evento muy común en Microsoft Cloud, pero los sistemas están diseñados para no resistir la falla, pero tienen la capacidad de fallar, recuperarse desde el punto donde falló y volver a la normalidad lo antes posible.

Para responder a sus preguntas, la nube de Microsoft está construida con el escenario “poof” en mente. En Azure cada vez que escribe una pieza de datos, se almacenan 3 copias de datos en el DC local y usted elige almacenar 6 copias en total para el almacenamiento geo-replicado. Puede guardar copias adicionales según lo requiera. Por lo tanto, la posibilidad de que la nube de Microsoft se caiga nunca puede suceder. Si sucede, habrá sistemas de respaldo para que todo funcione lo antes posible.

Sin intuición, los desastres más importantes son los más fáciles de preparar. Llamamos a esto (un ataque de asteroide o un corte de energía para toda la costa este) un fallo negro. El sistema se comporta de manera muy predecible. Esa previsibilidad significa que si usa Azure Blob con almacenamiento redundante localmente, sus datos son tostados. Por otro lado, si está utilizando el almacenamiento geo-replicado, todo se pone en línea sin problemas. Como dijo un respondedor anónimo, esto se prueba regularmente.

El mundo real es más desordenado de lo que nos preparamos. A pesar del factor aterrador de un asteroide o tsunami, no es probable. Mucho más común es una falla gris. Las fallas grises son situaciones en las que algunos aspectos de un servicio funcionan normalmente y otros se rompen total o parcialmente. En sistemas muy complejos como el software actual, esto se vuelve impredecible rápidamente. Este tipo de escenario causa casi todas las interrupciones de las que tiene noticias (y de las que no tiene información). Microsoft mitiga esto al segregar y aislar los componentes entre sí. Para responder a su pregunta, no puedo pensar en una forma en que este tipo de problema haga que todo vaya más allá de la capacidad de recuperación.

Este es el peor incidente de pérdida de datos en el historial de la nube de Microsoft que conozco: la interrupción de Azure de diciembre de Microsoft: ¿qué salió mal? El | ZDNet

La opción del plan B era ejercer la redundancia geográfica, lo que habría vuelto a poner en línea todo el almacenamiento redundante. El almacenamiento localmente redundante se habría ido.

Puede tomar esto como un principio general: si sus datos son importantes, use la redundancia máxima que Microsoft le vende. Será más seguro allí que en cualquier otro lugar.

Microsoft opera múltiples centros de datos en todo el mundo, parte del esfuerzo de la compañía para proporcionar múltiples servidores redundantes que admitan Azure y Office 365, y que le permite reclamar “tres nueves” o 99.9% de tiempo de actividad. Cuando falla una sola unidad en un único servidor, una unidad completa de servidores del tamaño de un contenedor de carga se desconecta y se reemplaza.

Nadie puede garantizar que un servicio completo nunca experimentará el tipo de falla catastrófica que usted describe, pero con la escala de sistemas redundantes, copias de seguridad y múltiples niveles de seguridad operados por todos los principales proveedores de servicios de Internet, creo Es muy poco probable. ¿Podría suceder? Posiblemente. ¿Podría un asteroide golpear la tierra y sacarla? Seguro. Pero entonces todos tendremos mayores problemas de los que preocuparnos, ¿no?

Me he vuelto anónimo porque mientras trabajo en Microsoft y tengo un poco de conocimiento interno, esta no es mi área de especialización, por lo que podría obtener algunos detalles incorrectos. Lo que sigue es mayormente cierto, pero no es oficial a menos que lo escuche de otra persona.

Su correo electrónico en Office365 (y ciertamente en el nuevo outlook.com, y probablemente también en el anterior) siempre se replica en al menos tres regiones geográficas, en un tiempo cercano al real. Si se cae una bomba nuclear en el centro de datos donde se encuentra su copia principal, puede perder hasta 30 segundos de cambios (por ejemplo, un nuevo mensaje entrante o dos, o sus últimos cambios en un borrador que estaba redactando), pero probablemente nada Más. Luego, un paquete de discos en el otro lado del continente se convierte en la copia principal. Probablemente no perderías nada. Puede que no lo notes en absoluto.

Practicamos failovers de centros de datos regularmente, incluso en ausencia de desastres reales, por lo que sabemos que esto funcionará si realmente lo necesitamos.

No tengo experiencia con Sharepoint / OneDrive For Business, pero me sorprendería si no estuvieran haciendo básicamente lo mismo. La pérdida de datos del cliente sería 100% inaceptable, todos lo sabemos.

Las unidades de disco individuales, por cierto, fallan y se intercambian por otras nuevas todo el tiempo. Eso es un total no tema.

Sé menos sobre Azure, pero cuando configuré un proyecto personal en Azure, tuve la opción de pagar más para que los datos se replicaran en varias regiones. Opté por no hacerlo, ya que todavía estoy en una etapa en la que elimino y recrea la base de datos periódicamente de todos modos. Pero si un cliente quiere esa resistencia, puede comprarla.