¿Con qué frecuencia fallan las unidades en los servidores?

Estas unidades no son diferentes de las unidades que usa en su PC. Esto significa que pueden fallar.

Los investigadores en el siglo XIX, cuando todavía era muy probable que los discos duros fallaran, se les ocurrió una solución. Lo llamaron RAID. Es sinónimo de Rapid Array of Barato (Independiente, dependiendo de a quién le pregunte) Discos.

La tecnología permite configurar múltiples niveles RAID. La incursión 0 usa lo que se llama rayas. Los datos que deben almacenarse se dividen en “franjas”, generalmente no más grandes que unos pocos Kb cada uno. Estas franjas se dividen en los discos que forman el RAID 0. Entonces, digamos que tenemos un archivo de 32Kb, que queremos guardar. Nuestro controlador RAID divide este archivo en cuatro franjas de 8Kb cada una. Dos bandas de 8Kb se almacenan en un disco, mientras que las otras dos bandas de 8Kb se almacenan en otro. Cada vez que quiero abrir mi archivo de 32Kb, mi controlador RAID busca automáticamente las bandas correctas y las vuelve a colocar en la secuencia adecuada para que las abra. Esta forma de guardar datos hace que recuperarlos de su HDD (‘s) sea mucho más rápido. Los jugadores a menudo usan este nivel RAID.

También existen niveles RAID que están diseñados para la resistencia. RAID1 es uno de estos niveles. Tomemos el mismo archivo de 32 Kb que teníamos antes. Cuando guardamos esto en nuestro disco, el controlador RAID ‘refleja’ el archivo. Lo divide en rayas de 8Kb. Nuestro programa ahora existe de 4 franjas de 8Kb cada una. Este conjunto de 4 bandas se guarda en DOS discos duros, lo que significa que tiene una copia exacta de la misma información, en un disco diferente.

RAID-1 es increíble, porque significa que una unidad puede fallar en usted, pero aún puede mantener su servidor funcionando sin perder ningún dato. Esto se debe a que esencialmente guardas todo el doble. Un controlador RAID podrá pasar de usar dos discos a uno en caso de que se rompa un disco.

RAID-5 también se usa a veces. Es el mismo principio que RAID-1, pero usa algo llamado paridad. No voy a entrar en eso ahora.

Eso explica los niveles de RAID más utilizados. Si estás interesado, te animo a buscar más información por ti mismo.

Depende de la marca y el modelo de las unidades. Cada uno tiene sus propias características.

La vida de un dispositivo electrónico generalmente sigue lo que se denomina una “curva de bañera”, que se ve así:

Entonces las fallas se dan como probabilidades a lo largo del tiempo, no como absolutas. Y las fallas también dependen de las condiciones: número de arranques y paradas, temperatura, etc.

Hay varias formas de dar calificaciones de confiabilidad. Seagate utiliza la tasa de falla anualizada, o AFR. Wikipedia (tasa de falla anualizada) define AFR como

“… proporciona la probabilidad estimada de que un dispositivo o componente falle durante un año completo de uso. Es una relación entre el tiempo medio entre fallas (MTBF) y las horas que se ejecutan varios dispositivos por año. El AFR se estima a partir de una muestra de componentes similares: el AFR y el MTBF proporcionados por los proveedores son estadísticas de población que no pueden predecir el comportamiento de una unidad individual “.

La hoja de datos de Barracuda ( http://www.seagate.com/staticfil …) da el AFR como <1%.

Las grandes corporaciones o aplicaciones de misión crítica no se guardan en unidades individuales. Están divididos en varias unidades (RAID) en una SAN de alta velocidad. Si una unidad falla, las otras unidades se hacen cargo automáticamente de la falla. Después de que ocurre, las unidades son intercambiables en caliente y están restringidas en segundo plano.

Eso depende principalmente del tamaño del servidor. Teníamos uno en el que había tanto DASD que un disco generalmente fallaba al menos una vez al día. Todos eran intercambiables en caliente, así que eso solo significaba prestar atención a las alarmas.