En servicio de alta disponibilidad: cuando un servicio afirma que tiene una disponibilidad de 99.99 (4 9s), ¿qué significa? ¿Cómo se mide y rastrea? Algunos ejemplos publicados serían geniales. La tecnología cambia la vida futura

En servicio de alta disponibilidad: cuando un servicio afirma que tiene una disponibilidad de 99.99 (4 9s), ¿qué significa? ¿Cómo se mide y rastrea? Algunos ejemplos publicados serían geniales.

Primero la terminología. La disponibilidad del 99,99% significa que durante el tiempo que el servicio ha estado funcionando, ha estado inactivo como máximo una décima parte de ese tiempo. Eso significa que, en el transcurso de un año, si un servicio ha tenido un 99.99% de disponibilidad para ese año , entonces ha estado inactivo aproximadamente menos de 53 minutos.

¿Cómo rastrean eso? Bueno, puede referirse a los registros de su servicio y anotar cada período de tiempo que el servicio dejó de funcionar y volvió a funcionar, luego haga los cálculos usted mismo. En general, usaría algún tipo de software de monitoreo.

Personalmente, he implementado varios tipos de soluciones de monitoreo. Uno era un sistema impulsado por el cliente local. Imagine cada computadora entregada en una ubicación del cliente preinstalada con un servicio siempre activo que “llama a casa” a intervalos regulares. En casa, hay un servidor que ejecuta un servlet simple que acepta estas “casas telefónicas” en forma de HTTP POST. Cada POST contiene información relacionada con las diversas cosas que se ejecutan en esa computadora, además de recursos críticos como memoria, espacio en disco y uso de CPU. Esta información se registra en una fila en la base de datos del servidor. Luego, se puede hacer una consulta para analizar, con la resolución del intervalo elegido, cuánto tiempo no estuvo disponible cada cosa en cada computadora cliente. Si una computadora cliente no telefoneó a su casa durante un intervalo, todo en esa computadora se puede denotar como no disponible.

Otra era una solución de monitoreo impulsada por el servidor implementada con un software de monitoreo de red (lo siento, no recuerdo cuál) que ejecutaba un script cada 5 minutos. Este script consultaría una página dentro de una aplicación web que proporcionara información. Luego analizaría la información para determinar qué funcionaba dentro de la aplicación y qué no. El script devolvería un código de estado al software de monitoreo que luego enviaría por correo electrónico una advertencia apropiada basada en esto. Además, el script grabó registros para cada parte de la aplicación web probada, lo que proporciona un medio para rastrear la disponibilidad / tiempo de actividad de cada parte.

Existen soluciones mucho más sofisticadas, pero estas son dos metodologías de corte y secado para obtener estadísticas de disponibilidad del servicio.

EDITAR: El crédito total para ese cálculo inicial va a Jeremy Wilson … Inicialmente tuve accidentalmente una milésima al año en lugar de una diezmilésima. Ups