A tal escala, una empresa habría construido una solución interna para resolver el problema. Asumiría que la compañía tendría un gran equipo de ingeniería y que habría un equipo dedicado a la solución de este problema.
Deberá contar con un equipo de monitoreo 24 × 7 con ingenieros de L1 y L2 o administradores de sistemas para proporcionar soluciones rápidas a los problemas.
Nagios, Zabbix y otros sistemas de monitoreo escalan hasta cientos de servidores. Pero no he visto un ejemplo práctico de escalarlos más allá de miles de servidores. Nuevamente, si tiene una cantidad tan grande de servidores, los dividiría en grupos, principalmente en función del negocio o módulo al que atienden. Cada grupo debe tener su propio sistema de monitoreo. Entonces, eventualmente tendría una configuración de nagios para un clúster y otra configuración de nagios para otro clúster, etc.
- Cuando los servidores están caídos, ¿cómo pueden los usuarios acceder a la página de error 404 específica de una empresa (por ejemplo, Fail Whale)?
- ¿Cuál es la diferencia entre el servidor web y el servidor de aplicaciones? ¿Cuál es más importante? ¿Cómo se comunican entre ellos?
- ¿Por qué es nginx mejor que Apache para servir contenido estático?
- ¿Qué software de servidor se requiere para implementar de forma segura una aplicación node.js?
- ¿Cuál es la estructura de archivos y carpetas de música en un servidor para Google Music?
Y una configuración de nagios para monitorear la salud de sus servidores nagios.
—-EDITAR—–
Recientemente ha habido un aumento de personas que usan carbono, estadísticas y grafito para fines de monitoreo. El monitoreo de servidores en ETSY es un ejemplo. Aquí hay un artículo simple que explica cómo configurar un grupo de cajas de grafito que se pueden escalar linealmente para monitorear cualquier número de servidores
La arquitectura de la agrupación de grafito