Gracias por A2A.
Mi trabajo diario implica administrar el entorno OpenStack para mi empresa, donde lo usamos como nube privada. Anteriormente estábamos usando La Habana, sin soluciones de alta disponibilidad implementadas, por lo que éramos propensos a fallas. Ahora, la solución que he implementado, confirma a dos capas de HA. Entonces, tengo tres controladores, cada uno con MariaDB con galera y rabbitmq en HA, además de varias copias de los mismos servicios que se ejecutan detrás de dos nodos haproxy en HA usando keepalived.
Con el nodo de red, tengo l3-agent y dhcp-agent en HA. Entonces, si pierdo un par de controladores o uno de los nodos de la red, todavía estoy listo. Por lo tanto, casi la mayoría de los dolores de cabeza de mantener un OpenStack Cluster en funcionamiento desaparecieron para mí.
Pero, aún tenemos muchos desafíos, eso viene del backend que estamos usando para Glance, Cinder y Nova. Estamos usando Ceph para eso, y si Ceph se comporta de manera anormal, tenemos el peor momento por delante. Los mensajes perdidos y atascados en rabbitmq, básicamente detienen todas las operaciones de OpenStack y una pequeña inconsistencia en la base de datos causa muchos problemas.
La parte más importante es mantener su lanzamiento con upstream. Todavía no he implementado la integración continua, pero estoy planeando hacerlo en un futuro cercano. Confío en los scripts de Puppet escritos por mí (yo mismo he escrito un conjunto completo de scripts) para mantener los cambios de configuración y desplegar nuevos nodos si algo falla. Actualizar a una nueva versión en producción también es uno de los dolores de cabeza, ya que tienes que hacer pruebas paralelas. Estoy corriendo en Kilo, pero este verano me toparé con Mitaka. A ver si todo va bien.
Aparte de eso, hay algunos problemas triviales como que VNC no funciona, algunos problemas de firewall, el cliente dhcp no funciona, pero todos pueden solucionarse con pocas habilidades de depuración y un profundo conocimiento de los componentes internos de OpenStack.