Cómo resolver errores de E / S de Linux sin reiniciar

¿Que tan larga es una pieza de cordon?

La respuesta corta es “No nos has dado suficiente información para responder esa pregunta”. Pero para desglosar un poco:

  • ¿Qué tipo de errores de E / S está recibiendo y en qué dispositivo (s)?
  • ¿Cómo resolverá el reinicio sus errores de E / S?

Normalmente, un error de E / S indicará un problema de hardware, aunque con la complejidad de la infraestructura moderna, este no es siempre el caso. Si ve errores de E / S en alguna parte, entonces el error debe incluir información sobre el dispositivo que está experimentando el error. Esto podría parecerse a /dev/sda1 o /dev/xvda (solo por ejemplo) y verá estos errores en los registros de su sistema ( /var/log/syslog o tal vez /var/log/messages ), así como el salida del comando dmesg que le mostrará los registros del búfer del anillo de registro del núcleo.

Puede ver el resultado del comando mount (ejecutarlo sin argumentos) para ver qué sistema de archivos hay en ese dispositivo. Si ese dispositivo es donde se encuentra su sistema de archivos raíz o una partición de intercambio, entonces está en problemas: cualquiera que sea la solución, no se escapará sin reiniciar.

Si es un sistema de archivos no esencial, puede resolverlo sin reiniciar, dependiendo de si puede:

  • Detenga cualquier proceso que intente acceder al dispositivo. Use el fuser y el lsof para ayudar a localizarlos.
  • Desmonte los sistemas de archivos ubicados en este dispositivo.
  • Reemplace el dispositivo. ¿¿Cómo?? Eso depende completamente de qué tipo de dispositivo estamos hablando aquí. Sea lo que sea, querrás tener buenas copias de seguridad antes de que algo salga mal.
  • Vuelva a montar el sistema de archivos [s]
  • Reinicie cualquier proceso que dependiera de ese dispositivo.

Este es solo el consejo más general, que hace muchas suposiciones sobre el problema. En un entorno moderno, podría haber todo tipo de complicaciones, por ejemplo, el error de E / S que se obtiene al hablar con un disco que en realidad es un dispositivo de bloque proporcionado por un servicio a través de la red (tal vez un disco iSCSI o un volumen EBS en AWS ) en realidad podría deberse a un error de red. ¡Arregla la red y arregla el disco!

Cualquiera sea el problema, no es probable que reiniciar una caja de Linux solucione su error de E / S. Comience por comprender la fuente del error, ¡y luego trabaje para solucionarlo!

Esos errores de E / S provienen de algún lugar. Rastrearlos. Si proviene de un dispositivo de bloque, tienes problemas.

Si proviene de la memoria o de un programa, debe aclarar cuál es el problema