La pesadilla del sysadmin

Bueno, no se cual sea la peersonal… pero la mia es que el correo se pierda… y que lo haga en un momento realmente importante… esa pesadilla se hizo realidad el dia de hoy.

A las dos y media de la tarde a la lista de consol habian llegado mas de 25 mensajes entre el clasico spam (alguno bastante grande, con attach y todo), en el camino algunos enviaron sus ponencias y por ahi hasta los gafetes se atravesaron…

Fantastico me llega el correo reviso la interface de administracion… descarto el spam.. paso la mayor parte del correo… y se queda cargando la pagina… en ese momento bloqueo mi terminal… me voy a arreglar un servidor en el site (yo trabajo en el edificio contrario en el cuarto piso… vayamos al sotano) que no recompilo bien su acceso SATA… bien corregimos, boteando kernel nuevo pero diciendole al grub que ahora el / esta en sda… funciona… bueno de paso noto que no esta compilada la tarjeta ethergigabit… bien hagamoslo… esta maquina es rapida y en 15 minutos he terminado… de regreso al escritorio mi navegador esta en las mismas en que lo deje… huhu…

Mas aun tengo que alcanzar el camion de personal (3:10) o va a ser casi imposible llegar a casa… asi que pues se queda asi la cosa…

Seis de la tarde despues de comer y otras cosas a elucubrar que diablos paso con el mailman (que seguro es el mailman)… empiezo a ver logs… y pues hay un proceso de python que esta usando 40mb y 99% del procesador y fue disparado por apache… vientos mi sesion esa de administracion… diablos pues kill -9 … ¿y ahora? intento una nueva sesion y se queda cargando… !el directorio locks! seguro que mi sesion anterior dejo un lock dicho y hecho… sin embargo no lo resuelve a leer el faq y ver que diablos le pasa al qrunner… mhhh… aqui nos dice que hay como 4 razones por las cuales se puede trabar un mailman… liga al faq diantres… revisando los puntos 5,6 y 8 aplican de hecho tengo un desmadre tremendo en los qfiles…

Movamos todo a /tmp/qfiles mhh… sin embargo me traje demasiadas cosas de otras listas un grep rapido me dice que de hecho tengo de todas mis listas… activas… otro grep me dice que una que estaba funcionando bien (pagos) tambien esta aqui!!!! bueno con otro grep tenemos todo lo de pago en su cola de espera y funcionando… vaya 10 min de retraso.. sin embargo la lista de consol ya lleva casi 3 horas parada! (vaya mala pata que he tenido con esta lista, a la semana que me la pasan, me mueven el servidor de lugar y logran hacer que no arrancan… por una caida del sistema… fisica… si a alguien se le cayo la maquina)…

Bueno… que podemos hacer… empecemos a pasar los mensajes pequeños un ls -lahsS y pues a darle… se me ocurre que puedo hacer un pequeño script pero ya nada mas me faltan 50 (de mas de 400!) mensajes y voy a tener problemas con los grandes… asi que aqui estoy a mano… dandole…

Diantres… como no dijo Murphy pero se lo adjudicaron «Lo que pueda fallar, fallara»…

9:59 Donde esta cosa trono fue al crear los digest de la lista… como se enviaron archivos muy grandes… el digest dejaba colgado el python… y cada vez que intentaba arrancar la lista de manera normal… volvia a generar un digest… voy a tener que obviar el digest de los mensajes de hoy…

10:15 Todo arreglado… como 5 copias de un attach de 5 megas rebotando del correo de todo mundo… pero la lista al dia… no se perdio ningun mensaje y solo se tuvo que borrar el digest… lo mas tardado fue entender que estaba pasando mas o menos 7pm la lista comenzo a funcionar de nuevo 8pm ya estaba bien… 9pm investigando por que TANTOS archivos TAN grandes… 10:18… lista 100% funcional… es de apuntarse que con todo mailman es bueno… solo dejo de funcionar la lista que colapso por el excesivo trabajo en disco… las demas listas se mantuvieron funcionado bien…

:'(

Esta entrada fue publicada en General. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.