Frase célebre

Las Autoridades Sanitarias advierten que "Güindous" perjudica seriamente su PC

domingo, 9 de mayo de 2010

Crónica sobre la charla dada por Ginés Rubio Flores

Admin. de un dpto. de Física y futuro Doctor en Ingeniería Informática



Nos cuenta que en donde el trabaja los miembros de ese departamento de Física cada uno tenía un equipo propio con el que trabajar y hacer sus investigaciones, así con un total de 15 equipos divididos como si de una matriz se tratara (cada equipo contaba con 2 discos duros,  uno dividido en 2 particiones para 2 Sistemas Operativos, y el otro disco duro como compartido con el resto de equipos), bien aparte de estos equipos contaban con un servidor LDAP en el que se logueaban los usuarios y otro SAN/NAS con 6 discos duros divididos en 2 volúmenes, uno con los home de cada usuario y otro con el software compartido que usaban y además un cluster de 4equipos llamado TORQUE en el que los físicos hacían (y aun también) los cálculos supuestamente.


Bien llegó el día en el que quisieron actualizar el Sistema Operativo (que era una Fedora Core 9 (FC9)) a Fedora Core 11 (FC11), aquí le apareció un problema y era que la migración no podía ser directa con lo que tuvieron que actualizar primero a Fedora Core 10(FC10) y luego a FC11 y además la instalación requería más espacio en disco de lo que tenía asignada la partición con el consiguiente problema de tener que redimensionar particiones en todos los equipos.


Aquí no acaban los problemas, otro muy severo fue que de la noche a la mañana el servidor SAN/NAS dejó de funcionar, estropeándose por la mañana el volumen de los homes hasta luego a lo largo de la tarde el otro volumen con el software, por más que se miró el sistema operativo que había en ese servidor SAN/NAS no pudo hacer nada ya que era una versión liberada de otra versión cerrada ya que la máquina era un SNAZ R6 de la empresa RAIDTEC y ya no daban soporte. Tuvieron parte de suerte ya que los homes de los usuarios los tenían en una copia de seguridad que se hacía en un disco duro de 1TB que se encontraba con el servidor LDAP.

Así que la solución fue adquirir otra máquina con 5 discos duros, uno de ellos para albergar el Sistema Operativo (OpenFiler) y los otros 4 divididos de nuevo en 2 volúmenes salvo que la diferencia era que el 1er volumen albergaba los /home y /softwareCompartido, siendo el otro volúmen un espejo del 1º.


A los usuarios este servidor a veces les daba el siguiente mensaje: "NFS STALE HANDLE" que en lo que consiste es que si tenemos un determinado archivo apuntado por un proceso y luego otro proceso también accede a el por ejemplo de tal manera que el primer proceso borra el archivo y el segundo intenta leer el archivo, lo que ocurre es que se producía un error con el mensaje ese, y esto lo que provocaba era el cuelgue del sistema totalmente, así que pensó que otras alternativas tenía a NFS para compartir ficheros. Pensó en 3 alternativas:
        _AFS(Andrew File System). Daba problemas
.
        _INTERMEZZO. Descartado por estar abandonado desde hace 3 años.
        _LUSTRE. Pensado para servidores muy pontentes, hablando de unos 100 equipos aproximadamente.

Todos eran incompatibles con OPENFILER así que pensó en alguna solución y lo que pudo hacer era tener 1 equipo conectado al servidor que estaba configurado con el cron cada 5minutos que comprobara el estado del sistema para que si ocurriera eso hiciera las tareas debidas.

Luego más adelante el cluster de 4 nodos lo ampliaron a otros 4 más teniendo de nuevo otro problema, la ausencia de un KVM que no es más que una solución que integra: monitor, teclado y ratón compartidos por una serie de equipos,
Así que tuvo que ir nodo a nodo configurandolo individualmente.


Todo esto que contó, nos dijo que le ocurrió a lo largo de 1 año aproximadamente, es decir tiempo suficiente como para que ocurran estos problemas y muchos más. Así que aquí queda plasmado más o menos lo que contó, espero que os haya gustado o algo provechoso.



Powered by ScribeFire.