Backup-jobs af ivrp er fejlet siden Data-Media team opgraderede Data Protector til den nyeste version. Den kræver en ændring af kerneparametre på Solaris, og det kræver en reboot. Desværre kender jeg ikke serienummeret på maskinen, så vi har ikke support på den (eller rettere: jeg ved ikke om vi har, for SUN skal bruge serienummeret til at finde den i systemet), der er ikke remote serial console på den, jeg ved ikke hvor den står rent fysisk, og den har en oppetid på over 600 dage... Suk.
Michael har en ide om hvor den står henne, så jeg kører med Rene til Ejby og møder facilities manager, Jan, der kan lukke mig ind i rummet. Han tvivler på at vi har en maskine dernede, men indvilliger alligevel, nok blot for at kunne sige 'se, hvad sagde jeg'. Maskinen står der dog, en Enterprise E250 med et eksterne diskpack og en enkelt LAN-forbindelse. Placeret på langs i noget der minder om en bogreol - det har intet med et server rack-skab at gøre, i hvert fald. Over og under og på begge sider er der ledninger, så det kræver et værre asen og masen og rokken med maskinen, for at få den så langt ud, at jeg kan aflæse serienummeret bag på. Det noterer jeg ned. Oppe på Jans kontor finder han den rigtige nøgle, og jeg underskriver nogle blanketter på at jeg har modtaget den. Udleveret til mig personligt. Yeah right, mig, og så resten af teamet. Har de lyst til at lave 10 nøgler? Jeg tager en taxi til Vanløse station, og metroen videre, derfra, hjem på kontoret.
Her kontakter jeg SUN, og beder dem om at putte serveren på GOLD+ support, dvs onsite 24/7, 4 timers response. Just in case. 4 timers responstid er ret lang tid at vente på en supportteknikker, og mit servicevindue er fra 05 til 06 om morgenen - men det er bedre end overhovedet ikke at have support - og om ikke andet er der telefonsupport.
Nede i depotet finder jeg en anden E250'er, og eksperiemterer lidt frem og tilbage, for at finde et serielkonsol-kabel, der passer. Det skal man helst have styr på i forvejen. For det første tør jeg ikke reboote maskinen hjemmefra - med 600 dages oppetid er der en ikke ubetydelig risiko for at maskinen ikke kan boote korrekt, det vil sige at jeg er nødt til at være der fysisk foran den, og for det andet er der mindst 10 forskellige kombinationer af adaptere og kabler til SUNs maskiner, kedeligt at dukke op og konstatere at man har det forkerte kabel med, og alligevel ikke kan komme på konsollen. Så kunne man lige så vel have gjort det hele hjemmefra.
Så finder jeg root-kodeordet i listen, og checker at det virker - normalt har vi ikke behov for det, fordi vi bruger sudo, men Solaris 2.6, som ivrp kører, understøtter ikke ufs-logging på filsystemerne, hvilket betyder at der er høj risiko for at et crash vil kræve fuld filsystem konsistenscheck - og det kræver root-kodeordet. Jeg har før prøvet at komme afsted med det forkerte kodeord...
I tasken ryger også en håndfuld Solaris CDROM'er til at boote fra, i single user, og ørepropper, antistatisk armbånd, lommekniv, skruetrækkere, et print af kontakttelefonnumre hos SUN (account manager, diverse teknikkere etc), et udtræk af CMDB om ivrp - ip-adresser, cpu og hukommelsesinformation, hostid - nyttige ting at have i hardcopy i en skarp situation, og en kopi af release notes fra DataProtector-manualen, der beskriver de tilføjelser der skal laves til /etc/system. Da maskinen jo stadig kører, laver jeg et dump af uddata fra 'ps -ef', 'df -k', 'vfstab', 'format', 'netstat -rn', 'ifconfig -a', og gemmer i en .txt fil på min laptop. Eksemplevis 'ps -ef' output er godt at have til at se, efter genstarten, om alt er startet normalt, eller om der var processer, der skulle have været startet i hånden. Diskinformation - ja, hvis ikke alle filsystemer monteres automatisk efter reboot tyder det på diskfejl. Det håber jeg ikke... :-( Strømkabel til laptoppen, adgangskort til Ejby, nøglen til "serverrummet" (haha). Jeg koordinerer med VAS operations at jeg ringer til dem, når alt er oppe igen, og at de så checker funktionaliteten af applikationen.
Den efterfølgende morgen står jeg op kl 0410, og tager en taxi kl 0430, nede fra Amagerbrogade. Jeg er i Ejby 0500, 350 DKK fattigere, og får uden problemer adgang til rummet igen. Konsolkablet virker, og jeg kommer på. Terminalemuleringen over seriel er ret dårlig, og jeg indser at jeg nok burde have modificeret filen hjemmefra, lidt besværligt at sidde og tampe ind over så primitiv en emulering. 'sysdef | grep -i shm' viser hvad indstillingerne er nu, det noterer jeg ned. Så ringer jeg til NOC'en, og fortæller at eventuelle alarmer fra ivrp skal de bare ignorere, den næste times tid. Det plejer de at sætte pris på at få at vide på forhånd...
Så skifter jeg til init 6, der lukker pænt ned og genstarter. Normalt bruger jeg bare 'reboot', men så afmonteres filsystemerne ikke pænt, og uden understøttelse af ufs journalisering, er det ikke noget jeg ønsker. Det tager cirka 10 minutter at lukke ned, og starte op igen, lidt klam bliver jeg da jeg efter nogle minutters inaktivitet får 2 ens SCSI timeouts på d6, som er /usr, men maskinen kommer over det, og booter normalt.
Jeg logger på og verificerer at alle filsystemer er der, at alle processer kører, og at nettet ser ud til at virke. 'metastat' viser at det ene plex på d6 er væk, format viser at der mangler en disk. Hmmm... Hurra for RAID-1. Det må jeg tage senere. VAS operations bekræfter at deres applikation virker igen, så jeg ringer igen til NOC'en og siger at jeg er færdig, pakker sammen og låser, og tager en taxi til Vanløse station, og derfra metroen til Amager. Jeg er tilbage på kontoret kl 06 - ingen grund til at tage hjem. Så får jeg lige et par timer i ro og mag, inden resten af banden dukker op ved 8-9-tiden. Data-Media bekræfter at backup'en nu ikke længere fejler, så jeg opdaterer Trouble Ticket'en, sætter den til pending for closure.
Oh yes, det er skægt at være Unix administrator..