Geschichte/Server/top1/2006-01-08

Aus UUGRN
< Geschichte‎ | Server‎ | top1

Fortsetzung vom Samstag abend, aufgezeichnet in #uugrn vom ircbot.

00:02:05 <rabe> hmm
00:02:31 <rabe> nur dass der server wegen ufs panic()t und automatisch rebootet und dann beim manuellen fschk wartet
00:02:39 <rabe> deswegen isser schon wieder weg
…
00:02:59 <rabe> ich kanns debuggen, sobald ich auf den konsolenserver komme
…
00:03:19 <rabe> ich habe beide platten vom controller aus geprüft
00:03:31 <rabe> nichts offensichtliches
00:03:33 <rabe> aber
00:03:46 <rabe> das kann ich mal bis 100% durchlaufen lassen, sobald ich via netz auf seriell komme
…
00:05:03 <rabe> evtl thermisch
00:05:16 <rabe> ist schon recht warm 
…
00:08:46 <rabe> was mich ärgert ist, dass er daheim nicht ansatzweise solche probleme hatte
00:09:01 <rabe> sonst hätte ich es ja debuggen können
…

Sonntag, der 8. Januar 2006:

…
22:20:23 <rabe> nabend
…
22:34:15 <rabe> ich habe ganz andre probleme im moment ... etas funktioniert nicht ... 
22:34:23 <rabe> und ich weiss nicht, was
22:34:46 <rabe> geht um top
22:35:13 <rabe> dem sind 1h nachdem ich am samstag weg bin, die primäre platte im mirror gestorben
…
22:35:23 <rabe> und als ich dann backups gestartet habe
22:35:29 <rabe> ist die zweite auch weg
22:35:48 <rabe> danach war die kiste erstmal weg, kernelpanic, auto-reboot --- manual -fsck
…
22:35:58 <rabe> bin also am samstag abend wieder hin
22:36:11 <rabe> konnte mit dem zuvor gezogenen backup wenigstens / wiederherstellen
22:36:29 <rabe> durch den fsck war die master.passwd weg, d.h. man konnte sich nicht mehr einloggen
22:36:51 <rabe> also die master.passwd war kaputt und der fsck hat sie nach lost+found geschoben
22:36:59 <rabe> habe beide platten geprüft
22:37:08 <rabe> vom controller aus, beide ohne erkennbare fehler
22:37:32 <rabe> (hatte zuvor 2x200GB neue Platten gekauft und mitgenommen, die geb ich morgen abend weider zurück, das was vereinbart)
…
22:37:53 <rabe> also ... entweder ist das RAID kaputt bzw desyncronisiert
22:37:58 <rabe> doch
22:38:34 <rabe> die erste platte konnte ich mit tail -f /varlog/messages mitlesen
22:38:48 <rabe> da war das RAID aber noch 100% verfügbar, lediglich degraded
22:38:53 <rabe> ohne redundanz halt
22:39:24 <rabe> als die zweite platte gestorben ist, konnte ich zwar noch einen dmesg ausführen, der hat aber ca 4min gebraucht, um was anzuzeigen
22:39:33 <rabe> ich vermute, dass das RAID einfach nur kaputt ist
22:39:46 <rabe> d.h. ich werde eine von beiden platten rebuilden
22:39:49 <…> der raid controller?
22:39:50 <rabe> d.h. neu syncronisieren
22:40:08 <rabe> nein ... ich vermute, dass beide platten nicht mehr syncron sind
22:40:38 <rabe> das wäre eine erklärung dafür, dass die kiste derzeit ständig ufs-kernelpanics bekommt
22:40:48 <rabe> wenn das alles nichts bringt
22:40:50 <rabe> also ...
…
22:41:00 <rabe> ich komm ja hoffentlich morgen seriell an die kiste ran
22:41:09 <rabe> wenn das alles nichts bringt, hol ich den server wieder heim
22:41:21 <rabe> das ist zwar alles eine schweiss fahrerei
22:41:27 <rabe> aber was soll ich sonst machen?
22:41:29 <…> musst du nochmal nach frankfurt?
22:41:31 <rabe> schweiss
22:41:47 <rabe> hoffentlich nur noch einmal
22:41:49 <…> koennen die das ding nicht zu dir schicken?
22:41:50 <rabe> evtl gar nicht
22:41:56 <rabe> wer solls denn ausbauen?
22:42:05 <rabe> in dem gebäude gibt es unten nur einen wachdienst
…
22:42:20 <rabe> das ist ein riesen haus voller Serverräume
22:42:31 <rabe> von der größenordnung her so wie bei web.de
22:42:38 <rabe> nur halt ... hmm ... 10x soviel?
22:42:45 <rabe> ich kenne auch nur den einen saal
22:42:51 <rabe> in einem stockwerk
…
22:43:21 <rabe> http://rabe.uugrn.org/uugrn/bilder/top/index-frames.html
22:43:35 <rabe> ich hab da einen ansprechpartner, mit dem komm ich da rein
22:44:02 <rabe> die unteren bilder sind aus dem einen saal, wo wir sind
22:45:50 <…> wahrscheinlich ein ziemlicher hochsicherheitstrakt...
22:46:09 <rabe> ja
22:47:06 <rabe> ist ja nicht nur internet da, sondenr auch telefongesellschaften ... 
22:47:15 <rabe> naja, an sich eine gute location ... 
22:47:31 <rabe> und ich hatte auch nicht vor, 2x/Jahr hinzufahren um den server zu streicheln
22:47:47 <rabe> dass es gleich 2x an einem tag war ... 
22:48:31 <rabe> ich schätze, ich muss das system frisch installieren ... die die probleme sind die filesysteme ziemlich in mitleidenschaft gezogen
22:48:46 <rabe> ich mein ... ich habe ja noch ein funktionierendes backup
22:52:17 <…> die frage ist ja eigentlich: was genau ist passiert. koennte es externe gruende geben? strom/ überspannung/ schleichend kaputt gehende FP/ anomale mensch maschinen-interaktion/?
22:52:30 <rabe> ich habe keine ahnung, das ist mein problem im moment.
22:52:39 <rabe> bei mir lief das teil völlig problemlos
22:53:04 <rabe> und wenn es ein transportschaden wäre ... was ich nicht denke, ich habe das ding wie ein rohes ei transportiert
…
22:53:49 <rabe> ich weiss nur eins ... backup/restore von / ist reichlich bekloppt, wenn man davon gebootet hat
22:53:58 <rabe> kann aber remote nicht von was anderem booten
…
22:54:21 <rabe> d.h. ich werde genau noch einmal hinmüssen, dann mach ich alles nochmal platt
22:54:38 <rabe> installier in 2 partitionen 2 systeme
22:54:45 <rabe> und einen bootmanager
22:55:35 <…> klingt gut
22:55:55 <…> du kannst den bootmanager steuern von aussen?
22:56:05 <rabe> sobald ich via netz auf die serielle konsole komme
22:56:22 <…> (serielle konsole?) 
22:56:26 <rabe> die kiste hat nur netz+strom
…
23:47:16 <…> so. bin dann mal wieder offline. viel erfolg noch rabe. 
23:47:34 <rabe> danke
23:47:39 <rabe> den erfolg wünschst du uns allen