Geschichte/Server/top1/2006-01-08
Aus UUGRN
< Geschichte | Server | top1(Weitergeleitet von UUGRN:Server/top1/2006-01-08)
Fortsetzung vom Samstag abend, aufgezeichnet in #uugrn vom ircbot.
00:02:05 <rabe> hmm 00:02:31 <rabe> nur dass der server wegen ufs panic()t und automatisch rebootet und dann beim manuellen fschk wartet 00:02:39 <rabe> deswegen isser schon wieder weg … 00:02:59 <rabe> ich kanns debuggen, sobald ich auf den konsolenserver komme … 00:03:19 <rabe> ich habe beide platten vom controller aus geprüft 00:03:31 <rabe> nichts offensichtliches 00:03:33 <rabe> aber 00:03:46 <rabe> das kann ich mal bis 100% durchlaufen lassen, sobald ich via netz auf seriell komme … 00:05:03 <rabe> evtl thermisch 00:05:16 <rabe> ist schon recht warm … 00:08:46 <rabe> was mich ärgert ist, dass er daheim nicht ansatzweise solche probleme hatte 00:09:01 <rabe> sonst hätte ich es ja debuggen können …
Sonntag, der 8. Januar 2006:
… 22:20:23 <rabe> nabend … 22:34:15 <rabe> ich habe ganz andre probleme im moment ... etas funktioniert nicht ... 22:34:23 <rabe> und ich weiss nicht, was 22:34:46 <rabe> geht um top 22:35:13 <rabe> dem sind 1h nachdem ich am samstag weg bin, die primäre platte im mirror gestorben … 22:35:23 <rabe> und als ich dann backups gestartet habe 22:35:29 <rabe> ist die zweite auch weg 22:35:48 <rabe> danach war die kiste erstmal weg, kernelpanic, auto-reboot --- manual -fsck … 22:35:58 <rabe> bin also am samstag abend wieder hin 22:36:11 <rabe> konnte mit dem zuvor gezogenen backup wenigstens / wiederherstellen 22:36:29 <rabe> durch den fsck war die master.passwd weg, d.h. man konnte sich nicht mehr einloggen 22:36:51 <rabe> also die master.passwd war kaputt und der fsck hat sie nach lost+found geschoben 22:36:59 <rabe> habe beide platten geprüft 22:37:08 <rabe> vom controller aus, beide ohne erkennbare fehler 22:37:32 <rabe> (hatte zuvor 2x200GB neue Platten gekauft und mitgenommen, die geb ich morgen abend weider zurück, das was vereinbart) … 22:37:53 <rabe> also ... entweder ist das RAID kaputt bzw desyncronisiert 22:37:58 <rabe> doch 22:38:34 <rabe> die erste platte konnte ich mit tail -f /varlog/messages mitlesen 22:38:48 <rabe> da war das RAID aber noch 100% verfügbar, lediglich degraded 22:38:53 <rabe> ohne redundanz halt 22:39:24 <rabe> als die zweite platte gestorben ist, konnte ich zwar noch einen dmesg ausführen, der hat aber ca 4min gebraucht, um was anzuzeigen 22:39:33 <rabe> ich vermute, dass das RAID einfach nur kaputt ist 22:39:46 <rabe> d.h. ich werde eine von beiden platten rebuilden 22:39:49 <…> der raid controller? 22:39:50 <rabe> d.h. neu syncronisieren 22:40:08 <rabe> nein ... ich vermute, dass beide platten nicht mehr syncron sind 22:40:38 <rabe> das wäre eine erklärung dafür, dass die kiste derzeit ständig ufs-kernelpanics bekommt 22:40:48 <rabe> wenn das alles nichts bringt 22:40:50 <rabe> also ... … 22:41:00 <rabe> ich komm ja hoffentlich morgen seriell an die kiste ran 22:41:09 <rabe> wenn das alles nichts bringt, hol ich den server wieder heim 22:41:21 <rabe> das ist zwar alles eine schweiss fahrerei 22:41:27 <rabe> aber was soll ich sonst machen? 22:41:29 <…> musst du nochmal nach frankfurt? 22:41:31 <rabe> schweiss 22:41:47 <rabe> hoffentlich nur noch einmal 22:41:49 <…> koennen die das ding nicht zu dir schicken? 22:41:50 <rabe> evtl gar nicht 22:41:56 <rabe> wer solls denn ausbauen? 22:42:05 <rabe> in dem gebäude gibt es unten nur einen wachdienst … 22:42:20 <rabe> das ist ein riesen haus voller Serverräume 22:42:31 <rabe> von der größenordnung her so wie bei web.de 22:42:38 <rabe> nur halt ... hmm ... 10x soviel? 22:42:45 <rabe> ich kenne auch nur den einen saal 22:42:51 <rabe> in einem stockwerk … 22:43:21 <rabe> http://rabe.uugrn.org/uugrn/bilder/top/index-frames.html 22:43:35 <rabe> ich hab da einen ansprechpartner, mit dem komm ich da rein 22:44:02 <rabe> die unteren bilder sind aus dem einen saal, wo wir sind 22:45:50 <…> wahrscheinlich ein ziemlicher hochsicherheitstrakt... 22:46:09 <rabe> ja 22:47:06 <rabe> ist ja nicht nur internet da, sondenr auch telefongesellschaften ... 22:47:15 <rabe> naja, an sich eine gute location ... 22:47:31 <rabe> und ich hatte auch nicht vor, 2x/Jahr hinzufahren um den server zu streicheln 22:47:47 <rabe> dass es gleich 2x an einem tag war ... 22:48:31 <rabe> ich schätze, ich muss das system frisch installieren ... die die probleme sind die filesysteme ziemlich in mitleidenschaft gezogen 22:48:46 <rabe> ich mein ... ich habe ja noch ein funktionierendes backup 22:52:17 <…> die frage ist ja eigentlich: was genau ist passiert. koennte es externe gruende geben? strom/ überspannung/ schleichend kaputt gehende FP/ anomale mensch maschinen-interaktion/? 22:52:30 <rabe> ich habe keine ahnung, das ist mein problem im moment. 22:52:39 <rabe> bei mir lief das teil völlig problemlos 22:53:04 <rabe> und wenn es ein transportschaden wäre ... was ich nicht denke, ich habe das ding wie ein rohes ei transportiert … 22:53:49 <rabe> ich weiss nur eins ... backup/restore von / ist reichlich bekloppt, wenn man davon gebootet hat 22:53:58 <rabe> kann aber remote nicht von was anderem booten … 22:54:21 <rabe> d.h. ich werde genau noch einmal hinmüssen, dann mach ich alles nochmal platt 22:54:38 <rabe> installier in 2 partitionen 2 systeme 22:54:45 <rabe> und einen bootmanager 22:55:35 <…> klingt gut 22:55:55 <…> du kannst den bootmanager steuern von aussen? 22:56:05 <rabe> sobald ich via netz auf die serielle konsole komme 22:56:22 <…> (serielle konsole?) 22:56:26 <rabe> die kiste hat nur netz+strom … 23:47:16 <…> so. bin dann mal wieder offline. viel erfolg noch rabe. 23:47:34 <rabe> danke 23:47:39 <rabe> den erfolg wünschst du uns allen