Geschichte/Server/top1/2006-01-08
Aus UUGRN
< Geschichte | Server | top1(Weitergeleitet von UUGRN:Server/top1/2006-01-08)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.
Fortsetzung vom Samstag abend, aufgezeichnet in #uugrn vom ircbot.
00:02:05 <rabe> hmm 00:02:31 <rabe> nur dass der server wegen ufs panic()t und automatisch rebootet und dann beim manuellen fschk wartet 00:02:39 <rabe> deswegen isser schon wieder weg … 00:02:59 <rabe> ich kanns debuggen, sobald ich auf den konsolenserver komme … 00:03:19 <rabe> ich habe beide platten vom controller aus geprüft 00:03:31 <rabe> nichts offensichtliches 00:03:33 <rabe> aber 00:03:46 <rabe> das kann ich mal bis 100% durchlaufen lassen, sobald ich via netz auf seriell komme … 00:05:03 <rabe> evtl thermisch 00:05:16 <rabe> ist schon recht warm … 00:08:46 <rabe> was mich ärgert ist, dass er daheim nicht ansatzweise solche probleme hatte 00:09:01 <rabe> sonst hätte ich es ja debuggen können …
Sonntag, der 8. Januar 2006:
… 22:20:23 <rabe> nabend … 22:34:15 <rabe> ich habe ganz andre probleme im moment ... etas funktioniert nicht ... 22:34:23 <rabe> und ich weiss nicht, was 22:34:46 <rabe> geht um top 22:35:13 <rabe> dem sind 1h nachdem ich am samstag weg bin, die primäre platte im mirror gestorben … 22:35:23 <rabe> und als ich dann backups gestartet habe 22:35:29 <rabe> ist die zweite auch weg 22:35:48 <rabe> danach war die kiste erstmal weg, kernelpanic, auto-reboot --- manual -fsck … 22:35:58 <rabe> bin also am samstag abend wieder hin 22:36:11 <rabe> konnte mit dem zuvor gezogenen backup wenigstens / wiederherstellen 22:36:29 <rabe> durch den fsck war die master.passwd weg, d.h. man konnte sich nicht mehr einloggen 22:36:51 <rabe> also die master.passwd war kaputt und der fsck hat sie nach lost+found geschoben 22:36:59 <rabe> habe beide platten geprüft 22:37:08 <rabe> vom controller aus, beide ohne erkennbare fehler 22:37:32 <rabe> (hatte zuvor 2x200GB neue Platten gekauft und mitgenommen, die geb ich morgen abend weider zurück, das was vereinbart) … 22:37:53 <rabe> also ... entweder ist das RAID kaputt bzw desyncronisiert 22:37:58 <rabe> doch 22:38:34 <rabe> die erste platte konnte ich mit tail -f /varlog/messages mitlesen 22:38:48 <rabe> da war das RAID aber noch 100% verfügbar, lediglich degraded 22:38:53 <rabe> ohne redundanz halt 22:39:24 <rabe> als die zweite platte gestorben ist, konnte ich zwar noch einen dmesg ausführen, der hat aber ca 4min gebraucht, um was anzuzeigen 22:39:33 <rabe> ich vermute, dass das RAID einfach nur kaputt ist 22:39:46 <rabe> d.h. ich werde eine von beiden platten rebuilden 22:39:49 <…> der raid controller? 22:39:50 <rabe> d.h. neu syncronisieren 22:40:08 <rabe> nein ... ich vermute, dass beide platten nicht mehr syncron sind 22:40:38 <rabe> das wäre eine erklärung dafür, dass die kiste derzeit ständig ufs-kernelpanics bekommt 22:40:48 <rabe> wenn das alles nichts bringt 22:40:50 <rabe> also ... … 22:41:00 <rabe> ich komm ja hoffentlich morgen seriell an die kiste ran 22:41:09 <rabe> wenn das alles nichts bringt, hol ich den server wieder heim 22:41:21 <rabe> das ist zwar alles eine schweiss fahrerei 22:41:27 <rabe> aber was soll ich sonst machen? 22:41:29 <…> musst du nochmal nach frankfurt? 22:41:31 <rabe> schweiss 22:41:47 <rabe> hoffentlich nur noch einmal 22:41:49 <…> koennen die das ding nicht zu dir schicken? 22:41:50 <rabe> evtl gar nicht 22:41:56 <rabe> wer solls denn ausbauen? 22:42:05 <rabe> in dem gebäude gibt es unten nur einen wachdienst … 22:42:20 <rabe> das ist ein riesen haus voller Serverräume 22:42:31 <rabe> von der größenordnung her so wie bei web.de 22:42:38 <rabe> nur halt ... hmm ... 10x soviel? 22:42:45 <rabe> ich kenne auch nur den einen saal 22:42:51 <rabe> in einem stockwerk … 22:43:21 <rabe> http://rabe.uugrn.org/uugrn/bilder/top/index-frames.html 22:43:35 <rabe> ich hab da einen ansprechpartner, mit dem komm ich da rein 22:44:02 <rabe> die unteren bilder sind aus dem einen saal, wo wir sind 22:45:50 <…> wahrscheinlich ein ziemlicher hochsicherheitstrakt... 22:46:09 <rabe> ja 22:47:06 <rabe> ist ja nicht nur internet da, sondenr auch telefongesellschaften ... 22:47:15 <rabe> naja, an sich eine gute location ... 22:47:31 <rabe> und ich hatte auch nicht vor, 2x/Jahr hinzufahren um den server zu streicheln 22:47:47 <rabe> dass es gleich 2x an einem tag war ... 22:48:31 <rabe> ich schätze, ich muss das system frisch installieren ... die die probleme sind die filesysteme ziemlich in mitleidenschaft gezogen 22:48:46 <rabe> ich mein ... ich habe ja noch ein funktionierendes backup 22:52:17 <…> die frage ist ja eigentlich: was genau ist passiert. koennte es externe gruende geben? strom/ überspannung/ schleichend kaputt gehende FP/ anomale mensch maschinen-interaktion/? 22:52:30 <rabe> ich habe keine ahnung, das ist mein problem im moment. 22:52:39 <rabe> bei mir lief das teil völlig problemlos 22:53:04 <rabe> und wenn es ein transportschaden wäre ... was ich nicht denke, ich habe das ding wie ein rohes ei transportiert … 22:53:49 <rabe> ich weiss nur eins ... backup/restore von / ist reichlich bekloppt, wenn man davon gebootet hat 22:53:58 <rabe> kann aber remote nicht von was anderem booten … 22:54:21 <rabe> d.h. ich werde genau noch einmal hinmüssen, dann mach ich alles nochmal platt 22:54:38 <rabe> installier in 2 partitionen 2 systeme 22:54:45 <rabe> und einen bootmanager 22:55:35 <…> klingt gut 22:55:55 <…> du kannst den bootmanager steuern von aussen? 22:56:05 <rabe> sobald ich via netz auf die serielle konsole komme 22:56:22 <…> (serielle konsole?) 22:56:26 <rabe> die kiste hat nur netz+strom … 23:47:16 <…> so. bin dann mal wieder offline. viel erfolg noch rabe. 23:47:34 <rabe> danke 23:47:39 <rabe> den erfolg wünschst du uns allen