Geschichte/Server/top1/2006-01-08

Aus UUGRN
< Geschichte‎ | Server‎ | top1(Weitergeleitet von UUGRN:Server/top1/2006-01-08)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Fortsetzung vom Samstag abend, aufgezeichnet in #uugrn vom ircbot.

00:02:05 <rabe> hmm
00:02:31 <rabe> nur dass der server wegen ufs panic()t und automatisch rebootet und dann beim manuellen fschk wartet
00:02:39 <rabe> deswegen isser schon wieder weg
…
00:02:59 <rabe> ich kanns debuggen, sobald ich auf den konsolenserver komme
…
00:03:19 <rabe> ich habe beide platten vom controller aus geprüft
00:03:31 <rabe> nichts offensichtliches
00:03:33 <rabe> aber
00:03:46 <rabe> das kann ich mal bis 100% durchlaufen lassen, sobald ich via netz auf seriell komme
…
00:05:03 <rabe> evtl thermisch
00:05:16 <rabe> ist schon recht warm 
…
00:08:46 <rabe> was mich ärgert ist, dass er daheim nicht ansatzweise solche probleme hatte
00:09:01 <rabe> sonst hätte ich es ja debuggen können
…

Sonntag, der 8. Januar 2006:

…
22:20:23 <rabe> nabend
…
22:34:15 <rabe> ich habe ganz andre probleme im moment ... etas funktioniert nicht ... 
22:34:23 <rabe> und ich weiss nicht, was
22:34:46 <rabe> geht um top
22:35:13 <rabe> dem sind 1h nachdem ich am samstag weg bin, die primäre platte im mirror gestorben
…
22:35:23 <rabe> und als ich dann backups gestartet habe
22:35:29 <rabe> ist die zweite auch weg
22:35:48 <rabe> danach war die kiste erstmal weg, kernelpanic, auto-reboot --- manual -fsck
…
22:35:58 <rabe> bin also am samstag abend wieder hin
22:36:11 <rabe> konnte mit dem zuvor gezogenen backup wenigstens / wiederherstellen
22:36:29 <rabe> durch den fsck war die master.passwd weg, d.h. man konnte sich nicht mehr einloggen
22:36:51 <rabe> also die master.passwd war kaputt und der fsck hat sie nach lost+found geschoben
22:36:59 <rabe> habe beide platten geprüft
22:37:08 <rabe> vom controller aus, beide ohne erkennbare fehler
22:37:32 <rabe> (hatte zuvor 2x200GB neue Platten gekauft und mitgenommen, die geb ich morgen abend weider zurück, das was vereinbart)
…
22:37:53 <rabe> also ... entweder ist das RAID kaputt bzw desyncronisiert
22:37:58 <rabe> doch
22:38:34 <rabe> die erste platte konnte ich mit tail -f /varlog/messages mitlesen
22:38:48 <rabe> da war das RAID aber noch 100% verfügbar, lediglich degraded
22:38:53 <rabe> ohne redundanz halt
22:39:24 <rabe> als die zweite platte gestorben ist, konnte ich zwar noch einen dmesg ausführen, der hat aber ca 4min gebraucht, um was anzuzeigen
22:39:33 <rabe> ich vermute, dass das RAID einfach nur kaputt ist
22:39:46 <rabe> d.h. ich werde eine von beiden platten rebuilden
22:39:49 <…> der raid controller?
22:39:50 <rabe> d.h. neu syncronisieren
22:40:08 <rabe> nein ... ich vermute, dass beide platten nicht mehr syncron sind
22:40:38 <rabe> das wäre eine erklärung dafür, dass die kiste derzeit ständig ufs-kernelpanics bekommt
22:40:48 <rabe> wenn das alles nichts bringt
22:40:50 <rabe> also ...
…
22:41:00 <rabe> ich komm ja hoffentlich morgen seriell an die kiste ran
22:41:09 <rabe> wenn das alles nichts bringt, hol ich den server wieder heim
22:41:21 <rabe> das ist zwar alles eine schweiss fahrerei
22:41:27 <rabe> aber was soll ich sonst machen?
22:41:29 <…> musst du nochmal nach frankfurt?
22:41:31 <rabe> schweiss
22:41:47 <rabe> hoffentlich nur noch einmal
22:41:49 <…> koennen die das ding nicht zu dir schicken?
22:41:50 <rabe> evtl gar nicht
22:41:56 <rabe> wer solls denn ausbauen?
22:42:05 <rabe> in dem gebäude gibt es unten nur einen wachdienst
…
22:42:20 <rabe> das ist ein riesen haus voller Serverräume
22:42:31 <rabe> von der größenordnung her so wie bei web.de
22:42:38 <rabe> nur halt ... hmm ... 10x soviel?
22:42:45 <rabe> ich kenne auch nur den einen saal
22:42:51 <rabe> in einem stockwerk
…
22:43:21 <rabe> http://rabe.uugrn.org/uugrn/bilder/top/index-frames.html
22:43:35 <rabe> ich hab da einen ansprechpartner, mit dem komm ich da rein
22:44:02 <rabe> die unteren bilder sind aus dem einen saal, wo wir sind
22:45:50 <…> wahrscheinlich ein ziemlicher hochsicherheitstrakt...
22:46:09 <rabe> ja
22:47:06 <rabe> ist ja nicht nur internet da, sondenr auch telefongesellschaften ... 
22:47:15 <rabe> naja, an sich eine gute location ... 
22:47:31 <rabe> und ich hatte auch nicht vor, 2x/Jahr hinzufahren um den server zu streicheln
22:47:47 <rabe> dass es gleich 2x an einem tag war ... 
22:48:31 <rabe> ich schätze, ich muss das system frisch installieren ... die die probleme sind die filesysteme ziemlich in mitleidenschaft gezogen
22:48:46 <rabe> ich mein ... ich habe ja noch ein funktionierendes backup
22:52:17 <…> die frage ist ja eigentlich: was genau ist passiert. koennte es externe gruende geben? strom/ überspannung/ schleichend kaputt gehende FP/ anomale mensch maschinen-interaktion/?
22:52:30 <rabe> ich habe keine ahnung, das ist mein problem im moment.
22:52:39 <rabe> bei mir lief das teil völlig problemlos
22:53:04 <rabe> und wenn es ein transportschaden wäre ... was ich nicht denke, ich habe das ding wie ein rohes ei transportiert
…
22:53:49 <rabe> ich weiss nur eins ... backup/restore von / ist reichlich bekloppt, wenn man davon gebootet hat
22:53:58 <rabe> kann aber remote nicht von was anderem booten
…
22:54:21 <rabe> d.h. ich werde genau noch einmal hinmüssen, dann mach ich alles nochmal platt
22:54:38 <rabe> installier in 2 partitionen 2 systeme
22:54:45 <rabe> und einen bootmanager
22:55:35 <…> klingt gut
22:55:55 <…> du kannst den bootmanager steuern von aussen?
22:56:05 <rabe> sobald ich via netz auf die serielle konsole komme
22:56:22 <…> (serielle konsole?) 
22:56:26 <rabe> die kiste hat nur netz+strom
…
23:47:16 <…> so. bin dann mal wieder offline. viel erfolg noch rabe. 
23:47:34 <rabe> danke
23:47:39 <rabe> den erfolg wünschst du uns allen