Geschichte/Server/top1: Unterschied zwischen den Versionen
Aus UUGRN
< Geschichte | Server
Rabe (Diskussion | Beiträge) (→Geschichte: 2006-01-07: die erste große Havarie.) |
Rabe (Diskussion | Beiträge) (→Geschichte: Details korrigiert am 7.1.2006 anhand von IRC-Channel-Logs) |
||
Zeile 10: | Zeile 10: | ||
;2005-12-06: top1 wird installiert und konfiguriert.<ref>[[:Datei:Top1 2005-12-06 223202 001 BIOS.jpg|Bildschirmfoto vom BIOS am 2005-12-06]]</ref><ref>[[:Datei:Top1 2005-12-06 224243 001 RAID.jpg|Das interne RAID wird gebaut 2005-12-06]]</ref> | ;2005-12-06: top1 wird installiert und konfiguriert.<ref>[[:Datei:Top1 2005-12-06 223202 001 BIOS.jpg|Bildschirmfoto vom BIOS am 2005-12-06]]</ref><ref>[[:Datei:Top1 2005-12-06 224243 001 RAID.jpg|Das interne RAID wird gebaut 2005-12-06]]</ref> | ||
;2006-01-06: Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt<ref>[[:Datei:Top1 2006-01-06 183028 001 RAID Setup.jpg|Bildschirmfoto vom RAID-Controller-Setup 2006-01-06]]</ref> | ;2006-01-06: Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt<ref>[[:Datei:Top1 2006-01-06 183028 001 RAID Setup.jpg|Bildschirmfoto vom RAID-Controller-Setup 2006-01-06]]</ref> | ||
;2006-01-07: Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main<ref>[[:Datei:Top1 2006-01-07 094803 001 TWX-Rack in Ffm.jpg|top1 im TWX-Rack in Ffm 2006-01-07]]</ref><ref>[[:Datei:Top1 2006-01-07 094956 001 TWX im RZ.jpg|Fotografieren im RZ verboten!]]</ref> gebracht | ;[[/2006-01-07|2006-01-07]]: Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main<ref>[[:Datei:Top1 2006-01-07 094803 001 TWX-Rack in Ffm.jpg|top1 im TWX-Rack in Ffm 2006-01-07]]</ref><ref>[[:Datei:Top1 2006-01-07 094956 001 TWX im RZ.jpg|Fotografieren im RZ verboten!]]</ref> gebracht. | ||
: Der Server havariert zum ersten Mal innerhalb von wenigen Stunden – um kurz nach 12 Uhr<ref>[[/2006-01-07|Havarie der ersten Platte um 12:11, gemerkt um 12:52 Uhr]]</ref> – zum ersten Mal mit dem verlust der ersten Festplatte. Ursache zunächst unbekannt, später stellt sich heraus, dass starke Vibrationen des gesamten Gehäuses, verursacht durch die fünf schnell drehenden ''40mm MagLev Lüfter''. | |||
:Auf die bereits im Rack untergebrachte [[:Datei:Top2 2006-06-06 201853 001 Installation im TWX Rack in Ffm.jpg|USB-Platte (Bild eines späteren Zeitpunkts)]] konnte zu mindest noch die Betriebssystem-Partitionen weggesichert werden. | |||
: Noch während der Datensicherung von /data fällt um ca 14:30 Uhr auch die bis dahin noch funktionierende 2. Festplatte komplett aus. Der Rechner ist ab diesem Zeitpunkt mehr ansprechbar, der Aufruf von dmesg benötigt ca 4min<ref>[[UUGRN:Server/top1/2006-01-08|dmesg nach dem Ausfall der 2. Platte benötigt ca 4min]]</ref>. | |||
: Abends wird ein erster Rettungsversuch vor Ort unternommen. Nach dem Reboot erkennt der RAID-Controller die zuvor havarierte – allerdings nicht defekt markierte – Platte nicht als defekt und baut aus beiden Platten wieder ein RAID-1. Mit fatalen Folgen, denn die Platten sind zu diesem Zeitpunkt ein paar Stunden auseinander (die erste defekte Platte fällt um ca 12 Uhr aus, der Reboot findet später am Abend statt). fsck reagiert extem genervt auf die sich ständig zufällig ändernden Informationen aus dem RAID-Controller. fsck versucht das Filesystem zu retten, verschiebt dabei allerdings einige sehr essenzielle Dateien, zB die master.passwd, Login ist nicht mehr möglich. Aufgrund der starken Beschädigung der UFS2-Dateisysteme muss der ganze Server neu installiert werden<ref>[[:UUGRN:Server/top1/2006-01-08|Erste Einschätzung der Lage am 2006-01-08]], irc-log</ref>. | |||
;2006-01-07 bis ca 2006-05-xx: (Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.<ref>Quelle fehlt</ref> | ;2006-01-07 bis ca 2006-05-xx: (Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.<ref>Quelle fehlt</ref> | ||
;2006-XX-XX: nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.<ref>Quelle fehlt</ref> Der Neue Server wird hier im Wiki unter {{top2}} dokumentiert. | ;2006-XX-XX: nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.<ref>Quelle fehlt</ref> Der Neue Server wird hier im Wiki unter {{top2}} dokumentiert. |
Version vom 27. April 2013, 01:52 Uhr
Die 2. Auflage von charm.uugrn.org basierte auf neu gekaufter Hardware der Pentium 4 Klasse.
[ Verein: Server:
• top4
• higgsBeta
]
[ Vereinsjails: mail
• mx1
• mysql
• lists
• wiki
• blogs
• pad
• proxy
• uugrn
• shell
• irc
• bnc
• news
• ftp
• fbsd9
• gitAlpha
• calendarAlpha
]
[ Mitglieder-Jails: shell
• mile
• rabe
• trickster
• che
• friedel
• shl
• hdi
• ltrn
]
Geschichte
- 2005-11-24
- Kauf des neuen Servers[1][2]
- 2005-12-06
- top1 wird installiert und konfiguriert.[3][4]
- 2006-01-06
- Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt[5]
- 2006-01-07
- Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main[6][7] gebracht.
- Der Server havariert zum ersten Mal innerhalb von wenigen Stunden – um kurz nach 12 Uhr[8] – zum ersten Mal mit dem verlust der ersten Festplatte. Ursache zunächst unbekannt, später stellt sich heraus, dass starke Vibrationen des gesamten Gehäuses, verursacht durch die fünf schnell drehenden 40mm MagLev Lüfter.
- Auf die bereits im Rack untergebrachte USB-Platte (Bild eines späteren Zeitpunkts) konnte zu mindest noch die Betriebssystem-Partitionen weggesichert werden.
- Noch während der Datensicherung von /data fällt um ca 14:30 Uhr auch die bis dahin noch funktionierende 2. Festplatte komplett aus. Der Rechner ist ab diesem Zeitpunkt mehr ansprechbar, der Aufruf von dmesg benötigt ca 4min[9].
- Abends wird ein erster Rettungsversuch vor Ort unternommen. Nach dem Reboot erkennt der RAID-Controller die zuvor havarierte – allerdings nicht defekt markierte – Platte nicht als defekt und baut aus beiden Platten wieder ein RAID-1. Mit fatalen Folgen, denn die Platten sind zu diesem Zeitpunkt ein paar Stunden auseinander (die erste defekte Platte fällt um ca 12 Uhr aus, der Reboot findet später am Abend statt). fsck reagiert extem genervt auf die sich ständig zufällig ändernden Informationen aus dem RAID-Controller. fsck versucht das Filesystem zu retten, verschiebt dabei allerdings einige sehr essenzielle Dateien, zB die master.passwd, Login ist nicht mehr möglich. Aufgrund der starken Beschädigung der UFS2-Dateisysteme muss der ganze Server neu installiert werden[10].
- 2006-01-07 bis ca 2006-05-xx
- (Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.[11]
- 2006-XX-XX
- nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.[12] Der Neue Server wird hier im Wiki unter top2offline dokumentiert.
Bilder
Quellen, Weblinks
- ↑ Der Server wurde geliefert, unboxing am 2005-11-24
- ↑ 28.11.2005: Der neue Server wird gekauft, auch Geschichte, Aktuell und Ausblick (Jailkonzept)
- ↑ Bildschirmfoto vom BIOS am 2005-12-06
- ↑ Das interne RAID wird gebaut 2005-12-06
- ↑ Bildschirmfoto vom RAID-Controller-Setup 2006-01-06
- ↑ top1 im TWX-Rack in Ffm 2006-01-07
- ↑ Fotografieren im RZ verboten!
- ↑ Havarie der ersten Platte um 12:11, gemerkt um 12:52 Uhr
- ↑ dmesg nach dem Ausfall der 2. Platte benötigt ca 4min
- ↑ Erste Einschätzung der Lage am 2006-01-08, irc-log
- ↑ Quelle fehlt
- ↑ Quelle fehlt