UUGRN:Server/top1

Aus UUGRN
Wechseln zu: Navigation, Suche

Die 2. Auflage von charm.uugrn.org basierte auf neu gekaufter Hardware der Pentium 4 Klasse.

Systeme

[ Verein: Server: • top4higgsBeta ]
[ Vereinsjails: mailmx1mysqllistswikiblogspadproxyuugrnshellircbncnewsftpfbsd9gitAlphacalendarAlpha ]
[ Mitglieder-Jails: shellmilerabetricksterchefriedelshlhdiltrn ]

System[Bearbeiten]

OS
FreeBSD 6.0-RELEASE #0: Thu Nov 3 09:36:13 UTC 2005

Hardware[Bearbeiten]

CPU
Intel(R) Pentium(R) 4 CPU 3.00GHz (2992.51-MHz 686-class CPU)
RAM
2048 MB
HDD
ad4: 190782MB <Seagate ST3200826AS 3.03> at ata2-master SATA150
ad6: 190782MB <Seagate ST3200826AS 3.03> at ata3-master SATA150
ar0: 190782MB <Adaptec HostRAID RAID1> status: READY
ar0: disk0 READY (master) using ad4 at ata2-master
ar0: disk1 READY (mirror) using ad6 at ata3-master
Details
/dmesg
/pciconf-lvv


Geschichte[Bearbeiten]

2005-11-24
Kauf des neuen Servers[1][2]
2005-12-06
top1 wird installiert und konfiguriert.[3][4]
2006-01-06
Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt[5]
2006-01-07
Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main[6][7] gebracht.
Der Server havariert zum ersten Mal innerhalb von wenigen Stunden – um kurz nach 12 Uhr[8] – zum ersten Mal mit dem verlust der ersten Festplatte. Ursache zunächst unbekannt, später stellt sich heraus, dass starke Vibrationen des gesamten Gehäuses, verursacht durch die fünf schnell drehenden 40mm MagLev Lüfter.
Auf die bereits im Rack untergebrachte USB-Platte (Bild eines späteren Zeitpunkts) konnte zu mindest noch die Betriebssystem-Partitionen weggesichert werden.
Noch während der Datensicherung von /data fällt um ca 14:30 Uhr auch die bis dahin noch funktionierende 2. Festplatte komplett aus. Der Rechner ist ab diesem Zeitpunkt mehr ansprechbar, der Aufruf von dmesg benötigt ca 4min[9].
Abends wird ein erster Rettungsversuch vor Ort unternommen. Nach dem Reboot erkennt der RAID-Controller die zuvor havarierte – allerdings nicht defekt markierte – Platte nicht als defekt und baut aus beiden Platten wieder ein RAID-1. Mit fatalen Folgen, denn die Platten sind zu diesem Zeitpunkt ein paar Stunden auseinander (die erste defekte Platte fällt um ca 12 Uhr aus, der Reboot findet später am Abend statt). fsck reagiert extem genervt auf die sich ständig zufällig ändernden Informationen aus dem RAID-Controller. fsck versucht das Filesystem zu retten, verschiebt dabei allerdings einige sehr essenzielle Dateien, zB die master.passwd, Login ist nicht mehr möglich. Aufgrund der starken Beschädigung der UFS2-Dateisysteme muss der ganze Server neu installiert werden[10].
2006-01-07 bis ca 2006-05-xx
(Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.[11]
2006-XX-XX
nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.[12] Der Neue Server wird hier im Wiki unter top2offline dokumentiert.

Bilder[Bearbeiten]

Quellen, Weblinks[Bearbeiten]

  1. Der Server wurde geliefert, unboxing am 2005-11-24
  2. 28.11.2005: Der neue Server wird gekauft, auch Geschichte, Aktuell und Ausblick (Jailkonzept)
  3. Bildschirmfoto vom BIOS am 2005-12-06
  4. Das interne RAID wird gebaut 2005-12-06
  5. Bildschirmfoto vom RAID-Controller-Setup 2006-01-06
  6. top1 im TWX-Rack in Ffm 2006-01-07
  7. Fotografieren im RZ verboten!
  8. Havarie der ersten Platte um 12:11, gemerkt um 12:52 Uhr
  9. dmesg nach dem Ausfall der 2. Platte benötigt ca 4min
  10. Erste Einschätzung der Lage am 2006-01-08, irc-log
  11. Quelle fehlt
  12. Quelle fehlt