Geschichte/Server/top1: Unterschied zwischen den Versionen

Aus UUGRN
(→‎Geschichte: 2006-01-07: die erste große Havarie.)
K (Sdk verschob die Seite UUGRN:Server/top1 nach Geschichte/Server/top1)
 
(2 dazwischenliegende Versionen von einem anderen Benutzer werden nicht angezeigt)
Zeile 5: Zeile 5:
 
__TOC__
 
__TOC__
  
 +
== System ==
 +
;OS: FreeBSD 6.0-RELEASE #0: Thu Nov  3 09:36:13 UTC 2005
 +
 +
== Hardware ==
 +
;CPU: Intel(R) Pentium(R) 4 CPU 3.00GHz (2992.51-MHz 686-class CPU)
 +
;RAM: 2048 MB
 +
;HDD:
 +
ad4: 190782MB <Seagate ST3200826AS 3.03> at ata2-master SATA150
 +
ad6: 190782MB <Seagate ST3200826AS 3.03> at ata3-master SATA150
 +
ar0: 190782MB <Adaptec HostRAID RAID1> status: READY
 +
ar0: disk0 READY (master) using ad4 at ata2-master
 +
ar0: disk1 READY (mirror) using ad6 at ata3-master
 +
 +
;Details:
 +
: [[/dmesg]]
 +
: [[/pciconf-lvv]]
 +
  
 
== Geschichte ==
 
== Geschichte ==
Zeile 10: Zeile 27:
 
;2005-12-06: top1 wird installiert und konfiguriert.<ref>[[:Datei:Top1 2005-12-06 223202 001 BIOS.jpg|Bildschirmfoto vom BIOS am 2005-12-06]]</ref><ref>[[:Datei:Top1 2005-12-06 224243 001 RAID.jpg|Das interne RAID wird gebaut 2005-12-06]]</ref>
 
;2005-12-06: top1 wird installiert und konfiguriert.<ref>[[:Datei:Top1 2005-12-06 223202 001 BIOS.jpg|Bildschirmfoto vom BIOS am 2005-12-06]]</ref><ref>[[:Datei:Top1 2005-12-06 224243 001 RAID.jpg|Das interne RAID wird gebaut 2005-12-06]]</ref>
 
;2006-01-06: Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt<ref>[[:Datei:Top1 2006-01-06 183028 001 RAID Setup.jpg|Bildschirmfoto vom RAID-Controller-Setup 2006-01-06]]</ref>
 
;2006-01-06: Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt<ref>[[:Datei:Top1 2006-01-06 183028 001 RAID Setup.jpg|Bildschirmfoto vom RAID-Controller-Setup 2006-01-06]]</ref>
;2006-01-07: Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main<ref>[[:Datei:Top1 2006-01-07 094803 001 TWX-Rack in Ffm.jpg|top1 im TWX-Rack in Ffm 2006-01-07]]</ref><ref>[[:Datei:Top1 2006-01-07 094956 001 TWX im RZ.jpg|Fotografieren im RZ verboten!]]</ref> gebracht und havariert innerhalb von wenigen Stunden – etwa um 12 Uhr - zum ersten Mal mit dem Totalverlust einer Festplatte aufgrund starker Vibrationen des gesamten Gehäuses, verursacht durch die fünf ''40mm MagLev Lüfter'' auf full speed. Nach dem Reboot erkennt der RAID-Controller die zuvor havarierte – allerdings nicht defekt markierte – Platte nicht als defekt und baut aus beiden Platten wieder ein RAID-1. Mit fatalen Folgen, denn die Platten sind zu diesem Zeitpunkt ein paar Stunden auseinander (die erste defekte Platte fällt um ca 12 Uhr aus, der Reboot findet später am Abend statt). Das auf dem RAID liegende UFS2-Filesystem reagiert extem genervt auf die sich ständig zufällig ändernden Informationen aus dem RAID-Controller, mehrere Versuche enden in zufällig auftretenden Kernel-Panics. Ein Backup-Versuch der Filesysteme auf eine USB-Festplatte scheiterte. Aufgrund der starken Beschädigung der UFS2-Dateisysteme muss der ganze Server neu installiert werden.  
+
;[[/2006-01-07|2006-01-07]]: Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main<ref>[[:Datei:Top1 2006-01-07 094803 001 TWX-Rack in Ffm.jpg|top1 im TWX-Rack in Ffm 2006-01-07]]</ref><ref>[[:Datei:Top1 2006-01-07 094956 001 TWX im RZ.jpg|Fotografieren im RZ verboten!]]</ref> gebracht.
 +
: Der Server havariert zum ersten Mal innerhalb von wenigen Stunden – um kurz nach 12 Uhr<ref>[[/2006-01-07|Havarie der ersten Platte um 12:11, gemerkt um 12:52 Uhr]]</ref> – zum ersten Mal mit dem verlust der ersten Festplatte. Ursache zunächst unbekannt, später stellt sich heraus, dass starke Vibrationen des gesamten Gehäuses, verursacht durch die fünf schnell drehenden ''40mm MagLev Lüfter''.
 +
:Auf die bereits im Rack untergebrachte [[:Datei:Top2 2006-06-06 201853 001 Installation im TWX Rack in Ffm.jpg|USB-Platte (Bild eines späteren Zeitpunkts)]] konnte zu mindest noch die Betriebssystem-Partitionen weggesichert werden.
 +
: Noch während der Datensicherung von /data fällt um ca 14:30 Uhr auch die bis dahin noch funktionierende 2. Festplatte komplett aus. Der Rechner ist ab diesem Zeitpunkt mehr ansprechbar, der Aufruf von dmesg benötigt ca 4min<ref>[[UUGRN:Server/top1/2006-01-08|dmesg nach dem Ausfall der 2. Platte benötigt ca 4min]]</ref>.
 +
: Abends wird ein erster Rettungsversuch vor Ort unternommen. Nach dem Reboot erkennt der RAID-Controller die zuvor havarierte – allerdings nicht defekt markierte – Platte nicht als defekt und baut aus beiden Platten wieder ein RAID-1. Mit fatalen Folgen, denn die Platten sind zu diesem Zeitpunkt ein paar Stunden auseinander (die erste defekte Platte fällt um ca 12 Uhr aus, der Reboot findet später am Abend statt). fsck reagiert extem genervt auf die sich ständig zufällig ändernden Informationen aus dem RAID-Controller. fsck versucht das Filesystem zu retten, verschiebt dabei allerdings einige sehr essenzielle Dateien, zB die master.passwd, Login ist nicht mehr möglich. Aufgrund der starken Beschädigung der UFS2-Dateisysteme muss der ganze Server neu installiert werden<ref>[[:UUGRN:Server/top1/2006-01-08|Erste Einschätzung der Lage am 2006-01-08]], irc-log</ref>.  
 
;2006-01-07 bis ca 2006-05-xx: (Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.<ref>Quelle fehlt</ref>
 
;2006-01-07 bis ca 2006-05-xx: (Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.<ref>Quelle fehlt</ref>
 
;2006-XX-XX: nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.<ref>Quelle fehlt</ref> Der Neue Server wird hier im Wiki unter {{top2}} dokumentiert.
 
;2006-XX-XX: nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.<ref>Quelle fehlt</ref> Der Neue Server wird hier im Wiki unter {{top2}} dokumentiert.

Aktuelle Version vom 9. April 2022, 14:46 Uhr

Die 2. Auflage von charm.uugrn.org basierte auf neu gekaufter Hardware der Pentium 4 Klasse.

[ Verein: Server: • top4higgsBeta ]
[ Vereinsjails: mailmx1mysqllistswikiblogspadproxyuugrnshellircbncnewsftpfbsd9gitAlphacalendarAlpha ]
[ Mitglieder-Jails: shellmilerabetricksterchefriedelshlhdiltrn ]

System[Bearbeiten]

OS
FreeBSD 6.0-RELEASE #0: Thu Nov 3 09:36:13 UTC 2005

Hardware[Bearbeiten]

CPU
Intel(R) Pentium(R) 4 CPU 3.00GHz (2992.51-MHz 686-class CPU)
RAM
2048 MB
HDD
ad4: 190782MB <Seagate ST3200826AS 3.03> at ata2-master SATA150
ad6: 190782MB <Seagate ST3200826AS 3.03> at ata3-master SATA150
ar0: 190782MB <Adaptec HostRAID RAID1> status: READY
ar0: disk0 READY (master) using ad4 at ata2-master
ar0: disk1 READY (mirror) using ad6 at ata3-master
Details
/dmesg
/pciconf-lvv


Geschichte[Bearbeiten]

2005-11-24
Kauf des neuen Servers[1][2]
2005-12-06
top1 wird installiert und konfiguriert.[3][4]
2006-01-06
Letzte Vorbereitungen finden statt, das RAID wird nochmal gecheckt[5]
2006-01-07
Der Sever wird am Samstag morgen ca 9 Uhr ins Rechenzentrum in Frankfurt/Main[6][7] gebracht.
Der Server havariert zum ersten Mal innerhalb von wenigen Stunden – um kurz nach 12 Uhr[8] – zum ersten Mal mit dem verlust der ersten Festplatte. Ursache zunächst unbekannt, später stellt sich heraus, dass starke Vibrationen des gesamten Gehäuses, verursacht durch die fünf schnell drehenden 40mm MagLev Lüfter.
Auf die bereits im Rack untergebrachte USB-Platte (Bild eines späteren Zeitpunkts) konnte zu mindest noch die Betriebssystem-Partitionen weggesichert werden.
Noch während der Datensicherung von /data fällt um ca 14:30 Uhr auch die bis dahin noch funktionierende 2. Festplatte komplett aus. Der Rechner ist ab diesem Zeitpunkt mehr ansprechbar, der Aufruf von dmesg benötigt ca 4min[9].
Abends wird ein erster Rettungsversuch vor Ort unternommen. Nach dem Reboot erkennt der RAID-Controller die zuvor havarierte – allerdings nicht defekt markierte – Platte nicht als defekt und baut aus beiden Platten wieder ein RAID-1. Mit fatalen Folgen, denn die Platten sind zu diesem Zeitpunkt ein paar Stunden auseinander (die erste defekte Platte fällt um ca 12 Uhr aus, der Reboot findet später am Abend statt). fsck reagiert extem genervt auf die sich ständig zufällig ändernden Informationen aus dem RAID-Controller. fsck versucht das Filesystem zu retten, verschiebt dabei allerdings einige sehr essenzielle Dateien, zB die master.passwd, Login ist nicht mehr möglich. Aufgrund der starken Beschädigung der UFS2-Dateisysteme muss der ganze Server neu installiert werden[10].
2006-01-07 bis ca 2006-05-xx
(Genauer ausformulieren): Nach einigen weiteren Havarien der Festplatten, die auf sehr stark vibrierende Lüfter zurückzuführen sind, was auch nach Tausch ebenjener nicht behoben war, wird der Server zum Hersteller zwecks Überprüfung zurückgeschickt.[11]
2006-XX-XX
nach einigem Hin und Her wird der Server final zurückgegeben und durch einen gleichwertigen Server in einem höherwertigen 2U-Gehäuse getauscht.[12] Der Neue Server wird hier im Wiki unter top2offline dokumentiert.

Bilder[Bearbeiten]

Quellen, Weblinks[Bearbeiten]