Veranstaltungen/2009-12-04 ZFS-Workshop/Etwas Statistik

Früher ging man von riesigen Zahlen aus, und "das passiert statistisch nie" - heute sind wir bei "nie" angekommen.

einige mögliche Fehler

Es gibt drei unterschiedliche Fehler, die aufkommen können...

RAID-Errors
- ein RAID schützt nicht vor korrupten Daten
- ein RAID schützt nur vor defekten Festplatten
- mögliche Fehler in der RAID-Firmware
- RAID 5 "write-hole"

Memory-Errors
- ECC vs. non-ECC
- double-bit errors werden auch von ECC nicht erkannt
- Fehler werden nicht erkannt und damit Daten falsch auf die Platten geschrieben

... und alle enden im Desaster!

Im Schnitt: eine (1!) korrupte Datei auf 1500 (!) Dateien!

Nur um das mal vor Augen zu führen...:

shl@shell /usr/ports % ls -1R | grep -v ./ | wc -l
141448

141448 Dateien enthalten also statistisch 94 defekte Dateien!

Nein, so schlecht ist die Welt nicht. Aber das sind die Größenordnungen in denen wir uns heute bewegen!

Quellen:

Video SunDay 2009, Erlangen, Ralph Hinsche, http://www.video.uni-erlangen.de/cgi-bin/index.pl/Clip/619
- Paper "Data Integrity", Bernd Panzer-Steindel, CERN April 2007
- Dissertation "Iron File Systems", Vijayan Prabhakaran, 2006
- "Analysing the Impact of File Formats on Data Integrity", Volker Heydegger, 2008
diverse Blogs zum Thema Data Integrity