Veranstaltungen/2009-12-04 ZFS-Workshop/Etwas Statistik
Aus UUGRN
Früher ging man von riesigen Zahlen aus, und "das passiert statistisch nie" - heute sind wir bei "nie" angekommen.
einige mögliche Fehler[Bearbeiten]
Es gibt drei unterschiedliche Fehler, die aufkommen können...
- Disk-Errors
- höhere Dichte an Daten (bits per square inch)
- Festplatten Firmware enthält Fehler (im Schnitt 400.000 lines of code)
- z.B. Phantom-Writes, misdirected writes
- "bit spillover" (die "Spur" wird nicht gehalten, und der Kopf schreibt falsch)
- single bit errors (~10% aller Fehler)
- latent sector oder page errors (~10% aller Fehler)
- korrupte Daten über mehrere Blöcke (~80% aller Fehler)
- silent corruption
- transient corruption (geht, geht nicht, geht, geht nicht...)
- RAID-Errors
- ein RAID schützt nicht vor korrupten Daten
- ein RAID schützt nur vor defekten Festplatten
- mögliche Fehler in der RAID-Firmware
- RAID 5 "write-hole"
- Memory-Errors
- ECC vs. non-ECC
- double-bit errors werden auch von ECC nicht erkannt
- Fehler werden nicht erkannt und damit Daten falsch auf die Platten geschrieben
... und alle enden im Desaster!
Im Schnitt: eine (1!) korrupte Datei auf 1500 (!) Dateien!
Nur um das mal vor Augen zu führen...:
shl@shell /usr/ports % ls -1R | grep -v ./ | wc -l 141448
141448 Dateien enthalten also statistisch 94 defekte Dateien!
Nein, so schlecht ist die Welt nicht. Aber das sind die Größenordnungen in denen wir uns heute bewegen!
Quellen:
- Video SunDay 2009, Erlangen, Ralph Hinsche, http://www.video.uni-erlangen.de/cgi-bin/index.pl/Clip/619
- Paper "Data Integrity", Bernd Panzer-Steindel, CERN April 2007
- Dissertation "Iron File Systems", Vijayan Prabhakaran, 2006
- "Analysing the Impact of File Formats on Data Integrity", Volker Heydegger, 2008
- diverse Blogs zum Thema Data Integrity