Veranstaltungen/2009-12-04 ZFS-Workshop/Etwas Statistik

Aus UUGRN

Früher ging man von riesigen Zahlen aus, und "das passiert statistisch nie" - heute sind wir bei "nie" angekommen.

einige mögliche Fehler[Bearbeiten]

Es gibt drei unterschiedliche Fehler, die aufkommen können...

  • Disk-Errors
    • höhere Dichte an Daten (bits per square inch)
    • Festplatten Firmware enthält Fehler (im Schnitt 400.000 lines of code)
    • z.B. Phantom-Writes, misdirected writes
    • "bit spillover" (die "Spur" wird nicht gehalten, und der Kopf schreibt falsch)
    • single bit errors (~10% aller Fehler)
    • latent sector oder page errors (~10% aller Fehler)
    • korrupte Daten über mehrere Blöcke (~80% aller Fehler)
      • silent corruption
      • transient corruption (geht, geht nicht, geht, geht nicht...)


  • RAID-Errors
    • ein RAID schützt nicht vor korrupten Daten
    • ein RAID schützt nur vor defekten Festplatten
    • mögliche Fehler in der RAID-Firmware
    • RAID 5 "write-hole"


  • Memory-Errors
    • ECC vs. non-ECC
    • double-bit errors werden auch von ECC nicht erkannt
    • Fehler werden nicht erkannt und damit Daten falsch auf die Platten geschrieben


... und alle enden im Desaster!

Im Schnitt: eine (1!) korrupte Datei auf 1500 (!) Dateien!

Nur um das mal vor Augen zu führen...:

shl@shell /usr/ports % ls -1R | grep -v ./ | wc -l
141448

141448 Dateien enthalten also statistisch 94 defekte Dateien!

Nein, so schlecht ist die Welt nicht. Aber das sind die Größenordnungen in denen wir uns heute bewegen!



Quellen:

  • Video SunDay 2009, Erlangen, Ralph Hinsche, http://www.video.uni-erlangen.de/cgi-bin/index.pl/Clip/619
    • Paper "Data Integrity", Bernd Panzer-Steindel, CERN April 2007
    • Dissertation "Iron File Systems", Vijayan Prabhakaran, 2006
    • "Analysing the Impact of File Formats on Data Integrity", Volker Heydegger, 2008
  • diverse Blogs zum Thema Data Integrity