Veranstaltungen/2009-12-04 ZFS-Workshop/Etwas Statistik
		
		
		
		
		
		Zur Navigation springen
		Zur Suche springen
		
		
	
Früher ging man von riesigen Zahlen aus, und "das passiert statistisch nie" - heute sind wir bei "nie" angekommen.
einige mögliche Fehler
Es gibt drei unterschiedliche Fehler, die aufkommen können...
- Disk-Errors
- höhere Dichte an Daten (bits per square inch)
 - Festplatten Firmware enthält Fehler (im Schnitt 400.000 lines of code)
 - z.B. Phantom-Writes, misdirected writes
 - "bit spillover" (die "Spur" wird nicht gehalten, und der Kopf schreibt falsch)
 - single bit errors (~10% aller Fehler)
 - latent sector oder page errors (~10% aller Fehler)
 - korrupte Daten über mehrere Blöcke (~80% aller Fehler)
- silent corruption
 - transient corruption (geht, geht nicht, geht, geht nicht...)
 
 
 
- RAID-Errors
- ein RAID schützt nicht vor korrupten Daten
 - ein RAID schützt nur vor defekten Festplatten
 - mögliche Fehler in der RAID-Firmware
 - RAID 5 "write-hole"
 
 
- Memory-Errors
- ECC vs. non-ECC
 - double-bit errors werden auch von ECC nicht erkannt
 - Fehler werden nicht erkannt und damit Daten falsch auf die Platten geschrieben
 
 
... und alle enden im Desaster!
Im Schnitt: eine (1!) korrupte Datei auf 1500 (!) Dateien!
Nur um das mal vor Augen zu führen...:
shl@shell /usr/ports % ls -1R | grep -v ./ | wc -l 141448
141448 Dateien enthalten also statistisch 94 defekte Dateien!
Nein, so schlecht ist die Welt nicht. Aber das sind die Größenordnungen in denen wir uns heute bewegen!
Quellen:
- Video SunDay 2009, Erlangen, Ralph Hinsche, http://www.video.uni-erlangen.de/cgi-bin/index.pl/Clip/619
- Paper "Data Integrity", Bernd Panzer-Steindel, CERN April 2007
 - Dissertation "Iron File Systems", Vijayan Prabhakaran, 2006
 - "Analysing the Impact of File Formats on Data Integrity", Volker Heydegger, 2008
 
 - diverse Blogs zum Thema Data Integrity