Diskussion:Doubletten finden
Aus UUGRN
Via http://brad.livejournal.com/2277494.html habe ich noch audmd5 gefunden, das auch dann noch funktioniert, wenn von zwei Kopien derselben Datei die eine andere IDv1/2-Tags hat als die andere. Hier ist man also nicht darauf angewiesen, dass die zu findenden Dubletten binäridentisch sind. --Dagobart 21:58, 20. Mär. 2009 (UTC)
Kollisions Sicherheit[Bearbeiten]
Wie sieht es mit kollionssicherheit aus? Man sollte definitive noch ein cmp laufen lassen um wirklich fest zu stellen ob es sich nicht um Kollisionen handelt. wenn man hierzu auch cmp benutzt haelst sich ggf. ein nicht cryptographiches verfahren benutzen das wesentlich schneller summen berechnen kann. --ph3-der-loewe 14:47, 10. Mai 2009 (UTC)
- Das ganze lässt sich auch ohne weiteres mit einem anderen Hashverfahren realisieren, z.B. sha256.
- Der *Punkt* an diesem Artikel ist die Art und Weise, mit der man diese Doublettensuche grundsätzlich auf Flatfiles ausführen kann, d.h. die praktische Anwendung von Unix-Standardtools.
- Kollisionen halte ich darüber hinaus für unwahrscheinlich, selbst bei md5, denn es gibt keinen "Angriffsvektor" auf das System. md5() wird hier einfach nur als Hilfskomponente angesehen, nicht als Sicherheitskomponente, weil Security hier keine Rolle spielt. Und entsprechend ist auch Paranoia wenig angebracht.
- --rabe 15:25, 13. Mai 2009 (UTC)
- Wenn es dir um die allgemeine benutzung von einer Shell geht bitte ich das im Artikel klar zu stellen.
- Ansonsten zu MD5: Mir persoenlich sind mittlerweile zwei mal Kollisionen ausersehen passiert. Das eine davon waren als bsp. zwei voellig verscheinde Mails. Aufgefallen wegen gleicher Message-ID. Kollisionen sind also durchaus moeglich. Die Frage ist welche wie Viele verschiedene Hash werte den wirklich erzeugt werden, und diese Zahl ist deutlich kleiner als die lange des Hashes.
- Zum anderen finde ich das MD5 generell abgeschafft gehoert: es ist nicht foerderlich leuten die weniger ahnung haben zu sagen: MD5 ist schlecht auser in diesem und irgend nem anderen Falle. Lieber Sagen: Benutz doch ABC... Unbhaenig vom verwendeten Hash wuerde ich dennoch in diesem speziellen falle mit cmp rueber laufen.
- Final sei noch erwaent das MD5 keines wegs besonders schnell ist, bsp. kann TIGER wesentlich (je nach implemntirung sogar mehrfach!) schneller sein.
- --ph3-der-loewe 15:44, 13. Mai 2009 (UTC)
- Es ist *vollkommen* *egal* welches Hashverfahren man zur Bildung eines Schlüssels verwendet. Selbst wenn md5 langsam ist - es ist in einem normalen PC idR schneller als die Platten Daten liefern können, es läuft schon jetzt IO-bound. Einen schnelleren Hash zu verwenden bringt hier genau keine Vorteile.
- Ob md5 nun deine persönliche Abneigung genießt oder nicht: es geht nicht um md5!
- Und einen Vergleich mit cmp hinterher zu schicken ist *nur* für den Fall relevant, wenn Du 2 identische Hashes gefunden hast und sicher sein willst. Es ist allerdings nicht sonderlich förderlich für die Performance (um die es Dir scheinbar auch geht), denn dann muss ich alle gefundenen Doubletten *nochmal* einlesen, was nochmal Zeit kostet.
- Du kannst es besser, dann mach Du es einfach besser.
- --rabe 08:46, 15. Mai 2009 (UTC)