Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-2752
Full metadata record
DC FieldValueLanguage
dc.contributor.authorMeister, Dirk
dc.date.accessioned2013-07-25T09:03:42Z
dc.date.available2013-07-25T11:03:42Z
dc.date.issued2013
dc.identifier.urihttps://openscience.ub.uni-mainz.de/handle/20.500.12030/2754-
dc.description.abstractData deduplication describes a class of approaches that reduce the storage capacity needed to store data or the amount of data that has to be transferred over a network. These approaches detect coarse-grained redundancies within a data set, e.g. a file system, and remove them.rnrnOne of the most important applications of data deduplication are backup storage systems where these approaches are able to reduce the storage requirements to a small fraction of the logical backup data size.rnThis thesis introduces multiple new extensions of so-called fingerprinting-based data deduplication. It starts with the presentation of a novel system design, which allows using a cluster of servers to perform exact data deduplication with small chunks in a scalable way.rnrnAfterwards, a combination of compression approaches for an important, but often over- looked, data structure in data deduplication systems, so called block and file recipes, is introduced. Using these compression approaches that exploit unique properties of data deduplication systems, the size of these recipes can be reduced by more than 92% in all investigated data sets. As file recipes can occupy a significant fraction of the overall storage capacity of data deduplication systems, the compression enables significant savings.rnrnA technique to increase the write throughput of data deduplication systems, based on the aforementioned block and file recipes, is introduced next. The novel Block Locality Caching (BLC) uses properties of block and file recipes to overcome the chunk lookup disk bottleneck of data deduplication systems. This chunk lookup disk bottleneck either limits the scalability or the throughput of data deduplication systems. The presented BLC overcomes the disk bottleneck more efficiently than existing approaches. Furthermore, it is shown that it is less prone to aging effects.rnrnFinally, it is investigated if large HPC storage systems inhibit redundancies that can be found by fingerprinting-based data deduplication. Over 3 PB of HPC storage data from different data sets have been analyzed. In most data sets, between 20 and 30% of the data can be classified as redundant. According to these results, future work in HPC storage systems should further investigate how data deduplication can be integrated into future HPC storage systems.rnrnThis thesis presents important novel work in different area of data deduplication re- search.en_GB
dc.description.abstractIn dieser Doktorarbeit werden mehrere Forschungsergebnisse über verschiedene Aspekte von Datendeduplizierungssystemen vorgestellt. Datendeduplizierung beschreibt eine Klasse von Ansätzen, die es erlauben, die zur Speicherung von Daten notwendig Speicherkapazität zu reduzieren. Datendeduplizierungstechniken werden weiterhin eingesetzt, um die Menge der Daten, die über ein Netzwerk transferiert werden müssen, zu reduzieren. Diese Ansätze erkennen grob-körnige Redundanzen innerhalb einer Datenmenge und entfernen diese.rnrnEin wichtiges Anwendungsgebiet für Datendeduplizierungstechniken sind Speichersysteme zur Datensicherung, da hier die zu speichernde Datenmenge auf einen kleinen Teil der logischen Backupdaten reduziert werden kann. Dieses ermöglicht oftmals erhebliche Kosteneinsparungen im Betrieb von Datensicherungssystemen.rnrnIn dieser Arbeit werden mehrere neue Techniken für Fingerabdruck-basierende Datendeduplizierungssysteme vorgestellt. Die Arbeit startet mit der Vorstellung eines neuartigen Designs, um einen Cluster von Rechnern zu verwenden, der exakte Deduplizierung mit kleinen Chunks ermöglicht. Anschließend wird eine Kombination von Komprimierungstechniken eingeführt, die die Größe einer wichtigen und speicher-intensiven Datenstruktur von Datendeduplizierungssystemen, den sogenannten Block- und Dateirezepten, reduzieren.rnrnEine weitere neuartige Technik, die Block- und Dateirezepte verwendet, wird als nächstes vorgestellt. Das Blocklokalitätscaching (BLC) verwendet Eigenschaften von diesen Rezepten um den Festplattenflaschenhals von Datendeduplizierungssystemen zu über- winden. Dieser Flaschenhals limitiert entweder die Skalierbarkeit oder den Datendurchsatz von Datendeduplizierungssystemen. Der BLC-Ansatz ist dabei effizienter als existier- ende Ansätze. Es wird weiterhin gezeigt, dass der BLC-Ansatz weniger anfällig für Alterungserscheinungen als existierende Ansätze ist. Daher nimmt mit dem BLC-Ansatz der Durchsatz auch bei langlebigen Datendeduplizierungssystemen nicht ab.rnrnIm letzten Teil dieser Arbeit wird untersucht, ob die Speichersysteme von großen Hochleistungsrechnern (HPC) Redundanzen von der Art beinhaltet, die von Fingerabdruck-basierender Datendeduplizierung vermieden werden können. Dazu wurden mehr als 3 PB Daten aus verschiedenen Rechenzentren analysiert. Das Ergebnis lässt darauf schließen, dass in den meisten Rechenzentren zwischen 20 und 30% der Daten als redundant klassifiziert werden können. Dieses zeigt, dass die zukünftige Forschung im Bereich der Speichersysteme von Hochleistungsrechensystemen beinhalten sollte, wie Datendeduplizierung in diesen Systemen eingesetzt werden kann.de_DE
dc.language.isoeng
dc.rightsin Copyrightde_DE
dc.rights.urihttps://rightsstatements.org/vocab/InC/1.0/
dc.subject.ddc004 Informatikde_DE
dc.subject.ddc004 Data processingen_GB
dc.titleAdvanced data deduplication techniques and their applicationen_GB
dc.typeDissertationde_DE
dc.identifier.urnurn:nbn:de:hebis:77-34881
dc.identifier.doihttp://doi.org/10.25358/openscience-2752-
jgu.type.dinitypedoctoralThesis
jgu.type.versionOriginal worken_GB
jgu.type.resourceText
jgu.description.extent240 S.
jgu.organisation.departmentFB 08 Physik, Mathematik u. Informatik-
jgu.organisation.year2013
jgu.organisation.number7940-
jgu.organisation.nameJohannes Gutenberg-Universität Mainz-
jgu.rights.accessrightsopenAccess-
jgu.organisation.placeMainz-
jgu.subject.ddccode004
opus.date.accessioned2013-07-25T09:03:42Z
opus.date.modified2013-07-25T10:52:04Z
opus.date.available2013-07-25T11:03:42
opus.subject.dfgcode00-000
opus.subject.otherDatendeduplizierung Kompressionde_DE
opus.subject.otherData Deduplication Compressionen_GB
opus.organisation.stringFB 08: Physik, Mathematik und Informatik: Institut für Informatikde_DE
opus.identifier.opusid3488
opus.institute.number0805
opus.metadataonlyfalse
opus.type.contenttypeDissertationde_DE
opus.type.contenttypeDissertationen_GB
Appears in collections:JGU-Publikationen

Files in This Item:
File SizeFormat 
3488.pdf12.25 MBAdobe PDFView/Open