| |
| |
|
| |
Keine Zeit auf das Booklet zu warten? Rufen Sie Quantum jetzt unter :+49
89 94303-0 an, und erfahren Sie, wie die Datendeduplizierung Ihr Backup
verbessern kann.
Top-10-Fragen und Antworten,
die zu Datendeduplizierung gestellt werden
1. Was bedeutet der Begriff "Datendeduplizierung"?
Es gibt in der Industrie im Moment noch keine spezifische Definition,
aber das wird sich bald ändern. Man einigt sich generell darauf,
dass es sich dabei um ein System handelt, das die Speicherung redundanter
Daten überflüssig macht. Und meistens beschränkt man sich
sich bei dieser Definition auf Systeme, die auf Blockebene statt auf
Dateiebene nach duplizierten Daten suchen. Das ist ein wichtiges Merkmal.
Stellen Sie sich hierzu 20 Kopien einer Präsentation vor, von denen
jede eine unterschiedliche Titelseite hat - einem Datenreduktionssystem
auf Dateiebene erscheinen die Kopien als 20 völlig unterschiedliche
Dateien. Beim Ansatz auf Blockebene hingegen würden die Gemeinsamkeiten
der Kopien erkannt und weitaus weniger Speicherplatz benötigt.
Bei der leistungsstärksten Art der Datendeduplizierung wird ein
Ansatz verwendet, der auf Blöcken variabler Länge beruht. Produkte,
die diesen Ansatz verwenden, untersuchen eine Sequenz von Daten und teilen
sie in Blöcke variabler Länge auf. Wird ein wiederholter Block
erkannt, legt das Produkt einen auf den Originalblock verweisenden Pointer
ab, statt den Block erneut zu speichern. Da der Pointer weniger Platz
in Anspruch nimmt als der Block, können Sie Speicherplatz einsparen.
Bei Backups, in denen dieselben Blöcke immer wieder erscheinen,
können Benutzer normalerweise das 10 bis 50-fache der Daten speichern
als auf einer konventionellen Festplatte.
2. Wie kann Datendeduplizierung auf Replikation angewendet werden?
Bei der Replikation handelt es sich um einen Vorgang, bei dem duplizierte
Daten von einer Quelle an ein Ziel übertragen werden. Werden alle
Backup-Daten repliziert, ist zum Ausführen der Arbeit ein relativ
hochperformantes Netzwerk erforderlich. Bei der Deduplizierung hingegen
sucht das Quellsystem - das System, das die Daten überträgt
- im Replikationsstrom nach duplizierten Blöcken. Wenn es bereits
einen Block an das Zielsystem übertragen hat, muss es diesen nicht
noch einmal übertragen. Es sendet stattdessen einfach einen Pointer.
Da der Pointer viel kleiner als der Block ist, werden zur Replikation
Netzwerke mit einer wesentlich geringeren Bandbreite benötigt.
3. Für welche Anwendungen kann Datendeduplizierung eingesetzt
werden? Gibt es Anwendungen, bei denen sie nicht funktioniert?
Wenn Sie für das Backup eingesetzt wird, unterstützt sie alle
Anwendungen - E-Mail, Datenbanken, Print- und File-Services etc. - sowie
alle qualifizierten Backup-Pakete. Bei der Deduplizierung für variable
Blocklängen können für alle Anwendungen im Backup-Strom
redundante Blöcke gefunden werden. Für bestimmte Dateitypen
- z. B. einige Rich Media-Dateien – entstehen beim ersten Deduplizierungslauf
nur wenig Vorteile, da die Anwendungen, die die Dateien schreiben, die
Redundanz bereits eliminieren. Werden für diese Dateien jedoch mehrmals
Backups durchgeführt, oder werden Backups durchgeführt, nachdem
kleine Änderungen vorgenommen wurden, kann die Deduplizierung bedeutende
Kapazitätsvorteile bieten.
4. Gibt es eine Möglichkeit, festzustellen, wie hoch der
Deduplizierungsvorteil für meine Daten sein wird?
Es gibt hier vier Hauptvariablen. In welchem Ausmaß sich die Daten ändern
(d. h. wie viele neue Blöcke eingeführt werden), wie gut sie
sich komprimieren lassen, welche Backup-Methode Sie verwenden (z. B.
voll oder inkrementell) und für wie lange Sie die Daten behalten
möchten. Einige Hersteller - einer davon ist Quantum - bieten Größenrechner
an mit denen Sie die Effekte einschätzen können.
5. Worin besteht der Vorteil bei der Verwendung von Datendeduplizierung?
Es sind hier zwei Vorteile zu nennen. 1) Durch die Datendeduplizierungs-Technologie
sind Sie in der Lage, wesentlich mehr Backup-Daten auf einer Festplatte
zu speichern, als dies mit einem beliebigen herkömmlichen Festplatten-Backup-System
möglich wäre. Dies bedeutet, dass Sie mehr Daten schnell von
Platte wiederherstellen können. 2) Standard-WANs und Replikation
können für die DR-Sicherung genutzt werden, was bedeutet, dass
für den Anwender der direkte Umgang mit Bändern reduziert wird.
6. Was ist Datendeduplizierung mit Blöcken variabler Länge?
Wie erhält man Blöcke variabler Länge, und wöfür
sind diese nützlich?
Es einfacher, sich die Alternative vorzustellen. Wenn Sie einen Datenstrom
in Segmente festgelegter Längen unterteilen würden, würden
sich immer dann, wenn sich an einem bestimmten Punkt etwas verändert,
auch alle Blöcke stromabwärts verändern. Durch das System
der Blöcke variabler Längen wird einigen Segmenten ermöglicht,
sich zu verkleinern oder zu vergrößern, während die stromabwärts
gelegenen Blöcke unverändert bleiben. Hierdurch wird die Fähigkeit
des Systems doppelte Datensegmente zu finden, erhöht und bedeutend
mehr Speicherplatz eingespart.
7. Sind die Daten noch sicher, nachdem sie in Blöcke aufgeteilt
wurden? Wie können sie wiederhergestellt werden?
Die Technologie der Verwendung von Pointern zum Referenzieren einer Sequenz
von Datensegmenten wird in der Industrie seit Jahrzehnten standardmäßig
eingesetzt. Sie verwenden diese Technologie tagtäglich, und sie
ist sicher. Immer wenn eine große Datei auf die Festplatte geschrieben
wird, wird sie auf verschiedenen Festplattensektoren in Blöcken
gespeichert und zwar in einer Reihenfolge, die auf Grundlage des verfügbaren
Speicherplatzes festgelegt wird. Wenn Sie eine Datei "lesen",
lesen Sie in Wirklichkeit die in den Metadaten einer Datei enthaltenen
Pointer, die auf die verschiedenen Sektoren in richtiger Reihenfolge
verweisen. Die auf Blöcken basierende Datendeduplizierung wendet
eine ähnliche Technologie an. Außerdem integrieren die Anbieter
von Deduplizierung normalerweise eine Reihe von Datenintegritätsprüfungen,
damit sichergestellt werden kann, dass das System einwandfrei funktioniert
und die Daten verfügbar bleiben.
8. Wo findet die Datendeduplizierung während des Backup-Vorgangs
statt?
Es gibt hier zwei Möglichkeiten. Sie können sämtliche
Backup-Daten an ein Backup-Ziel senden und die Deduplizierung dort ausführen,
oder Sie haben die Wahl, die Deduplizierung während des Backups
auf dem Host auszuführen. Beide Systeme stehen zur Verfügung,
und beide haben Vorteile. Wenn Sie während des Backups eine Deduplizierung
auf dem Host ausführen, werden zwar weniger Daten über die
Backup-Verbindung übertragen, doch müssen Sie die Software
auf allen gesicherten Hosts verwalten, der Backup verlangsamt sich, da
Deduplizierung Overhead hinzufügt, und sie kann andere auf dem Hostserver
ausgeführte Anwendungen verlangsamen. Wenn Sie am Backup-Ziel deduplizieren,
wird zwar eine größere Menge an Daten über die Verbindung übertragen,
doch können Sie eine beliebige Backup-Software verwenden und müssen
nur ein einziges Ziel verwalten. Außerdem ist die Leistung normalerweise
wesentlich höher, da das Hardwaresystem speziell für die Deduplizierung
gebaut wurde.
9. Kann Deduplizierungstechnologie mit Bändern verwendet
werden?
Nein und ja. Für die Datendeduplizierung ist der Random Access Zugriff
auf Datenblöcke sowohl bei Schreib- als auch bei Lesevorgängen
erforderlich, was bedeutet, dass sie auf einem disk-basierten System
durchgeführt werden muss. Es ist jedoch ganz einfach, Bänder
von einem Deduplizierungs-Datenspeicher her zu beschreiben, was in der
Tat die Norm darstellt. Die meisten Deduplizierungskunden sind daran
interessiert, auf Festplatten Daten aufzubewahren, die für einige
Wochen oder Monate gespeichert werden, und verwenden dann für die
längerfristige Aufbewahrung Bänder. Wenn Sie ein Band aus deduplizierten
Daten erstellen, werden die Daten erneut expandiert, sodass Sie direkt
in einem Bandlaufwerk gelesen werden können und nicht zuerst auf
ein Festplattensystem zurückgeschrieben werden müssen.
10. Was kosten Datendeduplizierungslösungen?
Das ist sehr unterschiedlich, aber als Ausgangspunkt gibt es eine Faustregel.
Unter Annahme eines durchschnittlichen Deduplizierungsvorteils von 20:1
- ein in der Industrie häufig verwendeter Wert - gibt es Listenpreise
im Bereich von 1 USD/GB. Ein System, das 20TB an Backup-Daten aufnehmen
könnte, hätte demnach einen etwaigen Listenpreis von 20,000
USD, was einen wesentlich niedrigeren Kostenaufwand darstellt, als wenn
Sie dieselben Daten auf einer herkömmlichen Festplatte speichern
würden. Anmerkung: Optionen könnten diesen Preis erhöhen
- Rabatte von Fachhändlern oder Herstellern könnten ihn reduzieren.
|
|
 |
|