Gekonnt aussortieren

von Thomas Joos

Die Datendeduplizierung in Windows Server ist ein wichtiges Werkzeug für ein effizientes Speichermanagement. Sie verbessert nicht nur die Speicherauslastung, sondern kann auch die Netzwerkbandbreite bei Backup- und Replikationsprozessen schonen. Administratoren müssen jedoch auch die potenziellen Nachteile der Datendeduplizierung berücksichtigen. Wir beleuchten in diesem Beitrag die technischen Hintergründe und zeigen die Einrichtung und Verwaltung in Windows Server 2022 mit der grafischen Oberfläche und der PowerShell sowie der Befehlszeile.

Der Einsatz der Datendeduplizierung ist vor allem auf Dateiservern sinnvoll, da hier Dateien besonders häufig mehrfach lagern und so unnötig Speicherplatz auf Datenträgern und im Backup belegen. Auch VDI-Umgebungen profitieren von dieser Technologie. Die Datendeduplizierung bietet dafür sogar eigene Optionen. Wir gehen in diesem Beitrag darauf ebenfalls ein. Die Technologie ist sowohl mit physischen Datenträgern als auch mit virtuellen Festplatten kompatibel. Dadurch lässt sich die Deduplizierung auch in virtuellen Umgebungen sinnvoll einsetzen.

Nach der Installation des Features werden die angeschlossenen Festplatten zeitgesteuert überprüft und die Deduplizierungsrate im Server Manager angezeigt. So behalten Sie den Erfolg und die Sinnhaftigkeit der Deduplizierung für einzelne Platten im Auge. Da Sie die Deduplizierung nicht auf alle Datenträger eines Servers anwenden müssen, lässt sich flexibel steuern, auf welchen Datenträgern sich der Einsatz lohnt. Sollte sich im Nachhinein herausstellen, dass die Deduplizierung für einzelne Datenträger keine ausreichenden Ergebnisse bringt, können Sie diese Datenträger jederzeit wieder aus der Konfiguration entfernen. Ab Windows Server 2019 unterstützt die Deduplizierung neben NTFS auch ReFS und so auch sehr große Datenträger.

Nachteile der Datendeduplizierung

Deduplizierung ist nicht in allen Umgebungen sinnvoll. Datenbankserver, Exchange- oder Hyper-V-Hosts profitieren selten davon. VDI-Umgebungen bilden hier eine Ausnahme. Innerhalb von VMs hingegen kann Deduplizierung durchaus Vorteile bieten, das hängt von der jeweiligen Serverrolle ab. Virtuelle Dateiserver profitieren ebenso von Datendeduplizierung wie physische Dateiserver. Ein möglicher Nachteil besteht darin, dass die Datendeduplizierung Rechenressourcen beansprucht, was bei bereits stark ausgelasteten Servern zu Performanceproblemen führen kann. Insbesondere die Initialisierung der Deduplizierung bringt unter Umständen einen erheblichen CPU- und Speicherbedarf mit.

Darüber hinaus ist es wichtig, die Deduplizierung sorgfältig zu konfigurieren, um sicherzustellen, dass keine wichtigen Dateien ausgeschlossen oder versehentlich verändert werden. Ein weiterer Aspekt, den Sie im Auge behalten sollten, ist die Abhängigkeit der Datenwiederherstellung von der Deduplizierung. Da deduplizierte Daten einmalig gespeichert sind, kann die Wiederherstellung komplexer ausfallen als bei herkömmlichen Methoden. Das erfordert eine sorgfältige Planung und regelmäßige Tests der Backup- und Wiederherstellungsprozesse.

Wann Datendeduplizierung nicht sinnvoll ist

Beim Einsatz der Datendeduplizierung in Windows Server 2022 ist zu beachten, dass sicht diese Technik nicht für alle Datentypen und Dateien eignet. Einige Datentypen profitieren weniger oder gar nicht von der Deduplizierung. Formate wie JPEG, MP3, MP4 oder ZIP, die bereits eine Form der Datenkompression verwenden, bieten wenig Potenzial für eine weitere Redundanzreduktion. Die Deduplizierung kann bei diesen Dateitypen kaum zusätzlichen Speicherplatz einsparen, da die enthaltenen Daten bereits in komprimierter Form vorliegen.

Aktive Datenbankdateien, insbesondere solche, die häufige Schreibvorgänge erfordern, sind in der Regel nicht gut für die Deduplizierung geeignet. Ständige Änderungen hierin beeinträchtigen womöglich die Effizienz der Deduplizierung und in einigen Fällen auch die Performance. In Echtzeit aktualisierte Dateien wie zum Beispiel Systemprotokolle können durch den Deduplizierungsprozess sogar behindert werden. Die ständigen Schreibzugriffe auf diese Files stehen im Widerspruch zur Funktionsweise der Deduplizierung, die besser für statische oder selten geänderte Daten geeignet ist. Auch wenn Dateien individuell verschlüsselt sind, wird jede Datei einzigartig, selbst wenn die ursprünglichen unverschlüsselten Daten identisch waren. Das schränkt die Wirksamkeit der Deduplizierung erheblich ein, da keine signifikanten Redundanzen mehr zu erkennen sind.

Datendeduplizierung ist auch in Speicherpools und virtuellen Festplatten möglich. Wenn Sie den Rollendienst installiert haben, erscheint beim Anlegen neuer Volumes ein Fenster, in dem Sie die Funktion für das entsprechende Volume aktivieren können, wenn die Deduplizierung generell darauf funktioniert. Es spielt daher keine Rolle, ob Sie die Datendeduplizierung für Daten auf normalen Volumes oder auf virtuellen Datenträgern in Speicherpools verwenden.

Die Datendeduplizierung in Windows Server 2022 stellt insgesamt eine leistungsfähige Möglichkeit dar, Speicherkapazitäten zu optimieren und Kosten zu senken. Sie müssen jedoch ein Gleichgewicht zwischen den Vorteilen und den potenziellen Herausforderungen finden, um ein reibungsloses und effizientes Systemmanagement zu gewährleisten. Nachfolgend zeigen wir Ihnen, wie eine solche Konfiguration in der Praxis aussehen kann.

SSD, HDD und NVMemit der Datendeduplizierung

Bei der Implementierung von Datendeduplizierung in Umgebungen, die unterschiedliche Speichertechnologien wie HDDs, SSDs und NVMe-Laufwerke nutzen, müssen Sie mehrere Aspekte berücksichtigen. Die Performance bei der Datendeduplizierung kann stark variieren, abhängig von der gewählten Speichertechnologie. HDDs mit ihren langsameren Zugriffszeiten könnten in deduplizierungsintensiven Szenarien zu Engpässen führen, während SSDs und NVMe-Laufwerke mit ihrer höheren Geschwindigkeit und geringeren Latenz besser für diese Aufgaben geeignet sind. Das ist besonders relevant, da die Deduplizierung viele I/O-Operationen erfordert, die auf SSDs und NVMe-Laufwerken effizienter ablaufen.

Ein weiterer wichtiger Punkt ist die Auswirkung der Deduplizierung auf die Lebensdauer von SSDs und NVMe-Laufwerken. Da diese Speichertypen eine begrenzte Anzahl von Schreibzyklen haben, könnte die häufige Schreibaktivität, die mit der Deduplizierung einhergeht, die Lebensdauer dieser Geräte potenziell verkürzen. Dies sollte bei der Planung der Speicherinfrastruktur und der zugehörigen Wartungszyklen berücksichtigt werden.

In Umgebungen mit einer Kombination aus verschiedenen Speichertypen könnte es sinnvoll sein, deduplizierte Daten auf SSDs oder NVMe-Laufwerken zu speichern, um die Vorteile der höheren Geschwindigkeit zu nutzen, während größere und weniger häufig zugegriffene Daten auf den kostengünstigeren HDDs liegen. So lässt sich der Speicherplatz auf den teureren SSDs und NVMe-Laufwerken durch die effiziente Nutzung der Datendeduplizierung besser ausnutzen. Unabhängig vom verwendeten Speichertyp ist es entscheidend, robuste Backup- und Wiederherstellungsstrategien zu implementieren. Die Deduplizierung kann die Komplexität bei der Datenwiederherstellung erhöhen, was eine sorgfältige Planung und regelmäßige Überprüfung der Backupstrategien erfordert.

Ablauf einer Deduplizierung

Technisch gesehen analysiert die Deduplizierungsfunktion die Datenblöcke auf einem Volume und sucht nach Duplikaten. Sobald identische Datenblöcke gefunden werden, speichert das System nur eine Kopie des Datenblocks und erstellt Verweise auf diesen Block für jede Instanz seiner Verwendung. Dieser Prozess wird von einem Hintergrunddienst ausgeführt, der regelmäßig läuft, um neue und geänderte Dateien zu überprüfen.

Die Deduplizierung in Windows Server 2022 verwendet einen Post-Prozess-Ansatz, das heißt, die Daten werden zunächst in ihrer ursprünglichen Form gespeichert und erst anschließend dedupliziert. Dieser Ansatz minimiert die Auswirkungen auf die Systemleistung während der primären Speicheroperationen. Für eine effiziente Datenverarbeitung setzt die Deduplizierung auf einen Chunking-Algorithmus, der die Daten in kleinere Einheiten zerlegt und diese dann einzeln analysiert.

Ein wesentlicher Aspekt der Deduplizierung ist die Datenintegrität. Um sicherzustellen, dass die deduplizierten Daten nicht beschädigt werden, verwendet Windows Server 2022 verschiedene Mechanismen, einschließlich Prüfsummen und Integritätsprüfungen. Bei der Deduplizierung kommen Metadaten zum Einsatz, um die Originaldaten und ihre deduplizierten Kopien zu verwalten. Dies erfordert zusätzliche Sorgfalt bei der Sicherung und Wiederherstellung, da die Metadaten für die korrekte Rekonstruktion der Originaldaten entscheidend sind.

Installation per Server Manager und PowerShell

Die Integration der Datendeduplizierung erfolgt entweder über den Server Manager durch Installation des Rollendienstes "Datendeduplizierung" über "Datei- und Speicherdienste / Datei- und iSCSI-Dienste" oder in der PowerShell mit

Die Installation selbst startet noch nicht die Deduplizierung, sondern spielt nur die notwendigen Systemdateien ein. Die Konfiguration erfolgt anschließend im Server Manager oder per PowerShell.

Volumes für die Deduplizierung testen

Im Rahmen der Installation des Rollendienstes für Datendeduplizierung integriert der Installationsassistent auch das Befehlszeilentool "ddpeval.exe". Mit diesem können Sie in der Befehlszeile nach doppelten Dateien suchen, um festzustellen, ob der Rollendienst auf einzelnen Datenträgern des Servers sinnvoll eingesetzt werden kann. Es ist nicht möglich, die Datendeduplizierung auf Bootlaufwerken zu aktivieren oder mit ddpeval zu prüfen, ob die Datendeduplizierung auf Bootlaufwerken sinnvoll ist.

Das Tool befindet sich im Verzeichnis "\Windows\System32". Ddpeval unterstützt sowohl lokale Laufwerke als auch Netzwerkfreigaben. Die Syntax des Tools lautet ddpeval <Volume:>. Beispiele für die Ausführung wären ddpeval e:\ oder ddpeval \\nas\daten. Das Tool selbst bereinigt keine Dateien, sondern zeigt nur an, ob eine Datendeduplizierung für das jeweilige Laufwerk sinnvoll ist. Dabei bietet das Tool eine Vorschau auf mögliche Einsparungen durch die Datendeduplizierung, ohne die Daten tatsächlich zu verändern. Für eine gezieltere Analyse, zum Beispiel eines bestimmten Verzeichnisses, passen Sie den Befehl wie folgt an:

Bei Verwendung von ddpeval wird eine Ausgabe generiert, die Informationen über die Gesamtgröße der analysierten Daten, die geschätzte Größe nach der Deduplizierung und die prozentuale Einsparung enthält. Diese Informationen sind entscheidend, um fundierte Entscheidungen über die Implementierung von Datendeduplizierung zu treffen. Insbesondere hilft das Tool bei der Bewertung des potenziellen Nutzens der Deduplizierung und bei der Entscheidung, welche Volumes oder Verzeichnisse für die Deduplizierung am besten geeignet sind. Das Ergebnis kann mit folgendem Befehl gespeichert werden:

Dadurch erhalten Sie einen umfassenden Bericht zu den möglichen Einsparungen des Speicherplatzes, die sich durch den Einsatz der Datendeduplizierung erreichen lassen.

Datendeduplizierung für Volumes aktivieren

Nachdem Sie den Rollendienst für Datendeduplizierung installiert und die einzelnen Laufwerke getestet haben, aktivieren Sie das Feature auf dem entsprechenden Server für die jeweiligen Laufwerke. Dazu verwenden Sie entweder den Server Manager und aktivieren die Funktion über das Kontextmenü des jeweiligen Volumes unter "Datei / Speicherdienste / Datenträger / Datendeduplizierung konfigurieren" oder Sie nutzen die PowerShell. Im Folgenden zeigen wir beide Möglichkeiten. Im Server Manager startet nach Aufruf der Option ein Fenster, auf dem Sie für das jeweilige Volume alle notwendigen Einstellungen setzen können.

Hier wählen Sie zunächst aus, um welche Art von Server es sich handelt und welche Daten zu deduplizieren sind. Neben "Allgemeiner Dateiserver" stehen hier auch "VDI-Server" und "Virtualisierter Backup-Server" zur Verfügung. Danach legen Sie fest, nach wie vielen Tagen doppelte Dateien dedupliziert werden sollen. Standardmäßig sind hier bereits drei Tage als Zeitraum hinterlegt. Zusätzlich können Sie einzelne Dateitypen von der Deduplizierung ausnehmen oder einzelne Dateien beziehungsweise ganze Ordner hiervon ausschließen.

Über "Zeitplan für Deduplizierung festlegen" richten Sie detailliert ein, wann der Hintergrunddienst den Server bereinigen soll. In der Regel sollten Sie die Option "Hintergrundoptimierung aktivieren" verwenden, da der Deduplizierungsdienst im Hintergrund läuft und den Server so wenig wie möglich belastet. Bei Bedarf kann Windows den Dienst sogar anhalten. Zusätzlich können Sie im Fenster zwei weitere Zeitpläne festlegen, an welchen Tagen die Deduplizierung für einzelne Stunden mit normaler Priorität aktiv sein soll. Hier ist es natürlich sinnvoll, möglichst Zeiten zu verwenden, in denen der Server nicht stark belastet ist. Generell sollten Sie andere Aktivitäten auf dem Server, wie Wartung, Datensicherung oder Scannen nach Malware, nicht zur gleichen Zeit durchführen.

Deduplizierung für VDI-Server

Die Datendeduplizierung in VDI-Umgebungen bietet erhebliche Vorteile, unterscheidet sich aber in einigen wesentlichen Aspekten von der Deduplizierung auf herkömmlichen Dateiservern. In VDI-Szenarien, in denen häufig viele Desktopinstanzen mit ähnlichen oder identischen Daten existieren, kann Deduplizierung durch das Eliminieren redundanter Daten über mehrere virtuelle Desktops hinweg erhebliche Speicherplatzeinsparungen erzielen. Das führt nicht nur zu einer Verringerung der benötigten Speicherkapazität, sondern verbessert mitunter auch die Performance, da weniger physischer Speicherplatz zum Speichern und Lesen der Daten benötigt wird.

Ein wesentlicher Unterschied zur Deduplizierung auf Dateiservern besteht in der Art der gespeicherten Daten. Während Dateiserver in der Regel eine Vielzahl von Dateitypen und Datenstrukturen speichern, sind die Files in einer VDI-Umgebung oft homogener, da viele virtuelle Maschinen ähnliche Betriebssysteme und Anwendungen verwenden. Diese Homogenität erhöht das Potenzial für Deduplizierung, da mehr redundante Daten vorhanden sind.

Darüber hinaus erfordert die Deduplizierung in VDI-Umgebungen häufig eine angepasste Konfiguration, um den spezifischen Anforderungen dieser Umgebungen gerecht zu werden. So kann es beispielsweise wichtig sein, die Deduplizierung so zu konfigurieren, dass sie die Performance zu Spitzenzeiten nicht beeinträchtigt, da in VDI-Umgebungen Antwortzeiten und Verfügbarkeit kritische Faktoren sind.

Ein weiterer Unterschied besteht in der Wartung und Verwaltung. VDI-Umgebungen können von Natur aus dynamischer ausfallen, mit häufigen Änderungen an den virtuellen Desktops, was eine regelmäßige Überprüfung und Anpassung der Deduplizierungseinstellungen erfordert. Im Gegensatz dazu gestalten sich die Daten auf Dateiservern oft statischer, was eine weniger häufige Anpassung der Deduplizierungseinstellungen erlaubt.

Datendeduplizierungüber die PowerShell

Um die Datendeduplizierung in Windows Server 2022 zu steuern, können Sie auch die PowerShell einsetzen. Aktivieren Sie die Datendeduplizierung für ein gewünschtes Volume mit dem Befehl Enable-DedupVolume -Volume F:. Das Kommando Enable-DedupVolume -Volume d: -UsageType Default setzt die gleichen Einstellungen, die auch im Server Manager unter "Allgemeiner Dateiserver" gesetzt sind. Beide Varianten sind daher möglich. Mit dem folgenden Befehl können Sie die Deduplizierung sofort starten:

Die Konfiguration der Deduplizierungsparameter, wie zum Beispiel der Zeitplan für die Garbage Collection und Optimierung, lässt sich mit Set-DedupSchedule anpassen, zum Beispiel:

Die geplanten Tasks erhalten Sie in der PowerShell über den Befehl

Überwachen können Sie die Deduplizierungsrate und die erzielten Einsparungen mit Get-DedupStatus. Um die Integrität der deduplizierten Daten zu überprüfen, verwenden Sie Start-DedupJob -Volume "D:" -Type Scrubbing. Diese Befehle ermöglichen eine umfassende Steuerung und Überwachung der Datendeduplizierung auch ohne Server Manager. Wenn Sie auf die Rückmeldung der Deduplizierung warten möchten, verwenden Sie

Den aktuellen Status des Jobs können Sie sich mit "Get-DedupJob" anzeigen lassen. Weitere Informationen erhalten Sie mit "Get-DedupVolume". An detailliertere Angaben gelangen Sie, indem Sie die Ausgabe an das Cmdlet "Formated-List" umleiten, zum Beispiel mit Get-DedupupVolume |fl. Eine genaue Überprüfung des Deduplizierungserfolgs ist ebenfalls wichtig. Durch das Erstellen von Berichten mit Befehlen wie

messen Sie den Erfolg der Deduplizierung und nehmen gegebenenfalls Anpassungen vor. So lassen sich mit der PowerShell die verschiedenen Optionen der Deduplizierung konfigurieren. Sie können zum Beispiel die minimale Dateigröße für die Deduplizierung anpassen, um die Effizienz zu erhöhen:

Ferner schalten Sie mit dem Parameter "NoCompress" die zusätzliche Komprimierung ab, sollten die Daten ohnehin schon komprimiert sein. Bestimmte Dateitypen lassen sich von der Deduplizierung ausschließen, um die Performance für diese Files zu optimieren. Dies ist nicht nur im Server Manager möglich, sondern auch in der PowerShell, zum Beispiel mit

Möchten Sie die Datendeduplizierung für ein Laufwerk wieder deaktivieren, ist dies im Server Manager über das gleiche Fenster wie die Aktivierung möglich. Setzen Sie dazu bei "Datendeduplizierung aktivieren" die Option "Deaktiviert". Im Fall der PowerShell nutzen Sie den Befehl Disable-DedupupVolume -Volume F:. Unter Umständen kann es notwendig sein, deduplizierte Volumes wiederherzustellen. Das ist mit Start-DedupupJob -Volume "D:" -Type Unoptimization möglich. Diese Flexibilität ist vor allem in komplexen IT-Umgebungen von Vorteil. Für spezialisierte Anwendungen wie VDI-Umgebungen bietet Windows Server 2022 spezielle Optimierungsoptionen. Durch Anpassen der Einstellungen mit Befehlen wie

maximieren Sie die Deduplizierungsleistung in solchen Umgebungen. Darüber hinaus ist es ratsam, regelmäßige Überprüfungen und Wartungsarbeiten durchzuführen. Das stellt sicher, dass die Datendeduplizierung effizient und ohne Unterbrechungen arbeitet. Berücksichtigen Sie bei der Planung von Deduplizierungsaufgaben auch die Serverauslastung. Wenn Sie die Deduplizierungsaufgaben außerhalb der Spitzenzeiten planen, minimieren Sie die Serverauslastung und optimieren die Gesamtleistung.

Fazit

Die Datendeduplizierung in Windows Server 2022 ist ein leistungsfähiges Werkzeug, das die Effizienz und Verwaltung von Serverspeicherressourcen erheblich verbessern kann. Einer der Hauptvorteile liegt in der deutlichen Reduzierung des Speicherplatzbedarfs durch die Eliminierung redundanter Daten auf dem Server. Das wiederum führt zu Kosteneinsparungen und einem effizienteren Speichermanagement, insbesondere in Umgebungen mit großen Datenmengen. Auch die Netzwerkbandbreite wird geschont, da bei Backups und Replikationen weniger Daten übertragen werden müssen. Der Prozess kann jedoch die CPU- und Speicherauslastung erhöhen, was in bereits stark ausgelasteten Serverumgebungen unter Umständen zu Performanceproblemen führt. Außerdem eignet sich die Deduplizierung nicht für alle Dateitypen, insbesondere nicht für bereits komprimierte oder sich schnell ändernde Daten wie Datenbanken oder Echtzeit-Logdateien.