2.3. Implementeer data de-duplicatie

Gegevensontdubbeling is een functieservice in Windows Server 2016 die opslagruimte op een NTFS-volume bespaart door redundante gegevens te vinden en één kopie van die gegevens op te slaan in plaats van meerdere exemplaren. Dit is het basis werkingsprincipe voor veel datacompressie producten, maar Data Duplication verbetert op veel andere technologieën door te werken op volumeniveau, en niet het bestandsniveau.

2.3.1. Implementeer en configureer de deduplicatie

Als u Gegevensontdubbeling op uw volumes wilt gebruiken, moet u eerst de Gegevensontdubbeling rolservice installeren , die deel uitmaakt van de rol Bestands- en opslagservices. U kunt dit doen met behulp van de
de wizard Rollen en functies toevoegen of de cmdlet Install-WindowsFeature gebruiken in PowerShell als volgt:

Install-Windowsfeature -Name fs-data-Deduplication

Nadat Data Deduplication is geïnstalleerd, beheert u het in Server Manager of met behulp van PowerShell-cmdlets.

2.3.1.1. Configureer deduplicatie met Server Manager

Als u gegevensontdubbeling wilt gebruiken, moet u deze inschakelen op specifieke volumes. Om dit te doen in Server Manager, gebruik de volgende procedure.

  1. Klik in Serverbeheer op Bestands- en Opslagservices, Volumes. De pagina Volumes komt naar voren.
  2. Klik met de rechtermuisknop op een van de volumes in de tegel Volumes en selecteer in het contextmenu Gegevensontdubbeling Configureren. Het dialoogvenster Instellingen voor deduplicatie voor het geselecteerd volume verschijnt.


     
  3. Selecteer een van de volgende opties in de vervolgkeuzelijst Gegevensontdubbeling:
    • Disabled – Voorkomt dat enige duplicatie optreedt.
    • General Purpose File Server – Bestemd voor gebruik met typische bestandsserverfuncties, zoals gedeelde mappen, werkmappen en mapomleiding. Deduplicatie vindt op de achtergrond plaats en bestanden in gebruik worden genegeerd.
    • Virtual Desktop Infrastructure (VDI) Server – Bestemd voor gebruik met Hyper-V. Ontdubbeling vindt op de achtergrond plaats en in-gebruik en gedeeltelijke bestanden worden geoptimaliseerd.
    • Virtualized Backup Server – Bedoeld voor gebruik met back-uptoepassingen, zoals Microsoft DPM. Ontdubbeling is een prioriteitsproces, en bestanden die in gebruik zijn, worden geoptimaliseerd.
  4. Geef in het Deduplicate Bestanden Ouder tekstvak in dagen op hoe oud de bestanden moeten zijn voordat ze worden ontdubbeld.
  5. De lijst Standaardbestandsextensies die moeten worden uitgesloten, geeft bestandstypen aan die die niet ontdubbeld zullen worden, op basis van de optie die u hebt gekozen in de vervolgkeuzelijst Gegevensontdubbeling. Om extra bestandstypen uit te sluiten, geeft u hun bestandsnaamextensies op in het tekstvak Aangepaste Bestandsextensies uitsluiten.
  6. Klik op Toevoegen om een dialoogvenster Map Selecteren te openen waarin u mappen opgeeft dat u wilt dat van het deduplicatieproces worden uitgesloten.
  7. Klik op Duplicatieschema instellen. Het dialoogvenster Ontdubbelingsschema voor de geselecteerd volume verschijnt.


     
  8. Standaard vindt deduplicatie op de achtergrond plaats als een proces met lage prioriteit, wanneer het systeem niet bezet is. Om een schema te maken voor het uitvoeren van de deduplicatie met een normale prioriteit en maximale prestaties, selecteer de optie Doorvoeroptimalisatie inschakelen.
  9. Selecteer de dagen van de week, het tijdstip van de dag en de duur van het deduplicatie proces.
  10. Maak optioneel een ander gepland deduplicatieproces door Een Tweede Schema Maken te selecteren voor doorvoeroptimalisatie en de dagen, tijd en duur te configureren. Klik vervolgens op OK.
  11. Klik op OK om het dialoogvenster Instellingen Voor Deduplicatie te sluiten.

2.3.1.2. Configureer deduplicatie met PowerShell

Om deduplicatie voor een volume met PowerShell in te schakelen, voert u de Enable-DedupVolume cmdlet uit, zoals in het volgende voorbeeld:

Enable-DeDupVolume -Volume "e:" -Usagetype standaard

De functies van de parameters zijn als volgt:

  • UsageType – Geeft het type werkbelasting aan waarvoor het geselecteerde volume wordt gebruikt. De mogelijke waarden zijn als volgt:
  • Standard – Komt overeen met de optie General Purpose File Server in Server Manager
  • Hyper-V – komt overeen met de optie Virtual Desktop Infrastructure (VDI) Server in Serverbeheer
  • Back-up – Komt overeen met de optie Virtualized Backup Server in Server Manager
  • Volume – Geeft het volume aan waarop deduplicatie moet worden ingeschakeld, met behulp van de indeling “X:” U kunt meerdere volumes scheiden met komma’s of een GUID opgeven in plaats van een stationsletter, zoals in het volgende voorbeeld:
Enable-DedupVolume -Volume "\\?\volume{26a21bda-a627-11d7-9931-806e6f6e6963}" -Usagetype backup

2.3.2. Bepaal de juiste gebruiksscenario’s voor deduplicatie

Gegevensontdubbeling optimaliseert een volume door de bestanden te selecteren die in aanmerking komen optimalisatie, ze op te splitsen in brokken van variabele grootte en ze naar hun te scannen uniciteit. Een uniek stuk wordt gekopieerd naar een afzonderlijk gedeelte van de schijf, het stuk genoemd opslaan en vervangen op de oorspronkelijke locaties door een speciale tag genaamd een reparse-punt, het naar de nieuwe locatie van de chunk leiden. Als een stuk identiek is aan een stuk dat al bestaat de winkel, vervangt het systeem het door een reparse-punt en verwijdert het oorspronkelijke stuk.

Dit principe van deduplicatie bestaat al lang, maar veel andere producten gebruiken het op individuele bestanden. Gegevensontdubbeling in Windows Server 2016 werkt over het algemeen volume, niet in één bestand tegelijk. Daarom in plaats van een kopie van dezelfde unieke stuk in elk bestand, er is slechts één exemplaar voor het hele volume. In het geval van de single Instance Store (SIS) -technologie in eerdere versies van Windows Server, welke gegevens deduplicatie vervangt, een volume behoudt één kopie van een volledig bestand, in plaats van meerdere duplicaten. Brokken, die doorgaans kleiner zijn dan bestanden, hebben een veel grotere kans worden gedupliceerd op een volume, waardoor een hogere compressiesnelheid wordt gegenereerd.

Wanneer een toepassing of een gebruiker om leestoegang tot een geoptimaliseerd bestand vraagt, gebruikt het systeem de reparse wijst het verzoek door naar de juiste locaties in de chunk store.
De aanvrager weet helemaal niet dat het bestand is ontdubbeld.

Als de toepassing of gebruiker het bestand wijzigt, schrijft het systeem het terug naar het volume dat erin staat standaard, niet-geoptimaliseerde vorm. Het bestand blijft niet geoptimaliseerd tot de volgende deduplicatietaak optreedt. Deze opeenstapeling van niet-geoptimaliseerde bestanden vanwege de werklast van het volume wordt genoemd churn. De naverwerking van het systeem voorkomt vertraging of interferentie met de volume schrijft.

Gegevensontdubbeling voert naast optimalisaties ook andere taken uit. Garbage collection is de term voor een taak die in de winkel voor brokken zoekt naar brokken die geen reparse meer hebben punten die eraan zijn gekoppeld, meestal vanwege gewijzigde of verwijderde bestanden. Integriteit schrobben is een taak die naar schade of corruptie in de winkel zoekt en de ontbrekende vervangt gegevens met mirror- of pariteitsgegevens. Ten slotte is de optimalisatie een taak die alle aspecten herstelt geoptimaliseerde bestanden op een volume in hun oorspronkelijke staat, waardoor gegevensontdubbeling daarvoor wordt uitgeschakeld volume in het proces.

2.3.2.1. Optimalisatiepercentages

De hoeveelheid opslagruimte die vrijkomt door de toepassing van gegevensontdubbeling op een volume is afhankelijk van meerdere factoren, waaronder de bestandsindelingen en de aard van de werklast die de gegevens heeft gegenereerd. In traditionele, op bestanden gebaseerde compressieproducten, een binair software bestand kan gecomprimeerd worden met 80 procent, en een bitmap-afbeelding met 80 procent. als u het data-deduplicatieproces op een enkel bestand zou toepassen, zullen de resultaten waarschijnlijk vergelijkbaar zijn.

Wanneer u het deduplicatieproces echter op een volledig volume toepast, kunt u stukken met een veel grotere pool vergelijken. Hoewel je misschien 10 identieke exemplaren van een specifiek stuk in een enkel bestand kunt vinden, kan datzelfde stuk met een heel volume duizenden of miljoenen exemplaren opleveren. Daarom is de ruimtebesparing als gevolg van de schijf deduplicatieproces meestal veel hoger dan die van bestandsgebaseerde compressie.

Neem als voorbeeld een volume dat veel Hyper-V VHD-beeldbestanden bevat, allemaal die Windows 10 gastbesturingssystemen bevatten die door software ontwikkelingsteam worden gebruikt. Aangezien de inhoud van de VHD-bestanden allemaal erg op elkaar lijken, zullen er een groot aantal identieke stukken zijn. Microsoft schat de besparing op opslagruimte voor een volume met dergelijke afbeeldingsbestanden tussen 80 en 95 procent. Dus een bijna vol volume met 1 TB aan gegevens kan beperkt worden tot 100 GB of minder, waardoor 900 GB vrije ruimte overblijft.

Dit is een voorbeeld uit het beste geval. Een volume op een bestandsserver dat een typische mix van gebruikersbestanden bevat kunnen worden geoptimaliseerd op 50 tot 60 procent.

2.3.2.2. Workloads evalueren

Voordat u gegevensontdubbeling op uw volumes implementeert, moet u overwegen of de workloads die uw gegevens genereren, goede kandidaten voor optimalisatie zijn. De factoren die van invloed kunnen zijn op deze beslissing, zijn onder meer de aard van de werkbelasting die de gegevens genereert en de aard van de gegevens zelf.

Het optimalisatieproces belast de processor en het geheugenbronnen van een server die een aanzienlijk effect kunnen hebben op de serverprestaties. Omdat data deduplicatie gebruik maakt van een nabewerkingsmodel, is er geen effect op de prestaties als de de gegevens geschreven worden. U moet echter overwegen of uw workflow een periode toelaat wanneer de optimalisatie kan plaatsvinden zonder de productie in gevaar te brengen. Een workflow die ’s nachts inactief is in dit opzicht een goede kandidaat voor deduplicatie,, maar een die continu werkt misschien niet.

De volgende overweging zijn de gegevens zelf. De gebruiksscenario’s die vooraf zijn vastgelegd in gegevensdeduplicatie zijn gegevens waarbij de betrokken gegevens bijzonder gevoelig zijn voor redundantie. Ze zijn daarom goede kandidaten voor optimalisatie. Bijvoorbeeld in het algemeen doelbestandservers, hebben gebruikers vaak de neiging om meerdere kopieën van dezelfde bestanden op te slaan. Op dezelfde manier slaan softwareontwikkelaars meestal meerdere builds op die slechts weinig verschillen. Echter, als een volume een grote hoeveelheid gecodeerde bestanden bevat, verbergt de codering de redundantie en voorkomt dat deduplicatie van gegevens effectief is.

Data deduplication bevat een Data Deduplication Savings Evaluation Tool (Ddpeval.exe) die u kunt gebruiken om een volume te testen om te zien hoeveel opslagbesparingen van optimalisatie kunnen resulteren. Ddpeval is een opdrachtregelprogramma dat u uitvoert door een stationsletter op te geven voor de te evalueren drive. De resultaten geven aan hoeveel besparing u kunt verwachten in de geselecteerde gegevensset.

Andere soorten gegevens zijn mogelijk geen goede kandidaten voor optimalisatie vanwege de manier waarop ze de data die ze opslaan en openen. Gegevensontdubbeling probeert de chunk store mee te organiseren met de bestandsgrenzen. Voor een bestandsleesverzoek is in veel gevallen toegang tot successief chunks in de store vereist, wat de prestaties verbetert. Databasebestanden hebben echter de neiging lees patronen te hebben die meer willekeurig zijn, en de manier waarop gegevensontdubbeling een stuk van de database opslaat kan ervoor zorgen dat het leesproces om toegang te krijgen tot stukken verspreid over de schijf liggen, waardoor de efficiëntie afneemt. Voordat u gegevensontdubbeling op een productieserver implementeert, moet u een testimplementatie uitvoeren om te bepalen of de gerealiseerde besparingen deze prestatievermindering die kan optreden kan compenseren.

2.3.3. Monitor deduplicatie

Nadat u gegevensontdubbeling hebt geïnstalleerd en op volumes hebt ingeschakeld, wordt de tegel Volumes in Server Manager aangepast om Deduplication Rate en Deduplication Savings kolommen op te nemen. De deduplicatiesnelheid geeft het percentage van de oorspronkelijke schijfruimte die is gewist en de Deduplication Saving specificeert de hoeveelheid vrije schijfruimte, in gigabytes.

U kunt het deduplicatieproces ook volgen met PowerShell met de Get-DedupStatus-cmdlet. Wanneer u de cmdlet zelf uitvoert, worden slechts enkele statistieken weergegeven. Om de hele weergave te tone, leid de uitvoer naar de cmdlet Format-List, als volgt:

Get-DeDupoStatus | Format-List

De waarde LastOptimizationResult van nul geeft aan dat de bewerking is geslaagd. Als, na de eerste deduplicatie taken als mislukt worden weergegeven, is dit meestal omdat het deduplicatieproces niet genoeg tijd had om de veranderingen bij te houden gegenereerd door de werklast (de churn genoemd). Mogelijk moet u de duur van de deduplicatietaken verlengen of de toegewezen prioriteit om het probleem op te lossen.

Om de geschiedenis van de deduplicatietaken van een server te volgen, kunt u Windows gebeurtenislogboeken bekijken. Gegevensontdubbelingsgebeurtenissen bevinden zich in de toepassingen en services Logs \ Windows \ Deduplication \ Operationele container.

2.3.4. Implementeer een backup en hersteloplossing met behulp van deduplicatie

Back-ups naar schijfstations, zoals die worden uitgevoerd door Windows Server Backup, zijn bijzonder goede kandidaten voor optimalisatie, omdat de snapshots die door de back-up software zijn gemaakt meestal weinig van elkaar verschilt. Als u bijvoorbeeld elke week een volledige back-up van een server uitvoert, is waarschijnlijk slechts een klein percentage van de servergegevens gewijzigd en gegevensontdubbeling kan al die redundantie elimineren.

Wanneer u bovendien een back-up maakt van een volume dat al is geoptimaliseerd, kopieert Windows Server Backup de gegevens naar het back-updoel in de geoptimaliseerde status. Het is daarom niet nodig dat het systeem elk bestand in de niet-geoptimaliseerde staat herstelt, kopieert en vervolgens de kopie op het back-upvolume te optimaliseren, een proces dat extreem intensief voor zijn systeembronnen kan zijn.

De gebruiksoptie Virtualized Backup Server is speciaal ontworpen om met back-upsoftwareoplossingen zoals Microsoft System Center Data Protection Manager (DPM) te werken, waarin de back-upsoftware op een virtuele Hyper-V-machine draait en zijn back-ups opslaat VHD- of VHDX-bestanden op een volume waarop gegevensontdubbeling is ingeschakeld.

Omdat een back-uptaak een relatief grote hoeveelheid nieuwe gegevens kan genereren, verschillen de optimalisatie-instellingen voor het back-upscenario van die van de andere voorkeuzes om ervoor te zorgen dat het optimalisatieproces met een hoge prioriteit op de server wordt uitgevoerd.

Beheerders moeten de optimalisatietaken regelmatig controleren, om ervoor te zorgen dat ze gelijke tred houden met deze hogere snelheid van karnen dan normaal wordt aangetroffen bestanden server.