Webinar
ITGLOBAL.COM events

Data deduplicatie

Glossary

Data deduplicatie is een proces waarbij overbodige kopieën van informatie worden geëlimineerd, waardoor de bedrijfskosten van het opslaan van deze informatie uiteindelijk worden verlaagd. Met deze technologie kunt u de capaciteit van elk datawarehouse optimaliseren.

Ongeacht de methode, deduplicatie kunt u slechts één uniek stuk informatie op media opslaan. Daarom is een van de belangrijkste punten bij deduplicatie het detailniveau.

Data deduplicatie heeft verschillende uitvoeringsniveaus:

  1. byte;
  2. bestanden;
  3. blokken.

Elke methode heeft zijn eigen positieve en negatieve kanten. Laten we ze in meer detail bekijken.

hybride cloudopslag


meer details

Data deduplicatie methoden

Blokniveau

Het wordt beschouwd als de meest populaire deduplicatiemethode en omvat het analyseren van een deel van de gegevens (bestand), met verder behoud van alleen unieke herhalingen van informatie voor elk individueel blok.

In dit geval wordt een blok beschouwd als een logische eenheid van informatie met een karakteristieke grootte, die kan variëren. Alle gegevens in blok-niveau deduplicatie worden verwerkt met behulp van hashing (bijvoorbeeld SHA-1 of MD5).

Met Hash-algoritmen kunt u een specifieke handtekening (identifier) maken en opslaan in de deduplicatiedatabase, die overeenkomt met elk individueel uniek gegevensblok.

Dus als het bestand over een bepaalde periode wordt gewijzigd, komt niet het hele bestand in het datawarehouse, maar alleen de gewijzigde blokken.

Er zijn 2 soorten blokdeduplicatie-met variabele en constante bloklengtes. De eerste optie bestaat uit het verdelen van bestanden in blokken, die elk een andere grootte kunnen hebben.

Deze optie is effectiever in termen van het verminderen van de hoeveelheid opgeslagen gegevens dan bij het gebruik van deduplicatie met een constante bloklengte.

Bestandsniveau

Deze deduplicatiemethode houdt in dat een nieuw bestand wordt vergeleken met een reeds opgeslagen bestand. Als een uniek bestand overkomt, wordt het opgeslagen. Als het bestand dat u vindt niet nieuw is, wordt alleen de link (Een verwijzing naar dit bestand) opgeslagen.

Dat wil zeggen, bij dit type deduplicatie wordt slechts één versie van het bestand opgenomen en alle toekomstige kopieën ervan ontvangen een verwijzing naar het originele bestand. Het belangrijkste voordeel van deze methode is het gemak van implementatie zonder ernstige prestatievermindering.

Byte niveau

In principe is het vergelijkbaar met de eerste deduplicatiemethode in onze lijst, maar in plaats van blokken wordt hier een byte-by-byte vergelijking van oude en nieuwe bestanden gebruikt. Dit is de enige manier waarop u de maximale eliminatie van dubbele bestanden kunt garanderen.

Deduplicatie op byte-niveau heeft echter ook een aanzienlijk nadeel: de hardwarecomponent van de machine waarop het proces wordt uitgevoerd, moet extreem krachtig zijn, aangezien er hogere eisen aan worden gesteld.

Data deduplicatie en backup

Naast al het bovenstaande kan bij het maken van een back-up van gegevens deduplicatie worden uitgevoerd met behulp van verschillende methoden:

  • de plaats van executie;
  • naar de gegevensbron (client);
  • de opslagzijde (server).

Client-server deduplicatie

Een gecombineerde methode van data deduplicatie, waarbij de nodige processen zowel op de server als op de client kunnen worden uitgevoerd. Voordat gegevens van de client naar de server worden verzonden, probeert de software eerst te “begrijpen” welke gegevens al zijn opgenomen.

Voor een dergelijke deduplicatie is het in eerste instantie noodzakelijk om de hash voor elk blok gegevens te berekenen en deze vervolgens naar de server te sturen als een lijstbestand met verschillende hash-sleutels. Een lijst van deze sleutels wordt op de server vergeleken en vervolgens worden blokken met gegevens naar de client verzonden.

Deze methode vermindert de belasting van het netwerk aanzienlijk, aangezien alleen unieke gegevens worden verzonden.

Deduplicatie op de client

Impliceert het uitvoeren van een bewerking rechtstreeks op de gegevensbron. Daarom zal bij een dergelijke deduplicatie de rekenkracht van de client betrokken zijn. Nadat het proces is voltooid, worden de gegevens naar de opslagapparaten verzonden.

Dit type deduplicatie wordt altijd geïmplementeerd met behulp van software. En het belangrijkste nadeel van de beschreven methode is de hoge belasting van het RAM en de processor van de client. Het belangrijkste voordeel ligt in de mogelijkheid om gegevens over te dragen via een netwerk met een lage bandbreedte.

Deduplicatie op de server

Het wordt gebruikt wanneer gegevens in volledig ruwe vorm naar de server worden verzonden — zonder codering en compressie. Dit type deduplicatie is onderverdeeld in software en hardware.

Hardware Type

Het wordt geïmplementeerd op basis van een deduplicatie-apparaat, dat wordt geleverd in de vorm van een specifieke hardwareoplossing die de logica van deduplicatie en de procedure voor gegevensherstel combineert.

Het voordeel van deze methode is de mogelijkheid om de belasting van servercapaciteiten over te dragen naar een specifieke hardware-eenheid. Het deduplicatieproces zelf krijgt tegelijkertijd maximale transparantie.

Type programma

Het impliceert het gebruik van speciale software, die in feite alle noodzakelijke deduplicatieprocessen uitvoert. Bij deze aanpak is het echter altijd noodzakelijk om rekening te houden met de belasting op de server die zal optreden tijdens het deduplicatieproces.

Voor-en nadelen

De positieve aspecten van deduplicatie als proces zijn onder meer de volgende punten::

  • Hoog rendement. Volgens onderzoek van EMC vermindert het data-deduplicatieproces de behoefte aan opslagcapaciteit met 10-30 keer.
  • De voordelen van het gebruik ervan met een lage netwerkbandbreedte. Dit komt door de overdracht van uitsluitend unieke gegevens.
  • De mogelijkheid om vaker back-ups te maken en gegevensback-ups langer op te slaan.

De nadelen van deduplicatie zijn::

  • De mogelijkheid van een gegevensconflict als een paar verschillende blokken tegelijkertijd dezelfde hash-sleutel genereren. In dit geval kan de database beschadigd zijn, wat een fout zal veroorzaken bij het herstellen van een back-up.
  • Hoe groter het databasevolume, hoe groter het risico op een conflictsituatie. De oplossing voor het probleem is om de hash-ruimte te vergroten.
Wij gebruiken cookies om de functionaliteit van de website te optimaliseren en onze diensten te verbeteren. Lees voor meer informatie ons Privacybeleid.
Instellingen cookies
Strikt noodzakelijke cookies
Analytics-cookies