Na czym polegają trzy fundamentalne etapy deduplikacji danych?

Posted on 20/06/2023 8:46am

Proces deduplikacji danych komputerowych, to usuwanie powtarzających się plików i mogłaby odbyć się na trzech najważniejszych poziomach: bajtu, bloków i plików. Każdy z tych poziomów przedstawia inny rodzaj fragmentu danych.

Są one później za pomocą systemu sprawdzane na wypadek (polecamy artykuł związany z - jak uzyskać odszkodowanie z oc sprawcy) pojawienia się powtórzeń. Do tworzenia unikatowych identyfikatorów wykorzystywany jest wzorzec funkcji skrótu. Dotyczy to jakiejkolwiek przeanalizowanej części danych. Wspomniane identyfikatory przechowywane są w indeksie, a następnie stosowane są w procesie deduplikacji. Naturalnie zduplikowane fragmenty mają identyczne identyfikatory funkcji skrótu. Teoretycznie im dokładniejsza jest analiza, to tym lepszy jest współczynnik deduplikacji. W praktyce jednak wszystkie wymienione poziomy zawsze posiadają swe wady i zalety. Przykładowo deduplikacja na szczeblu plików jest w każdym przypadku najbardziej prosta przy wdrożeniu.

Co ważne, taka forma deduplikacji nie jest zbyt obciążająca dla serwera, ponieważ wygenerowanie funkcji skrótu jest relatywnie proste. Niestety minusem takiej formy jest to, że jeżeli jakiś plik zostanie w jakikolwiek sposób zmodyfikowany, to przekształca się także identyfikator funkcji skrótu. W wyniku obydwie wersje plików zostaną na serwerze zapisane. Deduplikacja na szczeblu bloków polega oczywiście na porównaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Analogicznej mocy potrzebuje deduplikacja na poziomie bajtów. Jest to poniekąd w najwyższym stopniu prymitywny sposób na porównywanie danych.

Robi się to, jak sama nazwa wskazuje, bajt po bajcie. Przeprowadzana w ten sposób analiza jest naturalnie bardzo dokładna. Pewnym minusem mógłby być czas trwania takiego rodzaju deduplikacji.

Tags: wynik, czas, części, pomoc, sposób