Summary: | Deduplikointi säästää tallennustilaa. Siinä etsitään datasta identtisiä alueita, joista yksi säilytetään ja loput korvataan viitteellä tähän säilytettävään alueeseen. Tässä tutkielmassa käsiteltiin kirjallisuuteen perustuen deduplikoinnin eri osa-alueita. Erityistä huomiota kiinnitettiin deduplikoinnin suorituskykyyn ja sen parantamiseen. Katsauksessa selvisi, että deduplikoinnin moninaisiin sovelluskohteisiin tarvitaan hyvin erilaisia deduplikointijärjestelmiä. Niissä tasapainoillaan suorituskyvyn eri alueiden välillä: yhden alueen parantaminen heikentää usein toista. Työssä toteutettiin myös tietokoneohjelma, joka deduplikoi tiedostoja. Sen suoritusaikoja mitattiin kahden muuttujan eri arvoilla. Mittauksissa löydettiin muuttujille arvot, joilla suoritusaika oli yleisesti pienin.
Deduplication saves storage space. In deduplication, data is searched for identical sections. One of these sections is stored and the rest are replaced with a reference pointing to the stored section. In this study, various aspects of deduplication were examined based on the literature. Special attention was given to the performance of deduplication and its improvement. In the review it was found that the diverse applications of deduplication require very different deduplication systems. The systems have to balance between the many aspects of performance: improving one aspect often weakens another. A computer program that deduplicates files was also implemented in this work. Its execution times were measured with different values of two variables. Values were found with which the program's execution times were generally the lowest.
|