Deduplikoinnin suorituskyvystä

Deduplikointi säästää tallennustilaa. Siinä etsitään datasta identtisiä alueita, joista yksi säilytetään ja loput korvataan viitteellä tähän säilytettävään alueeseen. Tässä tutkielmassa käsiteltiin kirjallisuuteen perustuen deduplikoinnin eri osa-alueita. Erityistä huomiota kiinnitettiin deduplikoin...

Full description

Bibliographic Details
Main Author: Kaiponen, Samuel
Other Authors: Informaatioteknologian tiedekunta, Faculty of Information Technology, Informaatioteknologia, Information Technology, Jyväskylän yliopisto, University of Jyväskylä
Format: Master's thesis
Language:fin
Published: 2022
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/81880
Description
Summary:Deduplikointi säästää tallennustilaa. Siinä etsitään datasta identtisiä alueita, joista yksi säilytetään ja loput korvataan viitteellä tähän säilytettävään alueeseen. Tässä tutkielmassa käsiteltiin kirjallisuuteen perustuen deduplikoinnin eri osa-alueita. Erityistä huomiota kiinnitettiin deduplikoinnin suorituskykyyn ja sen parantamiseen. Katsauksessa selvisi, että deduplikoinnin moninaisiin sovelluskohteisiin tarvitaan hyvin erilaisia deduplikointijärjestelmiä. Niissä tasapainoillaan suorituskyvyn eri alueiden välillä: yhden alueen parantaminen heikentää usein toista. Työssä toteutettiin myös tietokoneohjelma, joka deduplikoi tiedostoja. Sen suoritusaikoja mitattiin kahden muuttujan eri arvoilla. Mittauksissa löydettiin muuttujille arvot, joilla suoritusaika oli yleisesti pienin. Deduplication saves storage space. In deduplication, data is searched for identical sections. One of these sections is stored and the rest are replaced with a reference pointing to the stored section. In this study, various aspects of deduplication were examined based on the literature. Special attention was given to the performance of deduplication and its improvement. In the review it was found that the diverse applications of deduplication require very different deduplication systems. The systems have to balance between the many aspects of performance: improving one aspect often weakens another. A computer program that deduplicates files was also implemented in this work. Its execution times were measured with different values of two variables. Values were found with which the program's execution times were generally the lowest.