Komprimering – Kan man få data til at fylde mindre?

Når man ønsker at sikre sine data bedst muligt, støder man ofte på det problem, at de fylder! En måde at få data til at fylde mindre på, er ved at komprimere dem, men man skal her være opmærksom på, at dette kan medføre nogle andre gener, såsom tab af informationer i data.

 

Hvordan komprimerer man data?

Princippet bag komprimering af data er benyttelse af et format, som er mere pladsbesparende end det bestående. Som en konsekvens af denne komprimering vil data ikke umiddelbart kunne anvendes til sit oprindelige formål, før den modsvarende proces, dekomprimering af data, er gennemført.

Komprimering med algoritmer

Pladsbesparelsen opnås ved at benytte algoritmer, der enten finder gentagelser af data eller sletter data, som algoritmen skønner ubetydelige.

Komprimering med algoritmer, som finder gentagelser af data, kaldes for tabsfri komprimering, da alle data kan genskabes uden tab, hvorimod komprimering med algoritmer, som sletter data, kaldes for tabsgivende komprimering.

Eksempel på komprimering

Eksempelvis kan data ”AAAAA” komprimeres som ”#5A” ved at benytte et format, hvor man angiver antal gentagelser og dernæst data frem for blot at angive data som i det bestående format.

Efterfølgende kan ”#5A” dekomprimeres til ”AAAAA”. Dette er en tabsfri kompression, fordi ingen data blev slettet.

Hvornår sker komprimeringen af data?

Komprimering af data kan ske i flere forskellige sammenhænge. Mest kendt er nok, at man kan “pakke” og komprimere sine filer i en zip-fil. Komprimering sker også i mange filformater, da de rå ukomprimerede data ellers ville tage alt for meget lagerplads. Endelig har også forskellige dataoverførselsprotokoller mulighed for at foretage komprimering af data for at kunne gennemføre en overførsel af en datastrøm så hurtigt som muligt.

Komprimering kan ske, uden at man ønsker det

Uanset om man ønsker at benytte sig af komprimering eller ej, så kan man altså komme til det, da komprimering kan være integreret i de filformater, man arbejder med. Valg af egnede filformater indebærer ofte også et valg om datakomprimering – dels for og imod, dels hvilken type komprimering, der skal anvendes.

Tabsgivende kompression

Tabsgivende kompression i filformatet er en af grundene til, at man ved aflevering af data til offentligt arkiv fx ikke tillader almindelige JPEG-billeder. Den kompression, der findes i JPEG billeder, er tabsgivende, og kan være meget radikal.

Af samme grund er JPEG-billeder meget brugt på internettet, da det her er vigtigere, at data ikke fylder for meget, så overførselshastigheder er rimelige, end at de er 100 % tro mod det oprindelige dataindhold. Læs mere om digitale billeder i artiklerne Digitale billeder og Bevaring af digitale billeder.

Hvilken slags komprimering skal man anvende?

Hvis der er behov for at komprimere data i forbindelse med digital bevaring, anbefales det som et helt grundlæggende princip altid, at udgangspunktet skal være den tabsfri komprimering, herunder også at man vælger filformater, der er baseret på tabsfri komprimering. En stor del af forklaringen på det er, at man næppe nu kan vurdere, om det skøn, komprimeringsalgoritmen laver i forbindelse med tabsgivende komprimering, er det korrekte skøn for hver enkelt fil. Man risikerer altså at miste data, man ønskede at bevare.

Et forkert valg kan skabe øget tab

Der vil være situationer, hvor det kan give mening nøje at overveje tabsgivende komprimering, for eksempel af økonomiske grunde, eller hvor der slet ikke findes et egnet tabsfrit format til bevaringen af bestemte data. Et eksempel på dette er film. Men den tabsgivende komprimering er dog ekstra problematisk i forbindelse med digital langtidsbevaring, da man jo lige netop her skal planlægge bevaringen af data ind i en ukendt fremtid.

Den bevaringsstrategi, man benytter sig af – i danske sammenhænge vil den typisk være baseret på migrering – skal altså nu yderligere tage højde for den tabsgivende komprimering, og at man ved fremtidig migrering af data måske ikke kan benytte den samme tabsgivende algoritme. Det kan resultere i et scenarie, hvor data bliver slettet på forskellige måder for hver ny algoritme, og dermed bliver yderligere forringet ved hver migrering.

Anders Bo Nielsen, Rigsarkivet | maj 2012 /Revideret februar 2015

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *