digitalbevaring.dk

– om digitalisering og digital bevaring

  • À propos
  • About us
  • Viden om
  • Værktøj
  • Links
  • Ordbog
  • Illustrationer
  • Nyheder
  • Begivenheder
  • Om sitet
  • Kontakt
  • À propos
  • About us

Pakkeformater – Hvilke formater egner sig bedst til pakning af data til bitbevaring?

Viden omDigital bevaringBevaring af digitalt materialeBevaringsmetoder og viden om disseBitbevaring

Pakkeformater kan bruges i bevaring til at bundte forskellige data fx data og disses metadata. Det mest kendte format brugt af private er nok ZIP-formatet. For data til bevaring er der dog en lang række krav til formatet, som betyder, at andre formater end ZIP må overvejes.

WARC_DigitalPreservation

Hvad er et pakkeformat?

I bevaring kan der være brug for forskellige slags pakkeformater. Denne artikel beskriver de pakkeformater, som bruges til at bundte informationer sammen i pakker, som så langtids-bitbevares.

Pakkeformater

Et pakkeformat skal kunne pakke alle informationer om et digitalt objekt, dvs. en pakke skal kunne indeholde

  1. source – som er selve indholdet, fx en fil
  2. metadata – som er metadata, typisk til sourcen

Et eksempel på et pakkeformat er WARC-formatet, som kan indeholde poster/dele af forskellige typer, alt efter hvad de indeholder, fx en post til sourcen og en post til metadata.

Metadatapakkeformater

Der eksisterer også formater som fx METS, som oprindeligt er et transport/pakkeformat, men som i dag mest bruges i forbindelse med metadata. METS giver struktur til at samle forskellige metadata, såsom deskriptive metadata og bevaringsmetadata (se mere under metadata). METS er hyppigt anvendt som en slags metadatapakkeformat, som kan indeholde metadata. METS bruges dog sjældent som et pakkeformat for pakker i langtids-bitbevaring, eftersom der er udfordringer med at inkludere sourcen i METS.

Hvorfor bruge et pakkeformat?

Pakkeformater bruges til at sikre, at data kan gøres tilgængelige i fremtiden. Der kan være flere grunde til at foretrække at pakke sine data:

  • Pakning kan give ensartet tilgang til data
    Ved pakning kan der gives en ensartet tilgang uafhængigt af data og disses formater, strukturer og metadataformater. Dette kan gøres, hvis pakningen sker på en ensartet måde for alle formater, så typen af data (og dermed den efterfølgende håndtering) fremgår af pakningen. Bemærk, at data her ikke nødvendigvis er enkeltfiler.
  • Pakningen indeholder al nødvendig information for fremtidig tilgang
    For at kunne referere til data vil det på et eller andet tidspunkt være nødvendigt at kunne referere til en fil (hvis data er en fil, en del af fil, struktur af andre data inkl. metadata osv.). Såfremt en fil ikke pakkes med dens persistente identifikator, så vil identifikationen afhænge af andre systemer (f.eks. filnavn i filsystem, system, der kender identifikator, osv.). Pakning kan derfor hjælpe til at pakke identifikatoren sammen med filen og dermed undgå risiko for tab af denne information, som ellers vil skulle vurderes og overvåges for de enkelte systemer med information om identifikatorer.
  • Pakning kan optimere lagring på medie
    Hvis en samling indeholder mange små enkeltobjekter, kan et pakkeformat også bruges til at samle flere objekter sammen i en større pakke, så man optimerer i forhold til lagringen. For eksempel er der i Netarkivet mere end 13 milliarder objekter, hvilket er stor set umuligt at håndtere i et filsystem. Derfor pakkes Netarkiv-data i 1Gb WARC-filer som hver rummer ca. 30.000 objekter.

Hvilke krav er der til et pakkeformat?

Kravene til et pakkeformat vil afhænge af, hvilke krav der er til bevaringen, så data i pakkerne senere kan udtrækkes og fortolkes. Kravene afhænger derfor også af, hvilke risici man ønsker at minimere i sin bevaring.

Et eksempel på krav kan findes i artiklen ”Package Formats for Preserved Digital Material”, hvor der, baseret på Det Kongelige Biblioteks1 risikovurderinger, listes ti krav til pakkeformater. Kravene er:

  1. Platforms-uafhængighed – så skift til en ny platform ikke resulterer i, at pakkeformatet ikke kan bruges
  2. Fleksibel pakning – så man kan optimere størrelsen af de endelige pakker i forhold til økonomi og performance aspekter for den endelige lagring og mulige tilgang til pakkerne
  3. Support af opdateringer – så ændringer til bevarede data kan gemmes i mindre, separate pakker (dvs. at ændringer i fx en TIFF header ikke betyder, at man er nødt til at lave en ny pakke med hele TIFF-filen)
  4. Standardisering – af formatet, så dokumentation og kvalitet er høj, og der derfor er mindre risiko for, at viden om formatet mistes eller er fejlbehæftet
  5. Åbenhed – et åbent format mindsker risikoen for at miste tilgang til viden om formatet
  6. Nemt forståeligt – så der ikke er risiko for, at kompleksitet resulterer i mangler eller fejlfortolkning af formatet
  7. Vidt udbredt i bevaring – begrænser risikoen for, at formatet udvikler sig væk fra at være anvendeligt til bevaring
  8. Værktøjer tilgængelige – så risikoen mindskes for, at man selv kommer til at skulle udvikle værktøjer. Tilgængelige værktøjer har også indflydelse på, hvor udbredt formatet bliver
  9. Uændrede filer – så risikoen mindskes for tab af data som led i at ændre og omgøre ændring, for eksempel ved kryptering
  10. Identifikator for filer – så risikoen mindskes for tab af viden om, hvordan data/filer findes/refereres

Hvilke pakkeformater findes der?

Der er mange forskellige pakkeformater, og der er som nævnt tidligere forskel på, om et format bruges som pakkeformatet eller som metadata-pakkeformat – som for eksempel METS-formatet, der oprindeligt er designet som pakkeformat men i dag fortrinsvis bruges som et metadata-beholderformat.

I den førnævnte artikel, ”Package Formats for Preserved Digital Material”, er udvalgt otte forskellige, kendte pakkeformater (inkl. METS), som har forskellige karakteristika, og som er potentielle pakkeformater til bevaring. De udvalgte pakkeformater er:

  1. AFF – Advanced Forensic File Forensic disk image formats
  2. ARC – ARChive format
  3. BagIt – Bag It package format
  4. METS – Metadata  Encoding and Transmission Standard
  5. RAR – Roshal Archive format
  6. TAR – Tape  ARchive format
  7. WARC – Web ARChive format
  8. ZIP –  ZIPping packaging file format

Alle formaterne er udførligt beskrevet i artiklen, hvor der også nævnes andre formater, fx XFDU, som er karakteriseret ved at være et XML-format ligesom METS.

Hvilket pakkeformat skal jeg vælge?

Ved valg af pakkeformat skal man altid lave sin egen risikovurdering og dermed stille sine egne krav. Det vil også være en god ide at sammenligne flere forskellige pakkeformater og vurdere, hvilke formater der opfylder kravene. Et eksempel er givet i nedenstående tabel over de ti krav og otte formater fra artiklen.

  • Ja              angiver, at kravet er vurderet til at være tilstrækkeligt opfyldt
  • Næsten   angiver, at kravet er vurderet til at være næsten tilstrækkeligt opfyldt, med enkelte små mangler
  • So-So       angiver, at kravet er vurderet til at være opfyldt til en vis grænse, men yderligere evaluering af mangler vil være nødvendige
  • Lidt           angiver, at kravet er vurderet til kun at være lidt opfyldt
  • Nej            angiver, at kravet er vurderet til IKKE at være opfyldt
Requirements   Formats AFF ARC BagIt METS RAR TAR WARC ZIP
 1. Platforms-uafhængighed Ja Ja Ja Ja Ja Ja Ja Ja
 2. Fleksibel pakning Ja Ja Nej Ja Ja Ja Ja Ja
 3. Support af opdateringer Nej Nej Nej Næsten Nej Nej Ja Nej
 4. Standardisering Lidt Nej So-so Ja Nej Ja Ja Lidt
 5. Åbenhed Ja Ja Ja Ja Nej Ja Ja Næsten
 6. Nemt forståeligt So-so So-so So-so Næsten Nej Lidt Ja Lidt
 7. Vidt udbredt i bevaring Nej So-so Næsten So-so Lidt Ja Næsten So-so
 8. Værktøjer tilgængelige So-so Ja Ja So-so Ja Ja So-so Ja
 9. Uændrede filer Ja Ja Ja Nej Nej Ja Ja Ja
 10. Identifikator for filer Ja So-so So-so Ja Nej Nej Ja Nej

 

Værdierne i tabellen er i nogle tilfælde kun skønnede værdier. For eksempel findes der ikke fuldstændig dokumentation for, hvor udbredt et format er inden for bevaring.

Tabellen herover indeholder krav i forhold til Det Kongelige Biblioteks risikovurdering og viser, at WARC er det bedste format. Dette er også grunden til, at Det Kongelige Bibliotek i dag bruger WARC til at pakke alle digitale materialer, som skal langtidsbevares. En del af de metadata, der pakkes i WARC, er pakket i METS, men den yderste ”indpakning” er altid WARC.

Du kan bruge analysen her til at pege på, hvilket format der kan være bedst egnet for dig. Hvis du vurderer, at fx krav 3, 6 og 10 ikke er vigtige, så vil det være værd at se på formatet TAR i stedet. Dog bør overvejelserne for de enkelte scorer ses igennem, så argumentationen også gælder for dit tilfælde.

Læs mere:

Artiklen ”Package Formats for Preserved Digital Material” af Eld Zierau, kan findes i Proceedings for 9. International Conference on Preservation of Digital Objects 2012, Toronto, Canada, s. 54-62.

 

Eld Zierau, Det Kongelige Bibliotek, maj 2014  / revideret januar 2015



1. Statsbiblioteket og Det Kongelige Bibliotek fusionerede pr. 1. januar 2017. Med afdeling i hhv. Aarhus og København er institutionerne nu samlet under navnet: Det Kgl. Bibliotek. Da Det Kgl. Bibliotek var to adskilte institutioner under udgivelsen af denne side, er teksten beholdt uændret. ↩

Skriv et svar Annuller svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Vi gør opmærksom på, at Digitalbevaring.dk frasiger sig ethvert ansvar for indholdet af offentlige kommentarer. Vi gør samtidig opmærksom på, at Digitalbevaring.dk forbeholder sig retten til at publicere, slette og redigere kommentarer på hjemmesiden samt opbevare navn, e-mail og ip-adresse på kommentarskrivere. Hvis du ønsker din kommentar og tilhørende brugeroplysninger slettet, bedes du kontakte os.

< Komprimering – Kan man få data til at fylde mindre?
Bitmagasin – Brug af Bitmagasinet på Statsbiblioteket >

Seneste nyheder

  • Digitalbevaring.dk nedlægges
    Hjemmesiden nedlægges i løbet af 2021.

    Læs mere …

  • Ny interessegruppe om europæisk databasearkivering
    Interessegruppe om databasearkivering sat i søen

    Læs mere …

  • Happy World Digital Preservation Day!
    Følg World Digital Preservation Day med #WDPD2020

    Læs mere …

Følg os på

  • Facebook
  • LinkedIn

Tilmeld dig nyhedsbrevet

  • Rigsarkivet
  • Det Kgl. Bibliotek
Digitalbevaring.dk bruger cookies til at lave statistikFlere oplysninger