Distribueret digital bevaring – en referenceramme

Distribueret digital bevaring er nødvendig, men også tit vanskelig, især når flere organisationer er involveret. En referenceramme kan bistå til forståelse, opbygning og tjek af distribueret digital bevaring, så tilliden til den digitale bevaring opretholdes.

DistributedDP_DigitalPreservationNY

Hvad er distribueret digital bevaring?

Distribueret digital bevaring er defineret som: brug af replikering, uafhængighed og koordination til at adressere kendte trusler mod digital indhold over tid. Denne definition stammer fra projektet der skabte denne referenceramme, som beskrevet nedenfor. Distribueret digital bevaring kaldes “distributed digital preservation” på engelsk og refereres i mange sammenhænge med forkortelsen DDP.

Hvorfor er der brug for en referenceramme for distribueret digital bevaring?

Der er en voksende anerkendelse af og erfaring for, at digital bevaring bliver nødt til at basere sig på distribution. Dette betyder, at der er behov for en ensartet terminologi og forståelse for distribuerede bevaringsløsninger, både på det organisatoriske og tekniske plan.

Hvorfor er distribution så vigtig?

Distribuerede løsninger er helt centrale og essentielle for digital bevaring. Dette skyldes, at distribution af data har mange fordele, som har stor betydning for kvaliteten og bæredygtigheden af den digitale bevaring:

  • øget bitsikkerhed som følge af uafhængighed mellem datakopier
  • øget sikkerhed for rettidig databehandling, så data ikke går tabt, før de er under bevaring
  • økonomiske fordele som del af stordriftsfordele
  • bæredygtighed som følge af, at flere organisationer er involveret.

Som minimum er det nødvendigt med distribution i forbindelse med bitbevaring, da risikoen for tab af alle data ved en ulykke eller via menneskeskabte fejl ellers vil være for høj.

Hvilke distribuerede løsninger findes der?

Det danske Bitmagasin og arkivdelen for Netarkivet er eksempler på løsninger, som grundlæggende er distribuerede. I forskningsprojektet er der også andre, kendte distribuerede digitale bevaringsløsninger repræsenteret, primært amerikanske. For løsninger, som mest handler om datadistribution, er disse: Internet Archive som har meget store datamængder, DuraCloud som er baseret på sky-leverandører, Chronopolis som har tre faste lokationer for data,  LOCKSS samt LOCKSS-baserede løsninger såsom MetaArchive og Data-Pass. Løsninger, der fokuserer mere på distribution af funktioner er  fx California Digital Library’s UC3 Merritt  samt Archivematica, som begge bygger på såkaldte ’micro-services’, altså  mindre funktioner, som indgår i hele bevaringsprocessen.

Hvem står bag skabelse af referencerammen?

Der har været et projekt startet af repræsentanter fra de ovennævnte distribuerede løsninger inkl. repræsentanter fra LOCKSS. Selve fremdriften i projektet, samt indsamling af materiale f.eks. via interviews, facilitering af møder, samt skrivning af udkast til referencerammen udføres af Educopia Institute (som repræsenterer MetaArchive) og Det Kongelige Bibliotek (som repræsenterer Bitmagasinet og er finansieret af forskningsmidler fra Kulturministeriets andel af tips- og lottomidler)1.

Hvad kommer referencerammen til at bestå af?

Udgangspunktet for arbejdet er, at referencerammen skal være en slags supplement til OAIS referencemodellen, som er den mest kendte og anvendte referencemodel for digitale bevaringsløsninger. Der er i dag en voksende anerkendelse af, at OAIS referencemodellen ikke er tilstrækkelig ved distribuerede løsninger, og det er derfor, dette forskningsprojekt relaterer sig til OAIS referencemodellen.

Referencerammens vigtigste del er de fire hovedkomponenter, som er identificeret som de mest relevante, når der fokuseres på de distribuerede elementer af digital bevaring i referencerammen, nemlig: terminologi, roller og ansvar, modeller og auditeringsmetoder.

Terminologi

Terminologien vil bestå af termer, koncepter og forkortelser, som har speciel betydning for distribueret digital bevaring, og dermed også for opbygningen af en fælles forståelse for elementerne i distribueret digital bevaring i praksis.

Eksempler på termer i terminologien er:

  • Den overordnede definition af distribueret digital bevaring, som i princippet ikke er forskellig fra digital bevaring, men som i sin definition fokuserer på distribution ved at basere sig på replikering, uafhængighed, og koordinering for at sikre vedvarende adgang til digitale materialer.
  • Supporterende termer, som fx hvad man kalder en enhed som opbevarer en kopi af data i et teknisk miljø og med tilhørende organisation.

Referencerammen søger dog ikke at diktere en bestemt terminologi, men snarere at definere nogle termer, som bruges inden for referencerammen, og som kan bruges som referencetermer i specifikke eksempler.

Roller og ansvar

Roller og ansvar er også fokuseret på dem, som har speciel betydning for distribueret digital bevaring. Det er fx roller og ansvar i forbindelse med koordinering af opgaver, data, teknik og infrastruktur, hvilket inkluderer de koordinerings- og samarbejdsopgaver, som er nødvendige som følge af distributionsaspekterne.

Rollerne vil så vidt muligt også hægtes op på de funktioner og ansvar, som er beskrevet i den funktionelle del af OAIS referencemodellen.

Modeller

Referencerammen beskriver indtil videre to modeller, som kan understøtte distribueret digital bevaring:

Distributed Digital Preservation model/DDP model
Denne model giver terminologi og ikoner til at beskrive netværket af organisationer i en distribueret digital bevaringsløsning. Dette inkluderer de enheder, der indgår som led i distribution af data, processering og overordnede administrative opgaver. Nogle af elementerne er med i illustrationen øverst i artiklen.

Modellen understøtter analyse og overblik over en distribueret digital bevaringsløsning. Dette er nyttigt i evalueringen af, om en løsning er dækkende for et bevaringsløsningsbehov, og ikke mindst i udpegningen af, hvad der skal berøres i en auditering af en løsning for specifikke datasamlinger.

Outer OAIS-Inner OAIS model/OO-IO model
Denne model dækker over, at hver funktionel enhed i OAIS kan være en OAIS i sig selv spredt over flere organisationer. Det vil sige, at en ydre OAIS kan indeholde flere indre OAIS’er.

OuterOAIS_DigitalPreservationNY

Dette er en overbygning på den eksisterende IR-BR model beskrevet i ”Cross Institutional Cooperation on a Shared Bit Repository”. IR-BR modellen blev udarbejdet i forbindelse med forundersøgelsen til det danske Bitmagasin.  IR-BR model ser specifikt på arkivdelen (Archival Storage) af OAIS-modellen, og den har været gavnlig i forbindelse med at afgrænse og definere en distribueret del af en bevaringsløsning (Bitmagasinet).

OO-IO modellen vil – ud over Archival Storage delen – også behandle OAIS funktionelle entitet Ingest på samme måde som OAIS funktionelle entitet Archival Storage.

Auditeringsmetoder

Det at have en troværdig distribueret kræver at der bliver lavet audits, som det er beskrevet i artiklen “Hvad kendetegner et troværdigt digitalt arkiv?“ .

Alle case studier, som danner referenceramme for projektet, er OAIS-baserede og i højere eller mindre grad auditerede ved brug af TRAC/ISO:16363 eller DRAMBORA (se artiklen om troværdigt digitalt arkiv). En del af erfaringerne fra case studierne er, at det er svært at se, hvordan de distribuerede elementer i en bevaringsløsning skal håndteres i en audit. For eksempel kan en udfordring være at inkludere alle distribuerede dele i et audit, hvis dette indbefatter fx sky-leverandører som Amazon.

Hvem skal kunne bruge referencerammen?

Mange vil kunne have gavn af referencerammen, da forståelsen af distribuerede elementer i digital bevaring er vigtig, når:

  • en ’bruger’ af en bevaringsløsning skal forstå, om det er den rigtige løsning. Her kan en ’bruger’ både dække over en dataejer for specifikke data, og det kan være en organisation med pligt til at lave langtidsbevaring over dele af deres digitale data.
  • en organisation som indgår i et nyt eller et eksisterende samarbejde omkring en distribueret løsning til digital bevaring. Her kan der være en interesse både i rollen som udbyder af en del af en løsning og som ’bruger’ af en løsning. Det vil sige, at det kan have interesse for såvel ledelse og dataejere som arkitekter, udviklere og driftsansvarlige.
  • der skal laves audit af en bevaringsløsning. Her vil det være af interesse for dataejere, der benytter en løsning, organisationer, som udbyder (dele af) en bevaringsløsning, såvel som interne eller eksterne uafhængige organisationer, som udfører audits.

Hvor kan jeg finde mere om referencerammen?

Der arbejdes stadig på at få oprettet et web-site med referencerammen, hvilket vil blive annonceret her på sitet. Desuden kan du finde mere om emnet her:

 

Eld Zierau, Det Kongelige Bibliotek, januar 2014 / revideret januar 2015



1. Statsbiblioteket og Det Kongelige Bibliotek fusionerede pr. 1. januar 2017. Med afdeling i hhv. Aarhus og København er institutionerne nu samlet under navnet: Det Kgl. Bibliotek. Da Det Kgl. Bibliotek var to adskilte institutioner under udgivelsen af denne side, er teksten beholdt uændret.

2 kommentarer til “Distribueret digital bevaring – en referenceramme

  1. Findes der en løsning for distribueret digital bevaring egnet for enkeltpersoner, familier og familiegrupper? Er det noget Statens Arkiver eller Det Kongelige Bibliotek beskæftiger sig med, eller er det noget man selv må finde ud af, så godt man nu kan?

    Venlig hilsen
    Michael Steen

    1. Kære Michael
      Jeg vil vælge at se dine to spørgsmål som tre forskellige spørgsmål
      1. Er der bevaringsløsninger for enkelt personer, familier og familiegrupper?
      2. Er det noget Statens Arkiver eller Det Kongelige Bibliotek beskæftiger sig med?
      3. I hvor høj grad er bevaringsløsningerne distribuerede digitale bevaringsløsninger?

      Først skal det præciseres, at hverken Statens Arkiver, Det Kongelige Bibliotek eller Statsbiblioteket normalt har løsninger for private, da disse institutioner er statslige og har til opgave at opfylde lovgivninger om pligtaflevering og arkivering. Der er dog stillet løsninger til rådighed for personer med speciel betydning for Danmark (fx kulturpersonligheder).

      Hvad angår det første spørgsmål, så er der spillere på markedet, der tilbyder løsninger til opbevaring af digitale data, – for eksempel google, e-box, drop-box, mail-servere. Hvis man overvejer at bruge sådanne services, bør man også overveje, om placeringen kan gøre, at andre kan få adgang til og evt. bruge oplysningerne, og om dette er ok. Man skal også overveje i hvor høj grad man tror på, at der er minimeret risiko for tab, fx hvis et udbyder går konkurs, hvis udbyderen kun har lille sikring af data, hvis der sker konvertering til andre formater osv.

      Det tredje spørgsmål om distribueret løsning, er et spørgsmål om, hvorvidt der er brugt distribution til at minimere risici for at miste data. Dette giver især mening for bitbevaring, hvor mere end en kopi er nødvendig. Der skal minimum to kopier, hvis en fejl i den ene skal kunne rettes ved at udskifte den med en ikke-fejlbehæftet (og ekstra stemme til afgørelse af hvilken der er rigtig). Distribution af kopierne er nødvendig for at minimere risiko for, at for eksempel samme fejl/katastrofe rammer alle kopier. Du kan læse mere om dette under bitbevaring, og du kan læse om en løsning til statslige institutioner under Det Nationale Bitmagasin.

      Alt i alt er det altså op til en enkelt person, familie eller familiegruppe at vurdere hvilken løsning der er bedst for dem, og der udbydes ikke nogen løsninger af staten.

      På redaktionsgruppens vegne
      Eld Zierau

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *