Bevaring af hjemmesider

Hvad skal der til, hvis man vil indsamle, arkivere, og bevare en hjemmeside?  Skal man kunne vise hjemmesiden, som den så ud på et bestemt tidspunkt, inklusiv fx video, spil osv. Kan det også gemmes og bevares? Der er mange, der arbejder på løsninger både i Danmark og internationalt, og selvom nogle ting er svære eller umulige at bevare lige nu, så er der også meget, som kan gøres.

Hvorfor er det så svært at bevare hjemmesider?

Der er forskel på hjemmesider

En side på internettet (webside) kan være simpelt opbygget med lidt tekst i html-format, et CSS stylesheet til formatering og nogle billeder. At indsamle en enkelt webside eller en hel hjemmeside bygget af simple sider er ikke i sig selv særligt vanskeligt.

Komplekse hjemmesider

Men en side på internettet kan også være nærmest vilkårligt kompliceret. Den kan

  • Udføre komplekse handlinger på en webserver (som fx at betjene online-køb)
  • Udføre komplekse handlinger i browseren ved at indeholde programmer som javascript
  • Vise dynamisk indhold ved hjælp af javascript
  • Indeholde streamingmedier: video, lyd, spil osv.
  • Vise forskelligt indhold afhængigt af, hvilken browser man bruger, eller hvor man kommer (browser) fra.

Hvor meget kan bevares?

Arkivering af materiale fra internettet handler derfor ikke om at genskabe en hjemmeside i et arkiv, men om at arkivere et repræsentativt øjebliksbillede af, hvordan siden så ud og opførte sig for den enkelte bruger på et bestemt tidspunkt. Selv med denne begrænsning er der stadig meget webmateriale, såsom streamingmedier, som ikke nemt kan indsamles med den nuværende teknologi. Der arbejdes aktivt på mange fronter for at forbedre kvaliteten af webarkiveringsværktøj.

Formater og værktøj

Hvordan vælger man arkiveringsformat?

En side på en hjemmeside består typisk af flere objekter (html-tekst, billeder, CSS stylesheets, scripts m.m.), som kan være hentet fra forskellige webadresser (URL’er). Hvert objekt har nogle metadata (http headers), som ikke bliver vist i browseren, men som bruges af browseren til at fortolke, hvordan objektet skal bruges. Det ideelle format til arkivering af webmateriale bør derfor

  • Beholde metadata (headers, URL, og indsamlingstidpunkt) tæt forbundet med de tilhørende indholdsdata
  • Være åbent, dvs. uafhængigt af kommercielle software leverandører (open source)
  • Være standardiseret og almindeligt udbredt.

ARC og WARC

ARC-formatet er et pakkeformat, som er udviklet netop til det formål. WARC-formatet er et udvidet format, som bedre understøtter nogle af kravene fra webarkivering og derfor i vidt omfang har erstattet ARC som standardformat inden for webarkivering. Vi anbefaler, at webarkiver bruger indsamlingssoftware, som understøtter WARC. Der findes også værktøjer (fx OpenWayback), som kan vise arkiver i ARC- og WARC-format i en browser, og der udvikles karakteriseringsværktøj til ARC og WARC.

Internet Archive

Banebryderen inden for webarkivering er Internet Archive, som har arkiveret hjemmesider fra hele verden siden 1996. Materialet samles med en automatisk webbrowser (“webcrawler” eller “spider”), som hedder Heritrix. Heritrix er meget fleksibel, men samtidigt relativt nemt for en tekniker at komme i gang med, hvorfor den kan anbefales til enkeltstående webarkiveringsopgaver, hvor der fx ikke kræves jævnlig automatisk skedulering af nye høstninger. Heritrix understøtter WARC.

WARCreate er et værktøj til webarkivering, som findes som et browser-plugin til Google Chrome, og som kan gemme en vilkårlig hjemmeside, man kigger på, i standard WARC-format. WARCreate er stadig relativt nyt, men værktøjet repræsenterer en spændende, ny måde at indsamle enkelte hjemmesider via en håndstyret proces.

Et andet spændende værktøj, som kan generere et WARC-arkiv i realtime, mens man browser manuelt i et website, er Liveweb Proxy. Dette værktøj kan i nogle tilfælde gemme materialer, som andre værktøjer ikke kan gemme.

Netarkivet og NetarchiveSuite

I Danmark har det danske webarkiveringsinitiativ Netarkivet udviklet et helt system rundt om Heritrix, kaldet NetarchiveSuite, som kan administrere webarkiveringsprocessen. NetarchiveSuite kan styre indsamling og arkivering på mange samtidige computere og har moduler til monitorering, bitbevaring og kvalitetsikring. NetarchiveSuite kan anbefales til større arkiveringsopgaver, hvor mange hjemmesider med forskellige indsamlingsprofiler skal indsamles, og hvor der er tilstrækkeligt med ressourcer til at sætte sig ind i systemet og administrere det. NetarchiveSuite er i dag mest brugt af europæiske webarkiver styret af nationale biblioteker (p.t. i Danmark, Frankrig og Østrig).

Webarkivering som en service

En stigende trend inden for webarkivering er, at organisationer outsourcer etableringen af et webarkiv til eksterne specialister. Det kan have mange fordele for små og mellemstore arkiver: man kan få en komplet pakke med harvesting (høstning), arkivering (hosting), og adgang gennem wayback samt drift og support. Det koster selvfølgelig, men det skal sammenlignes med omkostningerne ved at etablere den samme ekspertise “in house”. Det er bedste at vælge en tjeneste, som har erfaring med webarkivering for langtidsbevaring, og som derfor bruger åbne standardformater, fx:

Logisk bevaring af hjemmesider

Bitbevaring af webarkiver er principielt det samme som bitbevaring af andre digitale materialer, men den logiske bevaring indebærer nogle udfordringer, i og med at man som arkiv-ejer ikke har nogen form for kontrol over det materiale, som andre folk lægger ud på deres hjemmesider.

Udfordringer i forbindelse med logisk bevaring af hjemmesider

Noget af det, der gør bevaring af hjemmesider svært, er:

  • Filformater. Man indsamler filer i alle mulige formater, også formater som ikke er velegnet til langtidsbevaring
  • Standarder. Der er ingen garanti for, at det, man samler ind, overholder de relevante standarder. Fx overholder mange hjemmesider ikke World Wide Web Consortium’s standarder for html-formatering
  • Browser-afhængighed. Nogle hjemmesider vises kun korrekt i bestemte browsere, i nogle tilfælde kun i bestemte versioner af bestemte browsere, og der er ingen garanti for, at en hjemmeside indsamlet i dag vil blive vist rigtigt i en fremtidig browser
  • Plugin-afhængighed. Nogle hjemmesider er ikke kun afhængige af browseren men kræver også, at man installerer ekstra software (plugin) såsom Adobe Flash, Microsoft Silverlight eller Java, og selvfølgelig skal de også være installeret i den rigtige version. I værste fald kan man arkivere en hjemmeside, som er afhængig af et plugin, som ikke længere findes.

Dette viser tydeligt, at funktionel bevaring af hjemmesider ikke er et problem med en simpel løsning, men man kan godt komme med nogle retningslinjer.

Karakterisering er kritisk

For at kunne planlægge bevaringsstrategien for et webarkiv er det vigtigt at vide, hvad man har i arkivet. Man skal derfor have en løbende statistik over, hvor mange objekter man har og i hvilke formater, og hvorvidt objekterne overholder relevante standarder. Automatiske karakteriseringsværktøj som JHOVE2 kan bruges med fordel.

Denne type værktøj er dog stadig begrænset til bestemte filtyper, og en manuel karakterisering/kvalitetssikring af det høstede/indsamlede materiale er derfor nødvendig for at finde ud af, hvilke browseropsætninger der kan bruges til at vise materialet. Informationen om browseropsætninger skal også gemmes – det vil sige, at videnstyring er særligt vigtigt i webarkivering.

Migrering er muligt, men …

Hvis man har indsamlet materiale med objekter i formater, som ikke egner sig til langtidsbevaring, er migrering af disse objekter til bedre formater en mulighed. Men for store, komplekse arkiver vil omkostningerne til denne migrering være uoverkommelige, hvilket betyder, at der kun findes begrænset erfaring med migrering af webarkiver.

Emulering har nogle fordele

Mange satser på emulering som vejen frem i bevaring af webarkiver. Med en emuleringsstrategi kan man kontrollere, hvilken browser-opsætning og hvilket operativsystem fremtidige brugere har til rådighed, når de skal se arkivet. Har man fx en hjemmeside, som kun fungerer med Internet Explorer 6 under Windows XP, så kan man sørge for at kunne vise en emulering af denne opsætning. Emulering af webarkiver er et meget aktivt udviklingsområde, og det EU-støttede KEEP projekt har udgivet et emulerings-framework, som danner rammen for visning af ældre hjemmesider i ældre browsere med plugins.

Hold dig ajour

Webarkivering er stadig i sin vorden, og i praksis har end ikke de store aktører ret meget erfaring med at løse problemerne inden for funktionel bevaring. Det er derfor vigtigt at holde sig ajour med den nyeste udvikling inden for området. Et godt udgangspunkt er artiklerne fra International Internet Preservation Consortium, som har en fast arbejdsgruppe (Preservation Working Group) med mere end ti aktive webarkiveringsinstitutioner, der målrettet arbejder med at finde løsninger til de mange udfordringer.

Indsamling af hjemmesider i Danmark: netarkivet.dk

Indsamling af hjemmesider internationalt: archive.org

Værktøj til indsamling af hjemmesider: netpreserve.org og netarchive.dk

Tips til digital bevaring af hjemmesider:
“Five Tips for Digital Preservation of Web Archives”

IIPCs artikler og præsentationer om bevaring af hjemmesider

Forsøg med migrering af webarkiver

Colin S. Rosenthal, Statsbiblioteket1, maj 2011 | revideret august 2012 | januar 2015


1. Statsbiblioteket og Det Kongelige Bibliotek fusionerede pr. 1. januar 2017. Med afdeling i hhv. Aarhus og København er institutionerne nu samlet under navnet: Det Kgl. Bibliotek.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *