Om forskningsdata og forældelse

Er dine forskningsdata i fare for at blive forældede? Er dine forskningsdata gemt i åbne, frie og udbredte formater, der er bredt understøttede af både software og hardware? Bliver dine forskningsdata ikke gemt i Rigsarkivet? Er dine forskningsdata FAIR? Kan du svare nej til et eller flere af spørgsmålene, så læs endelig videre. Har du kun lidt tid, så overvej med disse fem tips, hvordan du bedre kan sikre dine forskningsdata og værne dem mod forældelse. 

Læs også artiklerne

Fem gode råd om sikring af data

Beskrivelse af data – metadata

Forberedelse til langtidsbevaring

Fagspecifikke forskningsdata

Vi tager det i dag ofte for givet, at data vi producerer er tilgængelige, gerne i skyen, og for altid. Også skønt historien er rig på eksempler på det modsatte og viser, hvordan det kan være tilfældigheder, som eksempelvis fundet af Rosettastenen, der har gjort det muligt for senere generationer at forstå gamle datakilder. Digitale data adskiller sig på det punkt ikke fra analoge kilder, og der er udfordringer, som kan føre til en øget risiko for informationstab over tid, hvis ikke de adresseres tidligt og løbende i bevaringsprocessen.

En sådan udfordring er risikoen for, at data forældes og ikke længere kan læses og forstås. I arkiveringsjargon kaldes dette for logisk forældelse. Det betyder, at data, hvor fejlfrit det end står skrevet med 0- og 1-taller, ikke længere er muligt logisk at læse og forstå, fordi senere generationer har mistet evnen til at læse de binære værdier på den rigtige måde. Dette problem gælder ikke mindst, og måske endda i højere grad, for forskningsdata, fordi forskningsdata i sin natur skabes i en kontekst, hvor udvikling og foranderlighed ikke alene er vilkår, men noget, der aktivt tilstræbes, og data ofte er knyttet til anvendelsen af en bestemt teknologi.

Her introducerer vi dig til emnet og giver en række gode råd til at reducere risici for forældelse af dine forskningsdata, så også senere generationer kan drage nytte af ældre viden.

Når vi i det følgende omtaler forskningsdata, menes data, som er skabt i forbindelse med forskning med anvendelse af en videnskabelig metode. Det kan derfor være data af vidt forskellig oprindelse, med forskellige datatyper og brug. Forskningsdata kan derfor i denne sammenhæng både være tekst, billeder, lyde, statistiske data, data fra spørgeskemaundersøgelser, medicinske billeddata, eksperimentelle måledata, m.fl.

Hvad er logisk forældelse?

For at forstå, hvad logisk forældelse er, starter vi ved begyndelsen af det, vi kunne kalde en fortolkningskæde. På det første niveau af denne kæde står alt data skrevet i en lang sekvens af binære tal, enten 0 eller 1. Denne sekvens af binære tal udgør en bitstrøm. Bitstrømmen er i sig selv ikke forståelig for et menneske, førend vi anvender en metode til at dele bitstrømmen i bidder og etablere en ramme for, hvordan de opdelte binære tal kan oversættes til et tegn, vi som mennesker kan forstå, fx et bogstav.

Dette er, hvad næste trin i fortolkningskæden gør, nemlig opdelingen og afkodningen af den binære strøm til et tegnsæt. Et tegnsæt rummer de tal, tegn og bogstaver som vi mennesker anvender i vores alfabeter. Der findes mange sådanne “tegnsætsindkodere” eller “tekstkoder“, f.eks. ASCII, UTF-8 og ISO 8858 til de fleste vestlige tegnsæt, samt tegnsætsindkodere til f.eks. kinesiske eller japanske skrifttegn. Fælles for alle tegnsæt er en forståelse af, at bitstrømmen skal læses og fortolkes i henhold til en standard. Sker det, og har vi adgang til det rigtige tegnsæt, kan vi med vores computere åbne og læse bitstrømmen som det, vi kender, som en tekstfil.

Hvis vores fortolkningskæde stoppede her, ville spørgsmålet om logisk forældelse være begrænset til en søgen efter det tegnsæt, som skal anvendes til at oversætte bitstrømmen til de korrekte tegn. Logisk forældelse ville i denne sammenhæng betyde, at vi ikke længere har adgang til den rigtige tegnsætsindkoder og derfor ikke kan få mening ud af den lange sekvens af binære tal.

Desværre, eller heldigvis, er data mere righoldige end simple tekstfiler og indgår i til stadighed mere komplekse strukturer. Det gør arbejdet med at forstå bitstrømmen sværere, men til gengæld kan vi glæde os over at kunne bearbejde komplekse data som at analysere 3-dimensionelle hjerneskanningsbilleder og arbejde med flerdimensionelle datasæt.

Dette fører os til næste trin i fortolkningskæden, nemlig organiseringen af bits (eller tegn) i strukturer, vi kan kalde for formater. Her ligger der igen en fælles forståelse til grund for, hvordan den binære data skal læses og forstås på en måde, så programmer, udover simple teksteditorer, kan læse og repræsentere data på en meningsskabende måde. Nu handler logisk forældelse om, hvordan formatet kan læses og forstås, så den information, bitstrømmen i sidste ende repræsenterer, kan vises korrekt og meningsfuldt for en bruger af programmet.

Logisk forældelse er altså udtryk for det at miste evnen til at kunne læse binær data på en meningsfuld måde, så data kan forstås og fortolkes. Hvad enten ens bevaringsstrategi baserer sig på en migrerings– eller emuleringstankegang, se fx bevaringsmetoder, skal formatet i begge tilfælde kunne læses og forstås, inden det forsøges bevaret på den ene eller anden måde.

Årsager til logisk forældelse

Der er flere grunde til logisk forældelse, fx:

  • Et formats udbredelse er afgørende for dets overlevelse og fortsatte understøttelse. Hvis udbredelsen når under en kritisk størrelse, reduceres bevæggrundene for fortsat understøttelse. I kombination med hyppige udviklinger af mere moderne formater, kan et formats risiko for forældelse accelereres.
  • Den hastighed, programmer og formater udvikles med for at tilbyde nye funktionaliteter til brugere, kan gøre det svært og bekosteligt at sikre bagudkompatibilitet med ældre versioner. I sidste ende er risikoen, at ældre data i ældre formater, ikke længere understøttes af tilgængelige programmer. For forskningsområder med stor udviklingshastighed, hvor analyseværktøjer og understøttende formater udvikles hyppigt, er risikoen større.
  • At data er lagret i et lukket, proprietært format med utilgængelige eller utilstrækkelige beskrivelser af formatet. Proprietær betyder blot, at formatet er ejet af en privat virksomhed (eller organisation) med de rettigheder og den beskyttelse det giver ejeren. Dette kan skyldes, at ejeren har en konkurrencefordel og en økonomisk interesse i at hemmeligholde specifikationen. Uden specifikation og beskrivelse er det en svær og dyr affære at forstå et format.
  • På et mere kommercielt plan, kan overtagelser af konkurrerende virksomheder føre til, at nye ejere bevidst beslutter at markedsføre og understøtte ét program og format frem for et eller flere konkurrerende og nyligt erhvervet format. Dette sigter mod en bevidst begrænset understøttelse og udbredelse, som igen kan føre til at et format forældes.

Hvordan bevarer jeg mine forskningsdata?

Der er ikke en enkelt løsning på, hvad du skal gøre for at sikre dig, at dine forskningsdata fortsat kan tilgås, læses og genbruges, også om lang tid, hvis du ikke har mulighed for at aflevere dem til Rigsarkivet, der overtager opgaven for dig. Generelt er der udbredt enighed om en række tiltag, som kan medvirke til at reducere risici for forældelse. Det, vi kan være medvirkende til ved at vælge bevaringsegnede formater, er ikke at eliminere problemet, men at forlænge den tid det tager, før det bliver et problem.

Se disse fem gode råd til dig, der overvejer et format til dine forskningsdata, som kan medvirke til at reducere risici for forældelse.

Henrik Vetter og Filip Kruse, Det Kgl. Bibliotek, december 2019