Her finder du fem gode råd til, hvordan du sikrer dine forskningsdata bedst muligt.
Tip 2: Brug åbne og frie formater
Tip 3: Brug formater med stor udbredelse
Tip 4: Brug formater der er bredt understøttede
Tip 1: Gør dine data FAIR
At gøre dine data FAIR bidrager til at sikre dem mod logisk forældelse. Jf FAIR-principperne og langtidsbevaring. I udgangspunktet er valget af format et område, som vedrører “A”-et i FAIR, nemlig at data skal være tilgængelig (eng. accessible) for mennesker og maskiner (programmer), men formatet skal også gerne tillade, at tilstrækkelig rig metadata kan beskrive data, jf. “F”-et (findable) i FAIR. For eksempel skal statistiske datasæt gerne bevares i et format, der giver mulighed for bl.a. at beskrive variabelnavne og labels, og have koder for manglende værdier og nøglevariable, m.fl.
Tip 2: Brug åbne og frie formater
Brug for så vidt muligt formater, der er åbne og frie. Formater som er åbne og frie, og helst med internationale standardiserede specifikationer, har en forventet lavere risiko for formatforældelse og er bedre sikret mod kommercielle interesser, der kan påvirke understøttelsen af særligt ældre formater negativt. I forskningskredse er det ikke altid muligt at anvende åbne og frie formater formater, eksempelvis fordi der kan være en teknologisk binding til maskinel, som producenter har en økonomisk interesse i at hemmeligholde virkemåden af ved ikke at tilgængeliggøre specifikationen af formatet. I så fald anbefales det at eksportere data til et beslægtet åbent format og bevare dette sammen med data i originalformatet. Arbejder du i Word, kan du overveje en kopi i OpenOffice format, arbejder du i SPSS, kan du overveje at eksportere dine data til R eller SDMX.
Tip 3: Brug formater med stor udbredelse
Vælg formater, der er velkendte og udbredte over formater, som er smalle og nicheprægede. Jo større udbredelse, desto større sandsynlighed for, at der findes fællesskaber og bevæggrunde til fortsat understøttelse. Det kan betyde, at de nyeste og mest moderne formater, ud fra en ren bevaringsmæssig synsvinkel ikke er de mest oplagte formater til langtidsbevaring. For bevaringsformater i arkivverdenen vægter det ofte højt, at der er sparsomme og få opdateringer til formatet over en årrække. Der kan være forskningsområder, som kun har mulighed for at anvende små og snævre formater eller sågar egenudviklede formater. I det tilfælde bør der som minimum eksistere en righoldig og fyldestgørende dokumentation og beskrivelse af formatet, som kan bevares sammen med data. Hvis det er muligt, kan du eksportere data til et udbredt (og gerne åbent) format og gemme denne kopi sammen med data i originalformatet.
Tip 4: Brug formater der er bredt understøttede
Formater, der kan læses af flere forskellige programmer, proprietære som åbne, på forskellige platforme med forskellige operativsystemer, er bevaringsmæssigt mindre risikable end formater, der er tæt knyttet til specifikke programmer og arkitekturer. Er det ikke muligt at vælge sådanne formater, skal du som minimum notere dig så meget som muligt om, hvilke operativsystemer, programmer, platforme m.v., der skal til for at åbne og læse formatet og dets indhold.
Tip 5: Test dine data
Selv et format, som er egnet til langtidsbevaring, kan være ubrugeligt, hvis data er korrupt eller på anden vis ikke valide. Derfor er det vigtigt, at dine data kan testes, verificeres og sikres integritet over tid. Med testes forstås, at formatet og dets dataindhold kan testes for, om det overholder den korrekte notation (syntaks) og/eller om indholdet er meningsskabende. Integritet kan fx kontrolleres ved at registrere filers checksummer over tid på faste tidspunkter og kontrollere, at de ikke ændrer sig over tid.
Undersøg, om der findes værktøjer eller programmer/scripts, der kan teste og verificere formatet. Hvis ikke, kan du være nødsaget til at lave egne tests, som minimum at sikre, at filen kan åbnes og læses af et givet program og, at filen er i det format, filen angiver. Det engelske nationalarkivs PRONOM database indeholder for en stor mængde formater både eksterne signaturer (eksempelvis filendelser) og interne signaturer (eksempelvis en fastdefineret bestemt værdi på et bestemt sted i filen), som kan bruges til at tjekke, om filen er, hvad den giver sig ud for at være. Filidentifikationsværktøjer som DROID og FITS gør bl.a. brug af PRONOM databasen og kan frit anvendes.
Læs også artiklerne
Om forskningsdata og forældelse
Beskrivelse af data – metadata
Henrik Vetter og Filip Kruse, Det Kgl. Bibliotek, december 2019