Fem gode råd om sikring af data

Her finder du fem gode råd til, hvordan du sikrer dine forskningsdata bedst muligt.

Tip 1: Gør dine data FAIR

Tip 2: Brug åbne og frie formater

Tip 3: Brug formater med stor udbredelse

Tip 4: Brug formater der er bredt understøttede

Tip 5: Test dine data

Tip 1: Gør dine data FAIR

At gøre dine data FAIR bidrager til at sikre dem mod logisk forældelse. Jf FAIR-principperne og langtidsbevaring. I udgangspunktet er valget af format et område, som vedrører “A”-et i FAIR, nemlig at data skal være tilgængelig (eng. accessible) for mennesker og maskiner (programmer), men formatet skal også gerne tillade, at tilstrækkelig rig metadata kan beskrive data, jf. “F”-et (findable) i FAIR. For eksempel skal statistiske datasæt gerne bevares i et format, der giver mulighed for bl.a. at beskrive variabelnavne og labels, og have koder for manglende værdier og nøglevariable, m.fl.

Tip 2: Brug åbne og frie formater

Brug for så vidt muligt formater, der er åbne og frie. Formater som er åbne og frie, og helst med internationale standardiserede specifikationer, har en forventet lavere risiko for formatforældelse og er bedre sikret mod kommercielle interesser, der kan påvirke understøttelsen af særligt ældre formater negativt. I forskningskredse er det ikke altid muligt at anvende åbne og frie formater formater, eksempelvis fordi der kan være en teknologisk binding til maskinel, som producenter har en økonomisk interesse i at hemmeligholde virkemåden af ved ikke at tilgængeliggøre specifikationen af formatet. I så fald anbefales det at eksportere data til et beslægtet åbent format og bevare dette sammen med data i originalformatet. Arbejder du i Word, kan du overveje en kopi i OpenOffice format, arbejder du i SPSS, kan du overveje at eksportere dine data til R eller SDMX.

Tip 3: Brug formater med stor udbredelse

Vælg formater, der er velkendte og udbredte over formater, som er smalle og nicheprægede. Jo større udbredelse, desto større sandsynlighed for, at der findes fællesskaber og bevæggrunde til fortsat understøttelse. Det kan betyde, at de nyeste og mest moderne formater, ud fra en ren bevaringsmæssig synsvinkel ikke er de mest oplagte formater til langtidsbevaring. For bevaringsformater i arkivverdenen vægter det ofte højt, at der er sparsomme og få opdateringer til formatet over en årrække. Der kan være forskningsområder, som kun har mulighed for at anvende små og snævre formater eller sågar egenudviklede formater. I det tilfælde bør der som minimum eksistere en righoldig og fyldestgørende dokumentation og beskrivelse af formatet, som kan bevares sammen med data. Hvis det er muligt, kan du eksportere data til et udbredt (og gerne åbent) format og gemme denne kopi sammen med data i originalformatet.

Tip 4: Brug formater der er bredt understøttede

Formater, der kan læses af flere forskellige programmer, proprietære som åbne, på forskellige platforme med forskellige operativsystemer, er bevaringsmæssigt mindre risikable end formater, der er tæt knyttet til specifikke programmer og arkitekturer. Er det ikke muligt at vælge sådanne formater, skal du som minimum notere dig så meget som muligt om, hvilke operativsystemer, programmer, platforme m.v., der skal til for at åbne og læse formatet og dets indhold.

Tip 5: Test dine data

Selv et format, som er egnet til langtidsbevaring, kan være ubrugeligt, hvis data er korrupt eller på anden vis ikke valide. Derfor er det vigtigt, at dine data kan testes, verificeres og sikres integritet over tid. Med testes forstås, at formatet og dets dataindhold kan testes for, om det overholder den korrekte notation (syntaks) og/eller om indholdet er meningsskabende. Integritet kan fx kontrolleres ved at registrere filers checksummer over tid på faste tidspunkter og kontrollere, at de ikke ændrer sig over tid.

Undersøg, om der findes værktøjer eller programmer/scripts, der kan teste og verificere formatet. Hvis ikke, kan du være nødsaget til at lave egne tests, som minimum at sikre, at filen kan åbnes og læses af et givet program og, at filen er i det format, filen angiver. Det engelske nationalarkivs PRONOM database indeholder for en stor mængde formater både eksterne signaturer (eksempelvis filendelser) og interne signaturer (eksempelvis en fastdefineret bestemt værdi på et bestemt sted i filen), som kan bruges til at tjekke, om filen er, hvad den giver sig ud for at være. Filidentifikationsværktøjer som DROID og FITS gør bl.a. brug af PRONOM databasen og kan frit anvendes.

Læs også artiklerne

Om forskningsdata og forældelse

Beskrivelse af data – metadata

Forberedelse til langtidsbevaring

Fagspecifikke forskningsdata

Henrik Vetter og Filip Kruse, Det Kgl. Bibliotek, december 2019