Særligt om problemer med at bevare forskningsdata på langt sigt

Langtidsbevaring kræver opmærksomhed på formater og metadata. Valg af format har betydning for muligheden for at sikre fremtidig adgang. Metadatering er afgørende for at bevarede data kan genfindes og dermed genbruges. Man skal i forbindelse med metadatering være opmærksom på, at beskrivende metadata kan forældes.

Research Data

Formater og genfinding

Når forskningsdata (og for den sags skyld andre data) skal kunne genfindes og dermed genbruges på langt sigt, er der nogle særlige problemer – ud over de mere tekniske – at være opmærksom på.

Der er særlig grund til at være opmærksom på formater. Rigsarkivet modtager data i et systemuafhængigt databaseformat, som fremgår af bekendtgørelse om arkiveringsversioner, der også definerer et særligt afleveringsformat for data skabt i de mest gængse statistikprogrammer som SAS, Stata og SPSS. Hvis der er tale om video, lyd og billeder, skal data migreres til JPEG-2000, TIFF, MP3 og/eller WAVE eller MPEG. Man må forvente, at disse formater giver tilpas sikkerhed for tilgængelighed i forhold til langtidsbevaring. Derfor er det en del af forberedelsen til langtidsbevaring at sikre et relevant format, evt. gennem migrering. Der henvises til afsnittet om forskningsdata og forældelse for en yderligere beskrivelse.

Metadata og genfinding

Genbrug af data forudsætter selvsagt, at data kan genfindes. Men data om data, metadata, kan ændre eller eventuelt helt miste betydning over tid. Eksempelvis finder Zavalina og Zavalin (2018), der analyserer 400.000 autoritetsdata – biblioteksdata om emne, forfatter, titel osv. i vedtagne og anerkendte termer – at anvendelsen ændres inden for en periode på bare 22 måneder, hvilket efter forfatternes opfattelse påvirker funktionaliteten i forhold til brug. Metadata, der beskriver forskningsdata, kan være yderligere komplekse, og man må forvente, at de problemer, som Zavalina og Zavalin (2018) beskriver, ikke bliver mindre, når mængden af metadata vokser.

Forældelse af metadata

Der er mindst ét yderligere problem i forhold genfinding af data. De beskrivende metadata fx emneord vil naturligt forældes. Der kan endda være tilfældet, at en hel forskningsretning forsvinder. For eksempel blev alkymi i ældre tid set som en videnskab. Det gør alkymi ikke længere. Men metadata, der engang ville have kunnet beskrive dennes mulige data, fx emneord om anvendelsen af salamandre, vil ikke længere kunne være indgang til genfinding. Der kan også være tale om at nogle funktioner helt forsvinder, hvorfor emnebeskrivelse af data gennem funktionen bliver intetsigende.

Tag som et eksempel det danske ord ”drager”, der ligesom det engelske ord ”porter,” refererer til en person, der (traditionelt ved jernbanestationer) er beskæftiget med at bære bagage. I takt med, at funktionen forsvinder, er det naturligt, at ordet forsvinder fra sædvanlig sprogbrug, hvorfor sandsynligheden for at finde emnedata beskrevet ved ordet ”drager” eller ”porter” falder.

Der er naturligvis ikke noget nyt i, at sprogbrug ændres over tid. I en del tilfælde klarer bibliotekers klassifikationssystemer i vidt omfang denne type problem, fordi man i klassifikationssystemer giver en ret præcis klassifikation af emne samt en angivelse af tidligere anvendte betegnelser og tidspunkt for revision. Tilsvarende gælder for emne-thesaurusser i artikelbaser. Når der i særlig grad kan opstå genfindingsproblemer i forhold til forskningsdata skyldes det, at emnebeskrivelsen ofte hviler på ophavspersonen, hvorfor emnebeskrivelsen kan blive noget tilfældig og derfor vanskelig at opdatere i forhold til ændringer af opfattelser, sprogbrug, etc.

Der er ikke nogen let standardløsning på hvad der udgør en god beskrivelse. Men der er måske en bedre chance for, at en mere overordnet emnebeskrivelse bevarer sin relevans i forhold til en mere snæver beskrivelse. Man kan også lade sig inspirere af emne-thesaurusser og eventuelt have en række sideordnede beskrivelser af emnet for eksempel ved brug af synonymer. Endelig kan man læne sig op ad FAIR-principperne for at sikre den bedst mulige chance for genfinding.

Læs også artiklerne

Bevaring af forskningsdata

Hvad er forskningsdata?

Læs mere

Zavalina, O.L. & Zavalin, V. (2018), Evaluation of Metadata Change in Authority Data over Time: An Effect of a Standard Evolution, paper, ASIS&T Annual Meeting https://doi.org/10.1002/pra2.2018.14505501064

 

Henrik Vetter og Filip Kruse, Det Kgl. Bibliotek, december 2019