Metadata er information om data. For at sikre de største chancer for genfinding anbefales det at følge den accepterede standard for bevaringsmetadata. I et langtidsperspektiv er det absolut en fordel, hvis metadata er digitale og kan processeres maskinelt og også gerne opdateres.
Data, der beskriver og giver information om data, er centrale for langtidsbevaring og genfinding af forskningsdata. Digitale metadata er data, der kan processeres maskinelt, i modsætning til metadata i form af fx håndskrevne noter, smalfilm og båndoptagelser.
En metadatastandard
PREMIS (Preservation Metadata: Implementation Strategies) og PREMIS Data Dictionary er ikke en vedtagen standard, men er p.t. den accepterede standard for bevaringsmetadata. Se mere herom i Premis Data Dictionary og DPC Handbook.
PREMIS’ standarden er bygget op om fem semantiske elementer. ”Semantisk” er her en typologisering ud fra indholdskarakteristika: Enhed, objekt, begivenhed, aktør og rettighed. De fem typologier beskrives som:
Enhed (intellectual entity): samling af indhold, fx som bog. Dette er først og fremmest relateret til objekt, hvorimod de fire øvrige er indbyrdes forbundne.
Objekt (object): afgrænset enhed, der rummer information, fx en pdf-fil.
Begivenhed (event): en handling i forbindelse med bevaring, fx indlæggelse af en pdf-fil i et repositorie.
Aktør (agent): en aktør (person, institution, organisation), der forbindes med event’en, fx den, der lægger pdf-filen ind.
Rettigheder (rights): tilladelse forbundet med objektet, fx til kopiering i forbindelse med bevaring.
Disse fem elementer angiver, hvad der i bevaringsmæssig sammenhæng bør være metadata om og dermed videre, hvad der betydningsmæssigt skal ajourføres således, at bevaring kan sikre genfinding og dermed muligt genbrug.
Datadokumentation hører sammen med metadata
De fem typologier er, som det ses, kontekstuafhængige. Som oftest er kontekstuel information om data afgørende for genfinding af data – især andres – og dermed potentiel genbrug. Her er datadokumentation afgørende. Den kan for eksempel være beskrivelse af undersøgelsesdesign og anvendt software og dokumentationen giver således indblik i datas karakter, hvordan data blev skabt og bearbejdet. Datadokumentation er dermed også kilde til betydningen af emneord anvendt som metadata. Videre er den kilde til vurdering af autenticitet, er det originaldata, reviderede eller aktualiserede data, af hvem, hvornår osv. Dette fremgår ikke uden videre af metadata.
Selvom PREMIS er den gældende standard, må det dog anbefales at tilføje yderligere beskrivelse til denne. I forhold til dokumentation er der ikke entydige retningslinjer. Men den kontekstuelle dokumentation af data er en del af arbejdet med metadata og formentlig nøglen til, at fremtidig forskning vil finde og bruge bevarede data. Så dokumentation og metadata hører sammen, men metadata er kun meningsfulde hvis sættet af metadata er mindre og mere simpelt end sættet af forskningsdata.
Læs også artiklerne
Om forskningsdata og forældelse
Fem gode råd om sikring af data
Forberedelse til langtidsbevaring
Henrik Vetter og Filip Kruse, Det Kgl. Bibliotek, december 2019