De 15 principper for FAIR data

FAIR dækker over 15 principper som er inddelt i fire følgende kategorier: Findable, Accessible, Interoperable, Reusable.

Se også

FAIR-principperne og langtidsbevaring

Hvordan kædes FAIR-principperne sammen med langtidsbevaring

Findable

For at data kan genbruges er første skridt på vejen, at det kan findes.  FAIR arbejder med fire principper, som kan øge sandsynligheden for, at data kan findes.

F1. (Meta)data are assigned a globally unique and persistent identifier

En persistent identifier (PID) er en digital henvisning som aldrig vil forsvinde, og altid vil henvise til metadata og til datas placering. Vi kender alle situationen med døde links på internettet, men med en PID vil datareferencen altid henvise til den rette placering for data. Der findes forskellige udbydere af PID-services. I Danmark tilbyder DeiC DataCite Danmark – en service for tildeling af PID (i form af DOI, Digital Object Identifier).

F2. Data are described with rich metadata (defined by R1 below)

Grundtanken er, at data skal være mulige at finde og anvende. Derfor skal data være rigt beskrevet, så enhver anden kan bruge data uden yderligere forklaringer. Data uden metadata er i mange tilfælde kun brugbart for forskeren selv, og dette kan endda blive svært efter nogle år – simpelthen fordi man glemmer detaljerne, når man ikke arbejder med det.

F3. Metadata clearly and explicitly include the identifier of the data they describe

Hvis metadata er rigt beskrevne, som F2 forlanger, vil det være katastrofalt, hvis ikke man kan finde det tilhørende data bagefter. Derfor er det vigtigt, at metadata altid indeholder et objekt som kan henvise til data.

F4. (Meta)data are registered or indexed in a searchable resource

 Hvis en forsker har opfyldt de tre foregående principper, men ikke har gjort (meta)data søgbart er der ingen der kan få glæde af data. Ingen kan vide, hvad der ligger på hans harddisk, og derfor vil arbejdet med metadata kun give mening for hans eget videre arbejde med data. Derfor skal metadata gøres tilgængelige som indekseret/søgbar ressource på internettet.

Accessible

Ovenstående muliggør at data er brugbart og kan findes. At få adgang til data skal have lige så stort fokus på brugervenlighed.

A1. (Meta)data are retrievable by their identifier using a standardised communications protocol

A1 henviser til at når man har fundet linket til (meta)data, så skal linket fungere universelt, og ikke give yderligere problemer at få adgang til data. Er det sensitive data, er det skal adgangen til data kontrolleres på en veldokumenteret og overskuelig måde.

A1.1 The protocol is open, free, and universally implementable

Ingen betalingsmur skal forhindre adgangen til metadata. Nogle dataudbydere har en forretningsmæssig tilgang til data og ønsker derfor markedsvilkår. FAIR principperne derimod har fokus på, at alle brugere skal have adgang til metadata, så de kan afgøre, om data kan bruges igen til deres forskningsprojekt.

A1.2 The protocol allows for an authentication and authorisation procedure, where necessary

Som skrevet i indledningen er FAIR data ikke lig med open data. Hvis der er behov for at lave en autorisation af brugeren, er det i tråd med FAIR principperne. Proceduren skal blot være gennemskuelig og gerne maskinlæsbar.

A2. Metadata are accessible, even when the data are no longer available

Hvis et datasæt er blevet slettet, skal metadata stadig være tilgængelig. Hvis metadata er beskrevet i detaljer, vil de i sig selv være værdifulde ift. fx. at gentage studiet.

Interoperable

(Meta)data skal gerne være kompatibelt med andre (meta)data forstået på den måde, at en forsker på kort tid skal kunne sammenligne data med noget andet data og vurdere, om data er brugbart i hans arbejdsområde.

I1. (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation

Afhængig af forskningsområde er det forskellige ting der lægges vægt på i en dataindsamling. Dog er de fleste dataindsamlinger stadig overordnet set ens. Der beskrives bl.a. tid, sted, emnet/emnerne afgrænses og metoden beskrives. FAIR lægger vægt på, at metadata i detaljer beskriver, hvordan data er indsamlet, således at en anden forsker, også en uden for forskningsområdet, kan genbruge data. Dette kræver, at beskrivelserne er veludførte.

I2. (Meta)data use vocabularies that follow FAIR principles

Beskrivende metadata som tid, sted, emne mm. kan indgå som elementer i  en Controlled Vocabulary, fordi det er metadata, som ideelt har en fast definition, så forskeren , bibliotekaren, arkivaren og efterfølgende forskere ved præcis ,hvad elementet dækker over. En Controlled Vocabulary med definitioner skal have en PID (persistent identifier) som beskrevet tidligere, så listen altid kan findes. På den måde fremtidssikrer man data.

I3. (Meta)data include qualified references to other (meta)data

Hvis data bygger videre på eksisterende viden eller andre datasæt, bør dette refereres i (meta)data. Alt information om datasættet, der gør lettere for en anden bruger at anvende – eller blot for forskeren selv, bør inkluderes i metadata.

Reusable

Genbrug af data kan være svært, men behøver ikke at være det. Det vigtige er, at man ved præcis hvordan dataindsamlingen er gennemført, og det er detaljeret beskrevet.

R1. Meta(data) are richly described with a plurality of accurate and relevant attributes

Her er vi nede på det mest detaljerede beskrivelsesniveau, som for forskeren selv kan være grundlæggende eller selvforklarende viden, men for en anden forsker kan være vitale oplysninger. Beskrivelse af indsamlingstidspunktet, hvilke metoder blev brugt fx software, kodeskemaer mm.

R1.1. (Meta)data are released with a clear and accessible data usage license

Data og metadata skal indeholde en licens, som beskriver adgang til og brug af data. Er data åbent og kan data blive delt med alle, eller kan man ansøge personligt om adgang? Som forsker bør du afklare med dig selv, hvilken licens du ønsker sat på dit data.

R1.2. (Meta)data are associated with detailed provenance

(Meta)data skal indeholde en beskrivelse af tilblivelsen af data, altså workflowet før, under og efter dataindsamlingen. Her gives en detaljeret beskrivelse af workflowet, som kan være vigtigt for at kunne genskabe eller genbruge data

R1.3. (Meta)data meet domain-relevant community standards

Hvis der findes en metadatastandard inden for forskningsområdet, som er anerkendt og brugt, bør metadata som minimum opfylde denne. På den måde sikrer man sig, at data fra samme forskningsområder er struktureret på en ensartet måde og metadata ligner hinanden, så det er nemt og overskueligt at sammenligne (meta)data.

 

Lea Sztuk Haahr, Rigsarkivet, december 2019