Karakterisering – Digitale materialers tekniske egenskaber

Det kræver et stort overblik at lægge en strategi for bevaring af digitale materialer, og det kan være meget svært at afgøre, hvilke faktorer der er vigtigst for at kunne gå i gang med bevaringen. På den tekniske side bør man starte med at se på identificering, validering og karakterisering, da disse emner giver overblikket over samlingens struktur og formater (og dermed typer af digitale materialer).

 

 

Identificering, validering og karakterisering er vigtige forudsætninger for bevaringsarbejdet, da de danner grundlag for de beslutninger, der skal træffes i forbindelse med udfærdigelse af bevaringsplanen, om hvordan den digitale bevaring rent teknisk skal udføres. De er fx afgørende for, om man vælger at anvende en emulerings– eller migreringsstrategi. Ved valg af migrering hjælper de tre kategorier også til beslutninger om, hvilke kriterier der skal være opfyldt for at iværksætte migrering af materialerne, hvilken struktur og formater de skal migreres til, og hvilke af originalfilens karakteristika, der ønskes bevaret, hvis det ikke er muligt at lave en 100% identisk migrering.

Identificering

Med identificering skabes overblik over, hvilke strukturer og typer af digitale materialer, der findes i den samling, man ønsker at bevare. Informationer om dette er afgørende for, at man kan udvælge de bedste værktøjer til validering og karakterisering.

Selve identificeringen af materialetyper kan udføres med varierende dybde og grundighed. Den hurtige og overfladiske identificering af filer vil være blot at kigge på filernes ”efternavn” (fx .pdf, .doc, .tiff osv.), mens en mere dybdegående identificering kan undersøge filernes format og indhold nærmere for at identificere undertyper og/eller versionsnummer på formatet.

Mange filformater gør brug af undertyper eller versions-ID for at kunne oplyse redigeringsprogrammer og fremvisere om, hvilke former for indhold en fil kan have. Fx kan TIFF-formatet bl.a. indeholde JPEG-komprimeret grafik i henhold til specifikationen, og PDF-formatet har adskillige underversioner med forskellige egenskaber – PRONOM, som er en database over filformater mv., kender fx til 17 underversioner af PDF. Test selv ved at skrive ”pdf” eller et andet filformat i PRONOM-databasen.

Der er flere anerkendte programmer til formatidentifikation, fx DROID, Apache Tika og FIDO. Se siden her på digitalbevaring.dk om Værktøj eller besøg COPTR (Community Owned digital Preservation Tool Registry) for mere information.

En del værktøjer kan oplyse såvel type som undertype, som et unikt PRONOM ID fra PRONOM databasen. Det må stærkt anbefales, at man i sit bevaringssystem anvender disse ID’er som typebetegnelser, frem for selvopfundne betegnelser, som ikke forstås af tredjeparts værktøjer. Dette betyder, at man i visse tilfælde selv bliver nødt til at oversætte output fra identifikationsværktøjerne, da nogle af dem blot vil printe en simpel tekst som fx ”PDF 1.4”.

Hvis man laver en meget grundig identificering, vil man opdage, at der er en glidende overgang imellem identificering og karakterisering, og det kan derfor være relevant at anvende karakteriseringsværktøjer i identificeringsprocessen, evt. ved at modificere eller videreudvikle værktøjerne til formålet. Dette kan gøres, hvis man bruger open source værktøjer, da kildekoden til disse frit kan hentes.

Karakterisering

Når identificeringsprocessen er gennemført, og man har fået overblik over, hvilke materialetyper man har i den samling, der skal bevares, kan man begynde at udvælge de karakteriseringsværktøjer, som passer bedst til dem. Med ”bedst” forstås, at værktøjerne er i stand til at karakterisere filerne i samlingen tilfredsstillende i forhold til institutionelle behov. Dette kan kun afgøres ved empiriske tests, da langt fra alle værktøjer løser opgaven lige succesfuldt. Det kan derfor være nødvendigt at bruge flere forskellige værktøjer for at kunne lave en tilfredsstillende karakterisering af et givet format eller en samling, der rummer filer i flere forskellige formater.

Formålet med at foretage en karakterisering er at udtrække tekniske detaljer/karakteristika, som giver en præcis teknisk beskrivelse af filernes indhold. Et eksempel på karakteristika kan for fx et billede være den grafiske opløsning, farvedybden mv. De tekniske detaljer er nødvendige for at kunne kvalitetsvurdere filerne og udvælge migreringsværktøjer, hvis man har besluttet sig for at udføre funktionel bevaring ved hjælp af migrering.

Mange filtyper indeholder rigtig mange informationer (metadata), og det vil ikke altid være muligt at bevare alle metadata i en migrering, da der ikke nødvendigvis er plads til dem i det format, man vil migrere til. Derfor udvælger man ofte en mængde af signifikante egenskaber, som ideelt set må bevares uændret, for at man stadig vil kunne læse og forstå filen, som da den blev skabt.

Man kan dog blive nødt til at gå på kompromis og acceptere forringelser i forbindelse med en migration som følge af begrænsninger i migrationsværktøjet eller det nye format. Disse forringelser kan være tab af nogle metadata, tab af præcision eller andre former for ændringer i filens egenskaber. Det er derfor en god idé allerede fra starten at lave en prioritering af de udvalgte signifikante egenskaber, så man nemt kan afgøre, hvilke man ikke kan acceptere at miste, hvilke man kan acceptere en forringelse af (samt hvor stor en forringelse), og hvilke man nødtvunget kan acceptere at miste.

Der findes flere projekter ude i verden, der arbejder med karakterisering og metadataudtrækning, se fx Apache Tika, ExifTool og JHOVE/JHOVE2.

Validering

Ved at validere de filer, man vil bevare, sikrer man, at de opfylder specifikationerne/standarderne for det format, som de foregiver at følge. Hvis filerne ikke opfylder specifikationerne, vil man før eller siden løbe ind i problemer med enten fremvisning, redigering eller migrering til alternative formater, idet værktøjerne måske ikke kan læse data.

Desuden vil man normalt også anvende validering til at sikre, at kvaliteten af samlingens filer er ensartet og lever op til de krav, som en evt. bevaringspolitik foreskriver. Der er dog en glidende overgang mellem validering og karakterisering, hvorfor man typisk vil anvende både validerings- og karakteriseringsværktøjer til evaluering af materialets kvalitet.

Resultatet af identificeringen, og i større eller mindre omfang også af karakteriseringen, afgør, hvilke valideringsværktøjer man skal bruge. Det gælder om at finde værktøjer, der kan validere de filtyper, som er fundet i samlingen. Men som ved karakteriseringsværktøjerne er også kvaliteten af valideringsværktøjerne svingende. Det er derfor en god idé at lave en række tests af værktøjerne ved fx at udvælge fejlbehæftede filer ved hjælp af karakteriserings- eller metadataudtrækningsværktøjer eller ved at bruge disse til at introducere fejl i nogle, ellers velfungerende, filer, og derefter se, om valideringsværktøjerne kan finde disse fejl.

Bibliografi

SCAPE D9.1 Characterisation technology, Release 1 & release report, Markus Radtisch, Peter May, Asger Askov Blekinge, Per Møldrup-Dalum, March 2012

SCAPE D9.2 Characterisation technology, Release 2 + release report, Per Møldrup-Dalum, Lynn Marwood, Sven Schlarb, Alan Akbik, Ivan Vujic, Carl Wilson, May 2013

Thomas Skou Hansen, Statsbiblioteket1, marts 2011

Revideret januar 2012 af Bjarne Andersen, Statsbiblioteket1 | januar 2015 af Bolette A. Jurik, Statsbiblioteket


1. Statsbiblioteket og Det Kongelige Bibliotek fusionerede pr. 1. januar 2017. Med afdeling i hhv. Aarhus og København er institutionerne nu samlet under navnet: Det Kgl. Bibliotek.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *