Digitalisering af tekst og billede

Denne artikel giver retningslinjer for den bedste praksis ved digitalisering af kulturarvsmaterialer, hvor der ved brug af scannere eller kameraer produceres digitale kopier i form af billedfiler.

Digitalisering af billeder og tekst

Introduktion

Artiklen her beskriver de enkelte trin i digitaliseringsprocessen, herunder udtagning og klargøring af kulturarvsmaterialerne, digitalisering og billedbehandling, generering af metadata til billedfilerne, samt kvalitetssikring af digitaliseringssystemet og den digitale billedproduktion.

Forud for digitaliseringen ligger et betydeligt arbejde med at planlægge projektet, herunder beskrive formålet med digitaliseringen, specificere kravene til optagelsernes kvalitet og tilrettelægge arbejdsgangene bedst muligt, samt lave en plan for hvilke metadata billedfilerne skal have. Du kan læse mere om planlægning af digitaliseringsprojekter her , og sidst i artiklen kan du finde links til mere information om digitalisering af bestemte materialetyper.

Digitalisering

Udtagning og klargøring af kulturarvsmaterialer

Når man har besluttet, hvilke samlinger der skal digitaliseres, skal disse udtages og klargøres til digitaliseringen. For at få en effektiv arbejdsgang kan det være hensigtsmæssigt at sortere blandede samlinger efter type og format. Det kan også være nødvendigt at sortere samlingen, hvis dele af den skal konserveres inden digitaliseringen.

Digitaliseringsudstyr

Der findes en række forskellige typer af scannere /digitale kameraer tilpasset forskellige materialetyper, herunder bogscannere, arkscannere, planscannere, filmscannere, flatbedscannere og kamera i repro-opstillinger.

Valg af digitaliseringsudstyr afhænger af de specificerede krav til optagelsernes kvalitet og af originalmaterialets beskaffenhed. Er der fx tale om transmissions- (gennemsigtigt) eller refleksions- (uigennemsigtigt) materiale, indbundne værker og/eller løse ark? Hvilken størrelse har originalerne? Er der gråtoner og/eller farver på originalen, som skal gengives, og hvor mange detaljer skal gengives? Hvordan skal eventuelle beskæringer i optagelsen udføres? Er der information på bagside eller emballage, som også skal digitaliseres? Skal tekstdokumenter gøres maskinlæsbare og dermed søgbare?

Det er vigtigt, at digitaliseringsudstyret står stabilt, så man ikke får rystelser i optagelserne. Ligeledes skal digitaliseringsområdet holdes rent, så man undgår støv og andet snavs i optagelserne. Hvis farvegengivelse er vigtig, kan det stille krav til lyslægning og maling af lokalet. Endelig er det vigtigt, at udstyret er indstillet og kalibreret korrekt.

Digitaliseringskvalitet

Når originalmaterialet scannes, passerer det lys, det reflekterer/transmitterer, gennem et rødt (R), grønt (G)og blåt (B) filter, og signalet fra de tre kanaler kodes ind i billedets pixler som RGB værdier og danner et farvebillede. Hvis der er tale om et binært eller gråtonebillede, kodes pixlerne kun i én kanal. Du kan læse mere om opbygningen af digitale billeder her . Scannere og kameraer optager billederne i et raw format (ubearbejdet) og konverterer herefter typisk filerne til gængse billedformater som tiff og jpeg. Læs mere om valg af bevaringsformat her.

De billedkvalitetsparametre, man typisk stiller krav til ved digitalisering, er gengivelse af originalens detaljer (opløsningen) og dens toner/farver (bitdybde).

Opløsning – gengivelse af detaljer

Opløsningen er udtryk for, hvor tæt pixlerne i det digitale billede sidder, og den angives typisk i pixler per inch (ppi). Jo finere detaljer, der er i originalen, desto flere pixler skal der være i det digitale billede for at gengive dem. Og jo højere opløsningen er, desto større bliver billedfilen også.

Opløsningen kan enten fastsættes ud fra et krav om, at alle detaljer i originalen skal gengives eller i forhold til en bestemt størrelse, fx at man skal kunne producere en god printkopi i A3 ud fra billedfilen.

Bitdybde – gengivelse af toner og farver

Bitdybden er udtryk for, hvor mange forskellige toner eller farver man kan gengive. Med en bitdybde på 1bit kan hver kanal enten have værdien 0 eller 1 (sort eller hvid), mens man med en bitdybde på 8 bit kan kode 28 = 256 forskellige gråtoner fra hvidt til sort og i 16 bit billeder kan gengive 216= 65.536 forskellige toner. Farvebilleder i 8 bit kaldes også 24 bit billeder, og her kan hver pixel gengive ca. 1,6 millioner forskellige farver (2(8*3)). 16 bit farvebilleder kaldes også 48 bit billeder (2(3*16)). Jo større bitdybde og jo flere kanaler, desto mere fylder filen.

Vær opmærksom på, at høj opløsning eller stor bitdybde ikke nødvendigvis er ensbetydende med, at billedkvaliteten er høj, da den også afhænger af andre faktorer, som fx hvor meget støj, der er i billedet. Støj er tilfældige (uønskede) variationer i pixlernes farveinformation, som ikke er tilstede i originalen. Der findes mange forskellige former for støj. Oftest opstår støj pga. digitaliseringsudstyret, men støj kan også stamme fra originalmaterialet i form af ridser, støv eller smuds.

Farvestyring

Det meste udstyr beskriver farver vha. farverummet RGB, men forskelligt udstyr/software fortolker farveværdierne forskelligt. For at kontrollere farvegengivelsen på tværs af forskellige systemer anvender man farvestyring. I praksis kalibrerer man scanneren/kameraet i forhold til et testkort , hvorved man laver en farveprofil, som kompenserer for udstyrets eventuelle mangler i forhold til korrekt farvegengivelse.

Billedbehandling og OCR

Efter digitaliseringen kan man efterbehandle det digitale billede på forskellige måder i et billedbehandlingsprogram og evt. optimere det til en bestemt brug, fx formidling på nettet eller print. Hvis originalbilledet er nedbrudt, kan man også i nogle tilfælde justere for disse fejl. Typisk justerer man billedets toner/farver, kontrast og skarphed. Stræb altid efter at indstille digitaliseringssystemet, så man som udgangspunkt får de bedst mulige kopier, og brug kun billedbehandlingen til at opnå yderligere forbedringer.

Hvis man digitaliserer trykt tekst eller visse former for håndskreven tekst, kan man efterfølgende behandle det digitale billede i et såkaldt optical character recognition (OCR) program, der vha. tegngenkendelse konverterer billedet af teksten til maskinlæsbar tekst. Fordelen er, at man så bl.a. kan søge i teksten og redigere den. Hvis billedfilen skal OCR behandles, skal den have en vis kvalitet, da programmet ellers vil lave for mange fejl i forhold til tegngenkendelsen.

Berigelse af data med metadata

I forbindelse med digitaliseringen skriver scanner- og kameraprogrammer automatisk en række tekniske metadata ind i billedfilen. Det er fx oplysninger om filtype, filstørrelse, hvornår billedet er fremstillet, pixeldimensioner, opløsning, bitdybde og farverum. Desuden er det muligt vha. et billedbehandlingsprogram eller et metadataredigeringsprogram at tilføre filen beskrivende metadata. Det kan fx være oplysninger om billedets titel, optagelsesdato, hvad det forestiller, hvem der har lavet det, og hvem der har copyright.

Kvalitetssikring af udstyr og digitale kopier

Sidst, men ikke mindst, er det vigtigt at kvalitetssikre digitaliseringen. Det gælder både, hvis man selv foretager digitaliseringen, eller hvis man får en ekstern leverandør til at løse opgaven.

Når man har etableret et nyt digitaliseringssystem, er det vigtigt at kontrollere, at udstyret lever op til specifikationerne og fungerer optimalt. Der findes i dag værktøjer til kvalitetskontrol af digitaliseringssystemer, som bygger på testkort og analyseprogrammer, der kontrollerer, om systemet overholder krav og tolerancer for fx opløsning, støj, tone- og farvegengivelse, og som giver en fejlmeddelelse, hvis de fastsatte tolerancer overskrides. Det er også nødvendigt at føre regelmæssig kontrol med digitaliseringssystemet. Hyppigheden afhænger af, hvor stabilt udstyret fungerer, men man skal som minimum kontrollere udstyret, når man går i gang med en ny portion, når man ændrer indstillinger eller udskifter hardware, herunder lyskilder, eller software komponenter i systemet.

Udover digitaliseringssystemet skal man også have procedurer for kontrol af de enkelte billedfiler: Operatøren skal løbende kontrollere, at digitaliseringen er ensartet og fuldstændig og opfylder alle specificerede krav til metadata og billedkvalitet. Endelig bør rekvirenten, typisk den samlingsansvarlige, kontrollere (evt. ved stikprøver), at produktionen følger kravspecifikationen, inden den godkendes.

Bevaring og formidling

Når de digitale billeder er godkendte, skal de bevares og formidles. Tiff-formatet er de facto standard for bevaring af digitale optagelser (masterfiler), men formatet er ikke egnet til direkte formidling på nettet. Derfor er man som regel nødt til at fremstille kopier af masterfilerne (formidlingskopier), og til det formål bruger man typisk jpeg-formatet. Formidlingskopierne kan fremstilles parallelt med bevaringskopierne, eller man kan generere dem direkte (on the fly), når de efterspørges. Du kan læse mere om valg af bevaringsformat og bevaring af digitale billeder her .

Links

Technical Guidelines for Digitizing Cultural Heritage Materials”, Federal Agencies Digitization Guidelines Initiative (FADGI). Vejledningen indeholder bl.a. detaljerede retningslinjer for digitalisering af forskellige materiale typer.

Optical Character Recognition, (OCR).

Digitizing Microfilm and Optical Character Recognition (OCR), Library of Congress.

Metamorfoze Preservation Imaging Guidelines, Hans van Dormolen, Image Quality, version 1.0, January 2012.

 

Ulla Bøgvad Kejser, Det Kongelige Bibliotek1, januar 2013 / revideret januar 2015


1. Statsbiblioteket og Det Kongelige Bibliotek fusionerede pr. 1. januar 2017. Med afdeling i hhv. Aarhus og København er institutionerne nu samlet under navnet: Det Kgl. Bibliotek.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *