Digital tekst

Tekst med sekvens af enkelttegn. Tekst formateret med forskellige fonte. Tekst som billeder. Alle disse er digitalt tekstmateriale, som er præsenteret på forskellige måder. Bevaringen af dem afhænger af hvilke signifikante egenskaber, der ønskes bevaret, samt hvilke former teksten eksisterer i.

Hvad er tekstdokumenter?

Tekstdokumenter er filer, der præsenterer tekst. Dette kan være et relativt begreb, da tekster fx også kan indeholde illustrationer. Vi vil her kun se på tekster.

De fleste it-kyndige vil normalt tænke på tekstdokumenter som tekst-filer (TXT), hvor filen kun indeholder en sekvens af tegn (også kaldet råtekst). De forskellige tekstformater kan basere sig på forskellige koder for tegn i teksten, den såkaldte indkodning af tegnene i teksten. Artiklen om digitale materialer giver et specifikt eksempel på tegn-indkodning.

Formateret tekst

Formatering og opsætning af en tekst kan have stor betydning for forståelsen af indholdet. Opsætningen af en tekst kan fx have stor betydning i et digt. Ord kan fx have eftertryk med understregning, fed eller kursiv skrift. Overskrifter kan være indikeret med centreret og stor font.

Eksempler på formater, som kan præsentere formateret tekst, er Word Perfect format (WP), Rich Text Format (RTF), Portable Document Format (PDF), Portable Document Format for long-term archiving (PDF/A), Word-formatet (DOC) og Open Document Format for Office Applications (ODT).

Tekst kan også være repræsenteret ved billeder af tekst. Dette er fx tilfældet for skannede bøger, som kan være gengivet i billedformater som TIFF og JPEG2000. En PDF-fil kan også indeholde tekst repræsenteret i billeder. I nogle tilfælde er billederne i PDF’en gjort søgbare ved at lægge råtekst bag billedet med angivelse af, hvor ordene er på billederne.

Endelig kan formateret tekst repræsenteres i en råtekst, hvor formateringen er indkodet efter en bestemt standard. En sådan standard er ikke nødvendigvis relateret til et bestemt fremvisningsværktøj. Et eksempel på en formateringsstandard er Hypertext Markup Language (HTML), som primært bruges til formatering af tekster til hjemmesider. Et andet eksempel er Text Encoding Initiative (TEI). Udover at kunne udtrykke formatering giver TEI også mulighed for at give semantisk betydning. Fx kan rollefigurer i et stykke drama blive tagget som <speaker>, hver gang rollenavnene forekommer.

Hvordan bevares tekst?

Bevaring af tekst afhænger meget af, hvad den oprindelige form er, og hvilke signifikante egenskaber man ønsker at bevare. Derudover kommer bevaring af metadata til teksten.

Forskellige eksempler på tekst til bevaring er:

  • Digitalt født tekst. Eksempler på signifikante egenskaber for et digitalt født dokument er tekstfonte og sideskift. Disse oplysninger bevares fx ikke godt i et Word-dokument, da forskellige Word-versioner kan indsætte sideskift forskellige steder.
  • Skannet tekst. Signifikante egenskaber for skannet tekst kan være meget forskellige. To eksempler er:
    • Et skannet brev, hvor det fysiske brev er under nedbrydning. I dette tilfælde vil selve skanningen af brevet være lige så værdifuld som en afledt fortolkning af råteksten i brevet.
    • En skannet bog, hvor bogen også bevares i dens analoge form. I dette tilfælde vil digital bevaring af filen kun være interessant i forhold til, hvor dyrt det vil være at genskanne bogen. Dog kan eventuel afledt fortolkning og opmærkning af råteksten godt have speciel bevaringsværdi.

Overvejelser og hensyn

Det endelige valg af bevaringsformat for en tekst hænger også sammen med økonomiske betragtninger. Her skal man fx tænke på genskanningsomkostninger og lageromkostninger. I forbindelse med lageromkostninger kan man også overveje, om det er muligt at komprimere formatet. Man skal dog være opmærksom på, at komprimering kan påvirke den ønskede bitsikkerhed (se komprimering og bitbevaring). Et eksempel på sådanne overvejelser findes i iPRES 2010 artiklen ”Preservation of Digitised Books in a Library Context”.

Der er ikke et entydigt svar på, hvad det bedste bevaringsformat er for tekster, da der er mange hensyn at afveje i sit valg. Artiklen Hvilke filformater egner sig til langtidsbevaring? beskriver en række af de vigtigste overvejelser, som skal kombineres med betragtninger om økonomien, oprindelsen, samt om formatet kan bevare de ønskede signifikante egenskaber.

Oversigt over formater

Nedenstående tabel giver en meget grov og simplificeret beskrivelse af udvalgte formater til digitale tekstmaterialer. Styrker og svagheder for formaterne hentyder til styrker og svagheder som bevaringsformater. Derudover er det angivet, om Det Kongelige Bibliotek (KB)1, Statsbiblioteket (SB)1 og Rigsarkivet (RA) accepterer formaterne som bevaringsformater for tekst.

Bruges som bevaringsformat
Format Styrker Svagheder KB SB RA
DOC
  • Stærkt udbredt
  • Opsætning, programversion m.m. kan give forskellige udgaver af dokumentet
  • Der kan være bagvedliggende programmer
  • Kommercielt format
  • Container format som kan indeholde mange andre formater og eksterne referencer
Nej1 Nej1 Nej
HTML
  • Åbent
  • Ikke stringent standard – visning kan være forskellig
  • Meget andet end tekst
Nej1 Nej1 Nej
ODT
  • Åben standard
  • Makroer
Nej1 Nej1 Nej
PDF
  • Standardiseret
  • Åbent
  • Container format som kan indeholde mange andre formater og eksterne referencer
Evalueres Evalueres Nej
PDF/A
  • Standardiseret
  • Baseret på bevaringsovervejelser
  • Container format som kan indeholde mange andre formater
Evalueres Evalueres Nej
RTF
  • Bredt udbredt
  • Lukket
  • Mange revisioner
  • Mangler stadig vise semantiske definitioner
Nej1 Nej1 Nej
TIFF
  • Se billedmateriale
  • Se billedmateriale
Ja Ja Ja
TXT
  • Åbent
  • Kan ikke gengive formatering
Nej1 Nej1 Nej2
TXT/TEI
  • Åbent
  • Standardiseret
  • Kan give semantiske betydninger
  • Er svag i, hvordan fremvisning skal se ud
Ja Ja Nej
WP
  • Ikke formelt standardiseret
  • Ikke særlig udbredt længere (mangler support)
Nej1 Nej1 Nej

1 En undtagelse er filer i Netarkivet med webdata, som bevares i deres oprindelige format

2 I de hidtidige regler for aflevering til Rigsarkivet har det været et krav, at TIFF-dokumenter supplerende skulle afleveres i en TXT-version. Men TXT har ikke været et selvstændigt bevaringsformat for Rigsarkivet.

Få mere information

Artiklen her på hjemmesiden om bevaringsformater  kan give yderligere information om bevaringsformater for tekst og billeder af tekst. Se også ”File Format Guidelines for Preservation and Long-term Access”.

Eld Zierau, Det Kongelige Bibliotek, maj 2011 /revideret marts 2012


1. Statsbiblioteket og Det Kongelige Bibliotek fusionerede pr. 1. januar 2017. Med afdeling i hhv. Aarhus og København er institutionerne nu samlet under navnet: Det Kgl. Bibliotek. Da Det Kgl. Bibliotek var to adskilte institutioner under udgivelsen af denne side, er teksten beholdt uændret.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *