Filformater – Hvilke filformater egner sig til langtidsbevaring?

Hvordan vælger man de rigtige filformater? Det er vigtigt for tilgængeligheden af digitale materialer, at de gemmes i formater, der også kan læses fremover. Men hvordan spår man om fremtiden?

Hvilken betydning har valget af filformater?

Når man langtidsbevarer digitale materialer, er formålet at opbevare og vedligeholde dem for at sikre, at de også i fremtiden vil kunne bruges.

Man kan vælge at gemme sine digitale materialer i nogle få, men kendte og veldefinerede formater, men ulempen kan være, at man derved afskærer sig fra at lagre nogle typer funktionalitet. Det kan fx være, at animerede pile eller andre dynamiske funktionaliteter i en PowerPoint-præsentation ikke kan lagres i et af de få udvalgte formater. Fordelen ved at vælge få bevaringsformater efter bestemte kriterier er, at det er lettere at håndtere og samtidig vil være et godt grundlag for en evt. senere migrering, idet færre originale formater vil være nemmere at håndtere, når disse på sigt sandsynligvis skal migreres.

Ved mere komplekse samlinger med mange formater (fx computerspil) kan man vælge at bevare de oprindelige formater og i stedet fokusere på at have programmer og hardware, der kan imitere de oprindelige forhold, hvorunder det enkelte format blev brugt, men på moderne platforme. Dette kaldes emulering.

Nogle institutioner (fx Rigsarkivet) kan lovmæssigt stille krav til de formater, i hvilke offentlige myndigheder skal aflevere digitalt materiale til arkivet, mens andre (fx nationalbibliotekerne) kun kan komme med anbefalinger og derigennem prøve at påvirke producenterne/de afleveringspligtige.

Retningslinjer for bevaringsformater

Når man skal vurdere, om et format er egnet til langtidsbevaring, er det vigtigt at tage følgende i betragtning:

  • Formatet bør være standardiseret (ISO, ANSI eller lignende) eller som minimum velbeskrevet (fx TIFF).
  • Formatet bør være bredt understøttet.
  • Formatet bør være platform-uafhængigt og åbent. Det må altså ikke være behæftet med licens eller lignende.
  • Formatet må ikke være tabsgivende på en sådan måde, at budskabet forringes.
  • Formatet bør have en lang forventet levetid.
  • Formatet bør kunne migreres til kommende formater og må derfor ikke indeholde specielle funktioner, som er knyttet til bestemte operativsystemer eller programmer (for eksempel OLE-objekter).
  • Formatets fremtrædelse bør være uafhængig af fonte mv., hvis fremtrædelsen er af betydning.
  • Formatet bør være relativt robust overfor bitfejl.

Forskellige typer af data stiller forskellige krav til filformatet

For hver type digitalt materiale, der skal bevares, er der forskellige hensyn at tage, og det stiller forskellige krav til de enkelte filformater. Nedenfor diskuteres de hyppigste overvejelser i forbindelse med en række forskellige digitale materialetyper.

Tekst, regneark og præsentationer

Til dokumenttyper, hvor understøttelse af formatering, indlejret grafik, formler i regneark og lignende er nødvendig, er man nødt til at vælge et af de formater, som findes og benyttes på det nuværende marked. Det kan fx være Microsoft Office pakkens OOXML-format, eller ODF-formatet som kendes fra OpenOffice. Der kan dog være flere problemer forbundet ved dette. Man er fx også nødt til at bevare de fonte, som er benyttet i dokumenterne, for at kunne være sikker på at bevare dokumenternes oprindelige udseende. Dette er ofte vanskeligt, da fonte kan være afhængige af operativsystemet.

Hvis dokumentets oprindelige udseende skal bevares (som for arkivalier, der afleveres til et offentligt arkiv), kan man migrere dokumentet til et bitmap-billede.

Derved skabes et billede af dokumentet, og dets oprindelige udseende bibeholdes. Til gengæld vil det ikke længere umiddelbart være muligt at redigerei  dokumentet, ligesom der heller ikke kan søges i det. Hvis man har brug for både indhold og udseende, kan man vælge så vidt muligt at bevare både originalen og den migrerede udgave.

Billeder

Digitale billeder består af oplysninger om de millioner af små pixels, som billedet er opbygget af. Selv et relativt simpelt billede kan derfor fylde meget. Dette problem søger man ofte løst via kompressionsalgoritmer , der i stedet for at gemme information om hver enkelt pixel gemmer hele områder, hvorved filstørrelsen mindskes kraftigt. I visse situationer er dette en stor fordel, fx på internettet, hvor kvaliteten af billeder spiller en mindre rolle i forhold til den mængde data, som skal flyttes over netværk. Men i bevaringssammenhænge kan det være en stor ulempe, da man ønsker at bevare de digitale materialer så tæt på deres oprindelige form som muligt og derfor ikke kan tillade, at kompressionsalgoritmer skærer i kvaliteten.

Lyd

Der kan være meget forskellige krav til bevaringen af fx en optagelse af en klaverkoncert og en telefonsamtale. Det er ikke nok, at vi kan genkende musikken, og der er formodentlig ingen grund til at gemme en telefonsamtale i cd-kvalitet. For klaverkoncerten er det summen af samtlige nuancer og for telefonsamtalen ordlyden, som er det egentlige dataindhold. Lyd fylder meget, og når man skal håndtere langtidsbevaring af lyd, bør man derfor skelne mellem typer af lyd. Tabsgivende kompression, som typisk vil fjerne meget høje eller lave lydfrekvenser, men samtidig mindsker filstørrelsen, kan tillades i situationer, hvor materialets efterfølgende brug ikke stiller krav til høj kvalitet.

Levende billeder

Levende billeder er på mange måder sammenlignelige med lyd, og måden at gemme på afhænger af formålet med data. Hvis der er tale om en videokonference, hvor genkendelighed er nok (det, som siges, og hvem, som siger hvad), så er kvaliteten af mindre betydning. Hvis der derimod er tale om optagelser, hvor det billedlige indhold skal være nuanceret, skarpt og så naturtro som muligt, så er kvaliteten af stor betydning. Levende billeder består af mange billeder, der ofte kan være uskarpe og af dårlig kvalitet, hvis man fokuserer på det enkelte billede, men af en rimelig kvalitet, når de ses som helhed. Tabsgivende kompression kan derfor være en mulighed i de situationer, hvor kravet til kvaliteten er lavt, eller budget til lagerplads ikke tillader at arkivere ukomprimeret.

Hvilke filformater kan bruges

Når man skal finde egnede filformater til bevaring af digitale materialer, skal man – i sammenhæng med den øvrige bevaringsplanlægning – starte med at analysere indholdet af det digitale materiale.

Der er formater, som er meget righoldige – de er gode til at indeholde forskellige typer avanceret funktionalitet – men de vil samtidig ofte være problematiske at anvende, da de måske ikke er tilstrækkeligt standardiserede, åbne eller velbeskrevne til, at man kan være sikker på, at man også i en fjern fremtid kan benytte dem.

For at afdække formaters forskellige styrker og svagheder kan man opstille dem i et skema, hvor styrker og svagheder tillægges en numerisk værdi. De vægtede kriterier kan vise vigtige aspekters væsentlighed og kan være en god rettesnor i forhold til det bedste valg.

Herunder ses en oversigt over gængse formater, som man typisk støder på i forbindelse med bevaring af digitalt materiale. Hvert enkelt format har styrker og svagheder, og det er derfor nødvendigt at den enkelte bevaringsinstitution vurderer, om et konkret format er egnet til netop deres formål, materialer og bevaringsstrategi.

For eksempel har Rigsarkivet valgt, at kun formaterne GML, JPEG2000, MP3, MPEG-2, MPEG-4, TIFF og WAVE må benyttes af myndigheder ved aflevering til offentlige arkiver. Dette valg skal ses på baggrund af, at man i Rigsarkivet har prioriteret at satse på få og relativt ukomplekse formater.

Filformater til bevaring – oversigt over egenskaber

En oversigt over en række ofte anvendte formater til langtidsbevaring af digitale data kan ses her. Oversigten viser en simplificeret oversigt over formater og de egenskaber og særlige forhold, som man typisk vil tage med i overvejelserne når formaters egnethed til bevaring skal vurderes.

Læs mere om valg af filformater i forbindelse med digital bevaring her:

Hollandsk artikel om metode til risikoanalyse af bevaringsformater.

Library of Congress: Sustainability of Digital Formats: Planning for Library of Congress Collections

Todd, M., File formats for preservation, DPC (Digital Preservation Coalition) Technology Watch Series Report 09-02, 2009.


Johan Reventlow, Rigsarkivet / november 2010 – revideret marts 2015

7 kommentarer til “Filformater – Hvilke filformater egner sig til langtidsbevaring?

  1. Hvad mon er bevæggrunden for fortsat at anbefale Microsofts forældede WAVE format frem for den 100% tabsfrie, åbne standard FLAC (Free Lossless Audio Coding), som tilmed kræver langt mindre plads?

    Skal man bevare lyd tabsfrit handler det jo om at have tabsfrie formater. FLAC er tabsfri, mens WAVE ikke kan rumme højere kvalitet end 44,1 KHz 16-bit lyd, hvilket er ringere, end f.eks. DVD Audio lyd, og sågar ringere end moderne analog LP-lyd.

    I fail to see the logic. Digital bevaring handler vel om bevaring med henblik på fremtidens afspilningsmuligheder og ikke nutidens eller fortidens hardware, bare fordi disse ikke understøtter FLAC?

    1. FLAC vil helt sikkert være relevant at overveje, og da det er tabsfri komprimering, kan det kvalitetsmæssigt opfylde de flestes bevaringskrav. Komprimerede formater generelt er dog mere sårbare overfor bitfejl – man risikerer potentielt at miste indholdet af en hel fil, hvis man får en enkelt bitfejl i et komprimeret format.
      Tabellen herover viser en række meget anvendte formater til digital bevaring, men er ikke nødvendigvis udtryk for de mest velegnede. Statsbiblioteket bruger i dag BWF (Broadcast Wave Format), som – helt tilsvarende WAVE – er lineær PCM-lyd. BWF understøtter næsten vilkårlige opløsninger, og Statsbiblioteket bruger i øjeblikket som standard 96khz og 24 bit.

  2. Der findes mig bekendt kun to helt åbne videocontainerformater, som er indholdsmæssigt fleksible nok til at rumme de reelt tabsfrie video- og lydformater: Det professionelle format MXF, som vist primært benyttes til fotos, samt HD “piratformatet” Matroska (MKV). Af disse er Matroska uden sammenligning det bedst understøttede. MKV er ikke ISO-standardiseret, men det er åbent og velbeskrevet. Det er baseret på EBML (binært XML-format) og har eksisteret siden 2002.

    Jeg undres over, at frygten for bitfejl ikke har afskrækket Statens Arkiver fra i årevis at anbefale kommercielt patenterede tabsgivende kompressionsformater som MP3, AAC og MPEG? Det er svært at se, hvorfor de åbne formater OGG, FLAC og MKV skulle være mere udsatte end disse?

    Men hvis ISO-standarder reelt er et mere ufravigeligt krav for Statens Arkiver end kravet om åbenhed, må man nok erkende, at man har gjort livet svært for mange af de åbne standarder, som er under løbende udvikling. ISO har desuden fået et noget blakket ry i open source-kredse siden Microsoft-skandalen for nogle år siden.

    1. MXF benyttes i professionel tv/film produktion (og digital biografdistribution). Formatet er en SMPTE-standard og er teknisk set meget interessant. Da der p.t. er begrænset understøttelse udenfor professionelle produktionsmiljøer med specialiseret hard- og software, er det et format vi foreløbigt forholder os afventende til.

      MKV er mere udbredt i forbruger/distributionsleddet og er ligeledes meget interessant. Det er et format vi følger løbende og vil tage med i vurderingen, når vi igen tager vores formatvalg op til revision – ved sidste revision var den væsentligeste anke mod MKV manglende udbredelse, hvilket måske så småt er ved at ændre sig.

      Valg af containerformat er iøvrigt mindre interessant end valget af hvad det skal indholde: P.t. er vores valg af wrapper på sin vis dikteret af vores valg af codecs – der er ingen grund til at wrappe en MPEG-4 strøm i MKV, når MPEG-4 i forvejen har sin egen wrapper.

      I en perfekt verden ville indholdet selvfølgelig være lagret uden tabsgivende komprimering. f.eks. enten som en rå, ukomprimeret datastrøm eller med tabsfri kompression.
      Ukomprimeret lagring af video medfører store ekstra udgifter til lagerplads og er ikke p.t en praktisk løsning.

      Tabsfri kompression er i øjeblikket en noget usikker affære. Det mest realistiske bud er formodentlig M-JPEG2000 (som er patentbelagt), der ser ud til at have nogen fremdrift – mest i forbindelse med digital biografdistribution, men også i enkelte arkivsammenhænge. Formatet er dog stadig et niche-fænomen og ikke specielt udbredt. Herudover er der BBCs Dirac/Schrödinger, der er blevet en SMPTE-standard under navnet VC-2. Formatet er åbent og ikke licensbehæftet, men har mindre udbredelse. Alle øvrige formater ,der tilbyder lossless kompression, har mindre udbredelse endnu (HuffYUV, Alpary Lossless, Lagarith, Snow/FFV1, m.fl.).

      Når ukomprimeret lagring og tabsfri kompression således ikke p.t. er praktisk anvendelige, er der kun tabsgivende kompression tilbage. Af tabsgivende moderne codecs er MPEG4-AVC klart det mest udbredte og robuste format. Det eneste reele alternativ hertil er Googles VP8. MPEG4-AVC har større udbredelse og bredere understøttelser og vurderes typisk som teknisk marginalt bedre. VP8 er til gengæld nominelt ikke patentbehæftet. (Dette er i øvrigt p.t. usikkert og en længere diskussion for sig…). MPEG-4 AVC er ganske rigtig patentbehæftet, men licensbetingelserne er ganske lempelige.
      Der er ingen tabsfri kompressionsmetode til video,der kan siges at være (fremtids)sikker nok endnu, hverken åben eller proprietær – til lyd tilbyder Statens Arkiver WAV PCM, om nødvendigt.

      ISO-standardisering er langt fra et ufravigeligt krav, men blot en af mange faktorer, der tæller positivt i forhold til potentiel udbredelse og dermed forventet levetid. Andre standardiseringsorganer som ITU-T og SMPTE kan såmænd siges at veje tungere end ISO, når det handler om f.eks. videoformater. Faktisk udbredelse og anvendelse vil i øvrigt typisk veje tungere i vurderingen.

      MPEG-4 AVC er både en ISO og en ITU-T standard (H.264) og er dermed godt dækket ind i forhold til at være en de iure standard, og hvad vigtigere er: Den er de facto standard for videokompression i distributionsøjemed og ikke-professionel/semi-professionel produktion. Der er udbredt hardware og software -understøttelse for MPEG-4 AVC.

  3. Et bedre tabsfrit alternativ til MJPEG2000 er FFV1 codec’et – ifølge både Library of Congress samt nationalarkiverne i Canada og Australien.

    http://en.wikipedia.org/wiki/FFV1

    FFV1 lagt i en MKV container skulle være både mindre ressourcekrævende og alt i alt billigere i drift. Fortsætter flertallet af arkiver alligevel med at fastholde MJPEG2000, vil man ret beset (endnu engang) holde liv i et teknisk underlegent format af hensyn til forældet teknik.

    1. Valg af formater til langtidsbevaring baserer sig på en række forskellige kriterier, herunder standardisering, udbredelse, understøttelse, platformsuafhængighed, forventet lang levetid samt økonomi. Fx har Statens Arkiver i forbindelse med udarbejdelse af bekendtgørelse 1007 vurderet, at MPEG-4 er det videoformat, der bedst opfylder vores kriterier. Vi vil naturligvis vurdere andre alternativer, herunder FFV1 i forbindelse med næste revision af kravene til aflevering. Her vil vi navnlig skulle foretage en kritisk vurdering af formatets forventede levetid og udbredelse.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *