Bevaring af geodata

Geodata er registre med data om fx personer, ejendomme eller sager, som har en geografisk tilknytning og derfor kan afbildes i en geografisk sammenhæng og visualiseres på et kort.

 

Hvad er geodata?

Geografi er studiet af jordens overflade. Geografiske opmålinger af punkter på jordoverfladen anvendes fx i forbindelse med produktion af kort til navigation, men geografisk information kan også anvendes til andet. En stigende del af både private og offentlige IT-systemer knytter i dag registrerede data til geografiske opmålinger, der gør det muligt at stedfæste og visualisere data på et kort. Visualisering af data på et kort skaber overblik over komplekse data, og danner dermed et godt grundlag for fx videnskab, beslutningstagning, trafikplanlægning og juridiske afgørelser.
Begrebet geodata definerer ikke blot de digitale geografiske opmålinger (koordinaterne), men også de informationer, der beskriver opmålingen, og dermed giver den betydning. Fx dato for målingen eller en betegnelse af hvad der er målt. Disse attributter, eller egenskabsdata, kan være registreret i kolonner i en relationel database i et geografisk informationssystem (GIS).

Opmåling af geodata

For at kunne foretage geografiske opmålinger af punkter på en rund jordoverflade og placere disse korrekt i forhold til hinanden på et plant kort, anvendes et koordinat- og referencesystem.
Elementer i et koordinat- og referencesystem er kortprojektion, datum, referencenet og måleenhed.
En kortprojektion er en matematisk transformationsmetode, der gør det muligt at foretage en projektion af den kugleformerede jordoverflade til et plant kort. UTM (Universal Transverse Mercator) er en udbredt international kortprojektion, der opdeler jorden i 60 zoner og 20 bælter. Danmark ligger i zone 32 og 33 i bælte U og V. Bælterne angiver hvorvidt opmålingen er placeret på den sydlige eller nordlige halvkugle. Der findes også mere lokale kortprojektioner, som fx System34, der i 1934 blev indført til tekniske og matrikulære opgaver i Danmark.

Et datum er en matematisk model, der beskriver den del af jordoverfladen, der skal opmåles. Et datum gør det muligt at placere de opmålte punkter korrekt i forhold til hinanden. En ø eller et land kan have sit eget datum, men der findes også datum, der dækker det meste af et kontinent.
 
Til et referencesystem hører et referencenet bestående af et antal fysiske fikspunkter (stationer) på jordoverfalden, der kan måles ud fra. På disse fikspunkter opstilles målestationer, der indsamler GPS-observationer. ETRS89, der er en europæiske realisering af det globale GPS-baserede datum WGS84, baserer sig på en række europæiske fikspunkter, heriblandt 6 danske. Det grundlæggende GPS-referencenet i Danmark, REFDK-nettet, består af 89 fikspunkter, som definerer og er en fortætning af det europæiske datum ETRS89 i Danmark. System34 anvender et mere fintmasket referencenet bestående af ca. 22.000 fikspunkter (2 km-nettet). Flere fikspunkter i referencenettet gør målingerne mere præcise.
 
Måleenheden for de opmålte koordinater afhænger af den valgte kortprojektion. I UTM projektionen og System34 angives koordinater målt i meter fra en østakse (x) og en nordakse (y) (kartetiske koordinater), mens fx Mercator-projektionen angiver koordinater målt i længde- og breddegrader (geografiske koordinator). Opmåling af koordinater på jordoverfladen foretages med forskellige metoder, fx ved brug af satellitbasseret navigation (GPS), landmåling, laserskanning eller fotogrammetri. Forskellige måleinstrumenter anvendes alt efter hvilken præcision i opmålingen der er nødvendig.

Kortprojektioner og datum kan kombineres på tværs, fx kan GPS målinger i WGS84 registreres enten i meter (kartesiske koordinater i UTM projektionen) eller grader (geografiske koordinater i Mercator-projektionen).

Hvilke geodataformater findes?

Vektor- og rasterbaserede er de mest anvendte datamodeller til geodata, og vil blive beskrevet herunder. Derudover findes også den TIN-baserede datamodel, den topologi-baserede datamodel og den objektorienterede datamodel.

Vektorbaserede geodata repræsenterer en geografisk opmåling som et punkt, en linje, en flade eller en kombination af disse geometrier. Hvis et punkt er målt i 2 dimensioner angives punktet med et koordinatpar bestående af en længde- og en breddekoordinat. Er der også målt en højde for punktet, angives desuden en højde koordinat. Linjer og flader består af flere forbundne punkter. Et punkt kan fx angive placeringen af et træ, en linje kan vise placeringen af en vej og en flade kan repræsentere en sø. Eksempler på vektor filformater er gml-, shape- og kml-filer.
 
Rasterbaserede geodata præsenterer det geografiske område i et system af kvadratiske firkanter, hvor hver celle indeholder en værdi. Eksempler på rasterdata er digitale billeder og gridfiler.

Rasterdata på digitale billeder er opdelt i kvadratiske firkanter, der kaldes pixels (celler). Hver pixel angiver en farveværdi. Digitale billeder som flyfoto, satellitbilleder eller scannede kort, kan anvendes som baggrundskort i et GIS, således at et billede af Danmark lægges som baggrund, og oven på dette placeres et lag med de opmålte geometrier, fx opmålinger af hvor museer er placeret i Danmark. Da nogle foto er perspektivisk, gør højdeforskellene i landskabet, at højtliggende landskaber eller bygninger afbilledes i et større målforhold end de lavereliggende, hvorfor master og træer vises skævt. Før et flyfoto kan anvendes som baggrundskort skal der derfor rettes op på dets pixels (farverne), så fotoets visning af landskabet stemmer overens med den anvendte kortprojektion for de opmålte geodata (museerne). Et flyfoto ændret fra perspektivisk projektion til en kortprojektion kaldes et ortofoto. For at kunne placere et ortofoto korrekt i et koordinatsystem i en kortprojektion i et GIS, skal positionen (x,y,z) for billedet være kendt.

Gridfiler minder strukturmæssigt om billedfiler, da de også er opdelt i et net af kvadratiske celler. Hver celle indeholder en værdi i form af et tal, fx en kode for hvilken bevoksning cellens areal er dækket af eller angivelse af en højde i en celle, hvis der er tale om en højdemodel. Til en gridfil kan være knyttet en egenskabstabel, der oversætter værdier til tekst, fx værdien 10 = skov. Forskellen på et rent digitalt billede og en gridfil er, at gridfilen indeholder en størrelse på cellen. Kantlængden på en celle kan fx være 10 m eller 1 km. Derudover er venstre nederste celle i gridfilen angivet med en position (x,y,z) og således orienteret i forhold til et koordinatsystem i en kortprojektion. Ved brug af disse informationer kan et GIS positionere gridfilerne korrekt i forhold til hinanden i en grafisk sammenhæng. Mens digitale billeder anvendt som baggrundsbilleder blot viser nogle farver i en struktur, dvs. selve billedet, så er det muligt at foretage beregninger og analyser på data i gridfiler i et GIS.

Eksempler på rasterfilformater er GeoTiff, JPEG 2000 og ESRI gridformat.

Hvordan bevares geodata?

Hvad skal bevares?
Udover de opmålte koordinater er kortprojektion, datum, måleenhed og dimension også geografiske informationer, som er nødvendige at bevare for at kunne vise, fortolke eller migrere geodata i fremtiden.
Derudover er det vigtigt at bevare de data, der beskriver koordinaterne, dvs. egenskabsdata eller attributter, så det bliver muligt at forstå hvad der er opmålt en geografisk position for, fx en flod, en matrikel eller en jordprøve. Hvis disse attributter findes andre steder end i selve geodatafilen, er det også vigtigt at opmærke og bevare information om, hvordan attributter og geodata kobles korrekt sammen.

Hvilket bevaringsformat skal anvendes?
Valg af bevaringsformat afhænger af den valgte bevaringsstrategi. Anvendes emuleringsstrategien, bevares geodata typisk i de originale filformater, som de blev skabt i eller har været konverteret til, mens data var i brug. Vælges migreringsstrategien er det derimod op til bevaringsinstitutionen at definere et langtidsholdbart bevaringsformat.
Rigsarkivet anvender GML til bevaring af geodata. GML står for Geography Markup Language og er et udvekslingsformat, der gør det muligt at dele geodata på tværs af domæner. Fordelen ved at anvende GML til bevaring er, at formatet er XML-baseret, og værktøjer til skabelse og validering af formatet derfor findes. Desuden er det et udbredt og internationalt anerkendt format, som de fleste GIS-systemer kan håndtere. Også det europæiske E-ARK projekt, der har udviklet fælles europæiske bevaringsformater til digitalt skabte data, opstiller identiske retningslinjer for brug af GML til bevaring af geodata.
Ud over at definere GML som det konkrete geodata-filformat til bevaring, definerer Rigsarkivets bevaringsformat også andre regler for aflevering af geodata. Krav om at geodata skal have veldokumenterede lokale features (attributter) angivet i selve gml-filen, samt at referencer til øvrige relevante attributter skal angives, har til hensigt at øge brugervenligheden af de afleverede geodata. Krav om at selve gml-filen og det tilhørende lokale skema, der anvendes til validering af gml-filen, skal udarbejdes i en bestemt struktur med enkelte obligatoriske elementer og namespaces, muliggør at afleveringerne kan testes ensartet og sikrer dermed kvaliteten af data. For at sikre langtidsbevaringen og minimere omkostningerne til bevaring og til tilgængeliggørelse af geodata, er det i bevaringsformatet kun tilladt at aflevere vektorbaserede kartetiske UTM koordinater i datum ETRS89, hvis de afleverede geodata ligger i Jylland, på Fyn eller Sjælland, samt farvandet heromkring. Alle geodata skal således konverteres til dette reference- og koordinatsystem inden aflevering til Rigsarkivet. Andre relevante datum anvendes for geodata, der ikke er dækket af datum ETRS89. Rigsarkivets testværktøj ADA kan teste om afleveringer af geodata til Rigsarkivet overholder Rigsarkivets bevaringsformat.

Hvad er udfordringerne ved at langtidsbevare geodata?
Koordinat- og referencesystemer udvikles og ændres i takt med, at vores forståelse af jordens form og dimension ændres. Dette er en af de store udfordringer som skal håndteres ved langtidsbevaring af geodata, fordi opmålte geodata kun er autentiske og anvendelige, når de placeres på et kort i det korrekte reference- og koordinatsystem, de er skabt i.

Vælges emulering som bevaringsstrategi, hvor geodata bevares i de oprindelige filtyper og koordinat- og referencesystemer, de er skabt i, og visningsværktøjer emuleres, bliver den specifikke udfordring at vedligeholde viden om de til alle tider eksisterende koordinat- og referencesystemer. En udfordring bliver også at indsamle og vedligeholde baggrundskort til alle disse forskellige koordinat- og referencesystemer. Opstår på et senere tidspunkt behovet for at migrere samlingen af geodata, skal viden om de forskellige konverteringsalgoritmer, der muliggør koordinattransformation på tværs af alle de bevarede datum og kortprojektioner også løbende indsamles. Dette kan være noget nær en umulig opgave hvis den udsættes for længe, da det kræver stort domænekendskab at udvikle disse transformationsalgoritmer. Styrelsen for Dataforsyning og Effektivisering (SDFE) er fx de eneste der har leveret en implementering af en algoritme, der kan konvertere til og fra ældre danske koordinatsystemer som System34. De beretter om arbejdet hermed i medlemsbladet for Geoforum at ”Det har været en stor udfordring at reimplementere de gamle koordinatsystemer, da de er sparsomt dokumenteret. Det har krævet en stor indsats at forstå den eksisterende kildekode, og i flere tilfælde har det været nødvendigt at interviewe tidligere ansatte for at forstå systemovergangene i detaljen”. Der er således en fare for, at dokumentationen af lokale transformationsalgoritmer kun findes i svært forståelig kildekode eller i hovederne på dem, der i årevis har arbejdet med formatet. Dette er en velkendt udfordring ved digital bevaring af alle typer af data.
Endelig kan emuleringstrategien gøre arbejdet med at teste og kvalitetssikre de modtagne geodata komplekst og tidskrævende, hvis alle tænkelige forskellige formater bevares.

Vælges migrering som bevaringsstrategi imødekommes nogle af de udfordringer emuleringsstrategien afstedkommer. Strategien går her ud på at bevare geodata i nogle koordinatformater, der svarer til tidens mest anvendte koordinat- og referencesystemer og løbende konvertere geodata, når disse referencesystemer afløses af nye. Dette sikrer at de aktuelt anvendte Geografiske Informations Systemer altid kan vise og bearbejde de bevarede geodata og at konverteringsalgoritmer og -værktøjer er velkendte og eksisterer. Udfordringen ved migreringsstrategien bliver at vurdere, hvor mange koordinat- og referencesystemer, der skal bevares og sikre en tabsfri konvertering.

Da der findes forskellige datamodeller til geodata, skal det også overvejes om et enkelt bevaringsformat kan rumme alle datamodeller eller det er nødvendigt at udvikle forskellige bevaringsformater. Fx GML til bevaring af vektordata og GeoTIFF eller JPEG2000 til bevaring af rasterdata.

Rent teknisk kan der være begrænsninger på hvor store filer værktøjer kan arbejde med. Fx har de fleste teksteditorer problemer med at processesere gml-filer, der er større end 1 GB. Hermed kan opstå et behov for at opdele samlinger af geodata i mindre filer, og udfordringen bliver her at vurdere, hvad der er den mest hensigtsmæssige opdeling, fx i forhold til brugssituationen. Skal filerne opdeles systematisk i tiles, fx i størrelsen 10×10 km? Eller geografisk så hver fil dækker en logisk geografisk opdeling, fx 3 filer der indeholder geodata for hhv. Jylland, Fyn og Sjælland? Eller skal filen blot skæres kronologisk, så fx tidlige målinger findes i den første fil og så fremdeles? Eller helt tilfældigt, når 1 GB er nået? Og hvordan bevares historiske geodata?

Endelig er en udfordring også at vurdere, hvor mange attributter, til beskrivelse af geodatakoordinaterne, der er tilstrækkelige, for at en bruger i fremtiden kan forstå og anvende de opmålte geodata. Særligt hvis geodata ved bevaring adskilles fra en større kontekst, fx et større GIS-system eller et andet administrativt IT-system, bliver denne overvejelse central.

Præsentation og brug af bevarede geodata

Geografiske informationssystemer
Til visning og analyse af geodata kan anvendes et geografisk informationssystem (GIS), fx open source værktøjet QGIS. Større geodataproducenter anvender ofte kommercielle værktøjer fx ArcGIS, Geomedia eller MapInfo. I et GIS er det muligt at få vist geodata præsenteret på et kort, konvertere mellem forskellige geodataformater og foretage beregninger og analyse på data.

Udleveringsformater til brugere af geodata
GML-formatet er et velegnet udleveringsformat, da de fleste GIS kan vise og konvertere dette format til andre formater. Bevaringsinstitutionen kan også vælge at tilpasse udleveringsformatet brugerens konkrete behov, og fx konvertere til fx shape-filer. For andre brugere, der ikke skal analysere eller arbejde med de bevarede geodata, kan det være tilstrækkeligt blot at få printet et kort med de ønskede geodata vist.

Da der ofte er knyttet attributter til de geografiske koordinater, skal en tilgængeliggørelse også kunne levere de attributter, der er brug for til den specifikke brugssituation. Her kan det også blive nødvendigt at udtrække disse attributter fra egenskabstabeller eller andre bevarede databaser, som geodata (bevaret i geodataformatet) har været en del af i drift.

Tanker om brug af de bevarede geodata kan således både have betydning for, hvordan bevaringsformatet til geodata skal defineres, så det understøtter brugssituationen bedst muligt. Men også for hvordan geodata-afleveringerne skal afgrænses på afleveringstidspunktet. Skal databasen med ekstra attributter arkiveres i samme aflevering som selve geodata bevaret i geodataformatet (fx GML) eller skal det opdeles i to forskellige aflevering er? Og hvordan skal koblingen mellem geodata i gml-filen og de ekstra attributter i databasen sikres?

 

Referencer:
Balstrøm T., Jacobi, O. og Bodum, L. (2013): ”Bogen om GIS og geodata”, Forlaget GIS og geodata, 1. udgave, 3. oplag 2013.

Evers, K og Knudsen, T. (2017): ”En ny æra for geodætisk programmel i Danmark”, artikel i medlemsbladet for GeoForum, nr. 187, s. 4-8.

Knudsen M. og Madsen, K. M. (2012): ”Genopmåling og nyberegning af REFDK nettet”. Samt genberegning af 10 km nettet. Kort- og Matrikelstyrelsen, teknisk rapport nr. 15. (http://sdfe.dk/media/2916628/kms_technical_report_15.pdf)

Egeland, A. (2018): ”Arkivering af geodata”. Power point præsenteret på Nordiske Arkivdage 2018, 23.-26. maj 2018, Island (udvidet version).

Links til geodata bevaringsformatspecifikationer:
Rigsarkivets anvisning til aflevering af geodata til Rigsarkivet, samt et eksempel på en arkiveringsversion, der indeholder geodata i GML-format, kan findes på https://www.sa.dk/aflevering-arkivet/statslige/aflevering-it-systemer.

Dokumentet ”Dokumentation af hvad ADA tester for” indeholder en beskrivelse af geodatatests: https://www.sa.dk/da/offentlig-forvaltning/it-leverandoerer/ada-testprogram-arkiveringsversioner/

E-ARKs D4.3 AIP pilot specification, inkl. geodata i afsnit 4.3 Geodata:
http://www.eark-project.com/resources/project-deliverables/53-d43earkaipspec-1

E-ARKs D5.3 DIP specifikation, inkl. geodata i afsnit 3.6 Specification for Geodata:
http://www.eark-project.com/resources/project-deliverables/91-d532

E-ARKs D3.3 E-ARK SMURF, inkl. geodata i afsnit 6.3 Appendix III Metadata for Specific Geodata Content Type:
http://www.eark-project.com/resources/project-deliverables/52-d33smurf

Swiss Federal Archives arbejde med bevaring af geodata: https://www.bar.admin.ch/bar/en/home/archiving/digital-documents/archiving-of-geodata.html

 

Ann-Kristin Egeland, Rigsarkivet, September 2018.

2 kommentarer til “Bevaring af geodata

  1. Kære Ann-Kristine
    Når jeg læser din udemærkede artikel ovenfor er det noget der springer i øjnene og det en mangel på international standardisering inden for det område du beskriver. Det forholder sig faktisk sådan der er pågår et stort standardiseringsarbejde på globalt plan, med deltagere fra Danmark, Europa og resten af verden. Det arbejde sker i ISO/TC211, men en dansk spejlkomite under Dansk Standard (S-276). I ISO/TC211 har udarbejdet en standard, som også er blevet dansk standard DS/ISO 19165-1 Geografisk information – Bevaring af digitale data og metadata – Del 1: Grundprincipper. Der er en del 2 på vej som omhandler raster data.

    De bedste hilsner
    Jan Hjelmager

    1. Kære Jan Hjelmager

      Mange tak for din relevante kommentar.
      Det er bestemt en mangel fra vores side, at vi ikke har været opmærksomme på det internationale standardiseringsarbejde på området, som du her nævner.
      Rigsarkivet vil med stor interesse kigge nærmere på disse standarder.

      Venlig hilsen
      Ann-Kristin Egeland

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *