Quality evaluation and transformation

Relevanta dokument
Schematransformation SLU

Feasibility Testing. Testing INSPIRE Annex II + III Data Specifications. GeoTest 2011

INSPIRE Abstract Test Suite Evaluation

JHS 193 Unik identifierare för geografisk information Bilaga 1. Process för att bilda URI

GeoTest. Ett utvecklingsprojekt inom geodata strategin

NatureSDIplus: Utveckling och test av europeiska dataspecifikationer för naturskydd

Swedish adaptation of ISO TC 211 Quality principles. Erik Stenborg

SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015

Hur många har läst. Mikael Niemis bok Populärmusik från Vittula?

Dataproduktspecifikation Projektionszoner Sweref 99 Trafikverket. Version 5.0

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

[Skriv text] [Skriv text] [Skriv text] Dataproduktspecifikation Bytespunkter

Dataproduktspecifikation Trafikverkskontor. Version 1.0

2. Change log Datamodell/XML

Leverans-API för nedladdning av geodata v1.0 - teknisk beskrivning

ISO serien världsstandarder för Geografisk Information

(Icke-lagstiftningsakter) FÖRORDNINGAR

Isolda Purchase - EDI

Dataproduktspecifikation Projektionszoner Sweref 99 Järnväg. Version 4.0

SVENSK STANDARD SS-ISO 8734

Agenda. Tid Aktivitet Föreläsare Åtgång tid 08:30 Registrering vid TS recep. Transport till våning 5.

Sammanfattning. Revisionsfråga Har kommunstyrelsen och tekniska nämnden en tillfredställande intern kontroll av att upphandlade ramavtal följs.

[Skriv text] [Skriv text] [Skriv text] Dataproduktspecifikation Stoppunkter

Support for Artist Residencies

Användbarhet. Geodataportalen 2.0 Beta. Testat av GeoTest. RAPPORT fastställd Geodataportalen 2.0 Beta testad för användbarhet

Delrapport DP3. FGS för paketstruktur för e-arkiv Bilaga 1 METS

Databashantering och Beslutsstöd

KPMG Stockholm, 2 juni 2016

Kvalitet och Valideringstjänster

Prioriterade standarder, Handledning, Vägledning, Utbildning Mats Åhlin

Heldag om FGS FGS:er och deras tekniska regelverk. Karin Bredenberg, FGS funktionen. Standarder. FGS:er och deras tekniska regelverk 1

Konsoliderad version av

1. Exempelbeskrivning

Revidering av ISO Peter Allvén SIS TK-304/PostNord

Svensk nationell datatjänst, SND BAS Online

Dataproduktspecifikation Vägnummer för etiketter. Version 1.0

Statusrapport avseende Nationell metadataprofil, version 3.1.1

Geodataportalen - Metadata Validering av metadata

ISO general purpose metric screw threads Selected sizes for screws, bolts and nuts

Införandet av ROSATTE i Trafikverket. Per Isaksson, Trafikverket - Sverige

Heldag om FGS Att ta fram en FGS. Jan Aspenfjäll. FGS projekt

Förordning 376/2014. Händelserapportering Ulrika Svensson, flyginspektör

Dataproduktspecifikation introduktion och läshänvisning

Utkast/Version 1(6) Manual KOM/MARK, Barbara Narfström Detta dokument har sammanställts av Sogeti, kontaktperson är Anders Nordin

Configuration Management

SVENSK STANDARD SS

Förändrade förväntningar

Elektroskandia Supplier DESADV D96A

Skattejurist för en dag på Deloitte i Malmö! 26 april 2016

ISO general purpose screw threads Basic profile Part 1: Metric screw threads

Blandningstunna. Bruksanvisning - maskin, LVD och EMC-direktiven s. 1 av / 190 L BRUKSANVISNING. Säkerhet Montering Underhåll och felsökning

Geodataportalen - Metadata - Dokumentation av tjänster

SVENSK STANDARD SS-ISO 8779:2010/Amd 1:2014

SVENSK STANDARD SS-EN 13612/AC:2016

Calculate check digits according to the modulus-11 method

Intäkter inom äldreomsorgen Habo kommun

Innehåll Introduktion... 3 InteractiveScene.config... 3 Scener <scenes>... 3 Typsnitt <fonts>... 3 Övergångar <transitions>...

EMIR-European Market Infrastructure Regulation

Managing addresses in the City of Kokkola Underhåll av adresser i Karleby stad

Utbildningsbehovet i frågor kring infrastrukturen för geodata hos informationsansvariga myndigheter och kommuner.

Nationell informationsstruktur 2015:1 Bilaga 1: Läsanvisning till modellerna

Introduktion ICAO-EASA.

GeoTest-projektet Slutrapport. Future Position X

Swedish National Data Service

Riskhantering för informationssäkerhet med ISO Lars Söderlund, TK 318 Ag 7 Lüning Consulting AB

Inspire aktuell statusrapport

The GEO Life Region. Roland Norgren - Process Manager R&I. Creating the tools for the Healthy and Wellbeing Life.

SVENSK STANDARD SS-ISO 2338

DCAT-AP. Vad är det och vad kommer härnäst

DP7 Kompletterande information

Bevisupptagning i svenska skiljeförfaranden Jesper Tiberg Advokatfirman Lindahl

Förändringsdata via DRK-Platsen

Structured Query Language (SQL)

Linked Data. Förstudie Linked Data. GeoTest Rapport upprättad Viktor Högberg - GeoTest

FHIR OCH INTEROPERABILITET I SJUKVÅRDEN OSKAR THUNMAN

Västervik Miljö & Energi AB. 18 augusti Torbjörn Bengtsson & Sofia Josefsson

SFTI Migreringsguide från Sveorder 1.0 till CEN/BII Core Order Transaction

Teknisk specifikation SIS-ISO/TS :2010

KFF Beskrivning av KFF-handläggningsprocessen 1 (10) Gällande Mikael Andersson REGISTERKARTE-GML

A metadata registry for Japanese construction field

Tunga metaller / Heavy metals ICH Q3d & Farmakope. Rolf Arndt Cambrex Karlskoga

Geografisk information Representation av förändringar i datamängder

HANTERING AV UPS CX

UNB INTERCHANGE HEADER

NKRR. Regelskrivning i praktiken

Dokumentschema förpackning av externa objekt. Version: 1.0 Status: Standard Datum:

SVENSK STANDARD SS-EN ISO

Informationsmodell för Bild och Funktionsregistret. VERKSAMHETSSPECIFIKT för BILD och FUNKTIONSMEDICIN (BFM) RADIOLOGI

Tullverkets författningssamling

Technical drawings Seals for dynamic application Part 1: General simplified representation

Informationsmodellering och e-infrastrukturer

Acano cospace Solution

Att beskriva förband för nationell och multinationell insats. Michael Stolz Produktledare FMV SPL SP

PRESTANDADEKLARATION. Nr 0015 SV

DG(SANCO)/ MR

Datakvalitet. Geografiska data

Transkript:

Testing INSPIRE Annex III Data Specifications Quality evaluation and transformation GeoTest 2012 1 Rapport upprättad 2012-08-30 Testad av GeoTest projektet Bilagor 1) Matchningstabell 2) Kvalitetsrapport

Innehållsförteckning 1 Introduktion...3 1.1 Om GeoTest-projektet...3 1.2 Kvalitetspåverkan vid schematransformationer...3 2 Metod...5 2.1 Skrivbordsstudie...5 2.1.1. Arbetsgång...5 2.1.1.1 Schemamatchning av temat Produktions och industrianläggningar...6 2.1.2. Verktyg...6 2.2 Kvalitetsutvärdering av källdata...6 2.2.1. Kvalitetsutvärdering av innehållet i Sevesodatabasen...8 2.3 Transformation...9 2.3.1. Transformation av Seveso-data till temat Produktions och industrianläggningar..9 2.4 Validering...10 2.5 Kvalitetsutvärdering av transformerade måldata...10 2.5.1. Kvalitetsutvärdering av data transformerade till Inspire s specifikation för Produktions och industrianläggningar...10 2.6 Jämförelse av kvalitet mellan källdata och måldata...11 2.6.1. Jämförelse av kvalitet mellan Seveso-databasen och data transformerade till Inspire s specifikation för Produktions och industrianläggningar...12 3 Resultat och diskussion...14 3.1 Transformationens genomförbarhet...14 3.1.1. Transformationens måluppfyllelse...14 3.2 Kvalitetspåverkan vid transformation...16 3.2.1. Resultat av kvalitetsutvärdering av källdata...16 3.2.2. Resultat av kvalitetsutvärdering av transformerade måldata...17 3.2.3. Resultat av jämförelse av kvalitet mellan källdata och måldata...18 4 Slutsatser...20 5 Referenser...22 2

1 Introduktion 1.1 Om GeoTest-projektet Målet med GeoTest-projektet är att utveckla testtjänster inom geodataområdet, framför allt relaterade till utvecklingen av den svenska SDI:n (Spatial Data Infrastructure). De tester denna rapport behandlar, granskar kvalitetspåverkan vid transformation av data. GeoTest är en gemensam satsning i samverkan mellan Lantmäteriet, Högskolan i Gävle och Future Position X (FPX), och bidrar till en kvalitetssäkrad infrastruktur för geodata. 1.2 Kvalitetspåverkan vid schematransformationer Det övergripande syftet med denna rapport är att granska hur datakvalitén förändras vid semantisk transformation av datamängder. Med semantisk transformation menas här att ickerumsliga egenskaper transformeras från en datamodell/dataspecifikation till en annan. Som pilotfall har Sevesodatabasen vid MSB transformerats till Inspires dataspecifikation för Produktions och industrianläggningar. En jämförelse av datakvalitén före och efter transformationen har utförts och består av följande delmoment: a. Utvärdera kvalitén hos källdata (MSB s Sevesodatabas) b. Utvärdera kvalitén hos transformerade data (enligt ett Inspire-schema) c. Utvärdera den eventuella skillnaden i kvalitet mellan källdata och transformerade data. Dessutom mäts den tekniska genomförbarheten för transformation, dvs. graden av komplexitet i transformationerna. Genomförbarheten beskrivs av följande mått a. Antalet objekt, attribut och associationer som inte kan härleds ur källdata och som kräver ytterligare datainsamling b. Antalet problematiska transformationer, dvs. transformationer som kräver manuell bearbetning för varje element eller utveckling av ny programvara. c. Antalet transformationer som har hämtat information från andra källor än själva källdata, till exempel konstanta värden från webbsidor, metadata eller från tolkning av källdata. GeoTest har utfört tester för temat Produktions och industrianläggningar med data från MSB s Sevesodatabas. 3

Rapporten beskriver metodik, resultat och slutsatser för testerna. Syftet är att innehållet ska stödja MSB s kommande arbete med att Inspire-anpassa sina data. Resultaten har även presenterats på Inspire-konferensen i Istanbul i juni 2012. 4

2 Metod Själva testutförandet delas in i sex delar. 1. Skrivbordsstudie Analys av krav i Inspires dataspecifikation, schemamatchning och val av verktyg för testerna. 2. Kvalitetsutvärdering av källdata Endast de objekt och attribut i källdata som har motsvarigheter i måldata har utvärderats vad gäller fullständighet och noggrannhet. 3. Transformation Schemamappning och schematransformation. 4. Validering En kontroll utförs för att se om de transformerade datamängderna uppfyller de krav som finns definierade i dataspecifikationen. 5. Kvalitetsutvärdering av transformerade måldata. Fullständighet kontrolleras för alla attribut i de objekt som transformerats. Noggrannhet kontrolleras endast för de objekt och attribut i måldata som har motsvarigheter i källdata. 6. Jämförelse av kvalitet mellan källdata och måldata Resultaten från kvalitetsutvärderingarna analyseras för att se om det skett någon förändring av kvaliteten vid transformeringen av data. 2.1 Skrivbordsstudie Vid skrivbordsstudien analyseras dataspecifikationen. Framför allt granskas datamodellerna och de olika krav som finns specificerade. Därefter görs en schemamatchning och verktyg för transformationen väljs. 2.1.1. Arbetsgång En schemamatchning är det första steget i en schemaöversättning. Här matchas koncept i målschemat (i detta fall Inspire-schemat) med koncept i källschema/källdata som har samma, eller liknande, betydelse. Det primära syftet med schemamatchningen är att få vetskap om vilka koncept i källdata som kan transformeras till vilka koncept i målschemat. Resultatet ligger till grund för de kommande schemamappningar och schematransformationer. Under schemamatchningen identifieras också problem i form av källdata som saknas eller eventuella problematiska transformationer. 5

Schemamappning innebär här att transformationsregler specificeras. Dessa regler baseras på de verktyg som finns tillgängliga. Transformationer som behöver ytterligare verktyg eller manuell bearbetning klassas som besvärliga. Schematransformation innebär sedan exekvering av själva transformationen, dvs. att källdata transformeras till den struktur som anges av målschemat. 2.1.1.1 Schemamatchning av temat Produktions och industrianläggningar Inspires dataspecifikationen för Produktions och industrianläggningar innehåller 13 objekttyper. Innehållet i Sevesodatabasen från MSB kan matchas mot fem av dessa objekttyper; Activity, Operator, ProcessInput, ProductionFacility och ProductionSite (se bifogad matchningstabell). För de övriga 8 objekttyperna i Inspire-schemat finns ingen information i Sevesodatabasen. 2.1.2. Verktyg GeoTest har valt att använda samma verktyg vid dessa tester som vid tidigare gjorda Inspiretester eftersom verktygen är kända och licenser för dessa finns. Tabell 1: Verktyg Moment Verktyg Licenser Kostnader Matchningstabeller Schema-mappning och transformation Validering MS Excel Altova Mapforce 2 Professional edition: $400 Altova XML Spy 2.2 Kvalitetsutvärdering av källdata Två olika typer av kvalitetsutvärdering har gjorts av datamängderna, nämligen uppskattning av fullständighet och uppskattning av tematisk noggrannhet. Utifrån de schemamatchningar som gjorts har enbart datakvalitén uppskattats i de attribut som har en motsvarighet i Inspires dataspecifikation, dvs. endast de objekt och attribut i källdata som har motsvarigheter i måldata har utvärderats. De objekt och attribut som ska transformeras utvärderas och rapporteras enligt ISO 19157. 6

Testerna följer den övergripande process (tabell 2) som beskrivs i standarden ISO 19157 (sidan 30): Tabell 2: Övergripande tillvägagångssätt för kvalitetstester enligt ISO 19157. Process step Action Description 1 Specify data quality unit(s) A data quality unit is composed by a scope and quality element(s), see 7.2 and 7.3. All data quality elements relevant to the data for which quality is to be described should be used. NOTE: The data quality elements to be tested are described in 7.4, and Annex I provides guidelines for the use of quality elements. 2 Specify data quality measures If applicablea a measure should be specified for each data quality element. Annex D contains a list of Data quality measures. 3 Specify data quality evaluation procedures 4 Determine the output of the data quality evaluation A data quality evaluation procedure consists of applying one or more evaluation methods. A result is the output of applying the evaluation. Resultatet från testerna har rapporterats i en kvalitetsrapport. Rapporten beskriver även hur testerna har gått till. En beskrivning av dess kolumner ges nedan. Strukturen baseras på koncept i ISO 19157. Test-Id: Id för testet. Tabell/Objekt: I vilken tabell eller objektklass som det testade attributet/element finns. Attribut: Vilket attribut eller element som testas. Definition: Definition av attributet eller objektklassen/tabellen som ska testas. Definitionerna har använts vid specificering av utvärderingsmetod och scope. T.ex., om en attribut-definition är verksamhetens CFAR-nummer, och om den tematiska noggrannheten ska utvärderas, så granskas det om innehållet stämmer överens med beskrivningen. Dvs. att det verkligen är den undersökta verksamhetens CFAR-nummer som angetts. Kvalitetselement (subelement): Vilket huvud- och underelement som testas. T ex.: Completeness (Omission). Kvalitetsmått (id): Vilket kvalitetsmått, samt dess ID-nummer, som används. Värde I procent: Andel funna fel. Antal fel: Antal funna fel. Population: Storlek på stickprovet. Referensdata: Vid en extern utvärdering granskas de testade data mot referensdata. Utvärderingsmetod: Beskrivning av hur utvärderingen sker. 7

2.2.1. Kvalitetsutvärdering av innehållet i Sevesodatabasen I Sevesodatabasen finns 381 verksamheter registrerade. Kvalitetstesterna har gjorts på ett slumpvis valt stickprov av dessa. Stickprovet innehåller 50 stycken verksamheter, i enlighet med rekommendationer i ISO 2859-1:1999. Utifrån schemamatchningen framkom att 18 attribut från Sevesodatabasen kan matchas mot objekt och attribut i dataspecifikationen för Produktions och industrianläggningar. För alla dessa attribut kontrollerades fullständigheten, dvs. antalet förekomster av attributen som innehåller värden. För nio attribut kontrollerades även den tematiska noggrannheten mot referensdata: Tabell 3: Kvalitetsutvärdering av källdata i Sevesodatabasen. Tabell/Attribut Referensdata Utvärderingsmetod verksamhet/verk_org_nr Näringslivsregistret: https://snr4.bolagsverket.se /snrgate/startin.do Sökning på organisationsnummer görs i Näringslivsregistret. Om det sökta numret inte hittas eller är inaktivt rapporteras detta som fel. verksamhet/verk_ben verksamhet/verk_cfar_nr verksamhet/verk_b_adress verksamhet/verk_postnr verksamhet/verk_postort SCB: http://www.cfarnrsok.scb.se/, Fastighetsregistret verksamhet/verk_u_adress Fastighetsregistret bransch/bransch_kod bransch/bransch_ben SCB: http://www.cfarnrsok.scb.se/, samt http://www.sni2007.scb.se/sni nyckel2007_02.asp?snikod=171 29&test=10&Sok=S%C3%B6k Sökning på organisationsnummer görs i cfarsök. Sedan kontrolleras attributet i Sevesodatabasen mot resultatet av cfarsökningen. Variationer av resultatet som det mänskliga ögat kan tolka som rätt godkänns, annars räknas det som fel. En kontroll görs även mot fastighetsregistret där så är möjligt (dvs. om verksamheten äger sina fastigheter) Sökning på organisationsnummer i fastighetsregistret. Sedan kontrolleras attributet i Sevesodatabasen mot resultatet av fastighetssökningen. Variationer av adressen som det mänskliga ögat kan tolka som rätt godkänns, annars räknas det som fel. Notera att kontrollen inte blir fullständig, eftersom endast verksamheter som äger sina fastigheter finns med i fastighetsregistret. Sökning på organisationsnummer görs i cfarsök. Sedan kontrolleras attributet i Sevesodatabasen mot resultatet av cfarsökningen. Eftersom branschkoderna i Sevesobasen är av den gamla typen, SNI 2002 har cfar-söks branschkoder (som är av typen SNI 2007) omvandlats till SNI 2002 mha http://www.sni2007.scb.se för att en 8

jämförelse ska vara möjlig. Resultaten av kvalitetsredovisningen av källdata rapporteras i en kvalitetsrapport enligt den mall som beskrivs i avsnitt 2.2. 2.3 Transformation Efter kvalitetsutvärderingen av källdata transformeras de attribut och objekt som blivit matchade mot målspecifikationen. Målet är att transformera källdata till Inspire-kompatibla datamängder och identifiera problem som kan uppstå under processen. Transformeringsfasen kan delas in i två delar: 1. Rumslig transformation och formatkonvertering Den process som omvandlar de geografiska elementen i data så att de uppfyller de geometriska kraven i dataspecifikation, samt identifierar eventuella svårigheter och problem vid transformationen. 2. Schemamappning och schematransformation Under en schemamappning skapas transformationsregler utifrån den tidigare genomförda schemamatchningen. Dessa regler utförs sedan under schematransformationen och eventuella svårigheter och problem som uppstod vid transformationen identifieras. 2.3.1. Transformation av Seveso-data till temat Produktions och industrianläggningar Vid transformationen av Seveso-data utfördes ingen rumslig transformation, eftersom Sevesodatabasen inte innehåller några geografiska element. Inför schemamappningen och schematransformationen valdes de attribut som skulle mappas ut från Sevesodatabasen via SQL-frågor. Resultaten från SQL-frågorna konverterades till XML-filer. Därefter utfördes mappningar mellan källdata XML-filerna och Inspire s GML-schema ProductionAndIndustrialFacilitiesCore.xsd. Källdata mappades mot fem objekttyper; Activity, Operator, ProcessInput, ProductionFacility och ProductionSite. De flesta mappningar var av enkel karaktär, mest namnbyten men även ett antal konkateneringar av källdataelement, samt några filtrerings-operationer, utfördes. Resultatet blev fyra Inspire GML-filer för Produktions och industrianläggningar. 9

2.4 Validering Under valideringsfasen kontrolleras om de transformerade datamängderna uppfyller de krav som finns specificerade i dataspecifikationen. För dessa tester har valideringen utförts i två moment: XML-validering innebär att de transformerade datamängderna (lagrade i GML) valideras med en XML-editor mot Inspires GML-schema. Övrig validering innebär att de transformerade datamängderna valideras manuellt mot övriga krav i Inspire-specifikationerna som inte uttrycks i något schema. Om datamängderna inte är giltiga enligt sina respektive GML-scheman och Inspirespecifikationer utförs nödvändiga ändringar i transformeringsprocessen varefter validering påbörjas igen. Resultatet av valideringen kan antingen vara positivt (giltiga data) eller negativt (ej giltiga data). En kvalitetskontroll utförs också där antal objekt i de färdiga GML-filerna jämförs med antalet objekt i källdata. 2.5 Kvalitetsutvärdering av transformerade måldata För måldata har vi utfört samma typ av kvalitetsutvärdering som för källdata, dvs. test av fullständighet samt test av tematisk noggrannhet. De objekt och attribut som har testats rapporteras enligt ISO 19157 och beskrivs i en likadan testrapport som den för källdata. 2.5.1. Kvalitetsutvärdering av data transformerade till Inspire s specifikation för Produktions och industrianläggningar Kvalitetstesterna har gjorts på de 50 slumpmässigt utvalda verksamheter som transformerats till Inspire s specifikation för Produktions och industrianläggningar. En kontroll av fullständighet har utförts på samtliga attribut för de fem objekttyper som transformerats, dvs. även för de attribut som inte har någon motsvarighet i källdata. Detta för att kunna validera objektet som helhet mot Inspire s specifikation. Till exempel, om inte alla obligatoriska attribut kan transformeras är objektet inte giltigt enligt Inspire. Testerna av tematisk noggrannhet har endast gjorts på de attribut i måldata som har kunnat transformeras från källdata. Under dessa tester har vi undersökt om innehållet i attributen 10

motsvarar Inspire s definition av attributet. Där så var möjligt kontrollerades även den tematiska noggrannheten mot referensdata: Tabell 4: Kvalitetsutvärdering av måldata. Objekttyp/Attribut Referensdata Utvärderingsmetod Operator/thematicId Näringslivsregistret: https://snr4.bolagsverket.se /snrgate/startin.do Sökning på organisationsnummer görs i Näringslivsregistret. Om det sökta numret inte hittas eller är inaktivt rapporteras detta som fel. Operator/tradeName ProductionFacility/name ProductionSite/name Activity/NACE Activity/description Operator/tradeDescription ProductionFacility/description ProductionSite/ description SCB: http://www.cfarnrsok.scb.se/, Fastighetsregistret SCB: http://www.cfarnrsok.scb.se/, samt http://www.sni2007.scb.se/sninyckel 2007_02.asp?snikod=17129&test=10 &Sok=S%C3%B6k Sökning på organisationsnummer görs i cfar-sök. Sedan kontrolleras attributet i måldatamängden mot resultatet av cfar-sökningen. Variationer av resultatet som det mänskliga ögat kan tolka som rätt godkänns, annars räknas det som fel. En kontroll görs även mot fastighetsregistret där så är möjligt (dvs om verksamheten äger sina fastigheter) Sökning på organisationsnummer görs i cfar-sök. Sedan kontrolleras attributet i måldatamängden mot resultatet av cfar-sökningen. Eftersom branschkoderna är av den gamla typen, SNI 2002 har cfar-söks branschkoder (som är av typen SNI 2007) omvandlats till SNI 2002 mha http://www.sni2007.scb.se för att en jämförelse ska vara möjlig. Resultaten av kvalitetsredovisningen av måldata rapporteras i den kvalitetsrapport som beskrivs i avsnitt 2.2. 2.6 Jämförelse av kvalitet mellan källdata och måldata. När både källdata och måldata har kvalitetsutvärderats kontrolleras resultaten för att se om det skett någon förändring av kvaliteten vid transformeringen av data. Resultaten för varje attribut i källdata jämförs med motsvarande attribut i måldata för att se om och hur mycket ändring i kvalitet som har skett. Därefter analyseras orsaken till dessa ändringar. I vissa fall finns attribut i måldata som inte har någon motsvarighet i källdata, t ex när konstanta värden har lagts till för ett attribut vid transformationen. Även dessa attribut har tagits med vid kvalitetsutvärderingen. 11

2.6.1. Jämförelse av kvalitet mellan Seveso-databasen och data transformerade till Inspire s specifikation för Produktions och industrianläggningar Vid transformationen av data från Seveso-databasen till attribut i Inspire s specifikation för Produktions och industrianläggningar har samma attribut från Seveso-databasen ibland transformerats till olika attribut i Inspire. Detta är sammanställts i Tabell 5. Konstanta värden till fyra attribut har också lagts till vid transformationen. Därefter har vi jämfört population, antal fel och värde i procent för kvalitetsmåtten fullständighet och tematisk noggrannhet mellan källdata och måldata, för att hitta eventuella förändringar i kvaliteten. Även variationsbredden av kvaliteten samt medelvärdet av kvaliteten har jämförts. Tabell 5: Jämförelse på attributnivå mellan källdata och måldata Tabell/ Objekt Attribut Definition Tabell/ Objekt Attribut Definition VERKSAMHET verk_id VERKSAMHET verk_org_nr VERKSAMHET verk_ben VERKSAMHET verk_cfar_nr VERKSAMHET verk_plats_nr ID för verksamheten. Verksamhetens Org nr. Benämning för verksamheten. Verksamhetens Cfar nr. Verksamhetens Plats nr. Activity Operator ProcessInput ProductionFacility ProductionSite gmlid gmlid gmlid gmlid gmlid Supports provision of a handle for the XML element representing a GML object. Its use is mandatory for all GML objects. It is of XML type ID, so is constrained to be unique in the WML document whithin which it occurs. Operator thematicid Thematic object identifier. It may be the identification code provided by the Member States to identify the object on their own databases. For the Operator normally the VAT code is used. ProductionSite inspireid, localid External object identifier of the spatial object. An external object identifier is a unique object identifier published by the responsible body, which may be used by external applications to reference the spatial object. The identifier is an identifier of the spatial object, not an identifier of the real-world phenomenon. Operator tradename Corporate name officially assigned to the operator. ProductionFacility name Official denomination or proper or conventional name of the facility. ProductionSite name Official denomination or proper or conventional name of the site. Användes inte eftersom attributet innehöll så många NULL-värden och felaktiga värden. ProductionFacility thematicid Thematic object identifier. It may be the identification code provided by the Member States to identify the object on their own databases. 12

Tabell/ Objekt Attribut Definition Tabell/ Objekt Attribut Definition VERKSAMHET verk_b_adress Verksamhetens besöksadress. VERKSAMHET verk_u_adress Verksamhetens utdelningsadress. VERKSAMHET verk_postnr Verksamhetens postnr. VERKSAMHET verk_postort Verksamhetens postort. BRANSCH bransch_kod Kod för bransch. BRANSCH bransch_ben Benämning för bransch ProductionSite thematicid "Thematic object identifier. It may be the identification code provided by the Member States to identify the object on their own databases." Används inte eftersom Inspire använder sig av datatypen Addresses::Address för sina adresser. Har inte tillräckligt med information för att kunna fylla i detta, bl a "Geographic position" är obligatoriskt." Activity NACE Classification of the activity according to the Council Regulation 3037/90/EEC. Operator tradedescrip tion Descriptive statement about the operator. Activity description Descriptive statement about the activity in line with the declared classification from legislation. ProductionFacility description Descriptive statement about the facility. ProductionSite description Descriptive statement about the site. TILLSTAND tillst_besdat Datum för tillsånd. Permission validfrom The starting time of validity for the permit. A date gives values for year, month and day. TILLSTAND tillst_prov Tillåtlighetsprövning miljöverket - omfattning. Kan anta värdena: Uppgift saknas, Helheten, Delar av verksamheten, Påbyggnadstillstånd, Tidsbegränsad. TILLSTAND tillst_jn Tillstånd. Kan anta värdena Ja (1) eller Nej (2). Permission description Descriptive statement about the licensed permit. TILLSTAND tillst_mynd Tillståndsmyndighet. Kan anta värdena: Miljödomstolen i (1), Koncessionsnämnd (2), Miljöprövningsdelegati on vid länsstyrelsen i (3), Länsstyrelsen i (4), Uppgift saknas (5). AMNE amne_namn_e ng Engelsk benämning för ämnet. ProcessInput product Description Descriptive statement about the product in line with the declared classification. VERK_AMNE verk_amne_ma ngd Mängd, kvantitet i ton för Ämnet. ProcessInput amount, amount Declared or measured quantity of any kind of material, energy, waste, product entering a production cycle. 13

3 Resultat och diskussion Det övergripande syftet med testerna har varit att granska kvalitetspåverkan vid transformation av data från MSB s Sevesodatabas till Inspire s dataspecifikation för Produktions och industrianläggningar. En jämförelse av datakvalitet före och efter transformation har utförts och resultaten har analyserats. Även den tekniska genomförbarheten för transformation av Seveso-data så att de blir kompatibla med Inspire s dataspecifikation har mätts och utvärderats. Två typer av resultat har erhållits från testerna: Transformationens genomförbarhet. Kvalitetspåverkan vid transformation. Dessa presenteras i följande avsnitt. 3.1 Transformationens genomförbarhet Testresultaten har analyserats för att studera om det är tekniskt genomförbart att transformera källdata så att de kan tillhandahållas enligt Inspire s dataspecifikationer. Analysen har gjorts med avseende på måluppfyllelse: Kvantifiering av antalet objekt, attribut och associationer som kan eller inte kan transformeras till målschemat (GAP-analys). Antal problematiska transformationer. Exempelvis transformationer som kräver manuellt arbete eller som påverkar kvaliteten negativt. Dessutom kontrollerades hur stor andel av de matchade attributen i en datamängd som tilldelats konstanta värden vid schematransformationen. 3.1.1. Transformationens måluppfyllelse Nedan beskrivs de mått på måluppfyllelse som har analyserats, det vill säga avsaknad av källdata, problematiska transformationer, och värden från andra källor. Dessutom ges förslag på hur källdata skulle kunna kompletteras för att fler, framför allt obligatoriska attribut, ska kunna transformeras. Inspire s modell för Produktions och industrianläggningar innehåller 13 objekttyper. Sevesodatabasen innehåller ca 40 tabeller med totalt ca 470 attribut. Informationsmässigt skiljer sig innehållet åt, beroende på olika syften och mål med Inspire s dataspecifikation och det 14

som är intressant för MSB på en nationell nivå. Av den anledningen har information från Sevesodatabasen endast kunnat transformeras till fem av Inspire s objekttyper; Activity, Operator, ProcessInput, ProductionFacility och ProductionSite. Tabell 6 visar att 78% av de obligatoriska attributen, samt cirka en tredjedel av de upphävbara och valfria attributen kunde matchas. Tabell 6: Antal attribut i Inspire-schemat som kunde fyllas med data Schema Obligatoriska Upphävbara (voidable) Frivilliga Inspire Transfor merbara % Inspire Transform erbara % Inspire Transfor merbara % PF 9 7 78% 15 5 33% 16 6 38% Den resulterande Inspire datamängden saknar alltså i dagsläget två obligatoriska attribut (geometry1 och riverbasindistrict) samt även en obligatorisk association (pertinentto). De två attributen skulle kunna erhållas med problematiska transformationer, enligt följande: geometry1: Sevesodatabasen innehåller inga geografiska element, men det skulle kunna gå att ta fram punktgeometrier genom att geokoda adresserna. riverbasindistrict: När punktgeometrierna tagits fram går det sedan att via rumsliga sökningar ta fram till vilket vattendistrikt en verksamhet hör. Associationen pertinentto är av typen Address och hänvisar till Inspire-temat Adresser. Strukturen för att ange en sådan adress är relativt komplex och den innehåller även ett antal obligatoriska attribut. Adresserna i Sevesodatabasen måste kompletteras för att kunna tillhandahållas enligt detta format. Andelen konstanta värden som lagts till är låg, 6% av de transformerade attributen har konstanta värden. Värdena har lagts till för att komplettera källdata och är det samma för hela datamängden (t ex maineconomicactivity: true). Inga problematiska transformationer utfördes. Några filteroperationer utfördes, i övrigt förekom endast transformationer av typen namnbyte på klasser och attribut, tillägg av konstanta värden, samt sammanslagning av källdataelement. 15

För de fem objekttyper som transformerats har två associationer lagts till. 3.2 Kvalitetspåverkan vid transformation GeoTest har utfört kvalitetstesterna på ett slumpvis valt stickprov på 50 av de 381 verksamheter som finns registrerade i Sevesodatabasen. De har utförts i enlighet med metoden som beskrivs i avsnitt 2. Resultaten från dessa kvalitetstester finns beskrivna i kvalitetsrapporten i bilaga 2. I avsnitten nedan görs en sammanfattning samt analys av resultaten. 3.2.1. Resultat av kvalitetsutvärdering av källdata Vid kvalitetsutvärderingen av Sevesodatabasen har endast de 18 attribut som kan matchas mot objekt och attribut i dataspecifikationen för Produktions och industrianläggningar utvärderats. Fullständigheten, dvs. antalet förekomster av attributen som innehåller värden, kontrollerades för samtliga 18 attribut. De har en fullständighet på mellan 64% och 100%, där verk_cfar_nr har den lägsta fullständigheten och sex attribut har en fullständighet på 100%. Medelvärdet för fullständigheten ligger på 89%. Relevanta referensdata hittades till nio av attributen (se Tabell 3). För dessa kontrollerades den tematiska noggrannheten. Det som kontrollerades var både giltigheten hos organisationsnummer, CFAR-nummer och bransch-koder, samt även innehållet i textsträngar (dvs. fritext). Vid utvärderingen av noggrannheten i textsträngar gjordes både en kontroll av hur många textsträngar som hade en exakt matchning, T1, samt en kontroll över hur många textsträngar ett mänskligt öga skulle kunna se var korrekt, T2, (t ex. om texten var felstavad, innehöll förkortningar, adressen hade fel struktur etc.). Den tematiska noggrannheten varierade mellan 26% och 98%, där verk_cfar_nr har den lägsta noggrannheten, följt av branschkoder, branschbenämningar och utdelningsadresser vilka hade en noggrannhet på mellan 35% och 38%. Medelvärdet för tematisk noggrannhet var 38% vid en exakt matchning av textsträngar och 47% vid matchningar som det mänskliga ögat skulle kunna se var korrekt. Tabell 7: Kvalitetsutvärdering av källdata Kvalitetselement Variationsbredd Medelvärde Fullständighet 64% - 100% 89% Tematisk noggrannhet T1 26% - 98% 38% Tematisk noggrannhet T2 26% - 98% 47% 16

En förklaring till att kvaliteten på de attribut i Sevesodatabasen som kontrollerats är relativt låg är att dessa attribut inte anses vara så intressanta för den nationella användningen av Sevesodatabasen. En annan förklaring kan vara att informationen till Sevesodatabasen registreras av de länsstyrelser som har miljöfarliga verksamheter inom sitt län. Kvaliteten på de registrerade uppgifterna skiljer sig nämligen markant mellan de olika länsstyrelserna. Utifrån resultaten av kvalitetsutvärderingen beslutades att attributet verk_cfar_nr inte skulle användas vid transformeringen till Inspire, istället valdes attributet verk_plats_nr som har en liknande betydelse samt en fullständighet på 98%. Attributet verk_cfar_nr finns därför inte med i den fortsatta kvalitetsutvärderingen. 3.2.2. Resultat av kvalitetsutvärdering av transformerade måldata Kvalitetstesterna har gjorts på de 50 verksamheter som transformerats till Inspire s specifikation för Produktions och industrianläggningar. Kontrollen av fullständighet gjordes för samtliga attribut för de fem objekt som transformerats, dvs. även de attribut som inte har någon motsvarighet i källdata. Detta gjordes för att kunna validera objektet som helhet mot Inspire s specifikation (beskrivs i Tabell 6). Om vi endast utvärderar de attribut som kan transformeras, ligger fullständigheten mellan 64% och 100%, med ett medelvärde på 95%. Testerna av den tematiska noggrannheten har gjorts på de attribut i måldata som har kunnat transformeras från Sevesodatabasen, samt på de konstanta värden som lagts till vid transformationen. För samtliga transformerade attribut har det kontrollerats att innehållet i attributen motsvarar Inspire s definition av attributet. Där så var möjligt kontrollerades även den tematiska noggrannheten mot referensdata (se Tabell 4). Den tematiska noggrannheten varierade mellan 35% och 100%, medelvärdet var 85% vid en exakt matchning av textsträngar och 87% vid matchningar som det mänskliga ögat skulle kunna se var korrekt. Tabell 8: Kvalitetsutvärdering av måldata Kvalitetselement Variationsbredd Medelvärde Fullständighet 64% - 100% 95% Tematisk noggrannhet T1 35% - 100% 85% Tematisk noggrannhet T2 35% - 100% 87% 17

Eftersom adressattributen i Sevesodatabasen (verk_b_adress, verk_u_adress, verk_postnr, verk_postort) inte innehåller all den information som krävs för att korrekt kunna ange en adress enligt det adressformat som krävs enligt Inspire så har dessa attribut inte utvärderats i måldata. Under transformationsprocessen lades konstanta värden till för fyra attribut (maineconomicactivity, upm, namnespace och versionid). 3.2.3. Resultat av jämförelse av kvalitet mellan källdata och måldata. Om jämförelsen av tematisk noggrannhet mellan källdata och måldata endast innefattar de attribut som i källdata har kunnat valideras mot referensdata och sedan har kunnat mappas till måldata, har medelvärdet på den tematiska noggrannheten ökat från 54% till 59%. Jämförelsen baseras på fyra attribut och ökningen beror på att definitionen av två attribut var mer generell i Inspire s dataspecifikation jämfört med den i Sevesodatabasen. Därför överensstämde fler värden i måldata med definitionen. Den totala ökningen av kvaliteten mellan källdata och måldata har blivit mycket större och beskrivs i Tabell 9 (Tematisk noggrannhet T1 innebär exakt matchning av textsträngar och T2 matchningar som det mänskliga ögat skulle kunna se var korrekt.). Tabell 9: Jämförelse av kvalitet mellan källdata och måldata Kvalitetselement Datamängd Variationsbredd Medelvärde Fullständighet Tematisk noggrannhet T1 Tematisk noggrannhet T2 Källdata 64% - 100% 90% Måldata 64% - 100% 95% Källdata 35% - 100% 39% Måldata 35% - 100% 85% Källdata 35% - 100% 52% Måldata 35% - 100% 87% En anledning till att kvaliteten förändrats är att olika antal attribut har kontrollerats i måldata. Anledningen till detta är att: - Konstanta värden har lagts till för fyra attribut (maineconomicactivity, upm, namnespace och versionid) - Två attribut (verk_amne_mangd -> amount, tillst_besdat -> validfrom) har inga referensdata för källdata, men efter transformation stämmer de överens med definitionen för attributen i Inspire. 18

Attributen med konstanta värden är alla korrekta och även attributen amount och validfrom är av god kvalitet. Ett och samma attribut i Sevesodatabasen har ibland mappats till flera attribut (men olika objekt) i Inspire. Eftersom de flesta av dessa fler-mappade attribut har hög kvalitet så höjs den tematiska noggrannheten något. Det presenterade resultatet av kvalitetsutvärderingen av källdata skiljer sig något åt mellan avsnitt 3.2.1 och detta avsnitt. Detta beror på att fem källdataattribut som kontrollerades mot referensdata har sedan inte använts i mappningen till måldata. Dessa attribut har tagits med vid presentationen av kvalitetsresultatet för källdata, men inte vid denna jämförelse med måldata. 19

4 Slutsatser Det övergripande syftet med testerna har varit att granska kvalitetspåverkan vid transformation av data från MSB s Sevesodatabas till Inspire s dataspecifikation för Produktions och industrianläggningar. Även den tekniska genomförbarheten för transformation av Seveso data så att de blir kompatibla med Inspire s dataspecifikation har mätts och utvärderats. Angående genomförbarhet för transformation kan följande slutsatser dras: Det är inte tekniskt möjligt att transformera data från MSB s Sevesodatabas helt enligt Inspires dataspecifikation för Produktions och industrianläggningar. Orsaken är att det i dagsläget saknas två obligatoriska attribut (geometry1 och riverbasindistrict) samt även en obligatorisk association (pertinentto). Dessutom fanns det i Seveso-databasen endast data för 5 av de totalt 13 objekttyperna i Inspire-schema. Bortsett från de saknade data upptäckte vi inga problematiska transformationer som inte kan automatiseras eller som påverkar kvaliteten negativt. Från granskningen av vilken kvalitetspåverkan transformationen av data kan medföra dras följande slutsatser: Kvaliteten på de attribut i källdata (Sevesodatabasen) som utvärderats är relativt låg, både vad gäller fullständighet och tematisk noggrannhet. Anledningen till detta är bland annat att dessa attribut inte anses vara så intressanta för den nationella användningen av Sevesodatabasen. En annan förklaring kan vara att informationen till Sevesodatabasen registreras av de länsstyrelser som har miljöfarliga verksamheter inom sitt län och kvaliteten på de registrerade uppgifterna skiljer sig tydligt mellan de olika länsstyrelserna. Vid en jämförelse av kvaliteten mellan källdata och måldata har både fullständigheten och den tematiska noggrannheten ökat markant, från 90% till 95% för fullständighet och från 52% till 87% för tematisk noggrannhet. Myndigheter och organisationer som ska tillhandahålla sina data enligt Inspire s specifikationer bör vara medvetna om att transformationer av data kan ha en kvalitetspåverkan på måldata: o Det är relativt enkelt att få en kvalitetshöjning i måldata, t ex genom att: 20

Lägga till konstanta värden för attribut som saknar värden där så är möjligt. Undersöka om ytterligare attribut kan mappas genom relativt enkla åtgärder (t ex det vi i denna test föreslagit för attributen geometry1 och riverbasindistrict). o Komplicerade transformationer men även enklare transformationer som t ex mappningar mellan olika värdelistor kan leda till kvalitetsförsämringar. 21

5 Referenser D2.8.II/III.8 Data Specification on Production and Industrial Facilities Draft Guidelines INSPIRE Thematic Working Group Production and Industrial Facilities, 2012-02-24 Seveso rapport, MSB, 2012-03-01 ISO/DIS 19157 Geographic information Data quality, 2011-07-11 ISO 2859-1:1999 Sampling procedures for inspection by attributes ISO 19113:2002 Geographic information Quality principles ISO 19115:2003 Geographic information Metadata 22