DCAT-AP Vad är det och vad kommer härnäst
MetaSolutions Eric Hannes Matthias
Översikt Vad är en datamängd? Vad är DCAT-AP Vad är Skördning Mer om DCAT-AP Verktyg för DCAT-AP
Vad är ett dataset? "Collection of data, published or curated by a single agent, and available for access or download in one or more formats" Data catalog vocabulary (DCAT) spec Hanterar enbart information om dataset inte själva datasetten
Bra exempel på datamängder Mätdata - t.ex. luftkvalitet i en kommun Statistik - t.ex. befolkningsförändring per kommun Geografisk information - t.ex. vägar i Sverige Bibliografisk information - t.ex. Libris Information om föremål - t.ex. arkeologiska samlingar personer - t.ex. VIAF (internationella auktoriteter) händelser - t.ex. Nobelpris
Mindre bra ex. på datamängder Alla webbsidor för en organisation Ett dokument med löpande text En samling av foton utan metadata Koden till ett program
DCAT-AP För att beskriva datamängder
DCAT-AP ursprung DCAT - interoperabilitet mellan datakataloger W3C rekommendation DCAT-AP - förbättra sökbarhet i dataportaler i Europa Europeiska kommissionen
Visionen bakom DCAT-AP [...] the availability of the information in a machine-readable format as well as a thin layer of commonly agreed metadata could facilitate data cross-reference and interoperability and therefore considerably enhance its value for reuse [...] European Commission in Communication on Open Data December 12, 2011
DCAT Struktur KATALOG Katalog: Titel, beskrivning, ansvarig utgivare Dataset: Titel, beskrivning, ansvarig utgivare, kontaktadress, ämne/nyckelord, hur ofta uppdatering sker, osv. DATASET DISTRIBUTION DISTRIBUTION DATASET Distribution: Beskrivning, access till data, datum, format, licens, status DISTRIBUTION DISTRIBUTION
DCAT application profile for data portals in Europe (DCAT-AP) Introducerar en uppdelning av klasser och fält i: obligatoriska rekommenderade valfria Föreslår vokabulärer status, periodicitet, kategorier, format, språk, platser, typ av utgivare, mfl. Förtydligar uttrycken för utgivare, tidsangivelser etc. Användarscenarior Handledande texter
Huvudklasser och fält i DCAT-AP
Olika aktörer i DCAT Katalogen Utgivare (FOAF) Upphovsrättsinnehavare (FOAF) -O -V Dataset Utgivare (FOAF) Kontaktperson (vcard) -R -R Distribution Upphovsrättsinnehavare (FOAF) -V
Licenser och rättigheter Licenser (tips) Katalogen Distribution - CC0 eller CC BY - Valfri CC licens Rättigheter På katalogen och distributioner ODRS vokabulären - ODI Open Data Rights Statment Attribuering / copyrightmärkning Upphovsrätt år och jurisdiktion Upphovsrättsinnehavare Riktlinjer för återanvändning
Flerspråkighet Språk på literaler Ren text Namn, adresser, format, etc. Vokabulärer - alltid - aldrig - via referens Språk på: Katalogen (info om metadata) Dataset (info om datat) - ignorera - om lämpligt
Dataformat DCAT1.1 bättre än DCAT1.0, fortfarande krångligt Öppnadata.se förenklar: använda bara dct:format Med internet media type som literal, tex: text/csv, application/rdf+xml, application/xml, application/json, application/vnd.ms-excel, text/plain osv. Se mer på: http://tools.ietf.org/html/rfc6838 http://www.iana.org/assignments/media-types/
Kategorier och nyckelord Använd DCAT-AP themes (dcat:theme) 13 kategorier Exempelvis energi, miljö, hälsa, transport... Nyckelord (dcat:keyword) Anges som literaler, med språk I singular
Platsvokabulär (dct:spatial) DCAT-AP specifikationen föreslog MDR Countries Named Authority List vilket är en högst begränsad vokabulär. Öppnadata.se säger: geonames.org adm. div. nivå ett eller två Manuell metod att hitta lämpliga URIer: Sök efter en stad eller region Klicka på ikonen längst till vänster på lämplig sökträff (rött A indikerar administrativ-division ) I kartpopuppen klicka på.rdf längst ner till höger. Ta bort /about.rdf i webläsarens adressfält, alternativt hitta gn:feature instansen i RDF uttrycket du fått. Alternativt via verktyg som integrerar med geonames API Exempel: http://sws.geonames.org/2673722
Skördning
Skörda information om dataset Kommuner & Landsting Statliga myndigheter Helsingborg... Företag & organisationer...... Nobel media
Skörda hela vägen
Krav från öppnadata.se Respektive organisation: lägger upp information om sina dataset i sin egen infrastruktur Uttryckt i DCAT-AP och ansvarar för att den är korrekt Öppnadata.se: hämtar informationen regelbundet och uppdaterar sin katalog
Krav från öppnadata.se forts. En fil (webbadress) per organisation Default: http://{organisation.se}/datasets/dcat RDF/XML skall användas Huvudklasser 1 dcat:catalog >= 1 dcat:dataset >= 0 dcat:distribution (per dcat:dataset) Huvudklasser måste ha URI:er (ej blanka noder) Läs mer på webben: DCAT-AP Swedish Recommendation
Mer om DCAT-AP Omvärld och framtid
Varianter DCAT-AP 1.0 - avvecklas DCAT-AP 1.1 - November 2015 -? DCAT-AP 1.2-2017? GeoDCAT-AP - Utkast sen hösten 2015 StatDCAT-AP - Tas fram nu
Europeiska Data Portalen Hämtar från > 40 olika portaler Totalt > 200 000 dataset Brist på enhetlighet Olika mappningar behövs EDP efterfrågar bättre kvalité och enhetlighet
Läs mer Svensk kurs i DCAT-AP: http://lankadedata.se/dcat-utbildning DCAT-AP hos Europeiska kommissionen: https://joinup.ec.europa. eu/asset/dcat_application_profile/description DCAT hos W3C: http://www.w3.org/tr/vocab-dcat/
Verktyg för DCAT-AP
DCAT-AP editor ENTRYSCAPE CATALOG En molntjänst och öppen källkods-plattform för att förvalta och beskriva dina öppna data med DCAT-AP. Kontakta oss gärna om du vill veta mer: Matthias Palmér <matthias@metasolutions.se> http://metasolutions.se
Sandbox Tillfällig adress: https://sandbox.entryscape.com
DCAT-AP verktygslåda Utveckla en verktygslåda för att jobba med DCATAP uttryck. Verktygslådan kommer bli tillgänglig både som öppen källkod och som tjänst i molnet.
1. Mallar För DCAT-AP och GeoDCAT-AP Möjliggör redigering och visa i formulär
2. Validera Kolla syntax, att rätt vokabulär används och obligatoriska fält är ifyllda
3. Slå samman Samla datamängder till en huvudkatalog alternativt skapa hierarki av kataloger, undvik duplikat
4. Konvertera Etablera en konfigurerbar transform som överför eller lägger till fält som ändrats i DCAT-AP1.1.
CKAN Visst stöd för import av DCAT-AP Visst stöd för export Man behöver mappa en del. EDP jobbar på detta öppnadata.se använder CKAN
Nu blir det verkstad Vi experimenterar i: http://datahotell.se Och vid behov validerar vi i: http://sandbox.entryscape.com Exempel CSV: http://lankadedata.se/applen.csv http://lankadedata.se/komsk16.csv Frågor: till Matthias eller Eric <namn@metasolutions.se> http://metasolutions.se