Metadata och datastrukturer för långtidslagring och dessutom lite om PDF/A Magnus Wåhlberg magnus.wahlberg@skatteverket.se Mål Migreringshuset Metadata Datastrukturer PDF/A-1 1
Migreringshuset Strategi Struktur Metadata Filformat Teckentabell XML Digitala signaturer Ledning Förvaltning Teknisk driftmiljö Fysikt medium Metadata 2
Vad är metadata? Några typdefinitioner: Data över data. Data + Metadata = Information Data + Metadata + Tolkning = Förståelse Beskrivande information som understödjer tolkning av data. och hundratals andra definitioner... Olika former av metadata Kan vara i textform. Ex. termkataloger, definitioner. Kan vara i modellform. Ex. begreppsmodeller. I olika former av strukturer såsom trädstrukturer, grafer (noder och kanter)... Ex. kategorisering med biblioteksschema. Andra visuella eller textmässiga former. Ex. bilder, 3D-virtuella världar. Matematiska beskrivningar. Ex. E=mc 2 3
Metadata och ISO-standarder Metadata for Records Modellering Meta Data Register (Repository) Modelleringsstandarder ISO 19501:2005 Information technology -- Open Distributed Processing -- Unified Modeling Language (UML) Version 1.4.2 ISO 19502:2005 Information technology -- Meta Object Facility (MOF) ISO 19503:2005 Information technology -- XML Metadata Interchange (XMI) 4
ISO 23081 Metadata for Records Principer för skapande och hanterande av metadata runt handlingar ( Records ) Metadata om: själva handlingen ( record ) affärsregler ( business rules ) aktörer ( agents ) verksamheter och process ( business activities or processes ) dokumenthanteringsprocessen det metadata som tillhör handlingen Innehåller inget specifikt metadataschema ISO 23081-1:2004 forts. Affärsregler, styrinstrument... Processer Aktörer Handlingar 5
ISO 11179 Metadata registries (MDR) Är en standard för att beskriva och utbyta information runt metadatamodeller, metadata, beskrivning av dataelement o.s.v. Metadata lagras enligt en metadatamodell. Se även kompletterande ISO 20943 Information technology -- Metadata Registries Interoperability and Bindings (MDR-IB) som är under utveckling. För mappning mellan olika metadatamodeller med mera. Metadata och ISO-standarder Metadata for Records Modellering Meta Data Register (Repository) 6
Olika syften med metadata Exempelvis: För automatisk ärendehantering. För att kunna föra över information mellan organisationer. För att möjliggöra återsökning och återanvändning. För att kunna presentera information beroende på olika målgrupper. För att kunna långtidslagra handlingar. Syften med metadata för långtidslagring Unik identifiering, kategorisering och avgränsning av handling. Bevarande av innehåll och struktur. Öka förståelsen för lagrad information genom att dokumentera kontextuellt metadata. Förklaringar för koder, historik, systemdokumentation... Garantera autenticitet. Möjliggöra återsökning. Begränsa tillgång (Access). Hanteringshistorik för handling. Möjliggöra förvaltning. Gallring (disposal), konvertering, debitering, prestandabalansering, uppföljning... 7
Exempel: OAIS Information Package Package Description (PD) Information för återsökning (ex. arkivförteckning) beskriver beskriver Packaging Information (PI) Paketbeskrivande metadata (ex. mediatyp) Information Package IP Content Information (CI) Data beskriver Preservation Description Information (PDI) Beskrivande metadata för CI Metadata för olika nivåer 1 Arkivbildare (EAC) Myndighet, organisation Arkiv (EAD) Ramobjekt Akt, Mapp, Projekt, (Del)process, Handlingslag(Informationstyp), Dossier, System, Ärende, Organisation(sdel), Verksamhet, Funktion 8
Metadata för olika nivåer 2 Objekt Informationsinnehåll, identitet... Representation Fil (Lagrad eller som ström) Dynamisk presentation (Dynamiska hemsidor exempelvis) Statisk presentation (På papper exempelvis) Fysiskt medium 1. Papper, pergament, papyrus, sten, COM, kisel- och metallskivor... 2. Digitala media (optiska skivor, magnetband...) 3. Hologram, DNA-strukturer... 4. Rumsstrukturer... Exempel: Informationsmodell vid SKV R elatio n styp * R elatio n * 2 Metadata för Återsökning 1..* R am o b jekt * Ram objekttyp -Typ {Ä rende, Serie, Dossier...} * Metadata + Återsökning -ID O b jekt R elatio n R elatio n styp 1..* 2 * * 1..* Representation / Avbildning 9
Metadatavokabulärer 1 W3C RDF (Resource Description Framework) ISO 15836:2003 DC (Dublin Core) med/utan W3C RDF LoC:s EAD (Encoded Archival Description) LoC:s PREMIS (Preservation Metadata: Implementation Strategies) LoC:s METS (Metadata Encoding and Transportation Standard), LoC:s MODS (Metadata Object Description Schema), LoC:s EAC (Encoded Archival Context), Metadatavokabulärer 2 VERS (Victorian Electronic Records Strategy) Metadata Scheme, NAA:s Recordkeeping Metadata Standard for Commonwealth Agencies (inkl. AGLS Metadata Standard), NAA:s XML RFC:er för långtidslagring, UK GovTalk e-government Metadata Standard (Dublin Coreextension) och ERMS metadata (ytterligare extensions), South Australian Recordkeeping Metadata, PRISM, Med flera... 10
Andra metadataarbeten CURL Exemplars in Digital Archives project (CEDARS) vid Leeds University (1998-2002) National Library of Australia (NLA) Preservation Metadata for Digital Collections (1999) Networked European Deposit Library (NEDLIB) (2000) Harvard University's Digital Repository Services (DRS) (Aktivt) Exempel: Victorian Electronic Records Strategy 11
Datastrukturer Datastrukturer och långtidslagring 1. Metadata och data lagras i datastrukturer. 2. Datastrukturer är uppbyggda av olika dataelement som exempelvis identifikatorer (ID), relationer och strängar. 3. Vid långtidslagring dokumenteras använda datastrukturer. 12
Identifikatorer (ID) Identifierar en resurs/ett objekt unikt i förhållande till någon form av kontext. Om det inte är en unik identifiering är det frågan om kategorisering/typindelning. Nivåer av identifiering Universell (inom universum):??? Globala identifikatorer: UUID, Fullständig postadress, ISO 2108 (ISBN) Nationella: NAD-koder, Postnummer, Social insurance number Regionala: Telefonnummer utan regionprefix Lokala: Medlemsnummer i Asketräsks fiskeförening Exempel: Identifikatorer URI Kan vara exempelvis organisationsnummer, fysiska adresser, social security number, ISBN, URL... URL URL är en form av URI Tips: Använd relativa länkar (/data/data.txt) vid långtidslagring Undvik absoluta länkar (http://www.a.a/data/data.txt) 13
Relationer Relation mellan två objekt Relation mellan ett till många objekt Beskrivning av relation ID/namn för relation Referenser till refererade objekt Riktning Tids- och rumsaspekt Beteende vid traversering Exempelvis: Länkar, beroenden, katalogindex... Exempel på ISO-standarder för dataelement 1 ISO 639 för språkkoder Ex. sv ISO 3166 för landskoder Ex. SE, SWE ISO 4217 för valutor Ex. SEK och EUR. ISO 5218 för kön SEX : 0 = not known, 1 = male, 2 = female, 9 = not specified. ISO 6709 för latitud, longitud och höjd ISO 8601 för datum och tider Ex. 1964-04-15T21:00-10:00 för att beteckna den femtonde april år 1964 kl. 21 Australian Eastern Standard Time. Ex. 2001-03-01/2001-05-11 för att beteckna perioden 1 mars till 11 maj år 2001. Notera att det också med fördel kan användas två fält istället för ett för att beteckna perioder. Ej ISO-standard: -/YYYY eller YYYY/-. 14
Exempel på ISO/CEN-standarder för dataelement 2 ISO 9362 Banking - Banking telecommunication messages - Bank identifier codes innehåller formatet för Bank Identifier Codes (BIC), även kallat SWIFTkoder efter förvaltningsorganisationen SWIFT. (Tidigare ISO 11180 Postal addressing, Redrawn) CEN EN 00331015 Postal Services Address data bases, se TC331 ISO 13616 International Bank Account Number (IBAN) för bankkontonummer IBAN format för Sverigr: SEkk BBBB AAAA AAAA AAAA AAAA där B står för bankkontor/clearingnr och A för kontonummer. HR-XML Har metadatastrukturer för: Personer Postadresser Elektroniska adresser m.m. 15
Svenska de facto-standarder? Personnummer Lagras som YYYYMMDDXXXX. (12 siffror.) Organisationsnummer Lagras som XXXXXXVVVVVV. (12 siffror.) Postnummer Lagras som XXXXX (5 siffror) Adress Bostadsadress contra Utdelningsadress Postadress Adressat, utdelningsadress, c/o adress, förortsnamn, postnummer, ortnamn, landnamn Fysiska namn Ofta i formen Efternamn, Förnamn Tilltalsnamn markeras ibland med versaler Dubbla efternamn delas ibland upp i efternamn och mellannamn Juridiska namn SerieID (punktnotation) SerieID byggs upp av siffror och skiljetecken såsom.,/_- Tips: Filnamn, katalognamn, ID... Vid långtidslagring: Använd inte åäöåäö Ersätt mellanslag med underline, Ex. a_a.txt Ersätt punkt med p eller underline, Ex version1_1.txt Undvik gärna specialtecken som exempelvis?\/*+% $%&# ~,.:; Notera: Vissa äldre operativsystem (MS DOS) kan inte skilja mellan små och stora tecken Många operativsystem och medialagringsstrukturer sätter begränsningar för namnlängder 16
Vad ska man dokumentera? Dokumentera exempelvis: Begränsningar för fält, strukturer Tillåtna intervaller Tillåtna värden Multiplicitet Ev. syntax/grammatik Datatyp ID Relationer Dokumentera kodförklaringar Dokumentera förkortningar Kommentarer Användningsperiod PDF/A-1 17
PDF/A-1 (ISO 19005-1) Baseras på PDF Reference 1.4 Måste ingå: Inbäddade typsnitt. Applikationsoberoende färgschema. (Finns flera olika.) Viss XMP metadata. Får inte ingå: Kryptering. Komprimering. Inbäddade filer. Referenser till externa filer. Multimedia. Script och kodanrop. Operationer i formulärfält PDF/A-1 Metadata XMP (Adobe Extensible Metadata Platform) XML för att dokumentera visst metadata. Stödjer Dublin Core. Obligatoriska element: Filidentifierare (Ex. ISBN, UUID, nationella ID.) Filens ändringshistorik. (Ex. När konvertering skedde, när filen skapades.) Andra XML-metdatastruktur kan bäddas in i filen för att göra ett dokument självbeskrivande. 18
PDF/A-1 Användningsområden Vektoriserad grafik. (Ex. CAD) Rastrerad grafik. (Ex. vid scanning) Tar i många fall mindre minnesutrymme än TIFF. Texter med inbäddade typsnitt. Statiska kontorsdokument. (Ordbehandling, kalkyl, presentation ) Inbäddade digitala signaturer tillåts (om typsnitt och applikationsoberoende färger används). PDF/A-1 Conformance levels PDF/A-1b, Minimally conforming Garanterar ursprungligt utseende. PDF/A-1a, Fully conforming Ytterligare dokumentation av textstruktur för underlätta återsökning och återanvändning. Mappning av använda typsnitt till Unicode. Bevarar ursprunglig textstruktur såsom styckesindelning, förklaringar av förkortningar och språkmarkeringar. 19
Leverantörsexempel 1 Leverantörsexempel 2 Acrobat Standard/Professional 8.0 kan lagra i PDF/A-1 PDF Tools AG. Konvertering från olika filformat till PDF/A-1 m.m., se http://www.pdf-tools.com/ Compart Systemhaus GmbH Exempelvis konvertering från PDF till PDF/A-1 se http://www.compart.net/ Apago, se www.apagoinc.com Visioneer, se www.visioneer.com Callas, se www.callassoftware.com 20
PDF/A-2 (under utveckling) Baseras på PDF 1.6. Kommer ev. att ingå: Ytterligare stöd för digitala signaturer. 3D grafik. Multimediastöd. OpenType typsnitt. Sammanfattning Migreringshuset Metadata Datastrukturer PDF/A-1 21
Frågor? Länkexempel LoC s Digital preservation program: http://www.digitalpreservation.gov/ LoC s Standarder EAD, PREMIS...: www.loc.gov/standards/ Victorian Electronic Records Strategy (VERS): http://www.prov.vic.gov.au/vers/standard/version2.htm State Records of South Australia: http://www.archives.sa.gov.au/management/index.html National Archives of Australia: http://www.naa.gov.au/recordkeeping/preservation/digital/summary.html UK GovTalk: http://www.govtalk.gov.uk/ 22