Metadata och datastrukturer för långtidslagring



Relevanta dokument
METADATASTANDARDER EN ORIENTERING

Filformat och långtidslagring Magnus Wåhlberg Filformat och Långtidslagring

Hantera informationspaket i system för bevarande

En kort introduktion till EAD. av Magnus Wåhlberg vid RFV/avd. för verksamhetsstöd/dokumentenheten

Förvaltningsgemensamma specifikationer

Paketstruktur. Karin Bredenberg /

Begrepp för elektroniska arkiv och digitalt bevarande. Översättning av OAIS & Begrepp för arkivenheter i olika standarder

Heldag om FGS FGS:er och deras tekniska regelverk. Karin Bredenberg, FGS funktionen. Standarder. FGS:er och deras tekniska regelverk 1

Tillämpningsanvisningar för överlämnande till digital långtidsarkivering

ADDML vid Riksarkivet i Sverige

Delrapport DP3. FGS för paketstruktur för e-arkiv Bilaga 1 METS

TAM 4:2010 REKOMMENDATION. Arkivfunktionalitet för IT-system. Version 1.0

Projekt E-ARK stöd vid digital arkivering. Björn ES Solutions


Förvaltningsgemensam specifikation för leverans av enstaka publikationer till Kungliga biblioteket (FGS-PUBL)

Delrapport DP3. FGS för paketstruktur för e-arkiv Bilaga 2 PREMIS

ATT FRAMSTÄLLA OCH LAGRA ELEKTRONISKA HANDLINGAR. en handledning för myndigheter i Västra Götalandsregionen och Göteborgs Stad

ATT FRAMSTÄLLA OCH LAGRA ELEKTRONISKA HANDLINGAR

DP7 FORMELL KONTROLL

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Arkiv- och informationsvetenskap AV, Arkivsystem, 7,5 hp

DP7 Kompletterande information

E-pliktleverans via RSS-feeds

Introduktion till. (FGS) FGS Personal. Vägledning och förklaring till de förvaltningsgemensamma specifikationerna. Introduktion FGS Personal

INTERNATIONELL UTBLICK HUR MÄRKER VI AV ARBETET MED STANDARDER?

Vad är MoReq1? Falk Sundsvall 2006

Standarder vid digitalt bevarande. Karin Bredenberg /

Anvisningar för ifyllning av Excelark för databaser (xml-filer)

Arkivkrav vid införande av nytt IT-system

Stadsarkivets anvisningar 2011:1 Hantering av allmänna e-handlingar som ska bevaras i Uppsala kommun

RADAR. Mats Berggren /

Elektroniskt bevarande. Caspar Gielissen Eskilstuna kommun, Stadsarkivet

Informationsmodellering och e-infrastrukturer

archive En produkt från ida infront - a part of Addnode

Testplattformen (Webbarkivering)

Nordisk El-Arkivseminar Island maj Svensk SIP och AIP Mats Berggren, Riksarkivet

BESKRIVNING AV REGISTRERINGSDATA. Nordiska arkivdagar Kenneth Ahlfors

Svenska kyrkans bestämmelser

Elektronisk informationshantering IQPC PDF/A standarden Use case WSP Sverige

Moment 6: E-arkivet och våra verksamhetssystem

Europeana Data Model vad, varför och hur

Kompletterande frågor - Regler för informationshantering. och arkivering i IT-system/applikationer, LA 2017

Titel: Rekommendation Format för långtidslagring Datum: Version 1.0 TAM 5:2010 REKOMMENDATION. Format för långtidslagring. Version 1.

Introduktion till (FGS) Vägledning och förklaring till de förvaltningsgemensamma specifikationerna. Introduktion RAFGS2D

(reviderad , , ) Riksarkivet IT-avdelningen. Anvisningar för ifyllning av Excelark för webbleveranser

Förvaltningsgemensam specifikation för leverans av enstaka publikationer till Kungliga biblioteket (FGS-PUBL)

Prioriterade standarder, Handledning, Vägledning, Utbildning Mats Åhlin

Tekniskt ramverk för Svensk e- legitimation

Råd för hantering av elektroniska handlingar vid Lunds universitet. Datum Författare Version Anne Lamér 1.0

OpusCapita Business Network Portal

Tidformat Tid anges enligt formatet yyyy-mm-ddthh:mm:ss Där plustiden är tidstillägg i förhållande till UTC 2.

SFTI Migreringsguide från Sveorder 1.0 till CEN/BII Core Order Transaction

Karin Bredenberg Specifikation av olika leveranstyper/aflevereringstyper och leveransprocessen. Karin Bredenberg,

E-arkiv, eardoch Pre-pre-ingest

Anvisningar för ifyllning av Excelark för databaser (sekventiella textfiler)

Metadata i e-pliktleveranser

Informationsmodell. Mina meddelanden. Gäller från juni Version 2.0

Digital inlämning av årsredovisning

Pass 4. Exempel på metadatastandarder. SND Svensk nationell datatjänst

Övergången till RDA i Sverige Katarina Synnermark (RDA-redaktionen) Fredrik Klingwall (XL-utveckling)

Integration - API. Klassning. Teknisk beskrivning

Förvaltning av FGS:er

Slide 4 PKCS#7. XMLDsig

Geografisk information Representation av förändringar i datamängder

TRVK Digital projekthantering Väg, TRV 2012:063 Mall för upprättande av Objektspecifik handledning för digital projekthantering

Digital arkivering. Börje Justrell/


Val av format för elektroniska handlingar - ArkivE. Nora Liljeholm / Riksarkivet /

Vad kan man förbereda inför e-arkivering

Utformning av tjänster anslutna till den Sammansatta bastjänsten för grundläggande uppgifter om företag

Användargränssnitt, e-tjänst anslutna till SSBTGU

ISO Designing and Implementing a Records System (DIRKS/DIRS), Göran Samuelsson

Nationell informationsstruktur 2015:1 Bilaga 1: Läsanvisning till modellerna

ALEPH ver. 18 ALEPH Digital Asset Module (ADAM)

Tekniskt ramverk för Svensk e-legitimation

archive En produkt från Ida Infront - a part of Addnode Group

Aktivitetsrapport från Aktivitet 3 Digitala Leveranser

Riksarkivets myndighetsspecifika föreskrifter om gallring och annan arkivhantering

MIS Life Insurance XML

Arkivkrav för IT system med elektroniska handlingar vid Lunds universitet

Workshopmallar The e C ap a it i al a l o f S c S a c n a din i av a ia

BEAst rekommendation för hantering av bilagor till elektroniska fakturor

Introduktion till metadata i leveranser av elektroniska dokument till KB

Kan man arkivera i SharePoint? Katarina Ekelöf, chefsarkivarie, PostNord AB

Digital inlämning av årsredovisning

Nordisk Arkivakademi Boden november 2009

Endast arbetsmaterial ANSÖKAN OM UTRUSTNINGSBIDRAG KONSTNÄRERNAS KOLLEKTIVVERKSTÄDER. För ansökningsperiod, se Kulturrådets webbplats.

Titel: TAM-Arkiv Arkivhandbok Datum: Version: 1.0. TAM-Arkiv Arkivhandbok

Detaljplan. Publicerad: Datamängdens omfattning: Detaljplaner i Sverige Fastigheter och fysisk planering

Bilaga 3. En redogörelse kring metadata och XML. Status Slutlig. Sid 1 (7) Dokumenttyp. Versionsdatum

Elektroniskt bevarande Säkra för framtiden. Caspar Gielissen Föreningen Sambruk

Hyperlänkar. I HTML skapar man en hyperlänk med taggen <a> </a>, som är en förkortning av ordet ankare, på (engelska anchor).

Pass 4: Metadatastandarder

Förutsättningar för gallring efter skanning 1 (5) Tillsynsavdelningen Datum Dnr RA /1121 Håkan Lövblad

STANDARDER FÖR DOKUMENTHANTERING RECORDS MANAGEMENT STANDARDEN BESKRIVER. 1: Dokumentation Dokumenthantering(Records Management) Del 1: Allmänt

Öppna standarder. Programvaror och tjänster 2014

IT-avdelningen. Författare Funktion Telefon Datum Version Sid Karin Bredenberg SoU (10)

Avtal/överenskommelse för leverans till K- samsök

Vad pågår inom internationell standardisering. Mats Åhlin

Bilaga C (informativ) Översikt och exempel

Transkript:

Metadata och datastrukturer för långtidslagring och dessutom lite om PDF/A Magnus Wåhlberg magnus.wahlberg@skatteverket.se Mål Migreringshuset Metadata Datastrukturer PDF/A-1 1

Migreringshuset Strategi Struktur Metadata Filformat Teckentabell XML Digitala signaturer Ledning Förvaltning Teknisk driftmiljö Fysikt medium Metadata 2

Vad är metadata? Några typdefinitioner: Data över data. Data + Metadata = Information Data + Metadata + Tolkning = Förståelse Beskrivande information som understödjer tolkning av data. och hundratals andra definitioner... Olika former av metadata Kan vara i textform. Ex. termkataloger, definitioner. Kan vara i modellform. Ex. begreppsmodeller. I olika former av strukturer såsom trädstrukturer, grafer (noder och kanter)... Ex. kategorisering med biblioteksschema. Andra visuella eller textmässiga former. Ex. bilder, 3D-virtuella världar. Matematiska beskrivningar. Ex. E=mc 2 3

Metadata och ISO-standarder Metadata for Records Modellering Meta Data Register (Repository) Modelleringsstandarder ISO 19501:2005 Information technology -- Open Distributed Processing -- Unified Modeling Language (UML) Version 1.4.2 ISO 19502:2005 Information technology -- Meta Object Facility (MOF) ISO 19503:2005 Information technology -- XML Metadata Interchange (XMI) 4

ISO 23081 Metadata for Records Principer för skapande och hanterande av metadata runt handlingar ( Records ) Metadata om: själva handlingen ( record ) affärsregler ( business rules ) aktörer ( agents ) verksamheter och process ( business activities or processes ) dokumenthanteringsprocessen det metadata som tillhör handlingen Innehåller inget specifikt metadataschema ISO 23081-1:2004 forts. Affärsregler, styrinstrument... Processer Aktörer Handlingar 5

ISO 11179 Metadata registries (MDR) Är en standard för att beskriva och utbyta information runt metadatamodeller, metadata, beskrivning av dataelement o.s.v. Metadata lagras enligt en metadatamodell. Se även kompletterande ISO 20943 Information technology -- Metadata Registries Interoperability and Bindings (MDR-IB) som är under utveckling. För mappning mellan olika metadatamodeller med mera. Metadata och ISO-standarder Metadata for Records Modellering Meta Data Register (Repository) 6

Olika syften med metadata Exempelvis: För automatisk ärendehantering. För att kunna föra över information mellan organisationer. För att möjliggöra återsökning och återanvändning. För att kunna presentera information beroende på olika målgrupper. För att kunna långtidslagra handlingar. Syften med metadata för långtidslagring Unik identifiering, kategorisering och avgränsning av handling. Bevarande av innehåll och struktur. Öka förståelsen för lagrad information genom att dokumentera kontextuellt metadata. Förklaringar för koder, historik, systemdokumentation... Garantera autenticitet. Möjliggöra återsökning. Begränsa tillgång (Access). Hanteringshistorik för handling. Möjliggöra förvaltning. Gallring (disposal), konvertering, debitering, prestandabalansering, uppföljning... 7

Exempel: OAIS Information Package Package Description (PD) Information för återsökning (ex. arkivförteckning) beskriver beskriver Packaging Information (PI) Paketbeskrivande metadata (ex. mediatyp) Information Package IP Content Information (CI) Data beskriver Preservation Description Information (PDI) Beskrivande metadata för CI Metadata för olika nivåer 1 Arkivbildare (EAC) Myndighet, organisation Arkiv (EAD) Ramobjekt Akt, Mapp, Projekt, (Del)process, Handlingslag(Informationstyp), Dossier, System, Ärende, Organisation(sdel), Verksamhet, Funktion 8

Metadata för olika nivåer 2 Objekt Informationsinnehåll, identitet... Representation Fil (Lagrad eller som ström) Dynamisk presentation (Dynamiska hemsidor exempelvis) Statisk presentation (På papper exempelvis) Fysiskt medium 1. Papper, pergament, papyrus, sten, COM, kisel- och metallskivor... 2. Digitala media (optiska skivor, magnetband...) 3. Hologram, DNA-strukturer... 4. Rumsstrukturer... Exempel: Informationsmodell vid SKV R elatio n styp * R elatio n * 2 Metadata för Återsökning 1..* R am o b jekt * Ram objekttyp -Typ {Ä rende, Serie, Dossier...} * Metadata + Återsökning -ID O b jekt R elatio n R elatio n styp 1..* 2 * * 1..* Representation / Avbildning 9

Metadatavokabulärer 1 W3C RDF (Resource Description Framework) ISO 15836:2003 DC (Dublin Core) med/utan W3C RDF LoC:s EAD (Encoded Archival Description) LoC:s PREMIS (Preservation Metadata: Implementation Strategies) LoC:s METS (Metadata Encoding and Transportation Standard), LoC:s MODS (Metadata Object Description Schema), LoC:s EAC (Encoded Archival Context), Metadatavokabulärer 2 VERS (Victorian Electronic Records Strategy) Metadata Scheme, NAA:s Recordkeeping Metadata Standard for Commonwealth Agencies (inkl. AGLS Metadata Standard), NAA:s XML RFC:er för långtidslagring, UK GovTalk e-government Metadata Standard (Dublin Coreextension) och ERMS metadata (ytterligare extensions), South Australian Recordkeeping Metadata, PRISM, Med flera... 10

Andra metadataarbeten CURL Exemplars in Digital Archives project (CEDARS) vid Leeds University (1998-2002) National Library of Australia (NLA) Preservation Metadata for Digital Collections (1999) Networked European Deposit Library (NEDLIB) (2000) Harvard University's Digital Repository Services (DRS) (Aktivt) Exempel: Victorian Electronic Records Strategy 11

Datastrukturer Datastrukturer och långtidslagring 1. Metadata och data lagras i datastrukturer. 2. Datastrukturer är uppbyggda av olika dataelement som exempelvis identifikatorer (ID), relationer och strängar. 3. Vid långtidslagring dokumenteras använda datastrukturer. 12

Identifikatorer (ID) Identifierar en resurs/ett objekt unikt i förhållande till någon form av kontext. Om det inte är en unik identifiering är det frågan om kategorisering/typindelning. Nivåer av identifiering Universell (inom universum):??? Globala identifikatorer: UUID, Fullständig postadress, ISO 2108 (ISBN) Nationella: NAD-koder, Postnummer, Social insurance number Regionala: Telefonnummer utan regionprefix Lokala: Medlemsnummer i Asketräsks fiskeförening Exempel: Identifikatorer URI Kan vara exempelvis organisationsnummer, fysiska adresser, social security number, ISBN, URL... URL URL är en form av URI Tips: Använd relativa länkar (/data/data.txt) vid långtidslagring Undvik absoluta länkar (http://www.a.a/data/data.txt) 13

Relationer Relation mellan två objekt Relation mellan ett till många objekt Beskrivning av relation ID/namn för relation Referenser till refererade objekt Riktning Tids- och rumsaspekt Beteende vid traversering Exempelvis: Länkar, beroenden, katalogindex... Exempel på ISO-standarder för dataelement 1 ISO 639 för språkkoder Ex. sv ISO 3166 för landskoder Ex. SE, SWE ISO 4217 för valutor Ex. SEK och EUR. ISO 5218 för kön SEX : 0 = not known, 1 = male, 2 = female, 9 = not specified. ISO 6709 för latitud, longitud och höjd ISO 8601 för datum och tider Ex. 1964-04-15T21:00-10:00 för att beteckna den femtonde april år 1964 kl. 21 Australian Eastern Standard Time. Ex. 2001-03-01/2001-05-11 för att beteckna perioden 1 mars till 11 maj år 2001. Notera att det också med fördel kan användas två fält istället för ett för att beteckna perioder. Ej ISO-standard: -/YYYY eller YYYY/-. 14

Exempel på ISO/CEN-standarder för dataelement 2 ISO 9362 Banking - Banking telecommunication messages - Bank identifier codes innehåller formatet för Bank Identifier Codes (BIC), även kallat SWIFTkoder efter förvaltningsorganisationen SWIFT. (Tidigare ISO 11180 Postal addressing, Redrawn) CEN EN 00331015 Postal Services Address data bases, se TC331 ISO 13616 International Bank Account Number (IBAN) för bankkontonummer IBAN format för Sverigr: SEkk BBBB AAAA AAAA AAAA AAAA där B står för bankkontor/clearingnr och A för kontonummer. HR-XML Har metadatastrukturer för: Personer Postadresser Elektroniska adresser m.m. 15

Svenska de facto-standarder? Personnummer Lagras som YYYYMMDDXXXX. (12 siffror.) Organisationsnummer Lagras som XXXXXXVVVVVV. (12 siffror.) Postnummer Lagras som XXXXX (5 siffror) Adress Bostadsadress contra Utdelningsadress Postadress Adressat, utdelningsadress, c/o adress, förortsnamn, postnummer, ortnamn, landnamn Fysiska namn Ofta i formen Efternamn, Förnamn Tilltalsnamn markeras ibland med versaler Dubbla efternamn delas ibland upp i efternamn och mellannamn Juridiska namn SerieID (punktnotation) SerieID byggs upp av siffror och skiljetecken såsom.,/_- Tips: Filnamn, katalognamn, ID... Vid långtidslagring: Använd inte åäöåäö Ersätt mellanslag med underline, Ex. a_a.txt Ersätt punkt med p eller underline, Ex version1_1.txt Undvik gärna specialtecken som exempelvis?\/*+% $%&# ~,.:; Notera: Vissa äldre operativsystem (MS DOS) kan inte skilja mellan små och stora tecken Många operativsystem och medialagringsstrukturer sätter begränsningar för namnlängder 16

Vad ska man dokumentera? Dokumentera exempelvis: Begränsningar för fält, strukturer Tillåtna intervaller Tillåtna värden Multiplicitet Ev. syntax/grammatik Datatyp ID Relationer Dokumentera kodförklaringar Dokumentera förkortningar Kommentarer Användningsperiod PDF/A-1 17

PDF/A-1 (ISO 19005-1) Baseras på PDF Reference 1.4 Måste ingå: Inbäddade typsnitt. Applikationsoberoende färgschema. (Finns flera olika.) Viss XMP metadata. Får inte ingå: Kryptering. Komprimering. Inbäddade filer. Referenser till externa filer. Multimedia. Script och kodanrop. Operationer i formulärfält PDF/A-1 Metadata XMP (Adobe Extensible Metadata Platform) XML för att dokumentera visst metadata. Stödjer Dublin Core. Obligatoriska element: Filidentifierare (Ex. ISBN, UUID, nationella ID.) Filens ändringshistorik. (Ex. När konvertering skedde, när filen skapades.) Andra XML-metdatastruktur kan bäddas in i filen för att göra ett dokument självbeskrivande. 18

PDF/A-1 Användningsområden Vektoriserad grafik. (Ex. CAD) Rastrerad grafik. (Ex. vid scanning) Tar i många fall mindre minnesutrymme än TIFF. Texter med inbäddade typsnitt. Statiska kontorsdokument. (Ordbehandling, kalkyl, presentation ) Inbäddade digitala signaturer tillåts (om typsnitt och applikationsoberoende färger används). PDF/A-1 Conformance levels PDF/A-1b, Minimally conforming Garanterar ursprungligt utseende. PDF/A-1a, Fully conforming Ytterligare dokumentation av textstruktur för underlätta återsökning och återanvändning. Mappning av använda typsnitt till Unicode. Bevarar ursprunglig textstruktur såsom styckesindelning, förklaringar av förkortningar och språkmarkeringar. 19

Leverantörsexempel 1 Leverantörsexempel 2 Acrobat Standard/Professional 8.0 kan lagra i PDF/A-1 PDF Tools AG. Konvertering från olika filformat till PDF/A-1 m.m., se http://www.pdf-tools.com/ Compart Systemhaus GmbH Exempelvis konvertering från PDF till PDF/A-1 se http://www.compart.net/ Apago, se www.apagoinc.com Visioneer, se www.visioneer.com Callas, se www.callassoftware.com 20

PDF/A-2 (under utveckling) Baseras på PDF 1.6. Kommer ev. att ingå: Ytterligare stöd för digitala signaturer. 3D grafik. Multimediastöd. OpenType typsnitt. Sammanfattning Migreringshuset Metadata Datastrukturer PDF/A-1 21

Frågor? Länkexempel LoC s Digital preservation program: http://www.digitalpreservation.gov/ LoC s Standarder EAD, PREMIS...: www.loc.gov/standards/ Victorian Electronic Records Strategy (VERS): http://www.prov.vic.gov.au/vers/standard/version2.htm State Records of South Australia: http://www.archives.sa.gov.au/management/index.html National Archives of Australia: http://www.naa.gov.au/recordkeeping/preservation/digital/summary.html UK GovTalk: http://www.govtalk.gov.uk/ 22