NorDig 2014 2014-06-03 ADDML vid Riksarkivet i Sverige Mats Berggren / Riksarkivet 1 ADDML vid Riksarkivet i Sverige Förvaltningsgemensamma specifikationer (FGS) Bevarande av databaser Erfarenheter av ADDML 2 1
ADDML vid Riksarkivet i Sverige Förvaltningsgemensamma specifikationer (FGS) Bevarande av databaser Erfarenheter av ADDML 3 Samband FGS:er Paketstruktur Arkivredovisning Ärendehantering Personal Databaser Filsamlingar annan Leveranstyp Striktad användning av denna leveranstyp 4 www.riksarkivet.se/e-arkiv 2
Publicerade FGS:er paktetstruktur för e-arkiv För att beskriva ett digitalt paket Baserats på OAIS-modellen Baserat på standarden METS leveranstypen Ärendehantering För leverans av ett ärendehanteringssystem Baserat på arbetet genomfört i DP5 Inspiration från MoReq2010 Nytt XML-schema baserat på befintliga svenska tillämpningar leveranstypen Personal För leverans av uppgifter om personal tex lön och pension Nytt XML-schema baserat på befintliga svenska tillämpningar 5 Kommande FGS:er (finns i utkast) leveranstypen Databaser För att beskriva filer exporterade från en relationsdatabas Metadata i ADDML-format leveranstypen Filsamlingar För leverans av filer som inte täcks in av annan FGS Exempelvis XML-filer, webbar Metadata i ADDML-format Arkivredovisning Inte en egen leveranstyp, arkivredovisning ska kunna bifogas samtliga SIP:ar Baserat på EAD och EAC-CPF 6 3
Arbetet i eard har baserats på: Har i möjligaste mån använt eller rekommenderat etablerade standarder OAIS - Reference Model for an Open Archival Information System (ISO 14721) (2002-2012) METS (Metadata Encoding & Transmission Standard) - Structure for encoding descriptive, inistrative, and structural metadata (DLF/LOC) (2004) PREMIS (Preservation Metadata) - A data dictionary and supporting XML schemas for core preservation metadata needed to support the long-term preservation of digital materials (OCLC/LOC) (2005) EAD (Encoded Archival Description) XML-format för arkivbeskrivningar (2002) EAC-CPF (Encoded Archival Context) XML-format för att beskriva arkivbildare och upphovsmän (2010) TAR (Tape Archive) Filformat för paketering av filer för effektiv lagring på tape och disk Där standarder har saknats eller inte gått att anpassa har egna format med utgångspunkt i befintliga tillämpningar och standarder tagits fram. För databaser och filsamlingar specificeras ett format som även används av riksarkiven i Norge och Finland: ADDML (Archival Data Description Markup Language) Norska riksarkivets, och nu även Svenska riksarkivets, XML-format för beskrivning av levererade filer, i synnerhet flata filer med postbeskrivningar (2001, 2008) 7 Standarder vid Riksarkivet: Standard som tillämpas vid Riksarkivet utöver de som används eller rekommenderas av eard-projektet MIX (NISO Metadata for Images in XML) - XML schema for encoding technical data elements required to manage digital image collections (ANSI/NISO) (2006) Standarder som är under utredning och kan komma att användas eller tillämpas av Riksarkivet: TRAC Trusted Digital Repository (ISO 16363) (2002-2012) WARC (Web ARChive, ISO 28500) Format för paketering och arkivering av webbsidor (2008) AudioMD, VideoMD, AES X098-B och MPEG7 Föreslagna scheman för teknisk metadata om audiofiler och videofiler. 8 4
ADDML vid Riksarkivet i Sverige Förvaltningsgemensamma specifikationer (FGS) Bevarande av databaser Erfarenheter av ADDML 9 Format för arkivering av databaser Archives Data Description Markup Language (ADDML) Utvecklat av norska Riksarkivet, aktuell version 8.2 (2009) Beskriver levererade filer (skiljer mellan flatfiler och övriga filer) Teknisk, strukturell och allmänt beskrivande metadata. Även generiska element Postbeskrivningar, primärnycklar och främmande nycklar för sekventiella filer CHRONOS Proprietärt format utvecklat av det tyska företaget CSP Software Independent Archiving of Relational Databases (SIARD) Utvecklat av Swiss Federal Archives (SFA) Avsett för arkivering av relationsdatabaser Kan arkivera mer relationsdatabasmetadata än ADDML (exempelvis triggers) Lagrar allt i XML-format, både tabelldata och metadata om databasen Få allmänt beskrivande dataelement. Inga generiska element 10 5
Varför ADDML? ADDML-formatet tillåter användning av generiska element för att utöka formatet med egendefinierade element och värdelistor. Det innebär bland annat möjlighet att definiera dataelement för verksamhetsbaserad arkivredovisning inom ramen för ADDML-formatet. Skulle SIARD-formatet ha valts i stället skulle dessa dataelement ha behövt definieras i ännu ett XML-format. Erfarenheten vid de norska och svenska riksarkiven har visat att det kan vara en fördel att separera metadata i XML-format från data i form av sekventiella filer. Vid export och import av stora datamängder till och från relationsdatabaser kan det finnas fördelar att använda sekventiella filer jämfört med XML-filer. Den generiska naturen hos ADDML-formatet möjliggör att formatet även kan användas för andra typer av filer än filer exporterade ur relationsdatabaser. Därför har även FGS:en för filsamlingar baserats på ADDML-formatet. ADDML-formatet tillämpas i två andra nordiska länder, Norge och Finland, vilket ger möjlighet att hitta mjukvarulösningar som kan användas i flera länder. Goda erfarenheter av ADDML vid Riksarkivet i Sverige 11 ADDML vid Riksarkivet i Sverige Förvaltningsgemensamma specifikationer (FGS) Bevarande av databaser Erfarenheter av ADDML 12 6
Riksarkivets digitala arkiv (RADAR) Riksarkivet Allmänhet Sökning via Riksarkivets söktjänst Myndighet Riksarkivet ARKIS RALF KRAM Data Management KRAM CARMEN Myndighetsverktyg för kontroll och SIP-generering Kontroll Konvertering Ingest Access Dissemination Sökapplikationer för diarier och register Digitala Kedjan ESSArch Riksarkivet Riksarkivet MKC och SVAR Pre-ingest Ingest Archival Storage 13 RADAR - Inlästa AIP:er per typ - 20140528 Databas (476) Ljud & Bild (5) Webb (10) XML (6) 14 7
ADDML - Kontroll - Konvertering Metadata i METS- och ADDML-format läses och genereras av Riksarkivets verktyg KRAM Kontrollerar leveransen mot metadata i METS. Kontrollerar att alla filer finns med i leveransen. Kontrollerar även filformatangivelse, filstorlek mm. Kontrollerar leveransen mot metadata i ADDML. Kontrollerar posttyper, postantal, primärnycklar mm Även konverteringar görs utifrån metadata i ADDML-format: Filer i EBCDICformat kan konverteras till ASCII. Numeriska fält i PACKED DECIMAL format kan konverteras till läsbara numeriska värden. Äldre filformat (exempelvis filer med flera posttyper per fil) kan konverteras till filer strukturerade enligt principerna för relationsdatabaser KRAM utnyttjar inte möjligheterna att definiera processer direkt i ADDML 15 ADDML - Access - Dissemination KRAM läser metadata i ADDML-format och skapar en databas i MSSQL Server. Därefter importeras data från textfilerna som ingår i AIP:en Användaren kan använda MSSQL Server för att genomföra en sökning eller läsa ut data för att göra ett utlämnande En instans av KRAM-applikationen används också för att ladda databaser för sökning via sökapplikationerna för diarier och register (CARMEN) 16 8
ADDML - Metadata för sökning och visning KRAM läser metadata i METS-, ADDML- och PREMIS-format och skriver en del av denna metadata till ARKIS-databasen. Metadata i ARKIS indexeras med SOLR och blir sökbar via Riksarkivets söktjänst (sok.riksarkivet.se) Metadata i METS-, ADDML-format och PREMIS-format sparas också som XMLfiler på en filserver och kan visas via Riksarkivets söktjänst Postbeskrivningar visas som en XSL-transformation av ADDML-filen 17 ADDML - Sverige ADDML-formatet används i FGS:er för de leveranstyper där det är relevant, leveranstypen Databaser och leveranstypen Filsamlingar Formatet används inte för leveranstyperna ärendehantering och personal. För dessa leveranstyper finns nödvändig metadata i de leveranstypsspecifika XMLformaten ADDML används av Riksarkivet i Sverige för arkivering av äldre leveranser som inte följer de framtagna FGS:erna (Projekt 47) Erfarenheterna av ADDML är goda. De generiska elementen har gjort det möjligt att anpassa formatet för Riksarkivets behov Framtiden får utvisa om även SIARD-formatet ska kunna hanteras. FGSstrukturen tillåter i princip även skapandet av en leveranstyp baserad på SIARD Det finns ständigt ett behov av utveckling. 18 9
ADDML - Utveckling I dag inga önskemål om förändringar av själva formatet Riksarkivets verktyg KRAM behöver utvecklas för att göra fler kontroller baserat på ADDML-metadata, exempelvis referentiell integritet Önskvärt med en formell överenskommelse om samarbete som innefattar samtliga tre länder som använder formatet: Finland, Norge och Sverige Viktigt att Riksarkivets FGS:er om databaser och filsamlingar blir officiella Nya behov kan komma inom en snar framtid, exempelvis PSI 19 Tack för visat intresse! mats.berggren@riksarkivet.se 20 10