Nordisk Arkivakademi Boden 10-11 november 2009
Attributes of a Trusted Digital Repository (OCLC 2002) Compliance with the Reference Model for an Open Archival Information System (OAIS) Administrative responsibility Organizational viability Financial sustainability Technological and procedural suitability System security Procedural accountability
OAIS modellen
OAIS Information Packages Submission Information Package (SIP): An information package that is delivered by the producer to the OAIS for use in the construction of one or more AIPs Archival Information Package (AIP): An information package consisting of the content information and the associated preservation description information (PDI), which is preserved within an OAIS Dissemination Information Package (DIP): The information package, derived from one or more AIPs, received by the customer in response to a request to the OAIS
Standarder OAIS - Reference Model for an Open Archival Information System (CCSDS/ISO) (2002) METS (Metadata Encoding & Transmission Standard) - Structure for encoding descriptive, administrative, and structural metadata (DLF/LOC) (2004) PREMIS (Preservation Metadata) - A data dictionary and supporting XML schemas for core preservation metadata needed to support the long-term preservation of digital materials (OCLC/LOC) (2005) MIX (NISO Metadata for Images in XML) - XML schema for encoding technical data elements required to manage digital image collections (ANSI/NISO) (2006) TAR (Tape Archive) Filformat för paketering av filer för effektiv lagring på tape och disk. Egna format ADDML(Archival Data Description Markup Language) Norska riksarkivets, och nu även Svenska riksarkivets, XMLformat för beskrivning av levererade filer, i synnerhet flata filer med postbeskrivningar (2001, 2008) RES - Riksarkivets eget filformat för metadata om TIFF-filer. (2003) Skall konverteras till MIX. Under utredning WARC (Web ARChive, ISO 28500) Format för paketering och arkivering av webbsidor (2008) AMD, VMD och AES X098-B Föreslagna scheman för teknisk metadata om audiofiler och videofiler.
OAIS Archival Information Package (AIP) ADDML är ett XML-schema som bland annat kan användas för att registrera postbeskrivningar vilka utgör representation information för flatfiler exporterade från databaser METS är en standard som utarbetats för att beskriva och överföra digitala objekt. METS innehåller bland annat det som i OAIS kallas Packaging Information PREMIS är en standard som utarbetats för att mer i detalj beskriva den information som i OAIS-modellen kallas Preservation Description Information (PDI)
Archives Data Description Markup Language (ADDML) Beskriver levererade filer (i synnerhet flata filer) Aktuell version januari 2009: ADDML 8.2 Teknisk, strukturell och allmänt beskrivande metadata Postbeskrivningar för flata filer Utvecklat av norska Riksarkivet Arkadukt(registrering) & Arkade(testning & konvertering)
OAIS Ingest functions
Kontrollramverk för born-digital information Kontroll rapport nej Skriv Excel fil Konvertera Excel till ADDML Behövs konvertering? ja Konvertera flatfiler och ADDML fil Leveranskontroll Paketering Utämnande förberedelser Ursprunglig ADDML ADDML fil enl std format Ursprungliga flatfiler Normaliserade flatfiler Digitala arkivet Utlämnande databas
Digitalt långtidsbevarande vid Riksarkivet 2009-11-10 Born-digital (IT-avd/Elark) Mindre än 2 TB Över 100000 filer Audio- och videofiler (S-avd/TBM) Över 25 TB (Tillväxt just nu ungefär 1 TB per vecka) Mindre än 10000 filer Multimedia (S-avd/TBM) Mindre än 1 TB Över 100000 filer Skannade bilder (MKC och SVAR) Färdigskannade volymer: 203000 (En skannad volym motsvarar en AIP med TIFF-filer) Bilder totalt: 80.6 miljoner (Varje bild finns i två format. Arkivformat: TIFF. Visningsformat: DjVu) Bilder publicerade på internet: 26.8 miljoner TIFF-filer, total mängd: ca 1300 TB (MKC ca 650 TB, SVAR ca 650 TB) DJVU-filer, total mängd: ca 13 TB
LDB Projektet: Försäkringskassans Submission Information Package
AIP vid Riksarkivet 2009-11-10 METS-fil Innehållande filidentiteter och struktur samt inbäddad PREMIS- och ADDML-metadata <PREMIS> Teknisk metadata, metadata om konverteringar samt inbäddad MIX-metadata för TIFF-filer <ADDML> Metadata om filer levererade från myndigheter samt postbeskrivningar för flatfiler TAR-fil <Datafil> Flatfil, XML-fil eller PDF-fil från myndigheter eller TIFF-fil från egen skanning <Datafil> <Datafil> <Datafil> <Datafil> <Datafil> <Dokumentationsfil> PDF-fil från myndigheten innehållande dokumentation av leveransen <Dokumentationsfil> PDF-fil upprättad av Riksarkivet innehållande information om leveransen
Kontrollramverket (KRAM) skapar en PREMIS-fil som dokumenterar konvertering och kontroller. PREMIS-filen innehåller datafilernas checksummor I PREMIS-filen kan också tjänsteanteckningar i XHTML-format inbäddas För TIFF-filer inbäddas metadata i MIX-format En EXCEL-fil används för att registrera postbeskrivning och annan metadata Skapas av levererande myndighet eller av Statens arkiv Excel-filen konverteras till en ADDML-fil i kontrollramverket AIP vid Riksarkivet 2009-11-10 Efter att kontrollramverket avslutats så uppdateras Arkis2 med information som extraheras ur ADDML-filen och PREMIS-filen. METS-fil PREMIS-metadata (med inbäddad XHTML) TAR-fil Flatfil Flatfil PDF ADDML-metdata PDF-fil med dokumentation skapad av RA Statens Arkivs arkivinformationssystem (Arkis2) innehåller metadata om paket och filer Metadata följer PREMISstandarden. Statens arkivs lagringssystem för digitalt bevarande (ESSArch) Lagringssystemet läser och skriver AIP:er till lagringsmedia (LTO-band och disk). ESSArch uppdaterar Arkis2 med metadata enligt PREMIS. METS-filen lagras även som en BLOB i Arkis2. Datafiler i form av flatfiler exporterade från databaser och eventuellt levererad dokumentation i textformat, XMLformat eller PDF/Aformat PDF-filer med dokumentation skapad av RA kan också paketeras tillsammans med datafiler och metadatafiler när AIP:n skapas AIP:n i form av ett TAR-paket med åtföljande METS-fil långtidslagras i Statens arkivs lagringssystem ESSArch METS-filen skapas av ESSArch-systemet i samband med TAR-paketeringen. Då inbäddas också metadata i PREMIS-format och ADDML-format i METS-filen. METS-filen innehåller TAR-paketets checksumma.
The PREMIS data model
PREMIS implementation
Storage Architecture
ESSArch Archival Storage system utvecklat av ESSolutions (www.essolutions.se) för Riksarkivet. ESSArch är ett back-end system för att hantera archival storage enligt OAIS-modellen. Det finns inget publikt gränssnitt. Systemet är avsett att integreras med ett arkivinformationssystem (Arkis2) eller ett bibliotekssystem. Paketerar, lagrar och återläser AIP:er för långtidsbevarande. Paketerar filer i TAR-format. Genererar metadata om AIP:er enligt METS. METS-filen kan innehålla inbäddad metadata enligt PREMIS, ADDML, MIX och XHTML. En AIP består av en TAR-fil med åtföljande METS-fil. Lagrar AIP:er i en eller flera bitwise-identiska kopior på valfritt lagringsmedia. I dag används LTO-band och disk. Automatisk regelstyrd mediamigrering. I nuvarande version för Riksarkivet sker ingen automatisk formatmigrering. Genererar, kontrollerar och lagrar checksummor. Checksummor sätts både på filnivå och paketnivå. Loggar alla AIP-händelser enligt PREMIS-standarden. Loggar även hantering av lagringsmedia. Lagrar bevarandemetadata i en lokal MySQL-databas modellerad enligt PREMIS 2.0. Den lokala databasen innehåller information om AIP:er, lagringsmedia (band och diskar) samt händelseloggar. Uppdaterar Arkis2 via SQL-anrop. Information om AIP:er, lagringsmedia och händelser skrivs löpande till Arkis2. Fysisk hantering av media (LTO-band, lösa hårddiskar etc) hanteras via ett PC-program (RABAR) som uppdateras via en streckkodsläsare. PC-applikationen kommunicerar med ESSArch via ett webbservice-interface. Leverans, mottagande, placering och uttag av lagringsmedia administreras via streckkodsapplikationen. Regler för lagring på lagringsmedia kan sättas via profiler. En profil kan reglera fyllnadsgrad på band, buffringsgrad på arbetsdisk mm. Baserat på Open Source, Linux, Apache, MySQL och Python.
Paketformat Riksarkivet: METS, PREMIS, ADDML, MIX för AIP CASPAR: XFDU och SAFE för AIP PLANETS: PP2 för AIP PROTAGE: Estniskt schema för SIP