NorDig 2014 2014-06-03 ESSArch vid i Sverige Mats Berggren / 1 ESSArch vid i Sverige s digitala bevarande - bakgrund RADAR och ESSArch Erfarenheter och planer 2 1
ESSArch vid i Sverige s digitala bevarande - bakgrund RADAR och ESSArch Erfarenheter och planer 3 s digitala bevarande Historik: Mottagande av digitala leveranser sedan 1970-talet Storskalig skanning av digitala bilder sedan 2003 Ett HSM-system installeras 2004 Behov av ny lagringsplattform redan 2007 Ny plattform RADAR baserad på OAIS-modellen RADAR (funktioner för skannade bilder) driftsatt 2009 RADAR (funktioner för Born-Digital ) driftsatt 2013 4 2
Arkivbestånd - digitalt Born-digital: Ca 2,7 TB (0.5 TB inläst i RADAR) Ljud- och videofiler: Över 100 TB (0.3 TB inläst i RADAR) Multimedia: Cirka 1 TB, bevarat i form av ISO-avbildningar av CD skivor Skannade bilder: TIFF-filer: Närmar sig 4 Petabyte lagrat på band. Totalt ca 150 miljoner bilder Varje bild finns i två format; Arkivformat: TIFF och Visningsformat: DjVu 77 miljoner bilder tillgängliga via internet 5 ESSArch vid i Sverige s digitala bevarande - bakgrund RADAR och ESSArch Erfarenheter och planer 6 3
s digitala arkiv (RADAR) Allmänhet Sökning via s söktjänst Myndighet ARKIS RALF KRAM Data Management KRAM CARMEN Myndighetsverktyg för kontroll och SIP-generering Kontroll Konvertering Ingest Access Dissemination Sökapplikationer för diarier och register Digitala Kedjan ESSArch MKC och SVAR Produktion Ingest Archival Storage 7 s digitala arkiv (RADAR) Metadata 8 4
RiksArkivets LeveransFörberedelseverktyg (RALF) Myndighetsverktyg för kontroll och SIP-generering Finns tillgängligt för nedladdning från s webbplats http://riksarkivet.se/hjalpmedel-for-leveranser Bantad version av Kontrollramverket (KRAM) Kräver metadata i form av en EXCEL-fil Kontrollerar leveransen mot metadata. Kontrollerar att alla filer finns med i leveransen. Kontrollerar även filformatangivelse, filstorlek mm. Validerar XML-filer mot sina scheman Genererar checksummor för samtliga filer Genererar en SIP som överensstämmer med eard-projektets specifikation FGS för paketstruktur. Metadata lagras i en METS-fil och en ADDML-fil. 9 KontrollRAMverket (KRAM) används av för att kontrollera en leverans till Kan kontrollera en SIP enligt eard-specifikation. I dag kan sådana SIP:ar skapas av myndigheter som använder RALF. Statistiska centralbyrån genererar själva SIP:ar med egen programvara (enligt en något äldre specifikation). I framtiden är förhoppningen att eard SIP:ar ska genereras av fler leverantörer KRAM kan även ta en EXCEL-fil som metadata (precis som RALF) Kontrollerar leveransen mot metadata. Kontrollerar att alla filer finns med i leveransen. Kontrollerar även filformatangivelse, filstorlek mm. Validerar XML-filer mot levererade scheman Kontrollerar checksummor KRAM - Kontroll Genererar en PREMIS-fil med metadata om genomförda kontroller. Genererar också en arbetslogg i textfilsformat. Dessa filer tas med i den färdiga SIP:en. 10 5
KRAM - Konvertering KRAM kan även användas för att konvertera äldre leveranser som inte följer nuvarande specifikationer (Projekt 47). När detta sker genereras två SIP:ar, en med ursprungliga filer och en med konverterade filer Kräver metadata i form av en EXCEL-fil som beskriver ursprungsfilerna Filer i EBCDIC-format kan konverteras till ASCII Numeriska fält i PACKED DECIMAL format kan konverteras till läsbara numeriska värden Äldre filformat (exempelvis filer med flera posttyper per fil) kan konverteras till filer strukturerade enligt principerna för relationsdatabaser Genererar två SIP:ar enligt eard:s specifikationer. Efter genomförd konvertering kontrolleras SIP:arna och därefter kan arkivering ske Vissa komplexa äldre system (exempelvis System-S) kräver en speciell preprocess innan de kan behandlas av KRAM 11 KRAM - Ingest När en SIP är kontrollerad är den färdig för arkivering. Det sker i tre steg. KRAM uppdaterar s arkivinformationssystem ARKIS med metadata om SIP:en. Den blir därmed sökbar i s söktjänst (sok.riksarkivet.se) Det är bara metadata som blir sökbart. Innehållet i en SIP aldrig nås utanför bevarandenätet Därefter kopieras SIP:en till ingestarean för ESSArch Därefter anropas ESSArch GUI och efter inloggning skapar användaren en ingest request för SIP:en 12 6
Digitala kedjan - Produktion - Ingest Digitala kedjan är ett samlingsnamn för s skanning. Under denna rubrik ryms både skanning från papper och skanning av mikrofilm När skanning har skett genereras en metadatafil i textfilsformat. En textfil per skannad batch. En batch motsvarar normalt en skannad arkivvolym. I dag används TIFF som masterformat för skannade bilder. Produktionssystemet för skanning flyttar den färdiga batchen till en pre-ingest area för arkivering via ESSArch En speciell ESSArch-modul utför en pre-ingest process för batchen och skapar en SIP enligt eard:s specifikation FGS för paketstruktur. Metadata om bilderna hämtas ur textfilen och lagras i METS, PREMIS och MIX-format. Checksummor genereras för samtliga filer i batchen Efter pre-ingest kopieras SIP:en till en ingest-area för ESSArch Produktionssystemet för skanning skickar en ingest-request till ESSArch 13 ESSArch - Archival Storage En SIP levererad från KRAM eller från Digitala kedjan förutsätts följa eard:s specifikation FGS för paketstruktur ESSArch läser SIP:en och kontrollerar checksummor och övrig metadata SIP:en paketeras i TAR-format och den färdiga AIP:en skrivs till lagringsmedia i enlighet med lagringspolicyn för leveranstypen Born-digital AIP:er skrivs till disk och LTO-band i två exemplar. AIP:er med skannade bilder eller ljud och video skrivs enbart till LTO-band i två exemplar ESSArch loggar alla händelser till en databas som följer PREMIS-standarden ESSArch uppdaterar ARKIS med information om AIP:er, media och händelser AIP:er för skannade bilder skapas och bandas av ESSArch-applikationerna vid MKC och SVAR. De fraktas sedan med bil till Stockholm och Härnösand. Borndigital batchar skapas och bandas av ESSArch-applikationen i Stockholm 14 7
KRAM - Access - Dissemination KRAM kan även användas för att underlätta utlämnanden av information ur databaser sparade som textfiler och beskrivna av ADDML. Först måste AIP:en hämtas via ESSArch. Användaren loggar in mot ESSArch GUI och ger en access request ESSArch läser AIP:en från lagringsmedia och gör en checksummekontroll. AIP:en överförs till en disseminationsarea och packas upp Access-händelsen loggas i ESSArch databas och loggas även till ARKIS KRAM läser metadata i ADDML-format och skapar en databas i MSSQL Server. Därefter importeras data från textfilerna som ingår i AIP:en Användaren kan använda MSSQL Server för att genomföra en sökning eller läsa ut data för att göra ett utlämnande En instans av KRAM-applikationen används också för att ladda databaser för sökning via sökapplikationerna för diarier och register (CARMEN) 15 CARMEN Under 2013 byggdes en ny plattform CARMEN för sökapplikationer för mottagna diarier och register. Den nya CARMEN ersatte en tidigare version I leveransavtalen med levererande myndigheter specificeras om sökapplikationer behöver skapas för effektiv återsökning i de levererade diarierna/registren. Behovet varierar beroende på informationens ålder och typ Sökapplikationerna är enbart tillgängiga för behöriga användare inom. Ingen access för externa användare via Internet Databaserna lagras i MSSQL Server och applikationerna är webbapplikationer utvecklade med C#. Dokument lagras i s Object Store plattform Hitachi HCP Informationen förs över manuellt till CARMEN-plattformen från bevarandenätet och laddas i databaserna med en instans av KRAM-applikationen. Ingen direkt access från CARMEN till de skyddade näten Innehåller 30 sökbara SQL-databaser (200 GB). Cirka 100000 PDF-filer (10 GB) 16 8
ESSArch vid i Sverige s digitala bevarande - bakgrund RADAR och ESSArch Erfarenheter och planer 17 ESSArch - Sverige Användningen av ESSArch-plattformen för born-digital leveranser är i dag mer begränsad i Sverige än i Norge. ESSArch används för att hantera arkivering och lagring, men inte för kontroll och konvertering. Till det används KRAM. För närvarande finns inga planer på att byta KRAM mot funktioner i ESSArch ESSArch i Sverige används även för att utföra pre-ingest paketering, arkivering och lagring av TIFF-bilder producerade vid s digitaliseringscentraler. Det är i dag den mest omfattande och mest prestandakrävande hanteringen Erfarenheterna av ESSArch är goda. Systemet är anpassat för. Det har varit till nytta för alla parter att ESSArch också tagits i bruk i Norge. Funktioner utvecklade för i Norge har kommit till nytta i Sverige och vice versa En sammanhållen konfigurerbar plattform. En sammanhållen kodbas Det finns ständigt ett behov av utveckling. 18 9
ESSArch - Utveckling En ny version av ESSArch finns utvecklad och ska testas av Den nya versionen har förbättrat GUI och fler möjligheter till sökning och listning av information om de bevarade AIP:erna och om lagringsmedia Den nya versionen har förbättrade funktioner för mediamigrering. planerar att genomföra en större mediamigrering i samband med ett planerat byte av påsiktsformat för digitala bilder Det planeras även för några ytterligare förändringar under 2014. Den första är byte av checksumme-format från MD5 till SHA256 I samband med bytet av checksumme-format behöver Pre-ingest-processen för digitala kedjan modifieras. Det krävs bättre prestanda och ett effektivare flöde. ESSArch måste klara en ökad takt i arkivering av skannade bilder Behov av anpassning till nya versioner av s FGS:er Nya behov kan komma inom en snar framtid, exempelvis PSI 19 Utvecklingsbehov RADAR Behov av anpassning av KRAM, RALF och ARKIS till nya versioner av s FGS:er. Behov av ökad funktionalitet för kontroller av mottagna leveranser Behov av ytterligare modifiering av KRAM, RALF och ARKIS för att hantera leveranser av ljud och bild Det bör bli möjligt att leverera digitala arkiv via nät 20 10
s digitala arkiv som E-tjänst (RADAR2) Allmänhet Sökning via s webbplats Myndighet ARKIS Verksamhetssystem eller E-Arkiv hos myndighet E-Tjänst KRAM Ingest Data Management KRAM Access Dissemination ESSArch Leverans av SIP som uppfyller specifikationen Archival Storage 21 Tack för visat intresse! mats.berggren@riksarkivet.se 22 11