Kompetensutveckling har erbjudits deltagare inom projektet Elektroniskt bevarande i form av en kurs i XML. Kursen har genomförts av Riksarkivet och haft en praktisk inriktning. Ett 10-tal personer deltog i en XML-kurs inom ramen för projektet Elektroniskt bevarande. Projektet deltar i det gemensamma arbetet med att utreda lämpliga sätt att konstruera och beskriva informationspaket i ett e-arkiv. Karin Bredenberg på Riksarkivet höll i kursen. Elin Jonsson, Växjö har skapat nedanstående lättförståeliga sammanfattning för övriga i projektet. Digitala paket? Enkelt! Digitala paket, vad menas egentligen med detta? Och hur är det med metadata? Läs allt i en förklarande uppsats från Elin Jonsson (Växjö). Om du inte är bekant med XML sedan tidigare, finns en kortfattad förklaring längre fram i texten. Bilden ovan beskriver funktionerna i ett arkiv. De olika informationspaketen som hanteras beskrivs i pratbubblor. Bilden är ritad efter OAIS-modellen CCSDS, Model for an Open Archival Information System (OAIS), 2002 http://public.ccsds.org/publications/archive/650x0b1.pdf Papper läggs i arkivboxar När vi arkiverar handling på papper, sorteras de i en logisk ordning, vanligtvis kronologisk. Sedan läggs de ner i en arkivbox av syrafritt papper och förses med en innehållsförteckning. Boxen märks med en etikett som identifierar innehållet och som gör att vi kan hitta den via arkivförteckningssystemet. Informationspaket i XML för elektroniska handlingar I ett system för bevarande av elektroniska handlingar hålls de filer som hör till samma objekt som ska arkiveras ihop i informationspaket. Ett sätt att skapa informationspaket är att använda metadatascheman i XML. En standard som används för detta är METS som förvaltas av Library of Congress. METS är en förkortning som står för Metadata Encoding and Transmission Standard. E-arkivsamverkansgruppens metadatagrupp ENSAM, med deltagare från Riksarkivet, Kungliga biblioteket, Stockholms stad, REDA med flera, har tagit fram en särskild METS-profil som kallas SWEIP. Förkortningen står för Swedish Information Package och är ett förslag till leveranspaket. Inom Sambruks projekt Elektroniskt bevarande är tanken att titta på profilen med utgångspunkt från kommunernas förutsättningar, och möjligheten att använda denna som e-arkivbox i det framtida systemet för bevarande. Innehållet i e-arkivboxen Att just METS är användbar i detta sammanhang är att schemat är skapat för att kunna bädda in eller hänvisa till metadata av olika slag. Med metadata menas data om data, det vill säga förklaringar till hur data ska tolkas. I e-arkivboxen kommer att finnas beskrivande metadata enligt
standarder för arkivredovisning i sektionen <dmdsec>. Det vill säga arkivförteckningen. Dessa data behövs för att kunna söka efter handlingar och förklara sambandet med verksamheten som skapade dem. I sektionen för administrativ metadata <admsec> finns bland annat metadata som behövs för att hantera bevarandeåtgärder, rättigheter och för formatspecifik teknisk metadata. Filerna som är de som är föremål för bevarande samlas i fil-sektionen <filesec>. Det kan vara uppgifter från databaser i form av strukturerade dokument, enskilda kontorsdokument eller bilder, webbplatser med mera. Hur de olika filerna hör samman och ska struktureras definieras i <structmap>. Bild från Mets Primer <METS> Metadata Enchoding and Transmission Standard: Primer and Reference Manual (2010) Du kan hämta dokumentet här: http://www.loc.gov/standards/mets/metsprimerrevised.pdf Bevara informationen Fokus är att bevara själva informationen, och inte verksamhetssystemen med olika databaser, register, applikationer och gränssnitt. Den information om det ursprungliga systemet som behövs för att förstå de elektroniska handlingarna lagras också som metadata i informationspaketen eller som länkar till särskild dokumentation. Hantera informationspaket i system för bevarande
Ett system för bevarande hanterar tre olika informationspaket: 1. Leveranspaket med det innehåll och den dokumentation som producenten (verksamheten) och arkivet har kommit överens om ska överlämnas. 2. Arkivinformationspaket med innehåll från ett eller flera leveranspaket tillsammans med kompletterande bevarandeinformation. 3. Paket för att lämna ut information, som består av innehåll och dokumentation som särskilt syftar till att kunna tillgängliggöra handlingarna på ett läsbart sätt. För att kunna öppna e-arkivboxarna och läsa handlingarna eller genomföra olika bevarandeåtgärder behövs självfallet någon slags applikation. Elektroniska handlingar är som bekant inte direkt läsbara för människan. Men tanken är att handlingarna ska vara läsbara med standardapplikationer (som till exempel webbläsare) och inte vara beroende av de ursprungliga verksamhetssystemen och tekniska miljöerna. XML - grundläggande begrepp XML, eller extensible Markup Language, är ett märkspråk som används för att strukturera och klassificera information. XML används bland annat för att utbyta information mellan olika system. En fördel i arkivsammanhang är att texten tillsammans med taggarna i filerna är självförklarande och förhållandevis lätt att läsa för en människa. De flesta webbläsare kan användas för att titta på ett XML-dokument. Det går också att använda en vanlig texteditor. Det finns olika XML-editorer som gör att det går att kontrollera om dokumenten är korrekta. För att presentera informationen snyggt kan formatmallar som till exempel CSS (Cascading Style Sheets) användas. Här förklarar vi några av de grundläggande begreppen! XML-deklaration och teckenkodning I den allra första raden i ett XML-dokument står det för det första att det är ett XML-dokument, därefter vilken version som dokumentet är skrivet i och vilken teckenkodning/teckenuppsättning som används. För att datorn ska kunna visa ett dokument korrekt, behöver den veta vilken teckenuppsättning som ska användas. Annars kan det bli till exempel fel tecken eller underliga symboler på skärmen. En XML-deklaration kan se ut så här: UTF-8 står för Unicode Transformations Format åtta-bitars. En delmängd av den här teckenuppsättningen är ISO-standarden ISO-8859-1 Latin-1/West European character set som vi också kan använda. Element Ett XML-dokument är en textfil med olika element (taggar) som bygger upp strukturen. De olika elementen i strukturen kan innehålla andra element och/eller text. Tecknen < > används för att markera vilken text som är elementets namn. Till exempel elementet kommun som beskrivs nedan. Ett snedstreck / i elementnamnet markerar att elementet är slut. Ett element kan se ut så här: Det första elementet i dokumentet kallas rotelement och talar om vad det är dokumentet beskriver. Rotelementets sluttagg måste finnas på sista raden. En lista som radar upp flera kommuner kan se ut så här:
Attribut Elementen kan också ha attribut som innehåller information som är viktig för att bearbeta data. Attributet har ett namn och värdet anges inom citationstecken ". Ett attribut kan se ut så här: Kommentarer Meddelanden till andra som läser ett XMLdokument skrivs som kommentarer. Att det är en kommentar markeras av tecknet!--. En kommentar kan se ut ungefär så här: Välutformad Ett XML-dokument som följer de grundläggande reglerna säger man är välutformat (well-formed). Schema För att lättare får en enhetlig struktur på dokumenten och för att kontrollera att de är korrekta används olika typer av scheman med regler och begränsningar. Antingen i själva XML- dokumentet eller i ett externt schema (XSD) eller dokumenttypsdefinition (DTD). För scheman som är (eller skulle kunna vara) gemensamma i ett internationellt sammanhang används vanligtvis engelska som språk för elementen. Det finns en mängd scheman som är standardiserade. Ett exempel är strukturen för METS som används för att paketera olika digitala objekt. Det går också att dokumentera tillägg och förändringar i ett XML-schema som man använder. Elementet i schemat kallas <xs:annotation>. De här elementen riktar sig till den som skriver eller granska själva schemat. Schemat för en lista med kommuner skulle kunna se ut så här:
Schemat betyder att kommunlistan kan innehålla hur många kommuner som helst och att elementet kommun innehåller text. Det talar också om att attributet kommunkod är obligatoriskt. Scheman kan förstås vara mycket mer komplicerade och tala om hur siffror ska skrivas, i vilken ordning som element får förekomma, om man bara får välja begrepp från en fast lista och mycket mer. För schemaspråket XML schema finns en specifikation som talar om hur olika regler ska uttryckas. Validerad Om dokumentet stämmer överens med reglerna i ett schema säger man att det är validerat. Om man använder en XML-editor så kontrollerar programvaran om dokumentet stämmer överens med det schema som man anger. XML Namespaces Det finns också namngivningssystem med regler och begränsningar som specificerar namn, termer och ord. W3C (World Wide Web Consortium) rekommenderar XML namespaces, vilka får ett unikt namn eller URI (uniform resource identifier) som går att hänvisa till i XMLdokumentet. Det är för att kunna veta vad ett namn betyder i ett visst sammanhang. Betyder "table" tabell eller bord till exempel. Namnet på den namnrymd som används ska anges i XML-deklarationen. Elementen som hör till systemet kan ha ett prefix som anger var de hör hemma. Så här kan det se ut med element som är hämtade från METS: I det här sammanhanget är Eskilstuna kommun en av deltagarna (METS agent) som är inblandad i att skapa ett informationspaket i METS. Det är en organisation som har rollen arkivarie. mets: före elementets namn talar om vilken namnrymd som namnet hör hemma i. Lycka till! //Elin Jonsson, Växjö