XML 1 (7) XML Bilaga 3
XML 2 (7) Innehållsförteckning 1. BAKGRUND... 3 2. OM METADATA... 3 3. INFORMATIONSPAKET... 3 3.1 PAPPER LÄGGS I ARKIVBOXAR... 4 3.2 INFORMATIONSPAKET I XML FÖR ELEKTRONISKA HANDLINGAR... 4 3.3 INNEHÅLLET I E-ARKIVBOXEN... 4 3.4 BEVARA INFORMATIONEN... 5 3.5 HANTERA INFORMATIONSPAKET I SYSTEM FÖR BEVARANDE... 5 4. XML - GRUNDLÄGGANDE BEGREPP... 5 4.1 XML-DEKLARATION OCH TECKENKODNING... 5 4.2 ELEMENT... 5 4.3 ATTRIBUT... 6 4.4 KOMMENTARER... 6 4.5 VÄLUTFORMAD... 6 4.6 SCHEMA... 6 4.7 VALIDERAD... 7 4.8 XML NAMESPACES... 7
3 (7) 1. Bakgrund et Elektroniskt bevarande, etapp 2 har haft en arbetsgrupp som s tittat påå metadata. Samordnare för gruppen har varit Samuel Lindeborg, Falkenbergs kommun. Delprojektets övriga medlemmar var Elin Jonsson, Växjö, Henrik Erngren,, Malmö, Caspar Almalander, Eskilstuna, Christian Jarnekrantz, Helsingborg, Eva Sjöblom, Rättvik, Gith Matsson, Rättvikk och Håkan Frimodig, Luleå. Ett 10-tal personer, bland annatt från arbetsgruppen, deltog i en XML-kurs inomm ramen för projektet. Karin Bredenberg på Riksarkivet höll i kursen. Elinn Jonsson, Växjö har skrivit en sammanfattning för övriga i projektet. Texten har tidigare publicerats i projektets nyhetsbrev och som nyhet på Sambruks webbplats. Som bilaga till slutrapport för projektet Elektroniskt bevarande Etapp 2, har denn kompletterats bland annat med ett inledande stycke om metadata. 2. Om metadata Metadataa är data som beskriver data, eller information om information. Metadata har olika uppgifter att fylla. Metadataa som tillhör ett vanligt ordbehandlingsdokument är bland annat a författare, titel, kategori, språk och antal sidor. Tack vare metadata kan man på ett enkelt och snabbt sätt sökaa efter visa uppgifter och extra information, till exempel alla dokument från en viss författare. Man kan i exemplet jämföra med en fulltextsökning, som kan ta längre tid, men framförallt ge resultat där d författaren förekommer i andra egenskaper än de som omfattass av den särskilda metadata som rörr författare. Metadataa följer dels med i de objekt som levereras till ett system för bevarande, dels skapas metadata i samband med leverans och fortlöpande administrering av det som levererats. l I det här dokumentet finns ett exempel på hur elektroniska leveranser kan hållas samman medd hjälp av metadata i ettt informationspaket. 3. Informationspaket Ett system för bevarande hanterar olika typer av informationspaket. Informationspaketen håller samman och förklarar samband mellan filer som ska arkiveras. Bilden nedan förklarar kortfattat de olika informationspaketens funktion. Om du inte är bekant med XML sedan tidigare, finns en kortfattad förklaring längre fram i texten. Bilden ovan beskriver funktionerna i ett arkiv. De olika informationspaketen som hanteras beskrivs i pratbubblor. Bilden är ritadd efter OAIS-modellen CCSDS, Model for an Open Archival Information System (OAIS), 2002 http:// /public.ccsds.org/publications/archive/650x0b1.pdf
4 (7) 3.1 Papper läggs i arkivboxar När vi arkiverar handling på papper, sorteras de i en logisk ordning, vanligtvis kronologisk. Sedan läggs de ner i en arkivbox av syrafritt papper och förses med en innehållsförteckning. Boxen märks med en etikett som identifierar innehållet och som s gör att vi kan hitta den via arkivförteckningssystemet. 3.2 Informationspaket i XML för f elektroniska handlingar I ett system för bevarande av elektroniska handlingar hålls de filer som hör till samma objekt som ska arkiveras ihop i informationspaket. Ett sätt att skapa informationspaket är att använda metadatascheman i XML. En standard som s används för detta är METS som förvaltas av Library of Congress. METS är en förkortning somm står för Metadata Encoding and Transmission Standard. E-arkivsamverkansgruppens metadatagrupp ENSAM,, med deltagare från Riksarkivet, Kungliga biblioteket, Stockholms stad, REDA med flera, har tagit fram en särskild METS- i det profil som kallas SWEIP. Förkortningen står för Swedish Informationn Package och är ett förslag till leveranspaket. Inom Sambruks projekt Elektroniskt bevarande är tanken att titta på profilen med utgångspunkt från kommunernas förutsättningar, och möjligheten att a använda denna som e-arkivbox framtidaa systemet för bevarande. 3.3 Innehållet i e-arkivboxen Att just METS är användbar i detta sammanhang är att schemat är skapat för att kunna bädda in eller hänvisa till metadataa av olika slag. Med metadata menas data om data, d det vill säga förklaringar till hur data ska tolkas. I e-arkivboxen kommer att finnas beskrivande metadata enligtt standarder för arkivredovisning i sektionen <dmdsec>. Det vill säga arkivförteckningen. Dessaa data behövs för att kunna söka efter handlingar och förklara sambandet med verksamheten som skapade e dem. I sektionen för administrativ metadata <amdsec> finns bland annat metadata somm behövs förr att hanteraa bevarandeåtgärder, rättigheter och för formatspecifik teknisk metadata. Filernaa som är de som är föremål för bevarande samlas i fil-sektionen <filesec>. Det kan vara uppgifter från databaser i form av strukturerade dokument, enskilda kontorsdokument eller bilder, webbplatser med mera. Hur de olika filerna hör samman och ska struktureras definieras i <structmap>.
5 (7) Bild från Mets Primer <METS> Metadata Enchoding andd Transmission Standard: Primer and Reference Manual (2010) Du kan hämta dokumentet här: http://www.loc.gov/standards/mets/metsprimerrevised.pdf 3.4 Bevara informationen Fokus är att bevara själva informationen, och inte verksamhetssystemen med olika databaser, register, applikationer och gränssnitt. Den information om det ursprungliga systemet s somm behövs för att förstå de elektroniska handlingarna lagrass också som metadata i informationspaketen eller som länkar till särskild dokumentation. 3.5 Hantera informationspaket i system för bevarande Ett system för bevarande hanterar tre olika informationspaket: 1. Leveranspaket med det innehåll ochh den dokumentation somm producenten (verksamheten) och arkivet har kommit överens om ska överlämnas. 2. Arkivinformationspaket med innehåll från ett eller flera leveranspaket tillsammans med kompletterande bevarandeinformation. 3. Paket för attt lämna ut information, som består av innehåll och o dokumentation som särskilt syftar till att kunna tillgängliggöra handlingarna på ettt läsbart sätt. För att kunna öppna e-arkivboxarna och läsa handlingarna eller genomföra olika bevarandeåtgärder behövs självfallet någon slags applikation. Elektroniska handlingar är ä som bekant inte direkt läsbara för människan. Men tanken är att handlingarna ska vara läsbara med standardappls likationer (som till exempel webbläsare) och inte vara beroende av de ursprungliga verksamhetssystemen och tekniska miljöerna. 4. XML - grundläggande begrepp XML, eller extensiblee Markup Language, är ett märkspråk som används för att strukturera och klassificera information. XML används bland annat för att utbyta information mellan olika system. En fördel i arkivsammanhang är att texten tillsammanss med taggarna i filerna är självförklarande och förhållandevis lätt att läsa för en människa. De flesta webbläsaree kan användas för att titta på ett XML-dokume nt. Det går också att använda en vanlig texteditor. Det finns olika XML-editorer som gör att det går att kontrollera om dokumenten är korrekta. För att presentera informationen snyggt kan formatmallar som till exempel CSS (Cascading Style Sheets) användas. Här förklarar vi några av de grundläggande begreppen! 4.1 XML-deklaration och teckenkodning I den allra första raden i ett XML-dokument står det för det första att a det är ett t XML-dokument, därefter vilken version som dokumentet är skrivet i och vilken teckenkodning/teckenuppsättning som används. För att datorn ska kunna visa ett dokument korrekt, behöver den veta vilken v teckenuppsättning som ska användas. Annars kan det bli till exempel fel tecken eller underliga symboler påå skärmen. En XML-deklaration kan se ut så här: UTF-8 står för Unicode Transformations Format åtta-bitars. En delmängd av denn här teckenuppsättningen är ISO-standarden ISO-8859-1 Latin-1/West European character set som vi också kan använda. 4.2 Element Ett XML-dokumeni strukturen kan innehålla andra element och/eller text. Tecknen < > används för att markera vilken text som är elementets namn. Till exempel elementet kommun som beskrivs nedan. Ett snedstreck / i är en textfil med olika element (taggar) som bygger upp strukturen. De olika elementen elementnamnet markerar att elementet är slut. Ett element kan se ut så här:
6 (7) 4.5 Välutformad Ett XML-dokument som följer de grundläggande reglerna säger mann är välutformat (well-formed). 4.6 Schema För att lättare får en enhetlig struktur på dokumenten och för att kontrollera att de är korrekta används olika typer av scheman med regler och begränsningar. Antingen i själva XML- dokumentet eller i ett externt schema (XSD) eller dokumenttypsdefinition (DTD). För scheman som är (eller skulle kunna vara) gemensamma i ett internationellt sammanhang används vanligtvis engelska somm språk för elementen. Det finns en mängd scheman som är standardiserade. Ett exempel är strukturen för METS som används för att paketera olika digitala objekt. Det går också att dokumentera tillägg och förändringar i ett XML-schema som man använder. Elementet i schemat kallas <xs: annotation> >. De här elementen riktar sig till den som skriver eller granska själva schemat. Schemat för en lista med kommuner skulle kunna se ut så här: Det första elementett i dokumentet kallas rotelement och talar om vad v det är dokumentet beskriver. Rotelementets sluttagg måste finnas på sista raden. En lista som radar upp flera kommuner kan se ut så här: 4.3 Attribut Elementen kan också ha attributt som innehåller information som ärr viktig för att bearbeta data. Attributet har ett namn och värdet anges inom i citationstecken ". Ett attribut kan se ut så här: 4.4 Kommentarerr Meddelanden till andra som läser ett XMLdokument skrivs som kommentarer. Att det är en kommentar markeras av tecknett!--. En kommentar kan se ut ungefär så här:
7 (7) Schemat betyder attt kommunlistan kan innehålla hur många kommuner som helst och att elementet kommun innehåller text. Det talar också om att attributet kommunkod är obligatoriskt. Scheman kan förstås vara mycket mer komplicerade och tala om hur siffror ska skrivas, i vilken ordning som s element får förekomma, om man bara får välja begreppp från en fast lista och mycket m mer. För schemaspråket XML schema finns en specifikation som talar om hur olika regler ska uttryckas. 4.7 Validerad Om dokumentet stämmer överens med reglerna i ett schema sägerr man att dett är validerat. Om man använder en XML-editor så kontrollerar programvaran om dokumentet stämmer överens med det schema som man anger. 4.8 XML Namespaces Det finns också namngivningssystem med regler och begränsningarr som specificerar namn, termer och ord. W3C (World Wide Web Consortium) rekommenderar XML namespaces, vilka får ett unikt namn eller URI (uniform resource identifier) som går att hänvisa till i XMLdokumentet. Dett är för att kunna veta vad ett namnn betyder i ett visst sammanhang. Betyder "table" tabell eller bord till exempel. Namnet på den namnrymd som används ska anges i XML-deklarationen. Elementenn som hör till systemet kan ha ett prefix som anger var de hör hemma. Så här kan det se ut med element som är hämtade från METS: I det här sammanhanget är Eskilstuna kommun en av deltagarna (METS agent) ) som är inblandad i att skapa ett informationspaket i METS. Det är en organisation som har rollen arkivarie. mets: före elementets namn talar om vilken namnrymd som namnet hör hemma i.