Bevarande av webbsidor Ett gemensamt projekt mellan LTU och LDB-centrum 2008-2009 Lena Lindbäck LDB-centrum 2009-09-04
1. INLEDNING...- 3-2. BAKGRUND...- 4-2.1 SYFTE OCH MÅL... - 4-2.2 METOD... - 5-2.3 DISPOSITION... - 5-3. RESULTAT...- 6-3.1 SYFTE MED BEVARANDET... - 6-3.1.1 Varför ska LTU:s webbplats bevaras?...- 6-3.1.2 Hur länge ska materialet bevaras?...- 6-3.1.3 Syftet som grund för teknisk lösning...- 6-3.2 KRAVBILD... - 7-3.2.1 Myndighetskrav...- 7-3.2.2 Verksamhetskrav...- 8-3.2.3 Tekniska krav...- 8-3.3 URVAL... - 9-3.3.1 Vad ska bevaras?...- 9-3.3.2 Vad ska inte bevaras?...- 10-3.4 ANVÄNDARE... - 10-3.4.1 Vem ska använda materialet?...- 10-3.4.2 Hur ska materialet användas?...- 10-3.5 FREKVENS OCH TID... - 11-3.5.1 Hur ofta ska insamling göras och när?...- 11-3.5.2 Vilka tidpunkter är lämpligast?...- 12-3.6 TEKNISK LÖSNING... - 12-3.6.1 Polopoly...- 12-3.6.2 Val av metod för insamling...- 13-3.6.3 Val av verktyg...- 14-3.6.4 Val av filformat...- 15-3.6.5 Val av lagringsplattform...- 15-3.6.6 Val av lagringsmedia...- 17-3.6.7 Namngivning och lagring...- 17-3.6.8 Metadata...- 17-3.6.9 Kontroll av nedladdade filer...- 18-3.7 MODELL FÖR BEVARANDE... - 19-3.7.1 Ansvarsområden...- 19-3.7.2 Handlingsplan...- 20-3.8 HUR SÄKERSTÄLLS BEVARANDE PÅ LÅNG SIKT?... - 20-4. LÄRDOMAR AV PROJEKTET...- 23-5. SLUTSATS...- 24 - KÄLLFÖRTECKNING...- 25 - BILAGA 1: FÖRSLAG TILL TEKNISK LÖSNING FÖR LTU...- 26 - BAKGRUND... - 27 - TESTER... - 27 - LÖSNINGSFÖRSLAG 1 NETARCHIVESUITE... - 31 - LÖSNINGSFÖRSLAG 2 HERITRIX + WAYBACK MACHINE... - 31 - LÖSNINGSFÖRSLAG 3 EN KOMBINATION AV 1 OCH 2... - 31 - REKOMMENDATIONER... - 32 - LÄNKAR... - 32 - BILAGA 2: CENTRUMBILDNINGAR INOM LTU...- 33 -
1. Inledning Denna rapport beskriver arbetet som gjordes i projektet Bevarande av webbsidor på den gemensamma CMS 1 -plattformen under år 2008-2009. Arbetet genomfördes i form av ett samarbetsprojekt mellan Luleå tekniska universitet 2 (LTU) och LDB-centrum 3 (Centrum för långsiktigt digitalt bevarande). Förutom Bevarande av webbsidor drev LDB-centrum under samma tidsperiod även två andra projekt där alla kom att dra stor nytta av varandras resultat: CODA-WEBB har arbetat med strategier för webbarkivering och utrett vilka frågor som behöver analyseras och tas beslut om innan arbetet med att samla in en webbplats startar. Testplattformen har undersökt Webbcrawlers (verktyg för insamling av webbsidor) samt Open repositories (verktyg för att publicera, lagra och tillgängliggöra digitala dokument). Testplattformen har även använt Bevarande av webbsidor som ett pilotprojekt för praktisk webbarkivering. Samtliga tekniska lösningsförslag för LTU har tagits fram genom test och utvärdering inom projekt Testplattformen. Resultaten av undersökningarna ovan, strategier för webbarkivering samt studierna av webbcrawlers respektive Open repositories har publicerats tillsammans i en slutrapport med namnet CODA-WEBB. Rapporten, samt mer information om de olika projekten, finns på LDB-centrums webbplats http://www.ldb-centrum.se Detta dokument bygger på resultat från CODA-WEBB och från Testplattformen men är upprättad specifikt för LTU. Den beskriver vilka strategiska beslut som tagits under projektets gång samt vilka tekniska lösningar som LDB-centrum rekommenderar för LTU, både när det gäller insamling och bevarade av webbsidor (bilaga 1). I arbetsgruppen ingick från LDB-centrum Jan Aspenfjäll, Lena Öhman/Lindbäck 4, Hamid Rofoogaran, Conny Köhler (2008) och Jörgen Nilsson (2009). Från LTU deltog Andreas Hallgren och Eva-Lena Wirén. Periodvis medverkade även annan personal från de båda organisationerna. För mer information, kontakta Lena Lindbäck på adressen lena.lindback@ldb-centrum.se 1 CMS står för Content Management System, läs mer om detta i kapitel 2.1 2 LTU:s webbplats: http://www.ltu.se 3 LDB-centrums webbplats: http://www.ldb-centrum.se 4 Namnbyte, Öhman under projektets första del, därefter Lindbäck. - 3 -
2. Bakgrund Arkivering av en organisations webbsidor innebär att man samlar in och lagrar tidigare versioner av webbplatsen för att kunna se på, leta i, visa upp och bevisa vad man tidigare har publicerat. För myndigheter i Sverige gäller att myndighetens webbsidor är allmänna handlingar och därför ska bevaras. Allmän handling är ett centralt begrepp i universitetets verksamhet. Definition av begreppet finns i Tryckfrihetsförordningen, kap 2 3 5 : Med handling förstås framställning i skrift eller bild samt upptagning som kan läsas, avlyssnas eller på annat sätt uppfattas endast med tekniskt hjälpmedel. Handling är allmän, om den förvaras hos myndighet och enligt 6 eller 7 är att anse som inkommen till eller upprättad hos myndighet. Ett omfattande regelverk styr hanteringen av allmänna handlingar. För att kunna gallra bort handlingar krävs gallringsbeslut, i annat fall ska de bevaras. Webbsidor är exempel på upprättade allmänna handlingar som skall bevaras. Förutom att belysa universitetets verksamhet och historia har webbsidorna ett stort juridiskt värde. Inaktuella webbsidor kan gallras efter överföring till annat format eller till annan databärare för bevarande (se lokalt gallringsbeslut, RE-beslut 185-06 6 ). 2.1 Syfte och mål Detta projekt startades för att dels utreda vad som ska bevaras och dels hur det tekniskt ska göras. Bevarandet ska säkerställa att LTU som myndighet följer det lagstadgade regelverk som gäller samt ger möjlighet för framtida forskare att få ett bredare undersökningsmaterial. Projektet hade i början som syfte att besvara ett antal frågor: Vad ska bevaras? Hur ska sidorna bevaras (i vilka format och med vilka programvaror)? Hur ofta ska webbsidorna bevaras? På vilket medium ska filerna lagras? Vem ska komma åt den bevarade informationen och hur? Hur ska en lösning realiseras så att inaktuell information gallras ur CMS-verktyget Polopoly men bevaras på annan plats? Förkortningen CMS står för Content Mangagement System, vilket på svenska kan beskrivas som ett innehållshanteringssystem. Polopoly är namnet på det specifika CMS-verktyg som LTU använder för att publicera det mesta av informationen på den publika webbplatsen. Eftersom arbetet i CODA-WEBB pekade på fler områden som behöver utredas tillkom ett antal frågor under arbetets gång. (Se kap 2.2.) Resultat från projektet kom också att leda till nya riktlinjer för bland annat hur webbsidor bör byggas upp och vilka filformat som bör och inte bör användas, allt i syfte att redan före arkiveringen underlätta för denna. Vi pekar även på vikten av att arbeta proaktivt så att organisationen tänker på framtida bevarande redan vid planering och uppbyggnad av en ny webbplats eller vid inköp av ett nytt verktyg för detta. 5 Tryckfrihetsförordningen: http://www.notisum.se/rnp/sls/lag/19490105.htm 6 Lokalt gallringsbeslut: http://www.ltu.se/polopoly_fs/1.31411!tillf%c3%a4llig%20eller%20ringa%203.pdf - 4 -
2.2 Metod I projektet CODA-WEBB beskrivs ett antal strategiska frågor som behöver utredas innan arbetet med att samla in webbsidorna startar. Särskilt betonas vikten av att besluta om VAD som ska göras före beslut tas om HUR det ska göras, det vill säga: strategi före teknik. CODA-WEBB sammanfattar resultatet i ett antal punkter, vilket vi har arbetat efter även i detta projekt. Frågorna att utreda är grupperade enligt följande: 1. Syfte - varför ska webbplatsen bevaras? 2. Vilka krav ställs på bevarandet? 3. Urval - vad ska bevaras respektive inte bevaras? 4. Användare - vem ska få tillgång till materialet och hur? 5. Frekvens och tid - hur ofta ska insamling göras och när? 6. Vilken metod och vilka tekniska lösningar är lämpligast? 7. Ska arbetet göras internt, av extern organisation eller i samverkan med andra? 8. Hur säkerställs bevarande på lång tid? Förutom dessa frågor skulle projektet Bevarande av webbsidor utreda ett antal andra frågor, nämligen: Analysera om Polopolys uttagsfunktion kan matcha kravbilden Om Nej, beskriv vilka andra tekniker som finns och utvärdera dessa Beskriv en teknisk lösning för antingen Polopoly-export eller annan lösning 2.3 Disposition Kapitel 1 och 2, inledning respektive bakgrund till projektet följs av kapitel 3 som är rapportens resultatkapitel. De avväganden och beslut som togs för punkterna 1-8 ovan beskrivs under var sin rubrik så att 3.1 handlar om syftet med att bevara medan 3.2 behandlar vilka krav som ställs på bevarande osv. Kapitel 3.6 fokuserar på lämpliga tekniska lösningar för LTU. Kapitlet inleds med att beskriva ifall export från Polopoly kan leva upp till det syfte och den kravbild som sammanfattas i 3.1 resp. 3.2. Därefter kommer de övriga beslut av teknisk karaktär som projektgruppen kommit fram till. Kapitel 4 beskriver ett antal lärdomar som LTU bör dra för arbetet med sin webbplats såväl som med framtida webbarkiveringsprojekt medan kapitel 5 slutligen sammanfattar projektet. Bilaga 1 ger en utförlig dokumentation av LDB-centrums förslag om hur insamling och tillgängliggörande av insamlat material bör göras på LTU. I bilaga 2 finns en sammanställning av LTU:s centrumbildningar vid tidpunkten för rapportens färdigställande. (2009-04-23) - 5 -
3. Resultat Här redovisas de resultat som projektgruppen bedömer vara lämpliga för LTU. Kapitlet är uppbyggt enligt de områden som i CODA-WEBB ansågs kritiska att utreda inför ett webbarkiveringsprojekt. Precis som CODA-WEBB kom fram till inleds arbetet med att ta beslut i strategiska frågor, för att senare avgöra vilken teknisk lösning som är mest lämplig. 3.1 Syfte med bevarandet Varför webbplatsen ska bevaras och vad det bevarade materialet ska användas till är själva grunden för bevarandestrategin. Dessa frågor måste utredas och besvaras först, innan tankarna på hur det tekniskt ska göras kommer in i diskussionen. Insamling med hjälp av en speciell metod kan annars i värsta fall innebära att materialet inte kan användas som det var tänkt. 3.1.1 Varför ska LTU:s webbplats bevaras? Det finns tre olika huvudsyften till att bevara LTU:s webbplats: Man måste följa de lagar och förordningar som styr verksamheten Webbsidor från olika tidpunkter ska bevaras för framtida forskning, för att belysa universitetets historia och utveckling LTU kan behöva spara webbsidor från olika tidpunkter för att kunna använda som bevis i eventuella framtida rättstvister För att uppfylla krav som ställs på svenska myndigheter behöver webbplatsen bevaras regelbundet. Riksarkivet säger att webbsidan, som den allmänna handling den är, över tiden ska kunna presenteras med samma innehåll och form som den hade när den upprättades hos myndigheten. Däremot ställer Riksarkivet idag inga bestämda krav på frekvens för insamling. En webbsida som ska bevaras för framtida forskare ska för att vara meningsfull inte bara visa textinnehåll utan även se ut och fungera på samma sätt som den gjorde när den var publicerad. Om webbsidan ska användas i bevissyfte kan det innebära att all information som varit publicerad måste lagras, tillsammans med information om under vilken tidsperiod den funnits tillgänglig för allmänheten. I fallet med LTU:s webbsidor ansågs inte detta som ett krav, utan bedömdes vara av underordnad betydelse. Projektgruppen kom fram till att det skulle vara alltför krävande jämfört med den nytta som man trodde sig ha av detta. Det ansågs istället vara tillräckligt att bevara sidorna ett antal gånger per år och hoppas att man vid eventuella rättstvister hittar den relevanta informationen. 3.1.2 Hur länge ska materialet bevaras? Grundkravet är att den insamlade webbplatsen i sin helhet ska bevaras för all framtid. 3.1.3 Syftet som grund för teknisk lösning LTU:s insamling ska bygga på att fånga den publicerade webbplatsens textinnehåll, utseende samt funktion. Det krävs dock inte kontinuerlig insamling, utan det räcker om webbplatsen samlas in ett antal gånger per år. - 6 -
3.2 Kravbild Syftet med bevarandet (kapitel 3.1) tillsammans med de externa och interna krav som åläggs LTU är grundläggande för beslut om hur insamling och bevarande bör göras. Arbetsgruppen kom fram till att det fanns krav av olika slag, dels myndigheternas krav på exempelvis bevarande av allmänna handlingar, dels LTU:s egna övergripande verksamhetskrav och projektgruppens respektive IT-Service (ITS) krav på den tekniska lösningen. Dessa krav skulle sen jämföras mot de möjligheter som fanns för export ur Polopoly, och om resultatet av exporten inte svarade mot kravbilden skulle andra tekniska lösningar utvärderas. 3.2.1 Myndighetskrav Tryckfrihetsförordningen säger att interna och externa webbplatser är av myndigheten upprättade allmänna handlingar och att dessa ska bevaras i ursprungligt skick. Detta innebär att de över tiden ska kunna presenteras med samma innehåll och form som de hade när de upprättades hos myndigheten 7. Alla åtgärder som medför förlust av betydelsebärande data samt möjligheterna att bedöma om en handling är äkta och i ursprungligt skick räknas som gallring. RA:FS 1997:6 8 säger att handlingar kan gallras efter överföring till annan databärare. Arkivlagen 9, som anknyter till TF, slår fast att LTU:s arkiv är en del av det nationella kulturarvet. Enligt detta skall arkivet bevaras, hållas ordnat och vårdas så att det tillgodoser: 1. Rätten att ta del av allmänna handlingar 2. Behovet av information för rättskipningen och förvaltningen, och 3. Forskningens behov Riksarkivets nya föreskrifter och allmänna råd om tekniska krav för elektroniska handlingar (RA-FS 2009:2 10, sidan 5) säger att webbsidor ska långtidslagras enligt följande: 9 Webbsidor ska ges något av följande format: ISO/IEC 15445 SS-ISO 19005-1:2005 Information technology Document description and processing languages Hyper-Text Markup Language (HTML), Dokumenthantering Filformat för elektroniska dokument för långtidsbevarande Del 1: Användning av PDF 1.4 (PDF/A-1) (ISO 19005-1:2005, IDT), Extensible Markup Language (XML), eller Extensible HyperText Markup Language (XHTML). 7 Statens arkiv: http://www.statensarkiv.se/default.aspx?id=4018&refid=4020 8 Statens arkiv: http://www.statensarkiv.se/sve/rafs/filer/ra-fs-1997-06.pdf (RA-FS 1997:6) 9 Arkivlagen: http://www.notisum.se/rnp/sls/lag/19900782.htm 10 Statens arkiv: http://www.statensarkiv.se/default.aspx?ptid=1495&id=18291 (RA-FS 2009:2) - 7 -
Scheman, dokumenttypsdefinitioner (DTD) och layout-mallar ska framställas och bevaras i form av elektroniska handlingar. I samma RA-FS, paragraf 7 på sidan 4 beskrivs att digitala bilder ska lagras i formaten JPEG, TIFF/IT, PNG, PDF 1.4 (PDF/A-1). Verva, Verket för förvaltningsutveckling (nedlagt vid årsskiftet 2008/2009) menar att webbplatser ska följa riktlinjer från W3C 11 (World Wide Web Consortium). Övrigt som kan påverka projektet: Personuppgiftslagen (PUL) Sekretesslagen Förvaltningslagen serviceskyldighet gentemot allmänheten, god offentlighetsstruktur Allmänheten och massmedias kontroll av och insyn i verksamheten (Offentlighetsprincipen). 3.2.2 Verksamhetskrav Förutom att uppfylla den grundlagsstadgade rättigheten att ta del av allmän handling finns ett annat huvudsyfte med att bevara gamla webbsidor, nämligen att kunna undvika juridiska processer. Genom bevarande kan LTU bevisa vad som publicerats och inte, t.ex. när det gäller diskrimineringsärenden. LTU har tidigare varit involverat i ett fall där en student menade att universitetet på sin webbsida publicerat information om en utbildning som inte stämde med verkligheten. I det aktuella fallet kunde LTU hitta en gammal version av sin webbplats via Internet Archives inscanning av webben och på så sätt motbevisa studentens påstående. Lärdomen av detta fall visar på vikten av att bevara webben för att ha som bevis, och man tror också att vissa delar av webbplatsen kan behöva mer frekvent insamling. LTU kan välja att skilja på dessa sätt att bevara webbsidor: hela webben insamlas ett antal gånger per år med tanke på framtida forskning medan andra, väl valda sidor samlas in oftare men gallras bort efter några år. Förutom detta är tillgång till LTU:s historia i form av bevarade webbsidor ett värdekapital som kan återanvändas till exempel i form av informationskampanjer. Eftersom mycket av informationen på webbplatsen enbart finns i digital form kan man via denna få kontinuerlig överblick över vad som hänt inom organisationen vid olika tidsperioder. Att kunna visa upp vad universitetet tidigare publicerat bör även öka trovärdigheten för LTU som informationsspridare. 3.2.3 Tekniska krav På vilket/vilka medium filerna ska lagras är en fråga som vi anser att ITS ska avgöra, beroende på den tekniska miljö och det kunnande som finns inom organisationen och i samråd 11 Webbplats: http://www.w3.org/ - 8 -
med Riksarkivets föreskrifter 12. Vi föreslår i första hand lagring på hårddisk och i andra hand band. Lagring på CD- eller DVD-skivor rekommenderas inte på grund av deras relativt korta livslängd. I nuläget finns inga krav på snabb åtkomst till det lagrade materialet, inte heller förväntas något frekvent användande av filerna. LTU:s inriktning säger att all utveckling ska göras i Java och de förslag till teknisk lösning som LDB-centrum har utarbetat stämmer väl ihop med detta. Bilaga 1 beskriver ett antal förslag till tekniska lösningar, inklusive vilka programvaror som krävs för att kunna använda dessa lösningar. De insamlade webbsidorna blir arkiverat material och ska inte kunna förändras, förutom när så krävs för exempelvis konvertering till andra format. Backup ska göras enligt sedvanliga rutiner. 3.3 Urval I inledningsskedet skulle projektet ge förslag på en teknisk lösning som innebar bevarande av enbart de webbsidor som lagras i CMS-verktyget Polopoly, en avgränsning som visade sig innebära att ingen av de tre bevarandesyftena (kapitel 3.1) uppfylldes. Detta ledde till att projektgruppen var tvungen att göra om undersökningen av vilket urval som skulle insamlas och bevaras, vilket presenteras här. Anledningen till att insamling med hjälp av exportfunktionen i Polopoly inte ansågs lämplig beskrivs i kapitel 3.6. 3.3.1 Vad ska bevaras? Målet för detta projekt blev i stället att bevara hela LTU:s publika webbplats, publicerad på huvuddomänen http://www.ltu.se. Detta inbegriper exempelvis: förvaltningen med enheter, institutioner, avdelningar, centrumbildningar, universitetsbiblioteket, studenthälsan, personalwebben, LTU Nyheter. Vissa specifika sidor ska bevaras oftare (i bevissyfte) för att efter en viss tid gallras bort. LTU har tidigare använt sig av subdomäner under www.ltu.se men tanken är att detta ska försvinna. De subdomäner som fortfarande är i användning ska bevaras. För LTU:s centrumbildningar gäller att det finns webbplatser av tre olika typer: De som ligger inom LTU:s huvuddomän och använder Polopoly De som är subdomäner till ltu.se men inte byggs i Polopoly De som har helt egna domäner utan någon som helst koppling till LTU:s webbplats Alla dessa typer av webbplatser ska bevaras. De centrumbildningar som LTU refererar till på sidan http://www.ltu.se/forskning/1.168 redovisas i bilaga 2, grupperade enligt typ (se ovan). I bilagan ges även förslag på hur insamling ska göras för varje grupp. Dessutom 12 Statens arkiv: http://www.statensarkiv.se/default.aspx?ptid=1495&id=18291 (RA-FS 2009:1) - 9 -
rekommenderas att arbeta för att avsluta alla nuvarande subdomäner och istället överföra dessa till Polopoly. När det gäller vad som ska bevaras gjordes vissa avgränsningar: Länkar till sidor som ligger utanför domänen www.ltu.se ska finnas kvar men ska inte vara klickbara Sidor som kräver inloggning ska ej samlas in, som till exempel Studentportalen. Ett flertal databaser publicerar delmängder av sin information på webben. Denna information kommer i många fall samlas in med hjälp av webcrawlern precis som övriga webbsidor. Projektet Bevarande av webbsidor tar dock inte ansvar för att databaserna arkiveras i sin helhet. Sådan arkivering måste ske i själva databasobjekten eller centralt för hela universitetet, vilket ligger utanför detta projekts område. Det är ett känt faktum att vissa typer av webbaserat material oftare än andra ställer till problem vid insamling. Som exempel kan nämnas kalendrar, kartor samt ljud- och filmfiler som är beroende av extern mjukvara. Det beslutades därför att LDB-centrum skulle utföra provinsamlingar av LTU:s webbplats och att dessa tester skulle visa om vissa typer av material var omöjliga att samla in. Beroende av resultaten skulle man vid ett senare tillfälle besluta om hur viktigt det var att samla in även dessa filer och om det istället kunde göras på något annat sätt. Resultatet av testerna visade inte på några sådana problem inom den gjorda avgränsningen. 3.3.2 Vad ska inte bevaras? Enligt Riksarkivets förordningar kan information av tillfällig eller ringa betydelse gallras bort. Dock är gallring en resurskrävande aktivitet och i detta fall inget som rekommenderas. För den tekniska lösningen i detta projekt beslutades att samla in hela webbplatsen, utan gallring. 3.4 Användare Vilka som ska kunna komma åt att använda det bevarade webbmaterialet och på vilket sätt dessa ska få tillgång är nästa område att undersöka och besluta om. 3.4.1 Vem ska använda materialet? Till att börja med ska åtkomst till bevarade webbsidor enbart ges till personal anställd vid LTU:s enhet för arkiv och registratur (AoR)samt till den personal på ITS som ska sätta upp systemet. Andra personer som kan komma att behöva se de bevarade webbsidorna ska få åtkomst till det (eller nekas åtkomst) via AoR på samma sätt som till övrigt bevarat material. I nuläget ska de historiska webbsidorna inte kunna ses av andra än dessa yrkesroller, även om beslut om annat kan komma att tas senare. 3.4.2 Hur ska materialet användas? Åtkomst ska endast ges till dator som innehas av behörig personal och efter inloggning med unikt användarnamn och lösen. Vilka personer som är behöriga avgörs av ITS i samverkan med personal inom AoR. - 10 -
Anställda inom AoR ska få tillgång till att söka i men inte kunna göra förändringar i materialet, förutom om det rör sig om anställda med utbildning till IT-arkivarie som har kompetens för detta. Däremot bör enhetens personal ansvara för att gallra bort de insamlingar som gjorts enbart för tillfällig lagring (se kap 3.5.2), alternativt beställa när det ska göras av ITS. Personal inom AoR eller ITS måste kontrollera varje insamlad version av webbplatsen för att upptäcka eventuella brister och problem så fort som möjligt. Filerna ska märkas efter tidpunkt (år-månad-dag) för insamling, så att man utifrån en viss tidpunkt hittar rätt material. Om möjligt bör det kunna göras fulltextsökning på allt lagrat material, för att underlätta letandet efter specifika textavsnitt. IT-personal kommer att i framtiden behöva flytta materialet till annan lagringsyta men också att konvertera olämpliga filformat till andra, mer säkra format. Access till bevarade webbsidor förväntas inte ske speciellt ofta, vilket innebär att inga krav på snabba åtkomsttider finns. För att personal från AoR ska kunna lämna ut material från bevarade webbsidor måste den dator där dessa arbetar med webbsidorna vara kopplad till en skrivare. Information om arkiverade webbplatser ska framgå av arkivförteckning, på samma sätt som när det gäller pappershandlingar. För digitalt material menar Riksarkivet att termen arkivexemplar (eller bevarandeexemplar) utgörs av databärare innehållande elektroniska handlingar som har överförts till bevarande 13. Databärare å andra sidan definieras som fysiskt underlag för handlingar (t.ex. magnetband, hårddisk) 14. Detta innebär att varje hårddisk, band eller annan databärare ska ges en unik beteckning och redovisas som en förvaringsenhet i myndighetens arkivredovisning. 3.5 Frekvens och tid När man tar beslut om hur ofta och vid vilka tidpunkter webbplatsen ska samlas in bör man gå tillbaka till syfte och kravbild. Men bör samtidigt överväga vad man kommer att gå miste om när man bara samlar in ett visst antal gånger varje år. 3.5.1 Hur ofta ska insamling göras och när? Riksarkivets skriver inget om någon allmän frekvensen för insamling, men i fyra olika RA- FS:ar för specifika institutioner säger man följande: Hemsida bör bevaras med viss periodicitet. Av praktiska skäl är det inte möjligt att bevara all information som tillförs hemsidor, men minst en gång per år och vid större förändringar bör ett uttag göras och bevaras på lämpligt sätt. (exempel: RA-FS 2005:2, RA-FS 2005:3) 13 Statens arkiv: http://www.statensarkiv.se/default.aspx?ptid=1495&id=18291 (Rapport om e-arkiv.pdf) 14 Statens arkiv: http://www.statensarkiv.se/default.aspx?ptid=1495&id=18291 (RA-FS 2009:1) - 11 -
För en forsknings- och utbildningsinstitution som LTU sker större förändringar i verksamheten framför allt vid terminsstart i januari respektive augusti. Uppgifter från andra webbarkiveringsprojekt inom Sverige visar att de väljer att bevara sina webbsidor två till fyra gånger per år. Göteborgs universitet planerar att bevara hemsidor från två tillfällen per år, i januari och i augusti. Högskolan i Borås har valt att bevara sin webbplats tre gånger per år för att avspegla högskoleårets olika skeden: i januari, maj och oktober månad. På Uppsala kommuns webbsidor görs uttag fyra gånger per år, den 25:e i februari, maj, september och november med kommentaren att det är de perioder då flest uppdateringar gjorts under den närmast föregående tiden. De undviker därmed också halvårsskiften vid semesterperiod och julhelg. Samma tidpunkter tänker sig även kommunerna i Köping, Arboga och Kungsör ha enligt deras gemensamma arkiveringsprojekt. I detta projekt beslutades om att göra insamling av hela LTU:s webbplats två gånger per år. Samtidigt beslutades att för vissa delar av webbplatsen göra tätare insamling (se nedan). Dessa ses dock endast som ett komplement som eventuellt kan behövas som bevisföring, och ska gallras bort efter en viss tidsperiod. 3.5.2 Vilka tidpunkter är lämpligast? Huvuddomänen www.ltu.se ska samlas in vid följande tidpunkter: 15 februari 15 september Under våren 2009 beslutade Ltu att samla in följande sidor oftare, utöver de beslutade två insamlingarna per år: Sidor som behandlar internationell rekrytering. Datum för extra insamling: 15 december Omfång: Webbens förstasida på svenska och engelska Utbildningskatalogen www.ltu.se/edu/ i sin helhet. 3.6 Teknisk lösning Här utvärderas olika tekniska lösningar i syfte att rekommendera de mest lämpade för LTU att använda vid insamling och bevarande av gamla versioner av webbplatsen. 3.6.1 Polopoly CMS - Content Management System, på svenska ungefär innehållshanteringssystem, är ett verktyg som används för att publicera information på webbplatser. Polopoly är namnet på det CMS-verktyg som LTU använder. - 12 -
Export från Polopoly Polopoly skiljer på innehåll och utseende. Texter som skrivs lagras som attribut i en databas och presenteras på skärmen enligt en stilmall. Polopoly erbjuder en funktion för att exportera ut filer ur databaserna men sidornas utseende och hur de har varit strukturerade går ej att få fram. De filer som exporteras är i XML-format. Uppfyller export ur Polopoly kravbilden? Som visas i kapitel 3.1 finns det olika intressen för bevarande: på kort sikt behöver LTU kunna visa upp vad som varit publicerat på webbplatsen under olika tidpunkter i syfte att ha som bevis vid en eventuell juridisk process. På lång sikt behöver man bevara webben för den framtida forskningens behov, för att få tillgång till universitetets historia. Man behöver också bevara webbplatsen eftersom den faller under begreppet allmän handling. När det gäller hur insamlingen praktiskt ska göras finns det olika lösningar för de olika behoven. För insamling i bevissyfte kan sidorna exporteras ut i XML-format och texten tillsammans med en tidstämpel som visar när den varit publicerad bör räcka som juridiskt bevis. För framtida forskares behov är den metoden dock inte tillräcklig. Enligt Riksarkivet ska allmänna handlingar över tiden kunna presenteras med samma innehåll och form som de hade när de kom in till eller upprättades av myndigheten. Detta innebär att export ur Polopoly som metod för att bevara LTU:s webbplats inte är tillräcklig utan att andra tekniska lösningar måste utvärderas. Radera ur Polopoly Polopoly har en funktion som kallas för versionshantering och som innebär att ett antal gamla versioner av en tidigare gjord sida sparas i verktyget. Om en juridisk process kräver bevis på webbplatsens innehåll från en närliggande tidpunkt är det alltså möjligt att detta finns att hitta i en gammal version av sidan i Polopoly. Eftersom detta projekt förändrades till att hantera insamling av hela domänen och inte enbart det som publiceras i Polopoly förändrades även projektets omfattning. Denna punkt, hur man tekniskt gör för att radera ur Polopoly har därför inte behandlas närmare inom projektet. 3.6.2 Val av metod för insamling I skrivande stund finns tre vanliga metoder för att samla in webbsidor: Webbcrawlingsverktyg Export ur publiceringsverktyg Kopiering av befintlig mappstruktur Rapporten CODA-WEBB 15 beskriver dessa metoder närmare och även varje metods för- och nackdelar. För LTU anser vi webbcrawling vara den bästa metoden eftersom det innebär att man skapar en kopia av besökta webbsidor, sidor som lagras på den egna hårdvaran. Bland de insamlade sidorna kan man sedan surfa runt genom att klicka på länkar, precis på samma sätt som om sidorna hade legat ute på Internet, med samma utseende och funktion som de hade när en 15 Kan laddas ner på LDB-centrums webbplats: http://www.ldb-centrum.se - 13 -
besökare såg dem. Endast aktiva sidor samlas in när man gör en webbcrawling, det vill säga sidor som har länkar till sig från andra sidor. Sidor som har gjorts inaktiva, utan länkar från andra sidor, kan inte hittas när man klickar sig fram på en webbplats och kan därför heller inte samlas in. Detta innebär att syftet med att bevara uppfylls enligt alla de tre punkterna i kapitel 3.1, dock inte optimalt för syftet att fungera som bevis eftersom inte allt som publicerats kan bevaras. Detta syfte sades dock vara av underordnad betydelse (3.1.1). Webbcrawling uppfyller också myndighetskraven (3.2.1) och de tekniska kraven (3.2.3) medan Verksamhetskraven bara uppfylls till viss del, just på grund av bristen i beviskravet. För att i någon grad minska risken för att information som skulle kunna användas som bevis inte har samlats in, kan extra insamling göras. Det beslutades därför att på vissa specifika sidor utöka antalet insamlingar men att dessa insamlingar ska skiljas från de insamlingar som rör hela webbplatsen så att de kan gallras bort efter en viss tid har förflutit. Insamling med hjälp av ett webbcrawlingsverktyg tar visserligen lång tid för en stor webbplats som ltu.se men kräver å andra sidan inte mycket mänskliga resurser. Insamling kan schemaläggas i förväg så att den startar vid en tidigare bestämd tidpunkt. Val av tidpunkt bör göras beroende av när insamlingen förväntas störa organisationens övriga verksamhet så lite som möjligt. En annan fördel med att använda webbcrawling som metod är att insamlingen går till på samma sätt oavsett om LTU använder sig av Polopoly eller publicerar webbinnehållet på annat sätt i framtiden. 3.6.3 Val av verktyg Web crawler, web spider, web robot eller web scutter är ett datorprogram som samlar in innehållet från webbsidor automatiskt genom att följa sidornas länkstruktur. Webbcrawlers används framför allt av söktjänster som Google eller Yahoo och för webbarkivering. Kända användare av webbcrawlers för arkivering är bland annat Internet Archive 16 som samlar in kopior av webbplatser från hela jorden och Kungl. biblioteket 17 (KB) som sedan 1997 har samlat in svenska webbsidor två gånger per år. Att dessa organisationer redan samlar in alla svenska webbplatser regelbundet innebär dock inte att frågan anses löst. Varje svensk myndighet är själv ansvarig för att bevara den egna webbplatsen. Olika webbcrawlers I startskedet av projekt Testplattformen utvärderades tre olika webbcrawlingsverktyg, de två open-source verktygen som Riksarkivet nämner 18 : HTTrack Website Copier 19 och Heritrix 20 samt även en kommersiell produkt vid namn PageNest 21. Programvarorna har laddats ner, installerats och provkörts mot en liten privat webbplats för att utvärdera hur enkla de är att använda. 16 Internet Archive: http://www.archive.org/web/web.php 17 Kungl. biblioteket: http://www.kb.se 18 Statens Arkiv, bevara webbplatser: http://www.statensarkiv.se/default.aspx?id=4018&refid=4020 19 HTtrack: http://www.httrack.com/ 20 Heritrix: http://crawler.archive.org 21 PageNest: http://pagenest.com/index.html - 14 -
Slutsats - webbcrawlers Webbcrawler-verktyg är oftast mycket enkla att både ladda ner och använda. Detta gör att man enkelt själv kan installera och utvärdera ett antal verktyg för att avgöra vilket som passar bäst beroende på vilka behov man har och på vem som ska använda verktyget. Av de tre verktyg som undersöktes (HTTrack, Heritrix och PageNest) kräver endast Heritrix som ett större tekniskt kunnande. Samtidigt är Heritrix det enda av programmen som har utvecklats speciellt med tanke på långtidsarkivering. En annan viktig styrka hos Heritrix är att det används av de stora aktörerna i världen, som Internet Archive. Det innebär att programmet knappast kommer att försvinna under överskådlig tid utan att utvecklingen lär fortsätta. Eftersom LTU vill säkerställa att webbsidorna kan bevaras för lång tid framåt och eftersom universitetet inte bör ha problem med det tekniska kunnande som krävs beslöt projektgruppen att föreslå användande av Heritrix, alternativt något annat verktyg som bygger på Heritrix (se Bilaga 1). Insamlingen startar med att huvuddomänen http://www.ltu.se anges. Förutom denna URL behöver även andra adresser anges som seeds (startpunkter för insamling), exempelvis adresserna till de centrumbildningar som använder sig av egna domännamn. Om insamling ska göras av lösenordsskyddade sidor måste lösenord medfölja vid konfigurering av insamling, något som inte är aktuellt i nuläget. 3.6.4 Val av filformat De olika verktygen kan lagra filerna i olika form, vissa gör en kopia av mappstrukturen medan man i andra väljer om filerna ska lagras en och en eller i form av ett paket. Med Heritrix kan man välja hur lagring ska göras och vårt beslut blev att använda lösningen med att lagra i paket. Det innebär att Heritrix samlar in alla filer som finns på en webbplats och bevarar dem i en ARC- eller WARC-fil. ARC/WARC är ett omslutande format och inuti det finns filerna i de format som de ursprungligen hade, tillsammans med extra metadata. WARC är efterträdaren till ARC, och ISO-standardiserad sedan juni 2009 (ISO 28500:2009). WARC bygger på ARC men har dessutom utökad funktionalitet, bland annat för att hantera framtida konverteringar av de ingående filerna. Båda formaten har skapats av arbetsgruppen vid Internet Archive/IIPC 22. Konvertering av de ingående filerna kommer att behövas förr eller senare, och vi menar att det är en trygghet att använda samma filformat som används av Internet Archive och andra stora aktörer inom området. 3.6.5 Val av lagringsplattform I projekt Testplattformen har fem olika verktyg för lagring, publicering och tillgängliggörande av digitalt material undersökts och jämförts genom litteraturstudie i syfte att rekommendera det bäst lämpade verktyget att använda som lagringsplattform för digitalt bevarande. 22 IIPC: http://www.netpreserve.org/about/index.php - 15 -
Vad är Open repositories? Open repository-verktygen utvecklades i första hand med syfte att inom universitetsvärlden lagra och hantera digitala publikationer så att exempelvis forskare själva kunde publicera sina forskningsdokument och intresserade läsare enkelt skulle kunna få åtkomst till desamma. Numera används verktygen även vid andra institutioner än i universitet för att lagra, bevara och erbjuda tillgång till digitalt material. De olika OR-verktygen har utvecklats med olika syften, ett exempel på detta är att vissa verktyg redan från början fokuserat mer på bevarandet medan andra mer strävat efter att skapa verktyg där enkelheten att publicera och komma åt filerna står i centrum. Det är viktigt att organisationens eget syfte och mål med att bevara digitala dokument står som grund för valet av verktyg. LTU har som syfte att långtidsbevara sina webbsidor för eftervärlden, med detta i fokus finns fyra krav på ett Open repository: 1. Data i arkivet måste kunna hanteras utan att skadas, försvinna eller av misstag raderas 2. Data måste kunna hittas och extraheras från arkivet och tillhandahållas en användare 3. Data måste kunna visas upp och förstås av en användare 4. Krav 1, 2 och 3 måste uppfyllas även på mycket lång sikt Olika OR-programvaror Det finns ett stort antal fria programvaror för e-publicering och i CODA-WEBB utvärderades fem av dem genom litteraturstudier. Dessa är: EPrints, DSpace, Fedora, Greenstone och DAITSS. Intresserade läsare rekommenderas att läsa mer om utvärderingen i projektets slutrapport 23. Att bygga system för digitalt bevarande är en komplex process bestående av kravanalys, noggrann planering och val som bygger på relevant information. Det är mycket mer komplicerat än att bara installera någon mjukvara och börja ladda upp innehåll. Men oavsett vilket system du väljer - redan att föra in det digitala materialet i en organiserad lagringsmiljö är ett bra första steg på vägen mot långtidsbevarande. Slutsats Open repositories Efter att ha gjort denna litteraturstudie är förslaget till LTU att välja Fedora som Open repostitory-verktyg, om de anser sig behöva ett sådant. De stora fördelarna med Fedora är: Robust arkitektur God skalbarhet Flexibelt Modulbaserat Klarar många typer av objekt Hanterar relationer Hanterar versioner av objekt Olika metadatascheman kan användas Stark utvecklingsgrupp Långtidsplan för fortsatt utveckling finns Relativt stor aktivitet i användargrupperna Koden är mycket väldokumenterad Mest sofistikerad av alla verktyg 23 Slutrapporten kan laddas ner på LDB-centrums webbplats: http://www.ldb-centrum.se - 16 -
De negativa aspekterna av Fedora är framför allt att det krävs ett stort tekniskt kunnande för att installera, anpassa och utveckla Fedora som lagringsmiljö. I LTU:s fall borde detta kunnande finnas inom den egna organisationen. Det är dock inte nödvändigt att använda vare sig Fedora eller någon annan OR-programvara utan bara en rekommendation ifall LTU vill använda denna typ av lagringsplattform. Av den anledningen finns Fedora inte omnämnt i lösningsförslaget i bilaga 1. I LDB-centrums projekt Testplattformen har vissa praktiska tester utförts på Fedora och det planeras också att utöka dessa i framtiden. 3.6.6 Val av lagringsmedia Denna fråga anser vi bäst besvaras av ITS i enlighet med de föreskrifter och råd som Riksarkivet har utarbetat för bevarande av elektroniska handlingar 24. Val av media beror till stor del på den tekniska lösning och den kompetens som redan finns inom organisationen. Som vi ser det kommer det bevarade webbmaterialet inte att användas speciellt frekvent. Det kommer inte heller att krävas snabb tillgång till filerna. Däremot bör filerna lagras på minst två olika typer av lagringsmedia som för högre säkerhet bör lagras på olika fysiska platser. Lagring på optiska skivor (CD och DVD) rekommenderas inte på grund av deras relativt korta livslängd. 3.6.7 Namngivning och lagring De insamlade paketen ska vid lagring namnges konsekvent och märkas med tidpunkt för insamling så att de lätt kan hittas efter datum. Heritrix stöder detta genom att själv namnge filerna med ett prefix, som anges i inställningarna för varje körning, följt av en tidsstämpel och ett valfritt suffix. WARC-filerna blir omslutande paket med alla de filer som finns på webbplatsen liggande inuti. WARC-filernas namn ska inte förändras. De filer som innehåller webbsidor som samlas in för tillfällig lagring ska märkas på annat sätt så att inga misstag sker när de ska gallras bort (se kapitel 3.5.2). Lämpliga metoder för att skydda det lagrade materialet beslutas av ITS (lagringsmiljö, otillåten åtkomst, backup, kopiering, virusskydd osv.). 3.6.8 Metadata För att människor ska kunna använda och förstå det lagrade materialet även efter att en lång tid har passerat behövs en hel del dokumentation. Metadata brukar beskrivas som data om data och att den finns och är läsbar är en förutsättning för framtida användning. Viss metadata om insamlingen kommer automatiskt att tillföras i WARC-filerna, t.ex. vilken programvara och version som användes för insamlingen, vilken URL som crawlingen startade från, när körningen gjordes osv. I de ingående filerna finns viss typ av metadata, som filnamn och filformat. Heritrix skapar också loggar och rapporter i enkla textfiler (separat, ej i WARC) som kan användas för att ta reda på exempelvis antal jpeg-filer som samlades in. Annan metadata behöver tillföras manuellt. Det som behöver medfölja är minst detta: 24 Statens arkiv: http://www.statensarkiv.se/default.aspx?ptid=1495&id=18291 (RA-FS 2009:1) - 17 -
Om LTU:s uppdrag Kort om LTU:s historia och uppdrag: vilka uppgifter ansvarar organisationen för? Hur är man organiserad? Hur har LTU utvecklats/förändrats över tiden? Om LTU:s webbplats Beskriv LTU:s webbplats kort. Vad är syftet med den? Hur används den och av vem? Vilken funktionalitet finns? Vilka typer av objekt? Används formulär? Var och hur? Var tas information från databaser in på webbplatsen och var finns databasen bevarad? I nuläget analyseras användandet av LTU:s webbplats med verktyget Google Analytics. Vid tiden för varje insamling rekommenderas att en rapport tas ut ur verktyget, en rapport som ger information om webbplatsens användning och användare, exempelvis hur många gånger sidorna har visats och hur länge besökare stannat på webbplatsen. Denna information bör lagras tillsammans med webbfilerna. Informationen måste hållas aktuell och fyllas på vid behov, som när större förändringar har skett på LTU som organisation eller på webbplatsen. Tidigare information ska inte tas bort, utan dokumentet ska enbart utökas med den nya informationen. Spara textdokument i lämpligt format, just nu (år 2009) anses framför allt PDF/A-1 och XML lämpliga för ett syfte som detta. 3.6.9 Kontroll av nedladdade filer Oavsett metod och verktyg för insamling kan det uppstå fel, exempelvis beroende på att verktyget inte fungerar som det ska eller på en felaktigt gjord inställning. För att upptäcka sådant så fort som möjligt krävs det en rutin för att kontrollera varje nedladdning så snart den är gjord så att man vid behov kan starta en ny insamling när fel har upptäckts. Två typer av kontroll behöver göras: dels att allt material har kommit med vid insamlingen och dels att sidorna går att se samt att navigeringen mellan sidorna fungerar. De olika typer av länkar som finns, som textlänkar, drop-down menyer och knappar, bör alla kontrolleras. Undersök också att det fungerar att följa navigeringen nedåt i de olika nivåerna samt att länkarna verkligen leder till de insamlade filerna och inte ut till material som ligger publicerat på nätet. På webbplatser som består av tusentals separata filer är det orealistiskt att kunna kontrollera allt utan man får förlita sig till att göra stickprov. För att göra den första typen av kontroll, om allt material har kommit med vid insamlingen, förutsätts att man vet hur stor webbplatsen är. Storleken kan räknas antingen i byte eller i antal filer. En testinsamling som gjordes av LDBcentrum under våren 2009 visade att 12.001 filer samlades in från domänen www.ltu.se. Kontrollera att de olika filtyper som används fungerar på rätt sätt: att text bevaras i rätt form så att även tecken som svenskans å,ä och ö, och eventuella matematiska tecken eller andra specialtecken är läsbara, att de olika bildformat som finns alla kan ses och att video och/eller ljudfiler är möjliga att spela upp. Om webbplatsen länkar till dokument i format som till exempel Microsoft Word (rekommenderas ej) eller PDF, kontrollera att de har fångats in och kan öppnas och läsas. På LTU:s webbplats finns en söktjänst där användaren kan söka efter ett specifikt ord och om det ordet hittas få en träff med länk till sidan. Sådana söktjänster fungerar inte efter insamling, - 18 -
något som man bör vara medveten om och som tillsammans med övrigt urval av delar/funktionalitet bör klargöras i beskrivningen av webbplatsen under sektion 3.6.8. LTU måste ta beslut i följande frågor: Vem är ansvarig för kontrollerna på den inscannade webbplatsen? Hur snart efter insamling ska tester utföras? Ska stickprov göras slumpmässigt eller bör speciella testfall skrivas som ska följas vid varje kontrollsituation? Vilka filformat finns på webbplatsen? Hur stor är webbplatsen, i byte och i antal filer? Vad ska göras om fel upptäcks? 3.7 Modell för bevarande Varje organisation som ska börja samla in sin webbplats med syfte att bevara den för lång tid framåt måste ta egna beslut om frågorna i föregående kapitel. Det innebär däremot inte att organisationen själv också måste utföra det praktiska arbetet. Vi ser tre möjliga upplägg: Allt arbete görs internt inom organisationen Samarbete mellan flera organisationer Arbetet utförs av ett externt företag Alla tre har sina för- och nackdelar, något som kan läsas om i CODA-WEBB:s slutrapport 25. Det är också möjligt att kombinera dessa tre så att visst arbete utförs av organisationens egen personal medan andra delar utförs av externa företag eller i samarbete med andra. För LTU som har en egen IT-avdelning rekommenderar vi att den, tillsammans med enheten arkiv och registratur samt objektägare för webben, ansvarar för alla aktiviteter som berör webbarkiveringen. 3.7.1 Ansvarsområden Från LDB-centrums sida menar vi att arbetsuppgifterna bör utföras av följande roller: Installation ITS utvärderar LDB-centrums förlag till teknisk lösning och väljer det mest lämpliga ITS installerar de verktyg som krävs samt avgör var lagring fysiskt ska ske samt tillser att sedvanliga backup-rutiner m.m. även gäller för detta material ITS anpassar/konfigurerar verktygen och kör en provinsamling samt utvärderar denna ITS ger personal på AoR tillgång och behörighet till verktyg och hårdvara där arkiverade webbplatser bevaras ITS utbildar personal på AoR i hur de ska utföra stickprovskontroll efter varje crawling och hur de kan söka i materialet när så behövs Rutin för insamling av webbsidor Webbansvarig meddelar ITS om ev. nya seeds (t.ex. nya centrumbildningar) Personal från ITS initierar insamling genom att schemalägga crawling De digitala filerna lagras i Fedora, en mapp per insamlingsomgång 25 Kan laddas ner på LDB-centrums webbplats: http://www.ldb-centrum.se - 19 -
Varje mapp namnges med datum samt om insamlingen gäller den fulla webbplatsen eller om det är en delinsamling av ett mindre antal sidor Personal på AoR kontrollerar varje insamling genom stickprov, att innehållet visas rätt och att länkar fungerar m.m. Om fel upptäcks ska den ansvariga för kontrollen meddela detta till ITS som därefter ska starta en ny insamling så fort som möjligt AoR utför gallring av tillfälligt lagrade sidor efter den tid som beslutats om, alternativt ansvarar för att beställa detta av ITS Om problem kan antas bero på användande av specifika filformat ska personal på AoR informera objektägaren för webben (alt liknande befattning) om detta. 3.7.2 Handlingsplan I de olika kapitlen i denna rapport finns ett stort antal frågor som varje organisation behöver besvara inför arbetet med att börja samla in och bevara sin webbplats. De beslut som tas ska dokumenteras och diskussionerna inför besluten förklaras. Vilka valmöjligheter som fanns och varför man tog vissa beslut kan förklara för framtida beslutsfattare som ska uppdatera handlingsplanen. Handlingsplanen ska även innehålla den information som nu finns i bilaga 2. Riksarkivets nya föreskrifter och allmänna råd om elektroniska handlingar (RA-FS 2009:1) 26 betonar också att det är viktigt att upprätta en strategi för hur elektroniska handlingar ska bevaras. Av strategin ska framgå vilka åtgärder man avser att vidta, att dessa åtgärder ska dokumenteras och att strategin fortlöpande ska kompletteras och hållas aktuell. Det sägs också att myndigheter bör samråda med arkivmyndigheten vid planering av system och rutiner. Vidare i RA-FS 2009:1 beskrivs syftet med dokumentationen, dess omfattning och innehåll, att den fortlöpande ska kompletteras och hållas aktuell samt att sambandet mellan elektroniska handlingar och dokumentation ska upprätthållas över tid. Vi ser RA-FS 2009:1 som en lämplig utgångspunkt för en organisation som ska börja utforma sin bevarandestrategi och tillhörande bevarandeplan. Viktigt är också att samtliga uppgifter som rör webbplatsens aktiviteter och övervakning har en ansvarig person och att denne person även vet hur han eller hon ska agera när någonting inte går enligt planerna. Ett exempel på detta är diskussionen i kapitel 3.6.9 om hur de insamlade filerna ska kontrolleras och hur ansvarig ska agera om någonting inte har fungerat som det borde. Handlingsplanen bör dels finnas i digital form tillsammans med de insamlade filerna och dels i pappersformat där det även framgår var de digitala filerna finns lagrade och hur man hittar bland dem. Den digitala versionen bör också den lagras i lämpligt filformat (t.ex. PDF/A-1) för att försäkra sig om att den går att läsa i framtiden. 3.8 Hur säkerställs bevarande på lång sikt? Digitalt bevarande inbegriper alla de aktiviteter som krävs för att försäkra sig om att digitala filer kan tillgängliggöras så länge det finns behov av det. Det innebär aktiviteter som planering, insamling, dokumentation, lagring, tillgängliggörande, resursallokering, val och 26 Statens arkiv: http://www.statensarkiv.se/default.aspx?ptid=1495&id=18291 (RA-FS 2009:1) - 20 -