Kulturarw! Insamling och bevarande av elektroniska dokument eller, att bevara världsvida väven /kw3
Innehåll Bakgrund Kulturarw 3 mål strategi Sverige på webben? Insamlingsrobot robotmjukvara flödesdiagram att hitta länkar (parsa) utmaningar Statistik Vad är Sverige? filtyper Arkivet mål prioritet förvaring vad vi sparar Utveckling IIPC verktyg, format Autenticitet ett problem En fråga Sammanfattning
Bakgrund Pliktleveranslag sedan, 1661 Senaste revisionen 1993 elektroniska dokument I fixt format CD-Rom, DVD, disketter etc. Lagen ger oss ingen möjlighet att samla in digitala objekt från internet. Ny förordning 1 juli 2002, (2002:287) KB får samla in material. Materialet får visas endast på KB. Första tryckta tidningen förlorad tryckta tidningar sedan 1645 Kulturarw 3 startade sin insamling sommaren 1996 Kulturarw3 robotinsamling av svenska webben (en ögonblicksbild, ej komplett) Avtal om frivilliga leveranser (leverantörer bestämmer vad som levereras/bevaras, kvalitetskontroll)
Mål All svenska webbsidor Bilder, ljud, video etc..se,.nu och svenskt material på andra toppdomäner (webbserverns geografiska hemvist) Suecana (utländskt material av svenskt intresse) All artiklar i elektroniska journaler (alla svenska nyhetsgrupper /epostlistor) Gränsdragningar gentemot RA (Riksarkivet) och SLBA (Statens ljud- och bildarkiv) www.ra.se/ www.slba.se/
Strategi Så lite mänsklig inblandning som möjligt. Ögonblicksbilder svep över webben ett par gånger om året. Hämta allt Mindre arbetskrävande Lagringsmedia (datorminne) relativt billigt nackdel: stora volymer, kvalitetskontroll svår Riktad insamling (också ögonblicksbilder) Ca 170 dagstidningar (DN ca 1000 url OM DAGEN) Framtiden Händelser (valrörelsen, nobelprisutdelningar, Svenskt EU-ordförandeskap)
Sweden på nätet? http:///kbstart.htm Endast domändelen relevant se nu, Niue poulärt i Sverige Andra: Server placerad i Sverige eller svensk ägare? com, org, net, andra landskoder
Robot, mjukvara En robot samlar in webbsidor genom att automatiskt följa länkar och spara ner sidorna. Sedan svep nr 14: öppen källkod: webbspindel Heritrix - Väsentligen utvecklad av Internet Archive (IA, www.archive.org) - Skriven i Java. Relativt stor grupp användare. - Designad för webb-insamling (omfattar även arkivering. inte indexering). Dessförinnan: Modifierad version av Combine - Robot-mjukvara (NetLab, Lunds universitet). - Insamling av webbsidor, genom automatically följa hypertext-länkar. Viktigt! Indexering är inte arkivering och arkivering är verkligen inte indexering! Samlar in allt : ljud, bilder, stylesheet etc.
Förenklat flödesschema, webbrobot Inbox with list of URLs to be harvested List of URLs Distribute URLs New URLs Harvesting threads Archived data Process log Log with new links Swedish.com, net and.org URLs already processed
Att hitta länkar; parsing fictive webpage:/index.html Royal Library of Sweden <html> <body background= whitemarble.jpg > </body> <head> <img src= http:///logo.gif > relativ länk <h1>royal Library of Sweden</h1> <p> Click on this <a href= address.html >link</a> to see our visitors addresses. <p> </head> </html> Two!! Three!!! One! Parsning klart! relativ länk Click on this link to see our visitors adresses absolut länk /whitemarble.jpg /logo.gif /address.html
Utmaningar (i alla fall några av dem) eller problem för pessimisten script dynamiska webbsidor användaranpassning interaktiva sidor
Sverige, vad är det? Bulk 17 svep (ett 18:e snart klart, 40 MURL hittills) Insamlingsperiod: 1997-03-24 ca 900 MURL ca 25,0 TByte (5,4 GByte ever day) 1,7 filer/s (148 k/dag) sedan start. Varje enskild fil i snitt 50kByte Periodica Nästan 2000 dagliga svep sedan juni 2002 över 35 MURL ca 3 TByte ca 40 kurl/dag
Sverige? Bulk (siffror från 2006) 823 100 webbplatser (varav 651 700 svenska ) 323 900 (39 %).se 183 900 (22 %), com, org, net 142 700 (17 %), andra länder (Niue,.nu) 1 200 (0,15 %), IP-adresser Pliktleverans till KB Tryckt material: 2 hyll-km/år Minst 10 gånger mer på Internet. 1549 olika MIME-typer/format. text/html + image/gif + image/jpeg + appl/pdf + text/plain utgör 97% av de insamlade filerna. Många lika trots olika namn, en del skräp. Trend: appl/pdf ökar, text/plain minskar sin relativa andel.
Statistik (ett exempel) Från varvet som slutfördes i december 2005: 81.2 MURL 45.9M html 21.9M jpeg 9.22M gif 1.36M pdf (ökar) 0,46M plain text (minskar) Ovanstående representerar ca 97% av det insamlade materialet.
Arkivet Skapa kopior av den svenska webben (jfr indexeringstjänster som google) Alla utgåvor av elektroniska tidskrifter Spara för framtiden lättillgänglig
Arkivet; prioriteringar Första prioritet är åtkomst via de vanliga webbmetoderna; Surfa, i rymd och tid Textsökning Obs, liten tonvikt på traditionella biblioteksmetoder som katalogisering.
Nu: 900 M filer 30 Tbytes med data 825 000 webbservrar Arkivet; förvaring Grupperar webbservrar tillsammans. Sparas på disk och magnetband mha HSM. (HSM: Data på magnetband, endast till disk när så behövs). Förhoppningsvis hela arkivet på disk inom kort! pris hastighet Disk Magnetband HSM = Hierarchical Storage Management
Arkivet; vad vi sparar Allting förknippat med ett objekt, inkl. metadata, sparas i en fil) Metadata från insamlingsprocessen (roboten) Metadata om objektet (från server) En enhet (fil) i arkivet Objektet (i ursprunglig form)
Authenticity Is it possible to show historic pages from the internet? Nice home page with linked documents (pictures etc) old Picture has changed new W h i c h v e r s i o n i s c o r r e c t? Time: round 1 round 2 time
Utveckling IIPC Samarbete mellan Internet Archive and olika Nationalbibliotek; Nordiska länderna, GB, Frankrike, Italien, Kanada, Australien and USA (Libray of Congress) Utveckla gemensamma standarder, verktyg och metoder för weebbarkivering. Öka medvetandet om webbarkivering och dess förutsättningar IIPC I avslutat (första 3 åren klara). IIPC 2: pågår.
Utveckling, standarder Webbarkivformat Tidigare format (används fortfarande) MIME (Multipart Mail Extension) ARC NedLib WARC (Web ARChive file format) Förslag. Nytt format för att spara webbsidor Utveckling inom IIPC, IA Ansökan om att bli ISO standard.
Utveckling, verktyg Verktyg Webbrobot: Heritrix Byggd endast för arkivering (INTE en modifierad indexerare) Öppen källkod: Java, Linux etc. Stöds av IIPC Byggd av Internet Archive med bidrag från övriga Kommer stöda WARC. Stöder ARC och MIME Surfverktyg Ny Wayback Machine WERA (surfa med en tidslinje) WAXToolbar (hjälpmedel för nya WM) NutchWax Fritextsindexering (med tidslinje) Curator tool Möjlighet för icke-tekniker att sköta och kvalitetskontrollera en insamling
Långsiktigt bevarande Arkivmyndigheterna samarbetar (bl.a. med): LDB: Centrum för långsiktigt bevarande (Luleå tekniska universitet) KB Ny avdelning, Digitala biblioteket Produktion Utveckling Digitalt repository för olika typer av elektroniskt material Kulturarw3 Egenproducerat material (digitalisering/skanning) Digitala leveranser i fix form Författararkiv Kulturarw3 För närvarande. Två bandkopior. En i bandrobot (HSM), en lagrad utanför roboten Framtiden: Två kopior + allt på server. Migrering? Emulering?
Sammanfattning Webben ändras ständigt! kontinuerlig utveckling. Men, trots allt möjligt att få en hyfsad bild av webben. Dock aldrig komplett. Måste göra någonting nu!
En fråga Vad arkiverar vi? Magnetband? Bits and bytes? Det intellektuella innehållet?
Questions? Comments????
Länkar Internet Archive: www.archive.org Kulturarw3: / IIPC: www.netpreserve.org PADI: www.nla.gov.au/padi/
Kontakta oss! http:// Krister Persson, krister.persson@kb.se Oskar Grenholm, oskar.grenholm@kb.se Allan Arvidson, allan.arvidson@kb.se Kungl. Biblioteket, National Library of Sweden Humlegården, Stockholm