världsvida väven www.kb.se

Relevanta dokument

Kulturarw 3 SVENSKA WEBBEN BEVARANDE & TILLGÄNGLIGGÖRANDE #FAI2016

Hur tänker KB ta hand om högskolornas e-publikationer?

LDB-Centrum. Centrum för Långsiktigt Digitalt Bevarande. Östen Jonsson. Liten insats stor nytta

Statistik från webbplatser

Testplattformen (Webbarkivering)

Råd för hantering av elektroniska handlingar vid Lunds universitet. Datum Författare Version Anne Lamér 1.0

Fackföreningsrörelsens digitala omvandling. Att bevara organisationsmaterial i den digitala tidsåldern

Statistik från webbplatser

Samverkan och nätverk inom ABM-området. Infrastruktur i samverkan. 11 november Gunnar Sahlin.

E-plikten. Expertgruppen för metadata 20 maj

Riktlinjer och mål för digitaliseringsarbete

Digitala fotografier

Webbservrar, severskript & webbproduktion

archive En produkt från ida infront - a part of Addnode

Förslag till instruktioner för teknisk redovisning av underlag för mediestöd

Metadata i e-pliktleveranser

Insamlingsverktyg - teknisk beskrivning av metadataformuläret

Uppdrag att utreda frågan om skyldighet att till myndighet leverera publicerat elektroniskt material som överförs via nätverk

Stadsarkivets anvisningar 2011:1 Hantering av allmänna e-handlingar som ska bevaras i Uppsala kommun

Teoretiska överväganden kring långsiktig lagring av elektronisk information

Introduktion till metadata i leveranser av elektroniska dokument till KB

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET

Carl-Oscar Hermansson WEBB DESIGN

archive En produkt från Ida Infront - a part of Addnode Group

Arkivet föreningens bästa minne

Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08.

Repetition. Hypertext. Internet HTTP. Server och klient Text försedd med länkar till andra texter. Många sammankopplade nät

Repetition. Hypertext. Internet HTTP. Server och klient Föreläsning 2. Text försedd med länkar till andra texter. Många sammankopplade nät

(reviderad , , ) Riksarkivet IT-avdelningen. Anvisningar för ifyllning av Excelark för webbleveranser

Webbprogrammering. Sahand Sadjadee

Vad är MoReq1? Falk Sundsvall 2006

E-plikt och metadata.

E-PLIKT E-PLIKT FÖR GÖTEBORGS UNIVERSITET

Mattias Wiggberg 1. Orientera på Internet. IP-adress. IP-adresserna räcker inte... Mer om IP-adresser

Labora&on 7 Syfte med laborationen:

Manual för Typo3 version 4.2

Hantering av verksamhetsinformation

Webbsidor och webbservrar

WWW. Exempel på klientsidan. Överföring av en html-fil. Snyggare variant. Verkligt format. Meddelandeformat för begäran HTTP

Introduktion till programmering

Nätet. Uppgiften. Nivå

Digital arkivering i Örebro kommun - riktlinjer

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Översättning av galleriet. Hjälp till den som vill...

Christer Scheja TAC AB

Riktlinjer för digital slutarkivering

Varför göra digitala årsredovisningar? Varför göra digitala årsredovisningar?

Arbeta med Selected Works en lathund

Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5

Open Access i Sverige

FOLKBILDNINGENS DIGITALA ARKIV Vad behöver göras?

<header> </header> <footer> </footer>

Arkivering av internetpublicerade videogram för bevarandet av det svenska kulturarvet. M A R A C U S M Å L S Ä T E R o c h R A G N A R S C H Ö N

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion

Ta hand om föreningens bästa minnen

Webbregistrering pa kurs och termin

Personalträff Naturrum Tåkern och Ödeshögs lokalhistoriska arkiv

ALEPH ver. 18 ALEPH Digital Asset Module (ADAM)

Hur hänger det ihop? För att kunna kommunicera krävs ett protokoll tcp/ip, http, ftp För att veta var man skall skicka

GAME OVER, PLAY AGAIN? OM BEVARANDE AV DATORSPEL PÅ KUNGLIGA BIBLIOTEKET

Att göra en modern släktbok för CD och webb med Disgen

FALK 06 Sundsvall Från verksamhetsanalys till dokumentplan. T Sahlén

Materialspecifikationer webb 2014

Offertförfrågan för ny webbplats svenskscenkonst.se samt socialt forum

Denna Sekretesspolicy gäller endast för webbsidor som direkt länkar till denna policy när du klickar på "Sekretesspolicy" längst ner på webbsidorna.

Materialspecifikation för alla Portalens mässajter

WEBB PRODUKTION. Publicering av stora webbplatser Thomas Mejtoft. Thomas Mejtoft

Datakommunika,on på Internet

Arkivering av sociala medier. från aktivism till allmänna handlingar tankar om varför och exempel på hur

Gäller fr om och tills vidare

Installationsanvisningar VisiWeb. Ansvarig: Visi Closetalk AB Version: 2.3 Datum: Mottagare: Visi Web kund

Val av format för elektroniska handlingar - ArkivE. Nora Liljeholm / Riksarkivet /

Språk för webben introduk4on 4ll HTML

Nu tar vi arkiven till en ny digital nivå - slutrapport Författare: projektledare Johan Eriksson

ESSArch vid Riksarkivet i Sverige

DP1 och DP2. Stefan Andersson, Eva Müller Enheten för digital publicering, Uppsala universitetsbibliotek.

Anvisningar för teknisk redovisning inför ansökan om mediestöd

4. Skrivmaterial och informationslagring. Innehållsförteckning ARKIVHANDBOK Landstingsarkivet

Intresseanmälan för att lämna anbud på digitaliseringsrobot till Kungl. biblioteket

E-plikt för kommuner och myndigheter

Manual FIL-ip version 1.0

Stefan Andersson SVEP. Övergripande mål - SVEP. Harmonisering av metadatabeskrivningar för elektroniskt publicerade dokument

Artiklar via UB:s sö ktja nst

Materialspecifikationer

Inspektion av arkivvården vid Örebro tingsrätt

Domän/DNS Hemsidor Mailadmin Nyhetsbrev Webbhotell Webbshop

Kort om World Wide Web (webben)

Att bygga enkla webbsidor

Manual för Typo3 version 4.04

Introduk+on +ll programmering i JavaScript

HANDLÄGGNINGSORDNING FÖR HANTERING AV SJÄLVSTÄNDIGA ARBETEN

Bevarande av webbsidor

Webbpublicering. Teknikintroduktion 1 Jody Foo (jodfo@ida.liu.se)

Tillämpad programmering CASE 1: HTML. Ditt namn

ATT GÖRA WEBBSIDOR. Frivillig labb

Riktiga Vykort Partner webb Teknisk beskrivning

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Transkript:

Kulturarw! Insamling och bevarande av elektroniska dokument eller, att bevara världsvida väven /kw3

Innehåll Bakgrund Kulturarw 3 mål strategi Sverige på webben? Insamlingsrobot robotmjukvara flödesdiagram att hitta länkar (parsa) utmaningar Statistik Vad är Sverige? filtyper Arkivet mål prioritet förvaring vad vi sparar Utveckling IIPC verktyg, format Autenticitet ett problem En fråga Sammanfattning

Bakgrund Pliktleveranslag sedan, 1661 Senaste revisionen 1993 elektroniska dokument I fixt format CD-Rom, DVD, disketter etc. Lagen ger oss ingen möjlighet att samla in digitala objekt från internet. Ny förordning 1 juli 2002, (2002:287) KB får samla in material. Materialet får visas endast på KB. Första tryckta tidningen förlorad tryckta tidningar sedan 1645 Kulturarw 3 startade sin insamling sommaren 1996 Kulturarw3 robotinsamling av svenska webben (en ögonblicksbild, ej komplett) Avtal om frivilliga leveranser (leverantörer bestämmer vad som levereras/bevaras, kvalitetskontroll)

Mål All svenska webbsidor Bilder, ljud, video etc..se,.nu och svenskt material på andra toppdomäner (webbserverns geografiska hemvist) Suecana (utländskt material av svenskt intresse) All artiklar i elektroniska journaler (alla svenska nyhetsgrupper /epostlistor) Gränsdragningar gentemot RA (Riksarkivet) och SLBA (Statens ljud- och bildarkiv) www.ra.se/ www.slba.se/

Strategi Så lite mänsklig inblandning som möjligt. Ögonblicksbilder svep över webben ett par gånger om året. Hämta allt Mindre arbetskrävande Lagringsmedia (datorminne) relativt billigt nackdel: stora volymer, kvalitetskontroll svår Riktad insamling (också ögonblicksbilder) Ca 170 dagstidningar (DN ca 1000 url OM DAGEN) Framtiden Händelser (valrörelsen, nobelprisutdelningar, Svenskt EU-ordförandeskap)

Sweden på nätet? http:///kbstart.htm Endast domändelen relevant se nu, Niue poulärt i Sverige Andra: Server placerad i Sverige eller svensk ägare? com, org, net, andra landskoder

Robot, mjukvara En robot samlar in webbsidor genom att automatiskt följa länkar och spara ner sidorna. Sedan svep nr 14: öppen källkod: webbspindel Heritrix - Väsentligen utvecklad av Internet Archive (IA, www.archive.org) - Skriven i Java. Relativt stor grupp användare. - Designad för webb-insamling (omfattar även arkivering. inte indexering). Dessförinnan: Modifierad version av Combine - Robot-mjukvara (NetLab, Lunds universitet). - Insamling av webbsidor, genom automatically följa hypertext-länkar. Viktigt! Indexering är inte arkivering och arkivering är verkligen inte indexering! Samlar in allt : ljud, bilder, stylesheet etc.

Förenklat flödesschema, webbrobot Inbox with list of URLs to be harvested List of URLs Distribute URLs New URLs Harvesting threads Archived data Process log Log with new links Swedish.com, net and.org URLs already processed

Att hitta länkar; parsing fictive webpage:/index.html Royal Library of Sweden <html> <body background= whitemarble.jpg > </body> <head> <img src= http:///logo.gif > relativ länk <h1>royal Library of Sweden</h1> <p> Click on this <a href= address.html >link</a> to see our visitors addresses. <p> </head> </html> Two!! Three!!! One! Parsning klart! relativ länk Click on this link to see our visitors adresses absolut länk /whitemarble.jpg /logo.gif /address.html

Utmaningar (i alla fall några av dem) eller problem för pessimisten script dynamiska webbsidor användaranpassning interaktiva sidor

Sverige, vad är det? Bulk 17 svep (ett 18:e snart klart, 40 MURL hittills) Insamlingsperiod: 1997-03-24 ca 900 MURL ca 25,0 TByte (5,4 GByte ever day) 1,7 filer/s (148 k/dag) sedan start. Varje enskild fil i snitt 50kByte Periodica Nästan 2000 dagliga svep sedan juni 2002 över 35 MURL ca 3 TByte ca 40 kurl/dag

Sverige? Bulk (siffror från 2006) 823 100 webbplatser (varav 651 700 svenska ) 323 900 (39 %).se 183 900 (22 %), com, org, net 142 700 (17 %), andra länder (Niue,.nu) 1 200 (0,15 %), IP-adresser Pliktleverans till KB Tryckt material: 2 hyll-km/år Minst 10 gånger mer på Internet. 1549 olika MIME-typer/format. text/html + image/gif + image/jpeg + appl/pdf + text/plain utgör 97% av de insamlade filerna. Många lika trots olika namn, en del skräp. Trend: appl/pdf ökar, text/plain minskar sin relativa andel.

Statistik (ett exempel) Från varvet som slutfördes i december 2005: 81.2 MURL 45.9M html 21.9M jpeg 9.22M gif 1.36M pdf (ökar) 0,46M plain text (minskar) Ovanstående representerar ca 97% av det insamlade materialet.

Arkivet Skapa kopior av den svenska webben (jfr indexeringstjänster som google) Alla utgåvor av elektroniska tidskrifter Spara för framtiden lättillgänglig

Arkivet; prioriteringar Första prioritet är åtkomst via de vanliga webbmetoderna; Surfa, i rymd och tid Textsökning Obs, liten tonvikt på traditionella biblioteksmetoder som katalogisering.

Nu: 900 M filer 30 Tbytes med data 825 000 webbservrar Arkivet; förvaring Grupperar webbservrar tillsammans. Sparas på disk och magnetband mha HSM. (HSM: Data på magnetband, endast till disk när så behövs). Förhoppningsvis hela arkivet på disk inom kort! pris hastighet Disk Magnetband HSM = Hierarchical Storage Management

Arkivet; vad vi sparar Allting förknippat med ett objekt, inkl. metadata, sparas i en fil) Metadata från insamlingsprocessen (roboten) Metadata om objektet (från server) En enhet (fil) i arkivet Objektet (i ursprunglig form)

Authenticity Is it possible to show historic pages from the internet? Nice home page with linked documents (pictures etc) old Picture has changed new W h i c h v e r s i o n i s c o r r e c t? Time: round 1 round 2 time

Utveckling IIPC Samarbete mellan Internet Archive and olika Nationalbibliotek; Nordiska länderna, GB, Frankrike, Italien, Kanada, Australien and USA (Libray of Congress) Utveckla gemensamma standarder, verktyg och metoder för weebbarkivering. Öka medvetandet om webbarkivering och dess förutsättningar IIPC I avslutat (första 3 åren klara). IIPC 2: pågår.

Utveckling, standarder Webbarkivformat Tidigare format (används fortfarande) MIME (Multipart Mail Extension) ARC NedLib WARC (Web ARChive file format) Förslag. Nytt format för att spara webbsidor Utveckling inom IIPC, IA Ansökan om att bli ISO standard.

Utveckling, verktyg Verktyg Webbrobot: Heritrix Byggd endast för arkivering (INTE en modifierad indexerare) Öppen källkod: Java, Linux etc. Stöds av IIPC Byggd av Internet Archive med bidrag från övriga Kommer stöda WARC. Stöder ARC och MIME Surfverktyg Ny Wayback Machine WERA (surfa med en tidslinje) WAXToolbar (hjälpmedel för nya WM) NutchWax Fritextsindexering (med tidslinje) Curator tool Möjlighet för icke-tekniker att sköta och kvalitetskontrollera en insamling

Långsiktigt bevarande Arkivmyndigheterna samarbetar (bl.a. med): LDB: Centrum för långsiktigt bevarande (Luleå tekniska universitet) KB Ny avdelning, Digitala biblioteket Produktion Utveckling Digitalt repository för olika typer av elektroniskt material Kulturarw3 Egenproducerat material (digitalisering/skanning) Digitala leveranser i fix form Författararkiv Kulturarw3 För närvarande. Två bandkopior. En i bandrobot (HSM), en lagrad utanför roboten Framtiden: Två kopior + allt på server. Migrering? Emulering?

Sammanfattning Webben ändras ständigt! kontinuerlig utveckling. Men, trots allt möjligt att få en hyfsad bild av webben. Dock aldrig komplett. Måste göra någonting nu!

En fråga Vad arkiverar vi? Magnetband? Bits and bytes? Det intellektuella innehållet?

Questions? Comments????

Länkar Internet Archive: www.archive.org Kulturarw3: / IIPC: www.netpreserve.org PADI: www.nla.gov.au/padi/

Kontakta oss! http:// Krister Persson, krister.persson@kb.se Oskar Grenholm, oskar.grenholm@kb.se Allan Arvidson, allan.arvidson@kb.se Kungl. Biblioteket, National Library of Sweden Humlegården, Stockholm