Kulturarw 3 SVENSKA WEBBEN BEVARANDE & TILLGÄNGLIGGÖRANDE #FAI2016 När: Tisdag 25:e oktober 2016 14:00-14:45 Vem: 1 Daniel Jansson Var: Konferens informationsförvaltningen 2016
Kungliga biblioteket historia Pliktleveranser av tryckt material sedan 1661 - Uppdaterades 1993 endast elektroniska dokuments i fixt format CD-ROM, disketter Pliktleveranser av audiovisuella medier sedan 1979 Första Svenska webbtidningen förlorad Kulturarw 3 startade sommaren 1996 E-plikt sedan 1:a januari 2015
Då Mål Alla webbsidor i Sverige - bilder, video mm. -.se,.nu och svenskt material under andra Top Level Domains - Suecana (utländskt material av svenskt intresse)
Då Strategi Med så liten mänsklig inblandning som möjligt. Ta ögonblicksbilder över svenska webben ett par gånger om året. - Får allt - Mindre arbetskrävande - Datorminne är billigt - Nackdel: stora volymer gör kvaliteskontrollen svår Sedan juni 2002 Selektiv insamling (också ögonblicksbilder) Cirka 150 dagstidningar varje dag,
! Sverige på webben? http://www.kb.se/kbstart.htm Endast domännamnet relevant.se.nu, Niue populär här i Sverige Andra: Om servern stationerad i Sverige eller svensk ägare till domänen
! Sverige på webben? WebDanica project Tested Different Methods Internet Archive method IA-data World wide collection 2012 Wide0005 NetArchive Link method NL-data Outlinks from Danish broad crawl 2012 Very few common results IA results Find Danish webpages 0 NL results Host: 1. part of URL http://abc.xx/def/ghi/... Both in IA and NAL 2.014 Only in IA 43.185 Only in NL 46.552 General implementation covering more methods Looking Back, Looking Forward: New Strategies for Coverage of a National Web Sphere IIPC 2016, Reykjavik, Iceland 8 Eld Zierau, The Royal Library of Denmark
Hur En robot samlar in webbsidor genom att automatiskt följa länkar och spara ner sidorna. Svep: Open-source robot, Heritrix - Huvudsaklig utveckling av Internet Archive (IA) - Skriven i Java. Stor användargrupp. - Uttryckligen designad för webbinsamling (inte indexering). Viktigt! Indexering är inte arkivering och arkivering är inte indexering! Samlar också in bilder, ljud mm.
Hur Flödesdiagram, webbroboten Inbox with list of URLs to be harvested List of URLs Distribute URLs New URLs Harvesting threads Archived data Process log Log with new links URLs already processed
Hur Hitta länkar; parsning <html> <body background= whitemarble.jpg > </body> <head> <img src= http://www.kb.se/logo.gif > <h1>royal Library of Sweden</h1> <p> Click on this <a href= address.html >link</a> to see our visitors addresses. <p> </head> </html> Parsning klar! relativ länk absolut länk www.kb.se/whitemarble.jpg www.kb.se/logo.gif www.kb.se/address.html relativ länk
Nu Hur mycket som samlats in Antal objekt: 5 000 000 000 Antal bytes: 350 TB Varv Namn Antal filer Storlek 1 2010-1 240 866 031 9.45 TB 2 2013-1 717 887 978 53.92 TB 3 2013-2 844 741 844 67.78 TB 4 2014-1 702 393 955 59.78 TB 5 2014-2 678 218 510 63.93 TB
Nu Hur mycket som samlats in Antal objekt: 5 000 000 000 Antal bytes: 350 TB Kan Varv jämföras Namn med alla Antal samlade filer svep Storlek för perioden 1997-03-24 2005-11-23-469 1 miljoner 2010-1 URL:er 240 866 031 9.45 TB - 17,0 2 TB2013-1 717 887 978 53.92 TB 3 2013-2 844 741 844 67.78 TB 4 2014-1 702 393 955 59.78 TB 5 2014-2 678 218 510 63.93 TB
Nu Vad görs nu Ta fram tre huvudspår Att göra en årlig insamling i KW 3 -bulk Att fler typer av webbplatser samlas in enligt samma modell som KW 3 -dagstidningar Massmedia KIA-/SiS-index Riktad insamling vid särskilda händelser
Nu Vad görs nu Uppdatera robotprogramvaran till NetarchiveSuite och Heritrix 3.2 Sluta respektera robots.txt-filer Wayback Machine för tillgängliggörande Knyta samman Kulturarw 3 med e-plikten
Framtiden Kulturarw 3 & e-plikt
Framtiden Kulturarw 3 & e-plikt
Kulturarw 3 robotinsamling & Premium- material & $ # " %
E-plikt METADATA "#$%METADATA & Premium- material & $ # " %
http://libris.kb.se/bib/19433251
18
18
Version 1 19
Version 2 20
Version 3 21
Version 4 22
Nu E-plikt + Fler versioner + Premium material (material bakom betalväggar) + Bättre sökbarhet + Mer och bättre metadata - Kan sakna kontext - Avgränsad vid vilka som omfattas
Nu E-plikt + Fler versioner ' + Premium material (material bakom betalväggar) + Bättre sökbarhet + Mer och bättre metadata - Kan sakna kontext - Avgränsad vid vilka som omfattas KW 3 :s styrkor
Webb 2.0
Webb 2.0 och annonser DN 1933 DN 1980 SvD 1926
Webb 2.0 och annonser
Webb 2.0 och annonser
Headless browsing Insamling av Web 2.0 (a) The live resource at URI-R http: //www.truthinshredding.com/ loads A, B, and C via JavaScript. (b) Using PhantomJS, the advertisement (B) and video (C) are found but the account frame (A) is missed. (c) Using Heritrix, the embedded resources A, B, and C are missed. Figure 1: Neither archival tool captures all embedded resources, but PhantomJS discovers the URI-Rs of two out of three embedded resources dependent upon JavaScript (B, C) while Heritrix misses all of them. http%3a%2f%2fwww.truthinshredding.com&gsrc=3p&ic =1&jsh=m%3B%2F_%2Fscs%2Fapps-static... 29 The page loaded into the iframe uses JavaScript to pull the profile image into the page from U RI-RA1 https://apis.google.com/_/scs/apps-static/_/ss/ (Embedded Resource B) and the YouTube video (Embedded Resource C). Even though the headless browser used by PhantomJS does not have the plugin necessary to display the video, the URI-R is still discovered by PhantomJS. Heritrix fails to identify the URI-Rs for the Embedded Resources A, B, and C. When the memento created by Heritrix
Headless browsing Insamling av Web 2.0 Figure 2: Heritrix crawls 12.13 times faster than PhantomJS. The error lines indicate the standard deviation across all ten runs. Figure 3: PhantomJS discovers 1.75 times more embedded resources than Heritrix and 4.11 times more resources than wget. The averages and error lines indicate the standard deviation across all ten runs. 30
Insamling Kommentarsfält
Tillgängliggörande Wayback Machine
Tillgängliggörande Memento
Tillgängliggörande Katalogposter
Tillgängliggörande Emulering
Framtiden Data mining
Frågor?