Kulturarw 3 SVENSKA WEBBEN BEVARANDE & TILLGÄNGLIGGÖRANDE #FAI2016

Relevanta dokument
världsvida väven

Hur tänker KB ta hand om högskolornas e-publikationer?

LDB-Centrum. Centrum för Långsiktigt Digitalt Bevarande. Östen Jonsson. Liten insats stor nytta

Översättning av galleriet. Hjälp till den som vill...

Datasäkerhet och integritet

Swedbank Mobile Loadtesting. LoadRunner Mobile App protocol

Isolda Purchase - EDI

Problem som kan uppkomma vid registrering av ansökan

Testplattformen (Webbarkivering)

Preschool Kindergarten

Komma igång med Adobe Presenter ver.7

Utvärdering SFI, ht -13

Sparbankerna PDF. ==>Download: Sparbankerna PDF ebook By 0

Statistik från webbplatser

Ljud och video på webbsidor

Webbprogrammering. Sahand Sadjadee

Introduction to the Semantic Web. Eva Blomqvist

Webbregistrering pa kurs och termin

Biblioteket.se. A library project, not a web project. Daniel Andersson. Biblioteket.se. New Communication Channels in Libraries Budapest Nov 19, 2007

DNSSEC Våra erfarenheter

Webbreg öppen: 26/ /

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

- den bredaste guiden om Mallorca på svenska!

Fackföreningsrörelsens digitala omvandling. Att bevara organisationsmaterial i den digitala tidsåldern

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

Språk för webben introduk4on 4ll HTML

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Webbplats analys facebook.com

TNMK30 - Elektronisk publicering

Webbplats analys akcpdistributor.de.cutestatvalue.com

Webbplats analys emreemir.com

Michael Q. Jones & Matt B. Pedersen University of Nevada Las Vegas

Not everything that counts can be counted, and not everything that can be counted counts. William Bruce Cameron

SVENSK STANDARD SS

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion

Forma komprimerat trä

Att bygga enkla webbsidor

Webbplats analys akcpdistributor.de.ipaddress.com

Vad kännetecknar en god klass. Vad kännetecknar en god klass. F12 Nested & Inner Classes

- den bredaste guiden om Mallorca på svenska! -

Att använda data och digitala kanaler för att fatta smarta beslut och nå nya kunder.

Webbplats analys article2seorank.space

Swedish National Data Service

Hur hänger det ihop? För att kunna kommunicera krävs ett protokoll tcp/ip, http, ftp För att veta var man skall skicka

Webbplats analys villagetalkies.com

Measuring child participation in immunization registries: two national surveys, 2001

Documentation SN 3102

FORSKNINGSKOMMUNIKATION OCH PUBLICERINGS- MÖNSTER INOM UTBILDNINGSVETENSKAP

Bilder. Bilder och bildformat

INSTALLATION INSTRUCTIONS

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Om integritet och sekretess på nätet. Stefan Ternvald, SeniorNet Lidingö,

Föreläsning 4 IS1300 Inbyggda system

2.1 Installation of driver using Internet Installation of driver from disk... 3

Datakommunika,on på Internet

Grundläggande datavetenskap, 4p

SharePoint 2010 licensiering Wictor Wilén

Styrteknik 7.5 hp distans: E-1000 och E-Designer

Adding active and blended learning to an introductory mechanics course

Statistik från webbplatser

Webbplats analys sarajacob3216.wordpress.com

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET

Hyperlänkar. I HTML skapar man en hyperlänk med taggen <a> </a>, som är en förkortning av ordet ankare, på (engelska anchor).

P650 - Takscreen. Installationsguide EN

FOLKBILDNINGENS DIGITALA ARKIV Vad behöver göras?

E-plikten. Expertgruppen för metadata 20 maj

DATA ÖPPNA DATA LÄNKADE DATA LÄNKADE ÖPPNA DATA

Låt oss ta hand om din utveckling, medan du själv utvecklar ditt företag

ISO general purpose screw threads Basic profile Part 1: Metric screw threads

Vätebränsle. Namn: Rasmus Rynell. Klass: TE14A. Datum:

Leveransplikt för elektroniskt material

Webbplats analys webstatinfo.com

Webbplats analys akcpsensor.de.ipaddress.com

Introduk+on +ll programmering i JavaScript

Webbplats analys skillmd.com

LARS. Ett e-bokningssystem för skoldatorer.

Webbplats analys akcpkaufen.de.pagesstudy.com

EDA095 HTML. Per Andersson. April 26, Lund University Innehåll: HTML, CSS, DOM, JavaScript

SVENSK STANDARD SS

Optimering av webbsidor

Get Instant Access to ebook Ta Betalt PDF at Our Huge Library TA BETALT PDF. ==> Download: TA BETALT PDF

Ett hållbart boende A sustainable living. Mikael Hassel. Handledare/ Supervisor. Examiner. Katarina Lundeberg/Fredric Benesch

Support Manual HoistLocatel Electronic Locks

SKÖRDNING AV LOKALA DATAKÄLLOR I XML. Marika Lundqvist Umeå universitetsbibliotek

Carl-Oscar Hermansson WEBB DESIGN

Beijer Electronics AB 2000, MA00336A,

Accomodations at Anfasteröd Gårdsvik, Ljungskile

Metadata i e-pliktleveranser

Projekt E-ARK stöd vid digital arkivering. Björn ES Solutions

(genomsnittlig dag) (genomsnittlig dag)

Bruttoräckvidd / dag: Nettoräckvidd / dag: Orvesto Total Tertial Källa och period

Checklista: Beständiga identifierare

Introduktion till programmering

Google Analy+cs. Umeå universitet

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

Repetition. Hypertext. Internet HTTP. Server och klient Text försedd med länkar till andra texter. Många sammankopplade nät

Repetition. Hypertext. Internet HTTP. Server och klient Föreläsning 2. Text försedd med länkar till andra texter. Många sammankopplade nät

Taking Flight! Migrating to SAS 9.2!

Webbplats analys ipchecker.us

Transkript:

Kulturarw 3 SVENSKA WEBBEN BEVARANDE & TILLGÄNGLIGGÖRANDE #FAI2016 När: Tisdag 25:e oktober 2016 14:00-14:45 Vem: 1 Daniel Jansson Var: Konferens informationsförvaltningen 2016

Kungliga biblioteket historia Pliktleveranser av tryckt material sedan 1661 - Uppdaterades 1993 endast elektroniska dokuments i fixt format CD-ROM, disketter Pliktleveranser av audiovisuella medier sedan 1979 Första Svenska webbtidningen förlorad Kulturarw 3 startade sommaren 1996 E-plikt sedan 1:a januari 2015

Då Mål Alla webbsidor i Sverige - bilder, video mm. -.se,.nu och svenskt material under andra Top Level Domains - Suecana (utländskt material av svenskt intresse)

Då Strategi Med så liten mänsklig inblandning som möjligt. Ta ögonblicksbilder över svenska webben ett par gånger om året. - Får allt - Mindre arbetskrävande - Datorminne är billigt - Nackdel: stora volymer gör kvaliteskontrollen svår Sedan juni 2002 Selektiv insamling (också ögonblicksbilder) Cirka 150 dagstidningar varje dag,

! Sverige på webben? http://www.kb.se/kbstart.htm Endast domännamnet relevant.se.nu, Niue populär här i Sverige Andra: Om servern stationerad i Sverige eller svensk ägare till domänen

! Sverige på webben? WebDanica project Tested Different Methods Internet Archive method IA-data World wide collection 2012 Wide0005 NetArchive Link method NL-data Outlinks from Danish broad crawl 2012 Very few common results IA results Find Danish webpages 0 NL results Host: 1. part of URL http://abc.xx/def/ghi/... Both in IA and NAL 2.014 Only in IA 43.185 Only in NL 46.552 General implementation covering more methods Looking Back, Looking Forward: New Strategies for Coverage of a National Web Sphere IIPC 2016, Reykjavik, Iceland 8 Eld Zierau, The Royal Library of Denmark

Hur En robot samlar in webbsidor genom att automatiskt följa länkar och spara ner sidorna. Svep: Open-source robot, Heritrix - Huvudsaklig utveckling av Internet Archive (IA) - Skriven i Java. Stor användargrupp. - Uttryckligen designad för webbinsamling (inte indexering). Viktigt! Indexering är inte arkivering och arkivering är inte indexering! Samlar också in bilder, ljud mm.

Hur Flödesdiagram, webbroboten Inbox with list of URLs to be harvested List of URLs Distribute URLs New URLs Harvesting threads Archived data Process log Log with new links URLs already processed

Hur Hitta länkar; parsning <html> <body background= whitemarble.jpg > </body> <head> <img src= http://www.kb.se/logo.gif > <h1>royal Library of Sweden</h1> <p> Click on this <a href= address.html >link</a> to see our visitors addresses. <p> </head> </html> Parsning klar! relativ länk absolut länk www.kb.se/whitemarble.jpg www.kb.se/logo.gif www.kb.se/address.html relativ länk

Nu Hur mycket som samlats in Antal objekt: 5 000 000 000 Antal bytes: 350 TB Varv Namn Antal filer Storlek 1 2010-1 240 866 031 9.45 TB 2 2013-1 717 887 978 53.92 TB 3 2013-2 844 741 844 67.78 TB 4 2014-1 702 393 955 59.78 TB 5 2014-2 678 218 510 63.93 TB

Nu Hur mycket som samlats in Antal objekt: 5 000 000 000 Antal bytes: 350 TB Kan Varv jämföras Namn med alla Antal samlade filer svep Storlek för perioden 1997-03-24 2005-11-23-469 1 miljoner 2010-1 URL:er 240 866 031 9.45 TB - 17,0 2 TB2013-1 717 887 978 53.92 TB 3 2013-2 844 741 844 67.78 TB 4 2014-1 702 393 955 59.78 TB 5 2014-2 678 218 510 63.93 TB

Nu Vad görs nu Ta fram tre huvudspår Att göra en årlig insamling i KW 3 -bulk Att fler typer av webbplatser samlas in enligt samma modell som KW 3 -dagstidningar Massmedia KIA-/SiS-index Riktad insamling vid särskilda händelser

Nu Vad görs nu Uppdatera robotprogramvaran till NetarchiveSuite och Heritrix 3.2 Sluta respektera robots.txt-filer Wayback Machine för tillgängliggörande Knyta samman Kulturarw 3 med e-plikten

Framtiden Kulturarw 3 & e-plikt

Framtiden Kulturarw 3 & e-plikt

Kulturarw 3 robotinsamling & Premium- material & $ # " %

E-plikt METADATA "#$%METADATA & Premium- material & $ # " %

http://libris.kb.se/bib/19433251

18

18

Version 1 19

Version 2 20

Version 3 21

Version 4 22

Nu E-plikt + Fler versioner + Premium material (material bakom betalväggar) + Bättre sökbarhet + Mer och bättre metadata - Kan sakna kontext - Avgränsad vid vilka som omfattas

Nu E-plikt + Fler versioner ' + Premium material (material bakom betalväggar) + Bättre sökbarhet + Mer och bättre metadata - Kan sakna kontext - Avgränsad vid vilka som omfattas KW 3 :s styrkor

Webb 2.0

Webb 2.0 och annonser DN 1933 DN 1980 SvD 1926

Webb 2.0 och annonser

Webb 2.0 och annonser

Headless browsing Insamling av Web 2.0 (a) The live resource at URI-R http: //www.truthinshredding.com/ loads A, B, and C via JavaScript. (b) Using PhantomJS, the advertisement (B) and video (C) are found but the account frame (A) is missed. (c) Using Heritrix, the embedded resources A, B, and C are missed. Figure 1: Neither archival tool captures all embedded resources, but PhantomJS discovers the URI-Rs of two out of three embedded resources dependent upon JavaScript (B, C) while Heritrix misses all of them. http%3a%2f%2fwww.truthinshredding.com&gsrc=3p&ic =1&jsh=m%3B%2F_%2Fscs%2Fapps-static... 29 The page loaded into the iframe uses JavaScript to pull the profile image into the page from U RI-RA1 https://apis.google.com/_/scs/apps-static/_/ss/ (Embedded Resource B) and the YouTube video (Embedded Resource C). Even though the headless browser used by PhantomJS does not have the plugin necessary to display the video, the URI-R is still discovered by PhantomJS. Heritrix fails to identify the URI-Rs for the Embedded Resources A, B, and C. When the memento created by Heritrix

Headless browsing Insamling av Web 2.0 Figure 2: Heritrix crawls 12.13 times faster than PhantomJS. The error lines indicate the standard deviation across all ten runs. Figure 3: PhantomJS discovers 1.75 times more embedded resources than Heritrix and 4.11 times more resources than wget. The averages and error lines indicate the standard deviation across all ten runs. 30

Insamling Kommentarsfält

Tillgängliggörande Wayback Machine

Tillgängliggörande Memento

Tillgängliggörande Katalogposter

Tillgängliggörande Emulering

Framtiden Data mining

Frågor?