Can we Trust Web-page Metadata?

Relevanta dokument
Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Sökningen på webben Användaren och Information Retrieval-systemen Användaren: Hur anger man en sökfråga? Hur tolkar man sökresultatet?

Pass 4. Exempel på metadatastandarder. SND Svensk nationell datatjänst

Arbeta med Selected Works en lathund

Introduction to the Semantic Web. Eva Blomqvist

Webbplats analys article2seorank.space

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Utveckling av webbsida för lokala prisjämförelser med användbarhetsmetoder

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Översättning av galleriet. Hjälp till den som vill...

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

Optimering av webbsidor

Källuppgifter i fysik FAFA55

Webbplats analys cite4me.org

SweLL & legal aspects. Elena Volodina

Manual för infrastrukturansvariga att redigera och förbättra information om infrastrukturer på LU i LUCRIS LUCRIS förvaltningen

Kulturarw 3 SVENSKA WEBBEN BEVARANDE & TILLGÄNGLIGGÖRANDE #FAI2016

Rosetta. Ido Peled. A Digital Preservation System. December Rosetta Product Manager

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

Statistik över publikationer med öppen tillgång

SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015

LUPstudentpapers. Manual Reviewer

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Webbplats analys akcpdistributor.de.cutestatvalue.com

Get Instant Access to ebook Ta Betalt PDF at Our Huge Library TA BETALT PDF. ==> Download: TA BETALT PDF

Master Thesis. Study on a second-order bandpass Σ -modulator for flexible AD-conversion Hanna Svensson. LiTH - ISY - EX -- 08/ SE

Utvärdering SFI, ht -13

Sökmotoroptimering. Google Search Console

Sparbankerna PDF. ==>Download: Sparbankerna PDF ebook By 0

FANNY AHLFORS AUTHORIZED ACCOUNTING CONSULTANT,

Not everything that counts can be counted, and not everything that can be counted counts. William Bruce Cameron

Sjukhusbiblioteket i Karlstad, september 2012, Modifierad av Linköpings universitetsbibliotek tisdag den 11 december 2018

Problem som kan uppkomma vid registrering av ansökan

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

Urban Runoff in Denser Environments. Tom Richman, ASLA, AICP

Beijer Electronics AB 2000, MA00336A,

Surfaces for sports areas Determination of vertical deformation. Golvmaterial Sportbeläggningar Bestämning av vertikal deformation

Installation av F13 Bråvalla

The present situation on the application of ICT in precision agriculture in Sweden

Flytta din affär till molnet

Sri Lanka Association for Artificial Intelligence

Quality-Driven Process for Requirements Elicitation: The Case of Architecture Driving Requirements

Webbplats analys webstatinfo.com

Lathund - Redigera innehåll på Comfort Audios webbplats. 1. Logga in i WordPress Ändra/lägg till användare Lägga till nya sidor...

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

Webbplats analys emreemir.com

Lathund till PsycINFO (OVID)

Mer information om RefWorks, andra referenshanteringsprogram och hur man refererar hittar du på Linköpings universitetsbiblioteks webbsidor.

Tidningsannonser. . Sms. Events. Sociala medier. Diskussionsgrupper. Bannerannonsering med DM-princip. Undersökningar. Sök

Skrivandets pentagon. 5 enkla tips för bättre uppsatser och rapporter Richard Nordberg,

Methods to increase work-related activities within the curricula. S Nyberg and Pr U Edlund KTH SoTL 2017

FÖRORD. Andreas Ek, Lund,

Adding active and blended learning to an introductory mechanics course

Pass 4: Metadatastandarder

Webbteknik II. Föreläsning 4. Watching the river flow. John Häggerud, 2011

Quick Start Guide Snabbguide

Open access från varför till hur

Sökmotorns roll på det sociala intranätet

WWW. Exempel på klientsidan. Överföring av en html-fil. Snyggare variant. Verkligt format. Meddelandeformat för begäran HTTP

Open Access guld och gröna skogar?

Retrieve a set of frequently asked questions about digital loans and their answers

Perception och Maskininärning i Interaktiva Autonoma System. Michael Felsberg Institutionen för systemteknik Linköpings universitet

Flytta din affär till molnet

Translation Changes in Swedish EBSCOhost Interface

Programvaruintensiva system

Komma igång med Adobe Presenter ver.7

Kursplan. MT1051 3D CAD Grundläggande. 7,5 högskolepoäng, Grundnivå 1. 3D-CAD Basic Course

PROTAGE-projektet AAS-konferens 21 oktober 2010

Öppna accessnät samt tjänster via Öppna TV-nät

Biblioteket.se. A library project, not a web project. Daniel Andersson. Biblioteket.se. New Communication Channels in Libraries Budapest Nov 19, 2007

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

Webbplats analys akcpkaufen.de.pagesstudy.com

Fujitsu Day in Action. Human Centric Innovation. En resa mot tillväxt Santa Maria. Stefan Johansson. 0 Copyright 2016 FUJITSU

Att använda data och digitala kanaler för att fatta smarta beslut och nå nya kunder.

Web Services. Cognitude 1

Cinahl sökguide. Enkel sökning. Ämnesordsökning

SVENSK STANDARD SS :2010

research en användarundersökning

DEN SMARTA STADEN NU OCH I FRAMTIDEN. Björn Lahti, Helsingborg stad & Jenny Carlstedt, Sweco

VAD SKULLE DU HA VALT PDF

Enterprise App Store. Sammi Khayer. Igor Stevstedt. Konsultchef mobila lösningar. Teknisk Lead mobila lösningar

htc one s manual svenska

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

- den bredaste guiden om Mallorca på svenska! -

Skapa guider med hjälp av.

What Is Hyper-Threading and How Does It Improve Performance

Office 365. Göran Husman - HumanData. General Information

BRÖDGRUPPENS HEMSIDA

Mönster. Ulf Cederling Växjö University Slide 1

A metadata registry for Japanese construction field

INTERAKTIVA UTBILDNINGAR. UPPDRAG: Trafikutbildning åt Örebro kommun. KUND: Agresso Unit4

Ökat personligt engagemang En studie om coachande förhållningssätt

NComVA. Statistics explorer och Publisher Tobias Åström

Webbplats analys akcpdistributor.de.ipaddress.com

Transkript:

Outline Can we Trust Web-page Metadata? Anders Ardö Anders.Ardo@eit.lth.se http://www.eit.lth.se/staff/anders.ardo EIT Electrical and Information Technology, Lund University, Sweden 2010-04-14 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 1 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 2 / 42 Begrepp Exempel Web-page metadata Can we Trust Web-page Metadata? Trust Metadata Web HTML Web-page metadata <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//E <html> <head> <title>focused crawler - Combine System Homepage</title> <meta name="description" content="combine is an open syst <meta name="dc.subject" content="internet searching"> <link rel="schema.dc" href="http://purl.org/metadata/dubl </head> <body>... </body> </html> A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 3 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 4 / 42

Frågan + svaret Outline Can we Trust Web-page Metadata? Tveksamt Men massor med användbar information A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 5 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 6 / 42 Varför Metadata? Why Web search... Problem Hur hittar jag relevant information? Hur strukturera och organisera information för att underlätta åtkomst? Hur skapar jag strukturerade samlingar med relevant material? Bibliotek Semantisk Web Web 2.0 Förbättra sökmotorers indexering Vertikala sökmotorer (ämnesspecifika) Explosion of (digital) information within all types of information collections Harder and harder to follow information flow Faster way to find relevant information when its needed Challenges Distributed, dynamic data Large volume Unstructured, heterogeneous data A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 7 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 8 / 42

Size of the Web Använder sökmotorer metadata? no one knows estimates (text ) 2005 more than 11.5 billion 2007 more than 20 billion 2010 20-55 billion Google claims to know of 10 12 unique URLs (text, images,...) Google description, title Bing (Microsoft) description, title Yahoo description, title, keywords A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 9 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 10 / 42 Frågor Outline Vilka metadata används mest? Är metadata korrekt? Är metadata relevant för innehållet? Beskriver metadata Web-sidorna på ett bra sätt? Kan metadata användas för att ämnesklassificera en Web-sida? A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 11 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 12 / 42

Datainsamling Datasets Insamlat med en Web-robot (Combine) Både generella och ämnes-specifika (focused crawl) Automatisk ämnesklassificering med String matching GB Focused crawl, topic artist Gunnar Brusewitz, multiple languages SE Focused crawl, topic search engines, English Alg Focused crawl, topic algebra, English CP Focused crawl, topic Carnivorous plants, multiple languages Ei Focused crawl, topic Engineering (based on the Ei thesaurus, English MS Focused crawl, topic Material Science, English Delos General crawl, all from partners in the Delos EU project, multiple languages Gen General crawl, no restrictions, multiple languages A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 13 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 14 / 42 Web Robot - Basic architecture Focused Crawling Spider, Crawler, Robot, agent,... Get URL URLs Seed URLs Get URL URLs Seed URLs Focus: Database Web Repository of visited Fetch Web page Analyze Save Links Frontier List of unvisited Database Web Repository of visited Within the focus Not in focus Fetch Web page Analyze Focus filter Save Links URL focus filter Frontier List of unvisited Domain Project Country Region Topic Subject A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 15 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 16 / 42

Topic-specific Web-crawling Automated Classification technologies Problem Construct a topic specific search-engine (ex. Carnivorous plants) Solution Make a Web-crawler walk through Internet and collect all with topic Carnivorous plants Machine learning methods Statistical models (Bayes, SVM,...) ANN Information Retrieval methods Clustering (no predefined categories) Library Science methods String matching + Thesaurus easier said than done! A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 17 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 18 / 42 Dataset-statistik Total Pages with dataset no of meta fields (%) title (%) meta* fields (%) GB 17907 89.1 99.9 88.9 SE 911923 87.3 99.5 81.9 Alg 60481 58.1 97.3 47.1 CP 169787 86.4 97.8 72.9 Ei 282578 81.3 99.1 72.8 MS 2098052 85.8 99.3 79.7 Delos 74722 54.6 94.1 26.5 Gen 491377 76.0 98.1 57.1 Total 4106827 83.7 99.0 75.3 3093267 Websidor från 925820 sites med meta* fält A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 19 / 42 Annan statistik NWIse NWIdk Google MAMA This year 1998 1999 2005 2008 2009 dataset size 2 M 3.6 M 1000 M 3.5 M 4.1 M any metadata (%) 20.2 (87) 83.7 useful meta* (%) 7.5 13 (65) 77.2 75.3 title (%) 91.7 98 98.6 99.0 Dublin Core (%) 1.3 1.6 Most used metatags (popularity ranking) kewords 2 1 1 1 1 description 4 3 2 2 2 robots 13 3 4 3 generator 1 4 3 4 author 3 2 5 5 5 content-language 7 6 copyright 21 6 8 7 7 revisit-after 6 6 8 distribution 8 12 9 9 language 17 4 14 11 10 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 20 / 42

Outline A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 21 / 42 Mest använda fält - 17700 olika Popularity metadata field No of 1 keywords 2850991 2 description 2838132 3 robots 1111742 4 generator 808868 5 author 676324 6 content-language 500192 7 copyright 474552 9 revisit-after 461086 10 distribution 407148 11 language 337009 12 rating 312958 13 classification 220439 14 progid 219765 15 resource-type 173359 16 mssmarttagspreventparsing 167601 17 publisher 139012 18 date 101718 19 title 97468 20 expires 95391 21 verify-v1 94016 22 microsoft border 78597 23 email 78046 24 charset 76275 25 last-modified 74820 26 abstract 53081 27 googlebot 51310 28 subject 49796 29 microsoft theme 47927 30 dc.title 44052 31 vs-targetschema 39941 32 vs-defaultclientscript 37718 A. Ardö, 33 EIT, Lund University code-language Can we Trust 37218 Web-page Metadata? 34 dc.language 35946 22 / 42 35 audience 34487 Title vanligast av alla - i 99 % av alla sidor bra längddistribution många dubbletter 32 % ej sidspecifik information A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 23 / 42 Title exempel på dubbletter Instances Title 24979 resor media shopping datorer hårdvara at 14k-goldauctions.info 10324 - Mp3 Download, Biography and Discography. 6866 IHB Internationale Holzboerse 3178 Untitled Document 3095 Photos de plantes, fleurs et vegetaux - Florum 2794 In Search of Arctic Birds: Richard Vaughan, Gunnar Brusewitz: Amazon.co.uk: Books 2630 Dionee Association Francophone des Amateurs de Plantes Carnivores 2367 Online Technologies, Inc. Audio Video Products, A/V, Presentation Equipment, Little Rock Audio Visual Audio Video Little Rock Projectors, Powerpoint Projector, Rental, Plasma, Home Theater 2211 dionaea 2140 Amazon.com: Hunting : hunters, game, weapons, and A. Ardö, EIT, Lund University hunting methods Can we Trust from Web-page the Metadata? remote past to the present 24 / 42 day: Gunnar Brusewitz, Walstan Wheeler: Books

Mest använda intressanta fält (utom title) Author Intressanta fält: description, abstract, subject, classification, keyword, topic, category, author, creator, language, title No of % of Popularity metadata field all meta* 1 keywords 2850991 69.4 92.2 2 description 2838132 69.1 91.8 5 author 676324 16.5 21.9 6 content-language 500192 12.2 16.2 11 language 337009 8.2 10.9 13 classification 220439 5.4 7.1 19 title 97468 2.4 3.2 26 abstract 53081 1.3 1.7 28 subject 49796 1.2 1.6 30 dc.title 44052 1.1 1.4 34 dc.language 35946 0.9 1.2 author, dc.creator, creator 23.7 % av sidor med intressant metadata 3 kategorier (lika stora) personnamn företag-/organisations-namn annat (E-mail, URL,...) många sidor av samma författare A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 25 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 26 / 42 Author examples Instances Author 76083 Russell Hartley - Tinusiweb 12609 html@thdp.org 12604 html@dongdun.com 12509 html@e-zhurnal.ru 11753 html@onemoment.ru 11540 html@underwritersdigital.com 11068 html@slim-cash.com 9137 IHB Internationale Holzboerse 8390 cesar sejourne 3209 dailymotion.com 3104 Florum 2672 Dr Mark J Winter (Department of Chemistry, University of Sheffield, Sheffield S3 7HF, UK) 2591 ecbuilder(tm), Multiactive Software Inc 2558 ClimbNYC - Rock Climbing and Bouldering in New York City A. Ardö, EIT, Lund 2118 University Administrator Can we Trust Web-page Metadata? 27 / 42 1962 Vaclav Kubin - CzPlants Keywords, description, title A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 28 / 42

Keywords, description, title Keywords, description keyword metadata är nästan 3 ggr så lång som description metadata (medeltal 73.5 ord vs 24.6 ord) keyword metadata är listor lång keyword metadata är listor med alla upptänkliga ordformer Ibland ( 15%) är description metadata en keyword lista Många dubbletter: 58 % för description metadata 61 % för keyword metadata. A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 29 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 30 / 42 Överlappning keywords och description Överlappning keywords och text A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 31 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 32 / 42

Språk Språk missmatches Dataset Tested OK (%) Missmatch (%) Language SE 197534 96.6 3.4 English MS 493266 89.2 10.8 English GB 967 80.9 19.1 multilingual Alg 5873 90.2 9.8 English Ei 33346 87.9 12.1 English Delos 4370 72.6 27.4 multilingual CP 24408 82.9 17.1 multilingual Gen 52171 88.7 11.3 multilingual Total 811935 90.7 9.3 Missmatch i 9 % av sidorna 30 % bägge språken i Web-sidan 37 % metadata rätt 20 % språkidentifierare rätt 13 % både metadata och språkidentifierare fel Testad mot en språkidentifierare A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 33 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 34 / 42 Dublin Core Dublin Core ISO standard för beskrivning av digitala objekt Dublin Core Metadata Initiative (DCMI) Två nivåer Enkel 15 element Kvalificerad med hierarkisk förfining dc.date.created dc.creator.personalname.address inte mycket använt finns i 1.6 % av alla sidor totalt 638 unika (kvalificerad DC) total 164 unika toppnivå namn! (DC v 1.1 definierar 15) Felstavning: dc.titel för dc.title dc.subjekt, dc.subjects för dc.subject. Majoriteten: dc.webmaster, dc.robots, dc.mrg, dc.dcrlocation, etc. dubbelt så mycket metadata - om DC finns i sidan dc.title skiljer från title i 75 % A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 35 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 36 / 42

Dublin Core No of Percent of Name meta* DC Instances dc.title 44052 1.3 65.8 44223 dc.language 35946 1.0 53.7 38135 dc.subject 30339 0.9 45.3 37851 dc.description 31401 0.9 46.9 31504 dc.creator 27692 0.8 41.4 29818 dc.publisher 20082 0.6 30.0 21293 dc.identifier 19182 0.6 28.7 20649 dc.format 15543 0.5 23.2 17515 dc.rights 16046 0.5 24.0 16537 dc.type 14126 0.4 21.1 14768 dc.date 12034 0.3 18.0 12030 dc.date.created 9580 0.3 14.3 9678 dc.date.modified 8752 0.3 13.1 8994 dc.coverage.placename 5650 0.2 8.4 5823 Outline A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 37 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 38 / 42 Sammanfattning Svaret massor med kopior för alla metadata fält 32 % av alla <title>-tags är generella ju kortare keyword metadata är ju bättre överlapp med Web-sidans text keyword listor innehåller ofta många ordformer för samma ämnesord långa description metadata är ofta keyword listor för längder över 100 ord närmar sig sannolikheten att keyword och description metadata är kopior snabbt 100 % authorfältet används för olika typer av namn language metadata är korrekt i 95 % använd DC (om det finns) även DC v1.1 topp-namn missbrukas Can we Trust Web-page Metadata? NO tveksamt Men massor med användbar information A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 39 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 40 / 42

Outline Referenser/Mer information Jag: http://www.eit.lth.se/staff/anders.ardo Anders.Ardo@eit.lth.se Slides: http://combine.it.lth.se/mdseminar2010/ Artikel: A. Ardö: Can we trust Web-page metadata? Journal of Library Metadata, Vol. 10, No. 1, pp. 58-74, 2010. Combine focused crawler tools download: http://combine.it.lth.se/#downloads A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 41 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 42 / 42