Outline Can we Trust Web-page Metadata? Anders Ardö Anders.Ardo@eit.lth.se http://www.eit.lth.se/staff/anders.ardo EIT Electrical and Information Technology, Lund University, Sweden 2010-04-14 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 1 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 2 / 42 Begrepp Exempel Web-page metadata Can we Trust Web-page Metadata? Trust Metadata Web HTML Web-page metadata <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//E <html> <head> <title>focused crawler - Combine System Homepage</title> <meta name="description" content="combine is an open syst <meta name="dc.subject" content="internet searching"> <link rel="schema.dc" href="http://purl.org/metadata/dubl </head> <body>... </body> </html> A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 3 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 4 / 42
Frågan + svaret Outline Can we Trust Web-page Metadata? Tveksamt Men massor med användbar information A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 5 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 6 / 42 Varför Metadata? Why Web search... Problem Hur hittar jag relevant information? Hur strukturera och organisera information för att underlätta åtkomst? Hur skapar jag strukturerade samlingar med relevant material? Bibliotek Semantisk Web Web 2.0 Förbättra sökmotorers indexering Vertikala sökmotorer (ämnesspecifika) Explosion of (digital) information within all types of information collections Harder and harder to follow information flow Faster way to find relevant information when its needed Challenges Distributed, dynamic data Large volume Unstructured, heterogeneous data A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 7 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 8 / 42
Size of the Web Använder sökmotorer metadata? no one knows estimates (text ) 2005 more than 11.5 billion 2007 more than 20 billion 2010 20-55 billion Google claims to know of 10 12 unique URLs (text, images,...) Google description, title Bing (Microsoft) description, title Yahoo description, title, keywords A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 9 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 10 / 42 Frågor Outline Vilka metadata används mest? Är metadata korrekt? Är metadata relevant för innehållet? Beskriver metadata Web-sidorna på ett bra sätt? Kan metadata användas för att ämnesklassificera en Web-sida? A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 11 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 12 / 42
Datainsamling Datasets Insamlat med en Web-robot (Combine) Både generella och ämnes-specifika (focused crawl) Automatisk ämnesklassificering med String matching GB Focused crawl, topic artist Gunnar Brusewitz, multiple languages SE Focused crawl, topic search engines, English Alg Focused crawl, topic algebra, English CP Focused crawl, topic Carnivorous plants, multiple languages Ei Focused crawl, topic Engineering (based on the Ei thesaurus, English MS Focused crawl, topic Material Science, English Delos General crawl, all from partners in the Delos EU project, multiple languages Gen General crawl, no restrictions, multiple languages A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 13 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 14 / 42 Web Robot - Basic architecture Focused Crawling Spider, Crawler, Robot, agent,... Get URL URLs Seed URLs Get URL URLs Seed URLs Focus: Database Web Repository of visited Fetch Web page Analyze Save Links Frontier List of unvisited Database Web Repository of visited Within the focus Not in focus Fetch Web page Analyze Focus filter Save Links URL focus filter Frontier List of unvisited Domain Project Country Region Topic Subject A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 15 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 16 / 42
Topic-specific Web-crawling Automated Classification technologies Problem Construct a topic specific search-engine (ex. Carnivorous plants) Solution Make a Web-crawler walk through Internet and collect all with topic Carnivorous plants Machine learning methods Statistical models (Bayes, SVM,...) ANN Information Retrieval methods Clustering (no predefined categories) Library Science methods String matching + Thesaurus easier said than done! A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 17 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 18 / 42 Dataset-statistik Total Pages with dataset no of meta fields (%) title (%) meta* fields (%) GB 17907 89.1 99.9 88.9 SE 911923 87.3 99.5 81.9 Alg 60481 58.1 97.3 47.1 CP 169787 86.4 97.8 72.9 Ei 282578 81.3 99.1 72.8 MS 2098052 85.8 99.3 79.7 Delos 74722 54.6 94.1 26.5 Gen 491377 76.0 98.1 57.1 Total 4106827 83.7 99.0 75.3 3093267 Websidor från 925820 sites med meta* fält A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 19 / 42 Annan statistik NWIse NWIdk Google MAMA This year 1998 1999 2005 2008 2009 dataset size 2 M 3.6 M 1000 M 3.5 M 4.1 M any metadata (%) 20.2 (87) 83.7 useful meta* (%) 7.5 13 (65) 77.2 75.3 title (%) 91.7 98 98.6 99.0 Dublin Core (%) 1.3 1.6 Most used metatags (popularity ranking) kewords 2 1 1 1 1 description 4 3 2 2 2 robots 13 3 4 3 generator 1 4 3 4 author 3 2 5 5 5 content-language 7 6 copyright 21 6 8 7 7 revisit-after 6 6 8 distribution 8 12 9 9 language 17 4 14 11 10 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 20 / 42
Outline A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 21 / 42 Mest använda fält - 17700 olika Popularity metadata field No of 1 keywords 2850991 2 description 2838132 3 robots 1111742 4 generator 808868 5 author 676324 6 content-language 500192 7 copyright 474552 9 revisit-after 461086 10 distribution 407148 11 language 337009 12 rating 312958 13 classification 220439 14 progid 219765 15 resource-type 173359 16 mssmarttagspreventparsing 167601 17 publisher 139012 18 date 101718 19 title 97468 20 expires 95391 21 verify-v1 94016 22 microsoft border 78597 23 email 78046 24 charset 76275 25 last-modified 74820 26 abstract 53081 27 googlebot 51310 28 subject 49796 29 microsoft theme 47927 30 dc.title 44052 31 vs-targetschema 39941 32 vs-defaultclientscript 37718 A. Ardö, 33 EIT, Lund University code-language Can we Trust 37218 Web-page Metadata? 34 dc.language 35946 22 / 42 35 audience 34487 Title vanligast av alla - i 99 % av alla sidor bra längddistribution många dubbletter 32 % ej sidspecifik information A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 23 / 42 Title exempel på dubbletter Instances Title 24979 resor media shopping datorer hårdvara at 14k-goldauctions.info 10324 - Mp3 Download, Biography and Discography. 6866 IHB Internationale Holzboerse 3178 Untitled Document 3095 Photos de plantes, fleurs et vegetaux - Florum 2794 In Search of Arctic Birds: Richard Vaughan, Gunnar Brusewitz: Amazon.co.uk: Books 2630 Dionee Association Francophone des Amateurs de Plantes Carnivores 2367 Online Technologies, Inc. Audio Video Products, A/V, Presentation Equipment, Little Rock Audio Visual Audio Video Little Rock Projectors, Powerpoint Projector, Rental, Plasma, Home Theater 2211 dionaea 2140 Amazon.com: Hunting : hunters, game, weapons, and A. Ardö, EIT, Lund University hunting methods Can we Trust from Web-page the Metadata? remote past to the present 24 / 42 day: Gunnar Brusewitz, Walstan Wheeler: Books
Mest använda intressanta fält (utom title) Author Intressanta fält: description, abstract, subject, classification, keyword, topic, category, author, creator, language, title No of % of Popularity metadata field all meta* 1 keywords 2850991 69.4 92.2 2 description 2838132 69.1 91.8 5 author 676324 16.5 21.9 6 content-language 500192 12.2 16.2 11 language 337009 8.2 10.9 13 classification 220439 5.4 7.1 19 title 97468 2.4 3.2 26 abstract 53081 1.3 1.7 28 subject 49796 1.2 1.6 30 dc.title 44052 1.1 1.4 34 dc.language 35946 0.9 1.2 author, dc.creator, creator 23.7 % av sidor med intressant metadata 3 kategorier (lika stora) personnamn företag-/organisations-namn annat (E-mail, URL,...) många sidor av samma författare A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 25 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 26 / 42 Author examples Instances Author 76083 Russell Hartley - Tinusiweb 12609 html@thdp.org 12604 html@dongdun.com 12509 html@e-zhurnal.ru 11753 html@onemoment.ru 11540 html@underwritersdigital.com 11068 html@slim-cash.com 9137 IHB Internationale Holzboerse 8390 cesar sejourne 3209 dailymotion.com 3104 Florum 2672 Dr Mark J Winter (Department of Chemistry, University of Sheffield, Sheffield S3 7HF, UK) 2591 ecbuilder(tm), Multiactive Software Inc 2558 ClimbNYC - Rock Climbing and Bouldering in New York City A. Ardö, EIT, Lund 2118 University Administrator Can we Trust Web-page Metadata? 27 / 42 1962 Vaclav Kubin - CzPlants Keywords, description, title A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 28 / 42
Keywords, description, title Keywords, description keyword metadata är nästan 3 ggr så lång som description metadata (medeltal 73.5 ord vs 24.6 ord) keyword metadata är listor lång keyword metadata är listor med alla upptänkliga ordformer Ibland ( 15%) är description metadata en keyword lista Många dubbletter: 58 % för description metadata 61 % för keyword metadata. A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 29 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 30 / 42 Överlappning keywords och description Överlappning keywords och text A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 31 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 32 / 42
Språk Språk missmatches Dataset Tested OK (%) Missmatch (%) Language SE 197534 96.6 3.4 English MS 493266 89.2 10.8 English GB 967 80.9 19.1 multilingual Alg 5873 90.2 9.8 English Ei 33346 87.9 12.1 English Delos 4370 72.6 27.4 multilingual CP 24408 82.9 17.1 multilingual Gen 52171 88.7 11.3 multilingual Total 811935 90.7 9.3 Missmatch i 9 % av sidorna 30 % bägge språken i Web-sidan 37 % metadata rätt 20 % språkidentifierare rätt 13 % både metadata och språkidentifierare fel Testad mot en språkidentifierare A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 33 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 34 / 42 Dublin Core Dublin Core ISO standard för beskrivning av digitala objekt Dublin Core Metadata Initiative (DCMI) Två nivåer Enkel 15 element Kvalificerad med hierarkisk förfining dc.date.created dc.creator.personalname.address inte mycket använt finns i 1.6 % av alla sidor totalt 638 unika (kvalificerad DC) total 164 unika toppnivå namn! (DC v 1.1 definierar 15) Felstavning: dc.titel för dc.title dc.subjekt, dc.subjects för dc.subject. Majoriteten: dc.webmaster, dc.robots, dc.mrg, dc.dcrlocation, etc. dubbelt så mycket metadata - om DC finns i sidan dc.title skiljer från title i 75 % A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 35 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 36 / 42
Dublin Core No of Percent of Name meta* DC Instances dc.title 44052 1.3 65.8 44223 dc.language 35946 1.0 53.7 38135 dc.subject 30339 0.9 45.3 37851 dc.description 31401 0.9 46.9 31504 dc.creator 27692 0.8 41.4 29818 dc.publisher 20082 0.6 30.0 21293 dc.identifier 19182 0.6 28.7 20649 dc.format 15543 0.5 23.2 17515 dc.rights 16046 0.5 24.0 16537 dc.type 14126 0.4 21.1 14768 dc.date 12034 0.3 18.0 12030 dc.date.created 9580 0.3 14.3 9678 dc.date.modified 8752 0.3 13.1 8994 dc.coverage.placename 5650 0.2 8.4 5823 Outline A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 37 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 38 / 42 Sammanfattning Svaret massor med kopior för alla metadata fält 32 % av alla <title>-tags är generella ju kortare keyword metadata är ju bättre överlapp med Web-sidans text keyword listor innehåller ofta många ordformer för samma ämnesord långa description metadata är ofta keyword listor för längder över 100 ord närmar sig sannolikheten att keyword och description metadata är kopior snabbt 100 % authorfältet används för olika typer av namn language metadata är korrekt i 95 % använd DC (om det finns) även DC v1.1 topp-namn missbrukas Can we Trust Web-page Metadata? NO tveksamt Men massor med användbar information A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 39 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 40 / 42
Outline Referenser/Mer information Jag: http://www.eit.lth.se/staff/anders.ardo Anders.Ardo@eit.lth.se Slides: http://combine.it.lth.se/mdseminar2010/ Artikel: A. Ardö: Can we trust Web-page metadata? Journal of Library Metadata, Vol. 10, No. 1, pp. 58-74, 2010. Combine focused crawler tools download: http://combine.it.lth.se/#downloads A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 41 / 42 A. Ardö, EIT, Lund University Can we Trust Web-page Metadata? 42 / 42