Iformatosåtervg på webbe Sökmotoreras framtd Semarum 4-9- Iformatosåtervg på webbe Sökmotoreras framtd Ge sprato tll forskg att skapa ya affärsmölgheter smart avädg av sökverktyg de ega orgasatoe Belysa sökmotorer ur ett tekskt, urdskt och affärsmässgt perspektv.
Iformatosåtervg på webbe Sökmotoreras framtd - Program Sökmotorer och tekke bakom, Bo Kågström Sökmotorer framtde, Juss Karlgre Itegrtet, säkerhet och mapulato, Ncklas Ludblad Affärsperspektv och applkatoer Web4Health, Jacob Palme SteSeeker och Eurolg, Hercules Dalas Askology och QuckAsk, Erk Seders Öppe dskusso, Sture Hägglud moderator 3 Sökmotorer och tekke bakom Rakg av webbsdor med läkaalys - Googles PageRak och lkade metoder Bo Kågström Dept. of Computg Scece ad HPCN Umeå Uversty bokg@cs.umu.se
Lte bakgrud Webb-sökg: Ageläge om breda förfråggar (broad-topc queres), t.e. web-browsers. Överflödsproblematk: # sdor som httas och bedöms som relevata ( träffar ) är alldeles för stort! Behövs e mekasm för att ragorda dessa sdor. Hypotes: Om sda har e läk tll sda, så ger de auktortet tll. Hur aväds läkformatoe för att ragorda träffar? Öskar relevata och auktortatva sdor. 5 Hur går e Googlesökg tll? Httar alla dokumet som matchar sökfråga. Relevasbedömg: sdas ehåll, läktete hos läkara. Tll detta läggs vare sdas PageRak (Larry Page, Sergey Br - Googles grudare). Relevata dokumet ragordas och lstas utfrå sa PageRak-värde. 6
Eempel på sökresultat 7 Iehåll Sökg på webbe lte bakgrud Googles PageRak-algortm Defto av PageRak PageRak är e domerade egevektor Rak-sks och -sources modferad defto Beräkg av PageRak världes största matrsberäkg? Varför fugerar det? Kovergesegeskaper HITS-algortme: Hypertet Iteret Topc Search Auktorteter och hubbar är domerade sgulära vektorer 8
Webb-grafe & Webb-matrse WWW ka represeteras som e graf med stes (t.e. hemsdor) som oder ad läkar som kater. Webbmatrse A (adacey or coectvty) represeterar läkstrukture mella sdor: A(,) om sda pekar på sda A(,) aars A är e gles (sparse ) av storlek, > 4 mlarder (4 9 )! 9 Webb-matrs: Harvard 55 G(,) om url{} läkar tll url{}. Skapad med [U,G] surfer('http://www.harvard.edu',5) U cell-array med besökta URL:er
Iläkar räkas! Sep s Home Page DB Pub Server CS36 Yahoo! CNN Läkad av två mdre vktga sdor Läkad av två vktga sdor Defto av PageRak E sdas betydelse (vkt) ges av vkte hos de sdor som pekar på de. mportace of page B N mportace of page pages that lk to page umber of out-lks from page
Defto av PageRak - eempel Taher.5 Sep.5 / / DB Pub Server CNN Yahoo!... 3 PageRak-dagram ().333.333.333 Italsera alla oder tll samma rag (vkt) 4
PageRak-dagram.67.67.333.333 Propagera ragera över läkara (multplcera med läkvkter) 5 PageRak-dagram.333.5.67 ( ) B N () 6
PageRak-dagram.67.67.5.67 7 PageRak-dagram.5.333.67 ( ) B N () 8
PageRak-dagram.4.4. Efter ett tag N B 9 Föreklad beräkg av PageRak Italserg: Upprepa tlls koverges: mportace of page () ( k + ) ( k ) B N mportace of page pages that lk to page umber of outlks from page
Matrsotato rätt abstrakto B N..3..3....3..4. T P..3..3.. Sökt: egevektor svarade mot största egevärdet Htta som uppfyller: P T..3..3....3..4...3..3..
Tllämpa potesmetode (Power Method) Italserg: () Upprepa tlls koverges:... T (k+ ) T P Stoppkrterum: orm( (k+) (k) ) < tolerace (k) 3 Radom Walk på webbe Deftoe av PageRak ka ses som slumpvadrgar (radom walks) på grafer. Surfa frå sda tll sda geom att slumpmässgt väla e utläk frå e sda för att komma tll ästa. Ka leda tll dead eds hos sdor som sakar utläkar (daglg pages), eller cykler krg klckar av sammahägade sdor (loops). 4
5 Loop som e rag-asamlare 3 Rak Sk: Loope 4 -> 5 -> 6 ackumulerar rag me kommer aldrg att dstrbuera ågo rag (ga utgåede läkar). 5 4 6 6 Rak Sk - problematk P Alla egevektorer tll webbmatrse P T ssta eemplet har ollor de tre första kompoetera. PageRak för sdora, ad 3 are! Botemedel: troducera artfcella läkar (rak sources).
PageRak med Rak Sources PageRak() B N + s Alla PageRak är sklda frå oll frå böra! s s M E radom surfer ka föla vlke utläk som helst frå e sda med samma saolkhet (föreklade deftoe). Då och då, blr ho less ad hoppar tll e slumpvs sda på Webbe (y defto med rak sources ). s s 7 Googles PageRak-matrs Perodskt, väls e slumpvs sda på webbe för att överkomma daglg pages och loopar. A c P T + ( - c) E T c bråkdel av tde som e surfare (radom walk) föler e läk (t.e., c.85) - c bråkdel av tde som e godtycklg sda väls E är med E(,) / ( # läkar Webbmatrse) A är tät (dese), rag--modferg av e gles matrs - de flesta A(, ) ( - c) /. 8
Perro-Frobeus teorem A c P T + ( - c) E T är övergågsmatrs hos e Markovkeda (trasto probablty matr) < A(,) <, alla kolumsummor PF: A:s största egevärde svarade tll e etydg egevektor med > A är Markovkedas tllstådsvektor (state vector of the Markov cha) 9 Potesmetode tllämpad på A världes största matrsberäkg? Italserg: ()... T Upprepa tlls koverges: (k+ ) (k) A Beräkg av y A där A c P T + ( - c)/ e e T -Aberäkas e eplct - Utytta A:s struktur Elemete är Googles PageRak! 3
Varför fugerar det? Atag att matrse A har egevektorer u. Au λ u Då ka e godtycklg -dmesoell vektor skrvas som e lärkombato av egevektorera tll A. ( ) u + α u +... +α u λ ; λ > λ... u u u 3 u 4 u 5 α α 3 α 4 α 5 3 Kovergesegeskaper ( k ) k k u + α λ u +... + α λ u λ ; λ > λ... u u u 3 u 4 α λ k α 3 λ k 3 α 4 λ k 4 u 5 α 5 λ 5 k Kovergeshastghete bestäms av / λ dvs beloppet av kvote mella det största och äst största egevärdet. Ju mdre λ, desto sabbare kovergerar potesmetode (abs(λ ) < c, < c <) 3
Är potesmetode (PM) bästa valet? Tradtoellt: A, << 4 mlarder, ofta tät matrs. Rsk för att λ är ära λ potesmetode lågsam!. För detta problem: A, eormt stor, kolumstokastsk, ofta tät, rak- modferg av e gles matrs, där λ är lte Potesmetode fugerar mycket bra!! Se Havelwala T.H. ad Kamvar S.D., The Secod Egevalue of the Google Matr dbpubs.staford.edu/pub/3-. Det pågår forskg med att sabba upp PM. Adra metoder ka fugera lka bra eller bättre för beräkg av PageRak för mer begräsade domäer. 33 PageRak - sammafattg Sökg av webbsdor är huvudtllämpge aväds fulltet-sökmotor Google. PageRak är e global rakg av alla webbsdor, oberoede av dess ehåll, ebart baserad på dess plats Webbgraf-strukture (läk-baserad) - beräkas om ca gåg/måad, tar - veckor!?! Rakg aväds för att ragorda sdora så att mer cetrala webbsdor ges preferes. Bakåtläkar frå vktga sdor är mer sgfkata ä bakåtläkar frå ovktga sdor (rekursv defto av PageRak). 34