Informationsåtervinning på webben Sökmotorernas framtid

Relevanta dokument
Armin Halilovic: EXTRA ÖVNINGAR. ) De Moivres formel ==================================================== 2 = 1

LINJÄR ALGEBRA II LEKTION 4

Linjär Algebra. Linjära ekvationssystem. Ax = b. Viktiga begrepp. Linjära ekvationssystem. Kolumnerna i A. Exempel. R (A) spänns upp av t.ex.

Korrelationens betydelse vid GUM-analyser

Orderkvantiteter vid begränsningar av antal order per år

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Orderkvantiteter i kanbansystem

Repetition DMI, m.m. Några begrepp. egenskap d. egenskap1

Sensorer, effektorer och fysik. Analys av mätdata

2. Konfidensintervall för skillnaden mellan två proportioner.

Tentamen i Linjär Algebra, SF december, Del I. Kursexaminator: Sandra Di Rocco. Matematiska Institutionen KTH

D 45. Orderkvantiteter i kanbansystem. 1 Kanbansystem med två kort. Handbok i materialstyrning - Del D Bestämning av orderkvantiteter

Föreläsningsanteckningar till Linjär Regression

Fördelningen för populationen som stickprovet togs ifrån är känd så nära som på ett antal parametrar, t.ex: N med okända

Fyra typer av förstärkare

Sensorer och elektronik. Analys av mätdata

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Något om beskrivande statistik

EKVATIONER MED KOMPLEXA TAL A) Ekvationer som innehåller både ett obekant komplext tal z och dess konjugat z B) Binomiska ekvationer.

F9 Hypotesprövning. Statistikens grunder 2 dagtid. p-värden. Övning 1 från F8

Parametriska metoder. Icke-parametriska metoder. parametriska test. Icke-parametriska test. Location Shift. Vilket test ersätts med vilket?

Väntevärde, standardavvikelse och varians Ett statistiskt material kan sammanfattas med medelvärde och standardavvikelse (varians), och s.

Kap. 1. Gaser Ideala gaser. Ideal gas: För en ideal gas gäller: Allmänna gaslagen. kraft yta

Kontrollskrivning 3 i SF1676, Differentialekvationer med tillämpningar. Tisdag kl 8:15-10

Introduktion till statistik för statsvetare

Uppgifter 3: Talföljder och induktionsbevis

Begreppet rörelsemängd (eng. momentum) (YF kap. 8.1)

SAMMANFATTNING AV KURS 602 STATISTIK (Newbold kapitel [7], 8, 9, 10, 13, 14)

. Mängden av alla möjliga tillstånd E k kallas tillståndsrummet.

Armin Halilovic: EXTRA ÖVNINGAR

En utvärdering av två olika sätt att skatta fördelningen till stickprovsmedelvärden från olikfördelade data - normalapproximation kontra resampling

Matematisk statistik TMS063 Tentamen

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

F4 Matematikrep. Summatecken. Summatecken, forts. Summatecken, forts. Summatecknet. Potensräkning. Logaritmer. Kombinatorik

F6 PP kap 4.1, linjära ekvationssystem

Tentamen i Sannolikhetsteori III 13 januari 2000

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

SOS HT Punktskattningar. Skattning från stickprovet. 2. Intuitiva skattningar. 3. Skattning som slumpvariabel. slump.

Egna funktioner. Vad är sin? sin är namnet på en av många inbyggda funktioner i Ada (och den återfinns i paketet Ada.Numerics.Elementary_Functions)

F7 PP kap 4.1, linjära överbestämda ekvationssystem

Systemdesign fortsättningskurs

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

TENTAMEN I MATEMATISK STATISTIK. Statistik för lärare, 5 poäng

Tommy Färnqvist, IDA, Linköpings universitet

1. BERÄKNING AV GRÄNSVÄRDEN ( då x 0 ) MED HJÄLP AV MACLAURINUTVECKLING. n x

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

= α. β = α = ( ) D (β )= = 0 + β. = α 0 + β. E (β )=β. V (β )= σ2. β N β, = σ2

================================================

Räkning med potensserier

Föreläsning 10: Kombinatorik

vara ett polynom där a 0, då kallas n för polynomets grad och ibland betecknas n grad( P(

Väntevärde för stokastiska variabler (Blom Kapitel 6 och 7)

Lösning till TENTAMEN

101. och sista termen 1

KONFIDENSINTERVALL FÖR MEDIANEN (=TECKENINTERVALL )

Tentamen i Matematisk statistik för V2 den 28 maj 2010

Mätbar vetskap om nuläget och tydliga målbilder om framtiden. Genomför en INDICATOR självvärdering och nulägesanalys inom tre veckor

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Betong Cement Gruvor Papper & Cellulosa Asfalt Grus Kemi Plast Läkemedel Livsmedel Avlopp & Vatten Vätskor Pulver Slurry Flingor Granulater

Kontrollskrivning (KS1) 16 sep 2019

Analys av algoritmer. Beräkningsbar/hanterbar. Stora Ordo. O(definition) Datastrukturer och algoritmer. Varför analysera algoritmer?

F15 ENKEL LINJÄR REGRESSION (NCT )

5. Linjer och plan Linjer 48 5 LINJER OCH PLAN

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

REGULJÄRA SPRÅK (8p + 6p) 1. DFA och reguljära uttryck (6 p) Problem. För följande NFA över alfabetet {0,1}:

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Strukturell utveckling av arbetskostnad och priser i den svenska ekonomin

Specialfall inom produktionsplanering: Avslutning Planerings- Le 8-9: Specialfall (produktval, kopplade lager, cyklisk planering, mm) system

Databaser - Design och programmering. Databasdesign. Funktioner. Relationsmodellen. Relationsmodellen. Funktion = avbildning (mappning) Y=X 2

H1009, Introduktionskurs i matematik Armin Halilovic POLYNOM, POLYNOMDIVISION, ALGEBRAISKA EKVATIONER, PARTIALBRÅKSUPPDELNING. vara ett polynom där a

b 1 och har för olika värden på den reella konstanten a.

Datastrukturer och algoritmer

TNA001 Matematisk grundkurs Övningsuppgifter

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Lösningar till tentamensskrivning i kompletteringskurs Linjär Algebra, SF1605, den 10 januari 2011,kl m(m + 1) =

Tillämpning av Trafikverkets grafiska profil på Don t drink & drive

Välkommen in i konfirmandens egen bibel!

Föreläsning G70 Statistik A

Centrala gränsvärdessatsen

Normalfördelningar (Blom Kapitel 8)

S0005M V18, Föreläsning 10

a) Beräkna E (W ). (2 p)

Genomsnittligt sökdjup i binära sökträd

Induktion och Binomialsatsen. Vi fortsätter att visa hur matematiska påståenden bevisas med induktion.

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

NEWTON-RAPHSONS METOD (en metod för numerisk lösning av ekvationer)

4.2.3 Normalfördelningen

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

TENTAMEN I MATEMATISK STATISTIK

Föreläsning G04: Surveymetodik

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Trigonometriska polynom

Tentamen i matematisk statistik, Statistisk Kvalitetsstyrning, MSN320/TMS070 Lördag , klockan Lärare: Jan Rohlén

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Föreläsning G70 Statistik A

θx θ 1 om 0 x 1 f(x) = 0 annars

1. Test av anpassning.

Tentamen i matematisk statistik

A. Grundläggande matristeori

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

Transkript:

Iformatosåtervg på webbe Sökmotoreras framtd Semarum 4-9- Iformatosåtervg på webbe Sökmotoreras framtd Ge sprato tll forskg att skapa ya affärsmölgheter smart avädg av sökverktyg de ega orgasatoe Belysa sökmotorer ur ett tekskt, urdskt och affärsmässgt perspektv.

Iformatosåtervg på webbe Sökmotoreras framtd - Program Sökmotorer och tekke bakom, Bo Kågström Sökmotorer framtde, Juss Karlgre Itegrtet, säkerhet och mapulato, Ncklas Ludblad Affärsperspektv och applkatoer Web4Health, Jacob Palme SteSeeker och Eurolg, Hercules Dalas Askology och QuckAsk, Erk Seders Öppe dskusso, Sture Hägglud moderator 3 Sökmotorer och tekke bakom Rakg av webbsdor med läkaalys - Googles PageRak och lkade metoder Bo Kågström Dept. of Computg Scece ad HPCN Umeå Uversty bokg@cs.umu.se

Lte bakgrud Webb-sökg: Ageläge om breda förfråggar (broad-topc queres), t.e. web-browsers. Överflödsproblematk: # sdor som httas och bedöms som relevata ( träffar ) är alldeles för stort! Behövs e mekasm för att ragorda dessa sdor. Hypotes: Om sda har e läk tll sda, så ger de auktortet tll. Hur aväds läkformatoe för att ragorda träffar? Öskar relevata och auktortatva sdor. 5 Hur går e Googlesökg tll? Httar alla dokumet som matchar sökfråga. Relevasbedömg: sdas ehåll, läktete hos läkara. Tll detta läggs vare sdas PageRak (Larry Page, Sergey Br - Googles grudare). Relevata dokumet ragordas och lstas utfrå sa PageRak-värde. 6

Eempel på sökresultat 7 Iehåll Sökg på webbe lte bakgrud Googles PageRak-algortm Defto av PageRak PageRak är e domerade egevektor Rak-sks och -sources modferad defto Beräkg av PageRak världes största matrsberäkg? Varför fugerar det? Kovergesegeskaper HITS-algortme: Hypertet Iteret Topc Search Auktorteter och hubbar är domerade sgulära vektorer 8

Webb-grafe & Webb-matrse WWW ka represeteras som e graf med stes (t.e. hemsdor) som oder ad läkar som kater. Webbmatrse A (adacey or coectvty) represeterar läkstrukture mella sdor: A(,) om sda pekar på sda A(,) aars A är e gles (sparse ) av storlek, > 4 mlarder (4 9 )! 9 Webb-matrs: Harvard 55 G(,) om url{} läkar tll url{}. Skapad med [U,G] surfer('http://www.harvard.edu',5) U cell-array med besökta URL:er

Iläkar räkas! Sep s Home Page DB Pub Server CS36 Yahoo! CNN Läkad av två mdre vktga sdor Läkad av två vktga sdor Defto av PageRak E sdas betydelse (vkt) ges av vkte hos de sdor som pekar på de. mportace of page B N mportace of page pages that lk to page umber of out-lks from page

Defto av PageRak - eempel Taher.5 Sep.5 / / DB Pub Server CNN Yahoo!... 3 PageRak-dagram ().333.333.333 Italsera alla oder tll samma rag (vkt) 4

PageRak-dagram.67.67.333.333 Propagera ragera över läkara (multplcera med läkvkter) 5 PageRak-dagram.333.5.67 ( ) B N () 6

PageRak-dagram.67.67.5.67 7 PageRak-dagram.5.333.67 ( ) B N () 8

PageRak-dagram.4.4. Efter ett tag N B 9 Föreklad beräkg av PageRak Italserg: Upprepa tlls koverges: mportace of page () ( k + ) ( k ) B N mportace of page pages that lk to page umber of outlks from page

Matrsotato rätt abstrakto B N..3..3....3..4. T P..3..3.. Sökt: egevektor svarade mot största egevärdet Htta som uppfyller: P T..3..3....3..4...3..3..

Tllämpa potesmetode (Power Method) Italserg: () Upprepa tlls koverges:... T (k+ ) T P Stoppkrterum: orm( (k+) (k) ) < tolerace (k) 3 Radom Walk på webbe Deftoe av PageRak ka ses som slumpvadrgar (radom walks) på grafer. Surfa frå sda tll sda geom att slumpmässgt väla e utläk frå e sda för att komma tll ästa. Ka leda tll dead eds hos sdor som sakar utläkar (daglg pages), eller cykler krg klckar av sammahägade sdor (loops). 4

5 Loop som e rag-asamlare 3 Rak Sk: Loope 4 -> 5 -> 6 ackumulerar rag me kommer aldrg att dstrbuera ågo rag (ga utgåede läkar). 5 4 6 6 Rak Sk - problematk P Alla egevektorer tll webbmatrse P T ssta eemplet har ollor de tre första kompoetera. PageRak för sdora, ad 3 are! Botemedel: troducera artfcella läkar (rak sources).

PageRak med Rak Sources PageRak() B N + s Alla PageRak är sklda frå oll frå böra! s s M E radom surfer ka föla vlke utläk som helst frå e sda med samma saolkhet (föreklade deftoe). Då och då, blr ho less ad hoppar tll e slumpvs sda på Webbe (y defto med rak sources ). s s 7 Googles PageRak-matrs Perodskt, väls e slumpvs sda på webbe för att överkomma daglg pages och loopar. A c P T + ( - c) E T c bråkdel av tde som e surfare (radom walk) föler e läk (t.e., c.85) - c bråkdel av tde som e godtycklg sda väls E är med E(,) / ( # läkar Webbmatrse) A är tät (dese), rag--modferg av e gles matrs - de flesta A(, ) ( - c) /. 8

Perro-Frobeus teorem A c P T + ( - c) E T är övergågsmatrs hos e Markovkeda (trasto probablty matr) < A(,) <, alla kolumsummor PF: A:s största egevärde svarade tll e etydg egevektor med > A är Markovkedas tllstådsvektor (state vector of the Markov cha) 9 Potesmetode tllämpad på A världes största matrsberäkg? Italserg: ()... T Upprepa tlls koverges: (k+ ) (k) A Beräkg av y A där A c P T + ( - c)/ e e T -Aberäkas e eplct - Utytta A:s struktur Elemete är Googles PageRak! 3

Varför fugerar det? Atag att matrse A har egevektorer u. Au λ u Då ka e godtycklg -dmesoell vektor skrvas som e lärkombato av egevektorera tll A. ( ) u + α u +... +α u λ ; λ > λ... u u u 3 u 4 u 5 α α 3 α 4 α 5 3 Kovergesegeskaper ( k ) k k u + α λ u +... + α λ u λ ; λ > λ... u u u 3 u 4 α λ k α 3 λ k 3 α 4 λ k 4 u 5 α 5 λ 5 k Kovergeshastghete bestäms av / λ dvs beloppet av kvote mella det största och äst största egevärdet. Ju mdre λ, desto sabbare kovergerar potesmetode (abs(λ ) < c, < c <) 3

Är potesmetode (PM) bästa valet? Tradtoellt: A, << 4 mlarder, ofta tät matrs. Rsk för att λ är ära λ potesmetode lågsam!. För detta problem: A, eormt stor, kolumstokastsk, ofta tät, rak- modferg av e gles matrs, där λ är lte Potesmetode fugerar mycket bra!! Se Havelwala T.H. ad Kamvar S.D., The Secod Egevalue of the Google Matr dbpubs.staford.edu/pub/3-. Det pågår forskg med att sabba upp PM. Adra metoder ka fugera lka bra eller bättre för beräkg av PageRak för mer begräsade domäer. 33 PageRak - sammafattg Sökg av webbsdor är huvudtllämpge aväds fulltet-sökmotor Google. PageRak är e global rakg av alla webbsdor, oberoede av dess ehåll, ebart baserad på dess plats Webbgraf-strukture (läk-baserad) - beräkas om ca gåg/måad, tar - veckor!?! Rakg aväds för att ragorda sdora så att mer cetrala webbsdor ges preferes. Bakåtläkar frå vktga sdor är mer sgfkata ä bakåtläkar frå ovktga sdor (rekursv defto av PageRak). 34