Högre kvalitet med automatisk textbehandling?

Relevanta dokument
Innehåll. Informationssökning språkteknologiska hjälpmedel

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Hur man hjälper besökare hitta på en webbplats

Introduktion till språkteknologi

Klustring av svenska tidningsartiklar

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Att söka information (med betoning på Internet)

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Tillämpad programmering CASE 1: HTML. Ditt namn

Söka, värdera, referera


Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Checklista. 10 saker du behöver ha på plats för SEO 2019

Optimering av webbsidor

Sök artiklar i databaser för Vård- och hälsovetenskap

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

WEBBKLUSTRING SLUTRAPPORT


Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Biblioteken, Futurum 2017

Sammanfattning av informationssökning VT19

SEO Sökmotoroptimering

Sö ka litteratur i ERIC

Snabbguide till Cinahl

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

Googles sidrankning - linjär algebra värt en förmögenhet

Sökmotormarknadsföring

Projekt Intelligent Indexering

Logik. Dr. Johan Hagelbäck.

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare

Mall för en kortare rapport/uppsats

Mälardalens högskola

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret Lektion 4

Framsida På framsidan finns:

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.

Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder

Manual HSB Webb brf

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Språkteknologi och Open Source

Söka artiklar i CSA-databaser Handledning

1 Duala problem vid linjär optimering

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.

Ekvivalensrelationer

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

WEBBLÄTTLÄST SLUTRAPPORT

Internets historia Tillämpningar

YAHOO! SEARCH MARKETING Tips för att öka trafiken

Avtalsform Ramavtal & enstaka köp Namn Söktjänst

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Automatisk textsammanfattning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

So ka artiklar och annan litteratur

"Distributed Watchdog System"

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Sö ka artiklar öch annan litteratur

Måldriven, informationscentrerad webbdesign

BLOGG PETER DPI.FI

Google Guide: Tips för sökoptimering

Kort om World Wide Web (webben)

Statistik från webbplatser

Källkritisk metod stora lathunden

Lär dig skriva för webben

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8

Mångdubbla din försäljning med målsökande marknadsföring

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh

Algoritmer: Från kaos till ordning? Bild från Pixabay

UB:s sö ktjä nst - Söka artiklar och annan litteratur

Bättre webb för barn och unga!

Skriv! Hur du enkelt skriver din uppsats

Vad är Internet? Innehåll: Inledning Vad är Internet? Om du kan Internetadressen Söka på Internet Länklistor Övningar Repetition

Träd och koder. Anders Björner KTH

Business research methods, Bryman & Bell 2007

Evidensbaserad informationssökning

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

TDDD02 Föreläsning 7 HT-2013

Representationer. Henrik Artman KTH

Betygskriterier för bedömning av uppsatser på termin 6, ht14

Etiska regler för sökmarknadsföring via sökmotoroptiering

Dags för en ny söktjänst på KTH

Information Retrieval. Information Retrieval (IR)

Sökmotoroptimering. Hur gör jag min sida sökmotorvänlig?

Version: Datum: DynaMaster 5 Golf Övergripande manual

V I G Å R I G E N O M...

Peter Hellström. PH-Digital Marketing

Om uppsatsmallen vid GIH

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT Lars Larsson Algoritmer 1

NKRR. Regelskrivning i praktiken

Kompletteringsmaterial. K2 Något om modeller, kompakthetssatsen

Funktioner. Räta linjen

Föreläsning 6: Analys och tolkning från insamling till insikt

TDDD92 Artificiell intelligens -- projekt

PubMed (Medline) Fritextsökning

4 Fler deriveringsregler

Transkript:

NADA Numerisk analys och datalogi Department of Numerical Analysis Kungl Tekniska Högskolan and Computer Science 100 44 STOCKHOLM Royal Institute of Technology SE-100 44 Stockholm, SWEDEN Högre kvalitet med automatisk textbehandling? En utvärdering av SUNETs Webbkatalog Daniel Stolpe f92-dst@f.kth.se 11 februari 2003 TRITA-NA-Eyynn Examensarbete i Datalogi om 20 poäng vid Programmet för teknisk fysik, Kungliga Tekniska Högskolan, januari 2003 Handledare på Nada var Hercules Dalianis Examinator var Stefan Arnborg

Sammanfattning De viktigaste verktygen för att hitta information på Internet är webbkataloger och sökmotorer. Detta examensarbete utvärderar kvaliteten på SUNETs Webbkatalog både i egenskap av webbkatalog och jämfört med större sökmotorer som Google. Kvaliteten befanns vara god men jag har undersökt möjligheterna att förbättra kvaliteten och/eller effektiviteten med hjälp av automatisk textbehandling. De undersökta teknikerna inkluderar automatiska kategoriseringsförslag, stavningskontroll, stemming, starkare ordning av sökresultat m.m. Flera av dessa visar sig vara lovande. En helautomatisering av registreringsprocessen skulle inte nå upp till nuvarande kvalitetskrav och kan därför inte rekommenderas. Higher Quality by Automatic Text Processing? An Evaluation of the SUNET Web Catalogue Abstract The main tools for finding information on the Internet are search engines and web catalogues. This Master s thesis evaluates the quality of the SUNET Web Catalogue both as a web catalogue and compared to major search engines, like Google. The quality is found to be good but I have explored the possibilities of using automatic text processing for quality and/or efficiency improvement. Techniques explored include automatic categorization suggestions, spell checking, stemming, stronger ordering of search results etc. Several of those were found to be promising. Full automization of the registration process will not meet the present quality demands and thus cannot be recommended.

Tack till Hercules Dalianis för handledning. Kollegorna på KTHNOC för uppmuntran. Katalogens medarbetare för tips och synpunkter. Min fru Anna för allt stöd under arbetets gång.

Innehåll 1 Inledning 1 1.1 Problemet... 1 1.2 Uppgiften... 2 1.3 Metoder... 2 1.4 Varför?... 2 2 Teoretisk bakgrund kategorisering 3 2.1 Sökmotor eller webbkatalog..... 3 2.2 Fördelar,nackdelarochvolymproblem... 4 2.2.1 Sökmotorer..... 5 2.2.2 Webbkataloger... 5 2.3 Automatiskkategorisering... 6 2.3.1 Kategoriseringavsöksvar... 7 2.3.2 Bralänkar... 7 2.3.3 Unsupervisedmethod... 8 2.3.4 Supervisedmethod... 8 2.3.5 Kategoriseringochklustring... 9 2.3.6 Innehållellersammanhang... 9 2.4 Representation och likhetsmått... 9 2.4.1 Boolesksökning... 9 2.4.2 Vektorrymdsmodellen... 10 2.4.3 Termviktning... 11 2.4.4 Stoppord... 11 2.4.5 Stemmingochgrundform... 12 2.4.6 Koncept,synonymerochtesaurusar... 12 2.4.7 Struktur... 13 3 Kvalitet 14 3.1 Sökmotorer.... 14 3.1.1 Uppgiften... 14 3.1.2 Närärettsvarbra?... 15 3.1.3 Egnaslutsatser... 20 3.1.4 FortuneSmallBusiness... 20

3.2 Kataloger... 21 3.2.1 Kvalitetsbedömning av Webbkatalogen..... 21 3.2.2 Sökningikataloger... 24 3.2.3 Utvecklingsmöjligheter... 25 4 Rättstavning ortografi 28 4.1 Teori... 28 4.1.1 Identifikationavfelstavadeord... 29 4.1.2 Genereringavtroligarättstavadeord... 30 4.1.3 Rangordningavkandidater... 30 4.1.4 Isoleradeord... 31 4.2 Tester och tillämpningar... 31 4.2.1 Resultatochtolkning... 31 4.2.2 Intressanta iakttagelser.... 32 4.3 Närochmotvad?... 32 4.4 Rekommendationer... 33 5 Utvärdering av Webbkatalogen 34 5.1 Administrationsformuläret... 34 5.2 Regler... 35 5.2.1 Allmänt... 35 5.2.2 Rubrik... 37 5.2.3 URL... 37 5.2.4 Beskrivning..... 38 5.2.5 Kategorier... 39 5.2.6 Nyckelord... 40 5.2.7 Namn,e-postochgeografi... 40 5.3 Arbetsgång... 41 5.3.1 Anmälningarikön... 41 5.3.2 Felkön... 43 5.3.3 Posterikatalogen... 43 5.4 Kategoriträdet... 43 5.5 Automatiseringavregistreringsförfarandet... 44 5.5.1 Testavautomatiskrubriksättning... 44 5.5.2 Resultat... 45 5.5.3 Tolkningavrubriksättningsresultaten... 46 5.6 Kategorisering... 46 5.6.1 Automatisering... 46 5.6.2 Tidigareforskning... 47 5.6.3 Egnanoteringar... 47 5.6.4 Slutsatseromkategorisering... 47 5.7 Beskrivningstexter och nyckelord... 48 5.8 Kvalitetsgranskning.... 48

6 Slutsatser 49 Referenser 51

Kapitel 1 Inledning - Är SUNETs Webbkatalog 1 bra och hur kan den bli bättre? En verksamhet som inte tål att utvärderas är förmodligen inte värd att driva vidare. När SUNETs Webbkatalog (tidigare känd som WWW-katalog) startades 1993 av Rickard Schoultz vid KTHNOC 2 var World Wide Web bara i startgroparna. I Sverige fanns en handfull webbservrar, främst inom universitetsvärlden. Att göra en katalog över den svenska delen av webben var därför snart gjort. Sedan kom boomen::: Under åren som följde var katalogen ett ständigt växande lapptäcke av nya funktioner, ändringar, tillfälliga lagningar m.m. Först 2000 startades det projekt som gav katalogen en riktig databaslösning, en mer dynamisk kategorihantering och ny layout. När detta projekt avslutades hösten 2002 föll det sig naturligt med en grundlig översyn av verksamheten och omvärlden. 1.1 Problemet Exakt vilken infallsvinkel som skulle användas var långt ifrån självklart men någonstans fanns ändå frågeställningen där är katalogen bra och hur kan den bli bättre? För att kunna svara på en sådan fråga måste förstås ordet bra definieras och det delas då upp i två delar: Internt: är katalogen bra i egenskap av katalog? Externt: är katalogen en bra tjänst jämfört med andra typer av konkurrerande tjänster? Båda dessa aspekter inriktar sig på användarsidan. Från finansiärernas synvinkel är det naturligt att även titta på vad som sker bakom kulisserna: Ekonomiskt: är driften effektiv? 1 http://katalogen.sunet.se/ 2 KTH Network Operation Centre, som fortfarande driver katalogen åt SUNET. 1

En förbättring i den aspekten handlar då om möjligheterna att spara tid och pengar med hjälp av ny teknik. Idealt vore förstås att hitta tekniska lösningar som både höjer kvaliteten och effektiviteten. 1.2 Uppgiften Uppgiften kom att bestå av följande delar: Hitta ett kvalitetsmått för webbkataloger och avgöra i vilken mån SUNETs Webbkatalog lever upp till detta. Jämföra i vilken mån webbkataloger konkurrerar med andra typer av informationstjänster, dvs. sökmotorer. En orientering i vilka tekniska lösningar andra funnit. En utvärdering av hur Webbkatalogen fungerar idag. En analys av hur de funna tekniska lösningarna kan tillämpas i Webbkatalogen, hur kvalitet och effektivitet påverkas osv. Målsättningen var, förutom att besvara frågan om Webbkatalogens kvalitet, att presentera goda förslag till nya projekt. Examensarbetet har utförts vid KTHNOC med Hercules Dalianis från gruppen för språkteknologi som handledare, allt inom Nada, KTH. 1.3 Metoder Uppgiften har väsentligen lösts genom systematisk genomgång av hur Webbkatalogen fungerar idag. För varje moment har jag undersökt möjligheter till automatisering och vilka konsekvenser det skulle medföra. Ett alternativ kunde ha varit att i större utsträckning utföra praktiska försök för att se vad som var bra, men det hade förmodligen tagit för lång tid och därmed skulle utvärderingen riskera att bli ofullständig. 1.4 Varför? Det kan vara på sin plats att redan här förklara att driften av manuellt redigerade webbkataloger innehåller en stor del administration, något som kräver stora personella resurser. Om det gick att automatisera hela registreringsförfarandet skulle det innebära en smärre revolution. Det administrativa arbetet utvärderas i detalj i kapitel 5, medan vinsterna med automatisering tas upp närmare i avsnitt 2.3. 2

Kapitel 2 Teoretisk bakgrund kategorisering Följande kapitel utgör en teoretisk bakgrund till automatisk kategorisering av webbplatser. 2.1 Sökmotor eller webbkatalog WWW (World Wide Web) har sedan mitten av nittiotalet växt närmast explosionsartat. För att hitta rätt i den informationsdjungel detta resulterat i, behövs någon form av karta. De två viktigaste verktygen är sökmotorer och webbkataloger. Begreppen blandas ofta ihop fastän konstruktionerna är väsentligt olika. En sökmotor innehåller alltid tre delar [9]: En spindel (eng. spider, crawler) som letar igenom nätet och hämtar hem sidorna. En indexerare går igenom sidan och indexerar innehållet (orden). En sökmodul som söker i indexet. (Notera under punkt tre att sökmodulen söker i motorns index och alltså inte på själva nätet). Olika sökmotorer använder sedan olika algoritmer för att avgöra vilka sidor som bäst motsvarar användarens frågor. En webbkatalog å andra sidan är (normalt, det är det vi skall titta närmare på) uppbyggd av en grupp mänskliga kategoriserare. Enligt Attardi et al. [2] ingår åtminstone följande steg: Manuell navigering genom webbplatsen. Extraktion av viktig information, summerad i en beskrivning eller sammanfattning. Kategorisering av webbplatsen inom en befintlig kategoristruktur. 3

2.2 Fördelar, nackdelar och volymproblem Såväl sökmotorer som kataloger har börjat få vissa volymproblem [2], sökmotorerna därför att träffarna på vanliga frågor blir för många, webbkatalogerna därför att man inte hinner registrera eller kategorisera alla nya webbplatser. I det första fallet är Alta Vista ett tydligt exempel i början var de ledande, tack vare principen we index it all. Senare blev det ett problem för att söksvaren innehöll för mycket brus [5]. (Både för att man rent allmänt fick för många träffar men även på grund av s.k. sökmotorspamming, dvs. sidor som avsiktligt lagt in irrelevanta nyckelord för att ge träff på så många söktermer som möjligt). På fackspråk brukar man [3], [9], [22] använda begreppen precision (eng. precision) och täckning (eng. recall) där precision definieras som antal relevanta träffar delat med antalet givna träffar och täckning är antal givna relevanta träffar delat med totala antalet möjliga relevanta träffar (mer om detta i avsnitt 3.1.2). Alta Vistas problem kan ses som en alltför hög täckning i förhållande till precisionen 1. (Dessa två storheter står ofta i ett visst motsatsförhållande [4]). Enligt Attardi et al. [2], som i sin tur hänvisar till SearchEngineWatch 2 ledde det till en ny inriktning för Alta Vista we index the best. I takt med att indexet ökar så blir det allt svårare att välja rätt nyckelord. Antingen blir träffarna för många eller för få. Spink och Xu [25] har undersökt sökbeteendet hos användare av Excite 3. Denna undersökning ger vid handen att en sökfråga vanligen är kort i två fall av tre innehåller den maximalt två ord och i fyra fall av fem, maximalt tre ord. Dessutom var det genomsnittliga antalet frågor mindre än tre. Söksvaren är normalt många men användaren nöjer sig med att titta på ett fåtal. Om det visas tio träffar per sida så stannar de flesta på första eller andra sidan. Tålamodet är med andra ord litet, man förväntar sig att hitta det man söker fort. Detta är en klar nackdel för okategoriserade sökmotorer. Den idag ledande sökmotorn, Google 4, är mycket bra på att hitta specifik information (sökning på smala begrepp, allra helst sökningar på t.ex. en specifik artikel, organisation eller webbplats). Tack vare införandet av PageRank [21] har man till viss del kunnat komma ifrån sökmotorspammingen, detta genom att rangordna sidorna efter hur viktiga de kan anses vara, oberoende av sökfrågan. PageRank kan ses som ett framgångsrikt försök att komma till rätta med Alta Vistas tidigare refererade problem. Framförallt vid sökning på vida sökbegrepp kan det vara svårt att hitta rätt i en sökmotor. Dels tenderar träffarna att bli osorterade (och därmed oöverskådliga) och dels finns risken att det/de ord man söker på, helt enkelt saknas på relevanta sidor. En sökning på dagstidningar ger t.ex. knappast träff på sådana. Motsva- 1 Vill man vara riktigt noga så handlade det om för hög fallout, se ekvation 3.3, avsnitt 3.1.2. 2 http://www.searchenginewatch.com/ 3 http://www.excite.com/ 4 http://www.google.com/ har störst index och exponeras förutom i eget namn även på flera av nätets mest besökta webbplatser, se http://www.internetbrus.com/indexstorlek.html 4

rande sökfråga hos t.ex. SUNET ger dock en hänvisning till kategorin /Massmedia/Dagstidningar. Denna leder till en länklista till svenska dagstidningar som kan visas i bokstavsordning eller på annat sätt, efter användarens önskemål. Trots att SUNETs Webbkatalog är en av de riktiga veteranerna (startades 1993 med länkar till de då mycket få svenska webbresurserna) så kan den ses som något av ett svenskt svar på Yahoo! 5 som kom igång i liten skala 1994 [11]. Kommersialiseringen 1995 bidrog också till att sätta en standard, kanske främst vad gäller kategoristrukturen. Några år senare började ett visst missnöje med Yahoo! grassera. Orsaken var att Yahoo! börjat känna av de volymproblem som nämnts tidigare. Som något av en reaktion [19] lanserades Open Directory Project, ODP 6 1998. ODP:s koncept bygger på det som brukar kallas open source allt är öppet, gratis och alla som vill får vara med och hjälpa till. Med hjälp av ett mycket stort antal frivilliga redaktörer har man snabbt samlat ihop ett stort antal länkar. Svagheten i den metoden är förstås den sannolika risken för inkonsekvens (på grund av antalet redaktörer). För att ytterligare röra till begreppen har flera sökmotorer och webbkataloger börjat samarbeta. Yahoo! låter Google ta hand om de sökningar som inte ger några träffar bland de egna länkarna. Google i sin tur samarbetar med ODP, såtillvida att träffar på någon av ODP:s länkar också presenteras med information om i vilken av ODP:s kategorier den återfinns. (Detta dock via ett eget gränssnitt Google Directory 7 ). 2.2.1 Sökmotorer Fördelar med sökmotorer: de kan indexera allt tack vare automatiken är de ständigt någorlunda aktuella Nackdelar med sökmotorer: det är svårt att hitta lagom bredd på sökfrågan de är till liten hjälp vid sökning på vida begrepp de kan vara känsliga för sökmotorspamming 2.2.2 Webbkataloger Fördelar med webbkataloger det går att navigera sig fram till rätt ämne 5 http://www.yahoo.com/ 6 http://dmoz.org/ 7 http://directory.google.com/ 5

sökningar på vida begrepp ger ofta träff på relevanta kategorier mängden träffar eller länkar är någorlunda hanterlig det går att söka i en avgränsad kategori eller subträd Nackdelar med webbkataloger det stora mänskliga inslaget i arbetet är dyrt och risken är stor att man inte hinner med att kategorisera alla nya sidor när en sida väl är kategoriserad kan innehållet ändras vilket gör länken inaktuell Attardi et al. [1] skriver (utan närmare förklaring) att användare har visat sig uppskatta kataloger och att värdet på en katalog beror på följande kriterier (dokument kan här ses som ekvivalent med länkar): Klassifikationskvalitet hur intuitiv, komplett, välordnad och koncis den är. Auktoritet hur vederhäftig användaren anser katalogen vara. Riktighet hur välvald kategoriseringen är för ett visst dokument. Konsekvens huruvida liknande dokument är lika kategoriserade. Aktualitet hur snabbt katalogen återspeglar ändringar i dokumentsamlingen. Kompletthet hur många, av de dokument som är relevanta för en viss kategori, som också listas där. Selektivitet hur relevanta dokumenten i en viss kategori är för just den kategorin. De två sista kriterierna står förstås i ett visst motsatsförhållande. I synnerhet en manuellt uppbyggd katalog förväntas ha vissa kvalitetskrav på de länkar som tas med. Å andra sidan är vissa kategorier av det slaget att kompletthet höjer kvaliteten avsevärt. T.ex. eftersträvar SUNETs Webbkatalog att kategorin /Offentlig förvaltning/kommuner skall länka till alla Sveriges kommuner. 2.3 Automatisk kategorisering Webbkatalogernas svagheter handlar väsentligen om den mänskliga faktorn de kräver stora mänskliga insatser, vilket är dyrt och tidsödande. Dessutom är manuell kategorisering i någon mån alltid subjektiv. Kvaliteten på arbetet är helt beroende av kategoriserarnas skicklighet och det kan inte garanteras att resultatet blir bra. Det är därför naturligt att se om man kunde göra samma sak automatiskt. Attardi et al. [2] räknar upp ett antal vinster det skulle medföra: 6

besparingar av mänskliga resurser tätare uppdateringar hantering av större mängder data upptäckt och kategorisering av nya webbplatser utan mänsklig inblandning omkategorisering av redan kategoriserade sidor, då de byter innehåll omkategorisering av redan kategoriserade sidor, då kategoristrukturen ändras Lee och Shin [17] föreslår ännu en sak: automatisk identifikation av nya kategorier Det där lät ju bara positivt men hur går det till i praktiken? Beroende på ambition och omständigheter finns olika sätt att gå till väga. 2.3.1 Kategorisering av söksvar Om vi utgår från en vanlig sökmotor så är första steget mot katalogisering att kategorisera söksvaren. Resultatet blir dock inte en katalog utan just en utbyggd sökmotor. Dessutom handlar det ofta inte om kategorisering i vanlig mening utan om klustring. Skillnaden är att vid kategorisering finns en fördefinierad kategoristruktur medan klustring handlar om att hitta gemensamma egenskaper i den mängd som skall kategoriseras. Den uppenbara fördelen är att kategorierna (eller snarare klustren) stämmer bra överens med innehållet. En nackdel kan vara att uppdelningen inte känns naturlig för användaren. Den här rapporten är tänkt att företrädesvis behandla kategorisering varför jag hänvisar till t.ex. Rosell [23] för djupare behandling av klustring. Principen är dock i korthet att söksvaren grupperas med avseende på något givet likhetsmått, ofta en vektorrymdsmodell eller termviktningsmodell. En sökmotor som fungerar på det sättet är Vivisimo 8. Hsiao Mase [18] har med viss framgång (runt 85% träffsäkerhet) gjort försök med realtidskategorisering av söksvar. Tanken där var att användaren skulle kunna ange sina egna kategorier. Metoden bygger dock på att man har en stor mängd 9 testdata (se avsnitt 2.3.4) vilket gör att den inte blir lika dynamisk som klustring. 2.3.2 Bra länkar Chakrabarti et al. [7] har prövat att bygga en kategoriserad länksamling med ett begränsat antal bra länkar (min beteckning) i varje kategori. Principerna bygger på Jon Kleinbergs [14] teorier om hubbar och auktoriteter. En hubb definieras som 8 http://www.vivisimo.com/ 9 I det aktuella fallet drygt 10 000 webbplatser. 7

en sida utan information om ämnet i sig, men med länkar till bra information. En auktoritet är en sida med relevant ämnesinformation. Det tillkommer också att en bra hubb är en sida som länkar till många bra auktoriteter. En bra auktoritet är länkad från många bra hubbar. Här tar man alltså hänsyn till länkstrukturen vilket förstås kräver en sökspindel som lagrar alla länkar mellan de aktuella sidorna. För att hitta dessa hubbar och auktoriteter går man tillväga på följande sätt: 1. ställ en välformulerad fråga till en sökmotor (t.ex. Alta Vista) 2. plocka ut de t första länkarna (t=200) i en mängd R (kallad root set) 3. för varje sida i R: lägg till alla eller maximalt d sidor som länkar till eller länkas från denna sida (d=50) vilket ger en utökad mängd S 4. förkasta alla interna länkar (vilket definieras som länkar inom samma domän 10 ) 5. iterera fram de bästa hubbarna och de bästa auktoriteterna Resultatet av den här kategoriseringen blev femton hubbar och femton auktoriteter i varje kategori. Detta liknar mer en traditionell webbkatalog än den förra tekniken, men ändå inte riktigt. 2.3.3 Unsupervised method De metoder som finns för att kategorisera en mängd sidor efter en given kategoristruktur kan delas upp i två typer (se även avsnitt 2.3.4). I det första fallet börjar vi med en tom kategoristruktur, dvs. utan några förkategoriserade sidor att jämföra med. Den metoden kallas på engelska unsupervised, dvs. ungefär oövervakad eller okontrollerad (i det avseende att vi saknar data att kontrollera med). De här metoderna kräver att man för varje kategori skapar en mall eller kategoriprofil, efter vad man tänker hör hemma just där. De sidor som skall kategoriseras jämförs sedan med profilerna och placeras där de passar bäst. Kategoriprofilen (även kallad deskriptor) kan enligt Attardi et al. [2] beskrivas som en mängd viktade nyckelord och meningar. Dessa kan konstrueras manuellt, automatiskt (jämför Supervised method nedan), med träning, statistik eller neurala nätverk. 2.3.4 Supervised method I det andra fallet (se även avsnitt 2.3.3) har vi redan från början en mängd kategoriserade data, att jämföra med (se t.ex. Mase [18]). På engelska kallas denna mängd normalt training set dvs. träningsmängd. Med hjälp av något likhetsmått jämför man det som skall kategoriseras, med det som redan är kategoriserat. Det här angreppssättet kallas supervised, eftersom den använder sig av en kontrollmängd. 10 Domän är här lika med den del av en datoradress som står före sista punkten. 8

2.3.5 Kategorisering och klustring Lee och Shin [17] startar med en fördefinierad kategoristruktur. De sidor som inte passar i någon lövkategori (som saknar underkategorier), men väl i en inre kategori (sådan som har underkategorier), klustras ihop för att hitta nya lämpliga underkategorier. Man har då tagit hänsyn till att en fördefinierad kategoristruktur riskerar att bli alltför statisk. Nya ämnen som inte passar in i givna kategorier dyker ständigt upp. Vissa kategorier riskerar att svämma över för att alltför många sidor passar in där. 2.3.6 Innehåll eller sammanhang Det helt dominerande sättet att bedöma en webbsidas kategoritillhörighet vid manuell kategorisering är att titta på innehållet. Detta kanske låter självklart och samma principer används ofta även vid automatisk kategorisering. I det senare fallet är det dock möjligt att med hjälp av en sökspindel även titta på webbsidans sammanhang. Attardi et al. [1] gör antagandet att om en webbsida länkar till ett dokument så innehåller den tillräckligt med information för att få någon att vilja läsa det. Därav dras slutsatsen att kännedom om i vilka sammanhang en sida länkas till, är tillräckligt för kategorisering. En fördel med den här metoden är att sidorna inte vittnar om sig själva (vilket inte alltid är helt tillförlitligt) utan istället tar hänsyn till andras uppfattning. (Det jämförs med baksidestexter på pocketböcker, där positiva recensioner i olika tidningar brukar citeras, för att ge högre trovärdighet). Bl.a. Google använder en variant på detta genom att indexera ankartexten 11. Brin och Page [5] poängterar ytterligare en fördel med den varianten, nämligen möjligheten att indexera annat än text (t.ex. bilder). Noterbart är att metoder som tittar på sammanhang ofrånkomligen i viss mån blir snyltande 12 de använder sig av det arbete andra lagt ner. 2.4 Representation och likhetsmått För att kunna jämföra webbsidor med varandra eller med en mall eller profil måste man först bestämma hur det skall göras och vad likheten innebär. Den här frågeställningen dyker naturligt upp även vid konstruktion av en sökmotor på något sätt måste det ju avgöras vilka sidor som skall ge träff vid en viss fråga. 2.4.1 Boolesk sökning Det mest grundläggande sättet att söka är med hjälp av Booleska 13 operatorer. (En enkel sökfråga som inte explicit innehåller någon sådan operator tolkas ändå som 11 Det som står mellan <A> och </A> i HTML-koden, dvs. det som är klickbart. 12 Attardi et al. [1] kallar det själva parasitical behavior parasitiskt beteende. 13 Efter George Boole 1815-1864, engelsk matematiker. 9

om den gjorde det). Sullivan [26] redogör för hur detta är implementerat i några olika sökmotorer. DeegentligaBooleskaoperatorernaär OR, AND ochnot. Ibland förekommer också den kvasibooleska operatorn NEAR.OmA och B är ord i sökfrågan, definieras de tre första som: A OR B innehåller minst ett av A och B A AND B innehåller både A och B NOT A innehåller inte A Om NEAR används så tolkas A NEAR B som att A och B måste finnas i närheten av varandra. (Hur nära beror på implementation). Som Baeza-Yates och Ribeiro-Neto [3] mycket riktigt påpekar är NOT A, dvs. komplementet till A en närmast obegränsad mängd. De föreslår därför istället operatorn BUT där uttrycket A BUT B innehåller A men inte B. (BUT skall därmed snarast tolkas som but not). Boolesk sökning är i sig själv exakt men oviktad, dvs. den tar inte någon som helst hänsyn till hur vanliga eller viktiga orden är, utan jämför bara binärt om orden i sökfrågan förekommer i dokumentet eller inte. På grund av detta kombineras den ofta med någon form av termviktning, se avsnitt 2.4.3. Fördelen med den Booleska modellen är att den är enkel och formellt ren [3]. Nackdelen är att den exakta matchningen kan ge för få eller för många träffar, utan att kunna rangordna dessa. Dessutom kan modellen inte hitta dokument som endast delvis stämmer med sökfrågan. 2.4.2 Vektorrymdsmodellen En tanke är att representera en text med en vektor med lika många dimensioner som antalet unika ord. Normera längden på vektorn så ger skalärprodukten mellan två sådana vektorer ett likhetsmått. Eftersom det ger cosinus för vinkeln mellan vektorerna kallas det ofta cosine measure. Om ~q är sökfrågan och ~ d j är dokument nummer j så ges likheten (hämtat från Baeza-Yates och Ribeiro-Neto [3]) av: sim(d j ;q)= ~d j ffl ~q j ~ d j j j~qj Ett antal andra varianter på likhetsmått återfinns t.ex. hos van Rijsbergen [22]. Nackdelen med dessa är att det inte görs någon skillnad mellan vanliga eller ovanliga ord. Dessutom är ju sökfrågor i sökmotorer rimligen mycket kortare än texterna i sökindexet, varför en direkt jämförelse lätt blir skev. Enligt Sahami et al. [24] så spelar antalet förekomster av ett ord, över ett visst tröskelvärde, ingen roll. Med det antagandet kan man således välja en binär representation. Om det totala antalet ord är J så blir vektorn då en punkt i hörnet av en J-dimensionell hyperkub. 10

En sökning enligt vektorrymdsmodellen returnerar alltid ett svar eftersom något dokument alltid uppfyller kriteriet att maximera likhetsfunktionen ovan. Detta innebär dock inte att det automatiskt är relevant för sökfrågan. 2.4.3 Termviktning Klustring kan ses som en kombination av likhet och olikhet: medlemmarna av ett visst kluster är inbördes lika, medan övriga element är olika. Baeza-Yates och Ribeiro-Neto [3] kallar detta för intra-cluster similarity och inter-cluster dissimilarity. Samma resonemang kan användas för sökfrågor om de matchande dokumenten ses som ett kluster. Ett vanligt sätt att ta hänsyn till att orden är olika viktiga kallas tf*idf [9], vilket utläses term frequency*inverse document frequency. Den första faktorn ger svar på hur vanligt ett visst ord är i en viss text. Ett ord som är vanligt förekommande i två texter antyder att dessa har en viss likhet. För att detta skall vara meningsfullt krävs dock även att samma ord är mindre vanligt i övriga texter (de som vi ovan klassat som olika). Resultatet av detta är att ord som är vanliga i en viss text (eller på en viss webbsida) men totalt sett är ovanliga, (de har alltså hög idf ) ges hög vikt eftersom de förmodligen har högre signifikans för den aktuella texten, än andra ord (med lägre idf ). Den allra enklaste definitionen av tf ij är antal förekomster av ord i itextj, medan idf i kan tas som totala antalet texter delat med antalet texter där ord i förekommer. Eftersom dessa mått inte tar någon hänsyn till texternas längd använder man ofta olika normaliserade varianter [23]. 2.4.4 Stoppord Ord med mycket hög eller mycket låg dokumentfrekvens har enligt van Rijsbergen [22] låg signifikans. Ord med mycket hög frekvens, dvs. sådana som finns med på alla eller nästan alla sidor (dvs. låg idf ) kallas stoppord. Det kan vara prepositioner, konjunktioner, räkneord, interjektioner [9]. Om texten innehåller orden och, inte, att så säger det inte mycket om innehållet. Dessa ord filtreras därför ofta bort från vektorrepresentationer och index med hjälp av s.k. stoppordslistor, främst av utrymmesskäl. Ord kan även delas upp i betydelsebärande ord och funktionsord. Enligt van Rijsbergen [22] är förekomsten av funktionsord Poissonfördelad. Sannolikheten att ett funktionsord förekommer n gånger i en text är då: P (n) = e x x n för något x som varierar beroende på ord och för ett givet ord är proportionellt mot textens längd. 11 n!

2.4.5 Stemming och grundform En mänsklig betraktare ser lätt att ord av olika böjningsformer eller sammansättningar hör ihop. Ett datorprogram gör dock inte det lika lätt. En tanke är att föra över alla ord till grundform eller ordstammar (eng. stemming). Ingenav dessavarianter är perfekt för om orden förs över till grundform så missas kopplingen i t.ex. substantiverade verb, medan stemming riskerar att koppla ihop ord av helt olika betydelse. Stemming ger olika stor effekt beroende på språk. Enligt Dalianis [9] beror det på hur morfologiskt komplext språket är. Tomlinson [27] visar att precisionen med hjälp av stemming kan förbättras 43% på tyska, 30% på holländska, 18% på franska, 16% på italienska, 12% på spanska och 12% på engelska. Precisionen är då mätt vid vid samma täckning (t.ex. 5, 10 och 20 hittade relevanta dokument). Carlberger et al. [6] visar att stemming på svenska kan ge 15% bättre precision och 18% bättre täckning. 2.4.6 Koncept, synonymer och tesaurusar Avsnitt 2.4.5 tog upp en aspekt av att datorprogram för indexering av ord eller termer endast gör binära jämförelser kontrollerar huruvida ordet finns med eller ej dvs. avståndet mellan två ord är antingen noll eller oändligt. Förutom att olika böjningsformer av ett och samma ord bör räknas just som samma ord, är det inte orimligt att anse att synonymer eller andra på något sätt relaterade ord bör få visst genomslag. Resultatet av ett sådant resonemang blir att jämföra koncept, snarare än enskilda ord. Synonymlexika av olika slag är användbara verktyg vid frågeutvidgning (eng. query expansion) i sökmotorer. Sökfrågan utvidgas då till att även omfatta kända synonymer till de ingående orden. Listorna kan genereras manuellt eller genom olika statistiska grepp i dokumentsamlingen. Om N = totala antalet texter, a = (a 1 ;a 2 ;:::a N ) och b = (b 1 ;b 2 ;:::b N ) är vektorer, svarande mot två olika ord där a i = antal förekomster av ordet a itexti och motsvarande för b i, då är skalärprodukten, ~a ffl ~ b ett mått på korrelationen mellan dessa ord [23]. På så sätt fås ett graderat avstånd mellan olika ord. En mer raffinerad metod (än att bara titta på synonymer) är att använda tesaurusar 14, ett slags standardiserade ordböcker som innefattar relationer mellan orden, eller snarare begreppen. En tesaurus listar enligt Lange [16] inte ord utan ordbetydelser. Den fyller enligt Baeza-Yates och Ribeiro-Neto [3] tre funktioner: a) ett standardspråk för indexering och sökning, b) den hjälper användaren att hitta rätt sökord och c) den tillhandahåller en klassificerad hierarki som möjliggör förfining eller utvidgning av sökfrågor. De olika hänvisningar som finns mellan olika begrepp (eller ordbetydelser, enligt ovan) är vidare begrepp (eng. broader term, BT), smalare begrepp (eng. narrower term, NT) och relaterade begrepp (eng. related term, RT). 14 Av grekiska thesauros skattkammare. 12

Om inte textförfattarna använt en tesaurus och därmed tillägnat sig ett kontrollerat språk kan tesaurusen istället bli ett verktyg för att mäta konceptlikhet, även när direkt ordlikhet saknas. 2.4.7 Struktur En ytterligare beaktansvärd aspekt är webbsidornas struktur. I speciella fall kan man ha att göra med texter på en viss karaktäristisk form (t.ex. tidningstexter, där det viktigaste står först och sedan i fallande ordning) men även i ett så brett område som webbsidor i allmänhet kan man ha viss nytta av strukturen. T.ex. är det tänkbart att ord i olika rubriknivåer är viktigare än de som står i löpande text. 13

Kapitel 3 Kvalitet Vad innebär det att något är bra? Bättre eller sämre än något annat? I vilket avseende? För att kunna jämföra saker och ting behövs både mätvärden och skalor. Att definiera en bra och rättvisande skala för informationssökning har inte visat sig helt lätt. Stora ansträngningar har lagts ner på detta område. Även om van Rijsbergens [22] utsaga nu har några år på nacken så stämmer den nog fortfarande ganska bra de flesta som jobbar i branschen är överens om att problemet är långt ifrån löst. 3.1 Sökmotorer Varför ta upp sökmotorer igen, när detta skall handla om webbkataloger? Ett viktigt skäl är att klargöra skillnader och likheter, när de två fenomenen kan jämföras och på vilket sätt de konkurrerar. 3.1.1 Uppgiften För att utvärdera ett program är det viktigt att definiera vilken uppgift programmet skall utföra och om den också utförs. Som redan tagits upp i avsnitt 2.1 består en sökmotor av en spindel, en indexerare och en sökmodul. Jag tänker inte ge mig på någon närmare utredning av hur spindeln och indexeraren fungerar i detalj, utan jag koncentrerar mig på vad som blir resultatet av helheten: sökfunktionen. En grundtanke är att det för en given sökfråga q returneras en svarsmängd B och att det finns en viss mängd relevanta dokument 1 A. Figur 3.1 illustrerar detta sätt att se på världen. Att definiera q och B är trivialt men hur är det med A? Som van Rijsbergen [22] påpekar är relevans ett subjektivt och dessutom ofta något flytande begrepp. Olika användare kan ha olika syn på ett dokuments relevans, för en och samma fråga. När Baeza-Yates och Ribeiro-Neto [3] beskriver sitt sökande efter information om hur fort en jaguar kan springa, blir detta tydligt. Sökfrågan 1 Ordet dokument är vanligt förekommande inom informationssökning. I fallet sökmotorer kan det ses som ekvivalent med webbplats eller webbsida. 14

jaguar speed resulterar i ett antal träffar om bilar, dataspel, amerikansk fotboll mm, som säkert har en viss relevans till sökfrågan i någon aspekt helt utan att ge något svar på den fråga de ville ha besvarad. A B Figur 3.1. Relevanta dokument A, och funna dokument B. Ett slags relevans som beskrivs av van Rijsbergen kan faktiskt sägas vara objektiv och det är logisk relevans. Denna relevans definieras genom logisk konsekvens och frågorna måste kunna formaliseras enligt klassisk logik som P och :P i de enklaste fallen. Jämför detta och satser av typen P ^ Q och P _ Q med Booleska operatorer i avsnitt 2.4.1. Om frågan var Är väte en halogen? blir satserna Väte är en halogen ( P ) och Väte är inte en halogen ( :P ) ingående satser. En delmängd av alla lagrade meningar (eller dokument) är en premissmängd till en ingående sats om och endast om den ingående satsen är en logisk konsekvens av denna delmängd. En minsta premissmängd till en ingående sats är minsta möjliga premissmängd i det avseendet att om en av dess medlemmar togs bort skulle den ingående satsen inte längre vara en logisk konsekvens av den resulterande mängden. Ett dokument är logiskt relevant till en sökfråga om och endast om det tillhör en minsta premissmängd av dokument till en ingående sats tillhörande denna sökfråga. Detta kan dock bara ses som ett specialfall med begränsad användning. Normalt brukar man i testsammanhang använda sig av några kända dokumentsamlingar där de rätta svaren är kända [3], [22]. Jämför även med likhetsmåtten som beskrivs i avsnitt 2.4. Av dessa är vektorrymdsmodellen (2.4.2) ett exempel på en graderad relevans, till skillnad från det binära mått som blir resultatet av rent Booleska jämförelser. Järvelin och Kekäläinen [12] påpekar också möjligheten att ett dokument kan vara delvis relevant. Sammanfattningsvis kan uppgiften beskrivas som att för sökfrågan q returnera ett så bra svar B som möjligt. 3.1.2 När är ett svar bra? Frågan om vilka svar som är bra, hänger förstås tätt ihop med vad som är relevant. Det verkar enkelt att tänka sig att B = A, vore det optimala svaret. Ett bra svar borde då innebära att B är så likt A som möjligt. Det finns olika sätt att uppnå 15

detta, t.ex. genom att maximera A B och minimera A B. Jämför med den schematiska översikten i tabell 3.1. Eftersom antalet sökträffar varierar både beroende på hur frågan är formulerad och hur många relevanta dokument det finns om olika ämnen blir det mer rättvisande med en normalisering. Beroende på vad man normaliserar mot får man olika typer av mått: Normalisering av antalet funna och relevanta dokument mot totala antalet funna dokument Precision = ja Bj jbj (3.1) ger ett mått som premierar förmågan att filtrera bort irrelevanta dokument ur söksvaret. Om man istället normaliserar mot totala antalet relevanta dokument Recall = ja Bj jaj (3.2) fås ett mått som betonar förmågan att returnera så många relevanta svar som möjligt. Som alternativ till ekvation 3.1 kan antalet irrelevanta funna dokument normaliseras mot totala antalet irrelevanta dokument Fallout = ja Bj jaj (3.3) mäts istället förmågan att filtrera bort irrelevanta dokument ur dokumentsamlingen. Tabell 3.1. Schema över relevans/icke-relevans, funna eller ej. N är totala antalet dokument i samlingen. Efter van Rijsbergen [22]. Relevanta Ej relevanta Funna A B A B B Ej funna A B A B B A A N Att engelska beteckningar används i ekvationerna 3.1 3.3 beror på att riktigt bra svenska översättningar saknas. Precision kan förstås lika gärna vara svenska. Den betydelse av engelskans recall som ligger närmast till hands här är minne eller hågkomst. Om en person återger den information hon inhämtat är recall ett mått på hur mycket hon kommer ihåg 2. En annan översättning som också används i avsnitt 2.2 är täckning, vilket även det ger en bild av vad det rör sig om hur väl svaret täcker in mängden relevanta dokument. Fallout betyder biverkningar eller sidoeffekter och är förstås något som helst skall vara så lågt som möjligt, idealt noll. Av de här enkelt definierade begreppen har de flesta fastnat för att precision/recall är ett bra mått på prestanda. Att ange t.ex. 80% precision på en sökfråga som returnerat 1 000 svar säger dock inte särskilt mycket mer än att 200 träffar saknar 2 Jämför med uttrycket total recall perfekt minne. 16

relevans. Som redan antytts är det vanligt att relevans mäts graderat och att sökträffarna rangordnas med avseende på grad av relevans. Då användaren i exemplet ovan knappast orkar leta igenom samtliga 1 000 träffar kan det vara rimligare att ange precision vid en viss recall. Antag att en sökfråga q returnerat svaren B q = fb 1 ;b 2 ;b 3 ;:::b 40 g och att det finns relevanta dokument A q = fa 1 ;a 2 ;a 3 ;a 4 ;a 5 g. Antag för enkelhetens skull vidare att A q B q (dvs. för hela B q har vi 100% recall) och A q = fb 1 ;b 3 ;b 7 ;b 12 ;b 37 g. Detta kan då plottas som i figur 3.2. För att få en mer generell bild tas ett medelvärde över flera sökfrågor [3], [22]. 120 P/R kurva 100 80 Precision/% 60 40 20 0 0 20 40 60 80 100 120 Recall/% Figur 3.2. Precision som funktion av recall (täckning). Baeza-Yates och Ribeiro-Neto föreslår två andra presentationssätt: medelprecision efter sedda dokument och R-precision. I exemplet ovan är precisionen efter varje nytt relevant dokument 1; 0.67; 0,43; 0,33 och 0,14. Medelvärdet blir då 0,51. Om totala antalet relevanta dokument jaj = R så tas precisionen efter det R:te hittade dokumentet. I exemplet ovan är R =5och precisionen för de 5 första träffarna är 2=5 =0; 4. Är det här bra då? Precision/recall har som tidigare nämnts fått stort genomslag men det finns trots detta en rad invändningar. Baeza-Yates och Ribeiro-Neto nämner följande: 1. För att kunna avgöra maximal recall krävs detaljerad kunskap om hela dokumentsamlingen. För så stora datamängder som Internet är det inte rimligt. Det måste bli en ungefärlig uppskattning av något slag. 2. Precision/recall är relaterade mått som fångar olika aspekter av sökresultatet. Det vore ofta bättre att ha ett enda mått. 17

3. De här måtten tas på svaret från en enskild fråga. I moderna system är interaktion viktig. Det kan krävas flera steg att nå fram till rätt resultat. Det kan då vara mer relevant att mäta hur informativt systemet är. 4. Definitionen och inte minst de visade tillämpningarna förutsätter en linjär ordning av sökträffarna. Det kan passa sämre för system med en svagare ordning. När det gäller punkt 1 så kan man mäta relativ recall om man jämför flera sökalgoritmer med samma frågor på samma dokumentsamling. I jakten på ett alternativ enligt punkt 2 för van Rijsbergen fram en rad alternativ: S = P + R (3.4) BK = P + R 1 (3.5) Q = R F R + F 2RF (3.6) V = 1 1 2( 1 P )+2(1 R ) 3 (3.7) 1 E = 1 (3.8) 1 2 ( 1 P )+ 1 2 ( 1 R ) I ekvationerna 3.4 3.8 och även fortsättningsvis, om inget annat anges, är P =precision, R =recall och F =fallout, enligt ekvationerna 3.1 3.3. Ekvation 3.8, det s.k. E measure kan härledas från tabell 3.1 igen. Om vi tar sikte på idealfallet A = B blir avvikelsen från detta tillstånd ett naturligt mått. Den del av A och B som inte är gemensam är A 4 B = A [ B A B, dvs. den symmetriska differensen. Normalisera detta mot den totala mängden av A och B så får vi: ja 4 Bj E = (3.9) jaj + jbj vilket är samma sak som ekvation 3.8. Observera att denna funktion skall minimeras. Genom att införa parametern ff (ekvation 3.10) kan man välja vilken av P och R som skall prioriteras (ekvation 3.11). Med fi istället fås den form som refereras av Baeza-Yates och Ribeiro-Neto (ekvation 3.12). ff = 1 fi 2 +1 (3.10) 1 E = 1 ff( 1 P )+(1 (3.11) ff)( 1 R ) E = 1 fi2 +1 1 P + fi2 R De senare föreslår som alternativ det harmoniska medelvärdet, F hm 3. 2 F hm = 1 P + 1 R 3 Ej att förväxlas med F som i fallout, i t.ex. ekvation 3.6 (3.12) (3.13) 18

Järvelin och Kekäläinen [12] påpekar att dokument med högre relevans är mer värdefulla för användaren, än sådana med en lägre grad av relevans. På grund av att sannolikheten att användaren alls skall titta på ett dokument minskar för varje placering längre ner i söksvaret, föreslår de ett mått kallat cumulated gain eller ungefär ackumulerad vinst. De använder då ett graderat (0 till 3 poäng) relevansmått där mycket relevanta dokument ges tre poäng, ganska relevanta dokument två poäng, marginellt relevanta dokument en poäng och resten (irrelevanta dokument) noll poäng. Dessa poäng förs in i en vinstvektor G där G(i) = antal poäng för dokumentet rankat i söksvaret på plats i.t.ex.: G =(3; 2; 3; 0; 0; 1; 2; 2; 3;:::) Då kan vi införa ackumulerad vinstvektor CG(i) som definieras rekursivt enligt: CG(i) = ( G(1) om i =1 CG(i 1) + G(i) annars Därefter viktas poängen ner efter placering i söksvaret. Då en linjär viktning anses för brant väljs istället en logaritmisk vikt. Vilken bas b som skall användas kan ställas in efter tålamod. DCG(i) = 8 < : G(1) om i =1 DCG(i 1) + G(i) log i annars Detta mått premierar alltså system som förmår presentera dokument med hög relevans tidigt i söksvaret. Det kan ses som en mer graderad och mer viktad variant på R-precision, beskrivet på sidan 17. Ett annat besläktat mått som först föreslogs av Cooper 4 presenteras av van Rijsbergen [22]: expected search length (ESL) eller förväntad söklängd, där längden syftar på det arbete man behöver lägga ner för att hitta det man söker. Coopers grundtes var att det primära syftet med ett informationshanteringssystem är att i så hög utsträckning som möjligt bespara användarna arbetet med att undersöka och förkasta irrelevanta dokument i jakt på relevanta dokument. Det sökta måttet blir därmed denna besparing, vilken kan jämföras med det arbete man kunde förväntas behöva lägga ner vid en slumpmässig genomgång av dokumentsamlingen. En viktig tanke hos Cooper är också uppdelningen i olika frågetyper beroende på informationsbehov: användaren kan tänkas leta efter 1 relevant dokument, ett godtyckligt antal n dokument, alla relevanta dokument osv. Om informationsbehovet var n relevanta dokument så definieras söklängden som antalet irrelevanta dokument som måste undersökas innan behovet är tillgodosett (dvs. innan n relevanta dokument hittats). Om rankningen inte är strikt linjärt ordnad, utan systemet ordnat funna dokument i nivåer med flera (förmodat 4 COOPER, W.S. 1968: Expected search length: a single measure of retrieval effectiveness based on weak ordering action of retrieval systems. Journal of the American Society for Information Science. Vol. 19. Sidor 30-41. 19

lika relevanta) dokument i varje nivå, beräknas rimligen istället ett väntevärde. (Se t.ex. van Rijsbergen [22] för en mer utförlig beskrivning). Därmed kommer man runt punkt 4 på sidan 18. En viktad variant på detta, med avseende på informationsbehov och tätheten i relevanta dokument för den aktuella frågan fås genom att jämföra med expected random search length (ERSL) vilket kan definieras som: ERSL n jaj = (3.14) jaj +1 där A definieras enligt tabell 3.1 och n är det efterfrågade antalet dokument, relevanta till sökfrågan q. Den förväntade vinsten kan sedan skrivas som: Expected search length reduction factor = 3.1.3 Egna slutsatser ERSL(q) ESL(q) ERSL(q) (3.15) Vad resonemanget i föregående avsnitt försökte visa var att kvalitetsmätning av sökmotorer och liknande informationshanteringssystem är ett svårt ämne. Man måste definiera vad det egentligen är man vill mäta men även bedöma om själva måttet är bra. Cooper sätter fingret på en viktig punkt när han påpekar att det finns olika frågetyper baserat på informationsbehov. För en frågeställning av den typen Är väte en halogen? som diskuterades i avsnitt 3.1.1 räcker ju ett (av säkert flera) bra svar, B A. En annan typ av mycket specifik fråga gäller sökandet efter en specifik artikel eller webbplats B = A; jaj = 1. Frågan kan också gälla samtliga museer i Stockholm (jaj = N, för användaren okänt antal), där samliga dessa men inget annat efterfrågas. En bra sökmotor tillgodoser användarens informationsbehov, utan onödigt brus. Ett bra söksvar innehåller relevanta dokument, inbördes sorterade efter relevans. Precision/recall är ett ganska trubbigt mått för dels är recall ibland helt ointressant (t.ex. när det räcker med ett bra svar, eller när sökfrågan är så bred att antalet relevanta träffar är mycket stort) och i de fall då enstaka eller ett fåtal träffar är tillräckligt, är precision i hela svaret mindre betydelsefullt. Ackumulerad vinst kan med fördel användas för att utvärdera olika sökfunktioner på samma datamängd. DCG(5) eller DCG(10) kan ge ett bra mått på informationen i de 5 eller 10 första träffarna. 3.1.4 Fortune Small Business För att ge en bild av vad användarna egentligen bedömer vill jag referera till en artikel i nättidningen Fortune Small Business [20], kallad Grading the Search Engines, dvs. betygssättning på sökmotorer. De testade AllTheWeb.com, Google.com, MSN.com, Overture.com, Teoma.com, WiseNut.com och Yahoo.com (namnen enligt den form de förekom i artikeln och webbadresserna förstås på samma sätt) och målet var att hitta den bästa sökmotorn. Samma sökfrågor (vissa innehållande 20

avsiktliga felstavningar, bindestreck, flertydiga ord eller frågor på naturligt språk) ställdes samtidigt till alla sökmotorer och därefter bedömdes kvaliteten på de tio första träffarna, organisation och struktur, avancerad sökning och extra finesser. Vinnare blev kanske lite överraskande Yahoo! (som alltså använder Googles sökmotor, se avsnitt 2.2, sidan 5). Utmärkande var framförallt att länkarna är försedda med en ordentlig rubrik, en kort precis beskrivning samt en kategorihänvisning kort sagt, att det egentligen är en webbkatalog::: 3.2 Kataloger Det förtjänar att upprepas att webbkataloger inte är sökmotorer. Vad som hänt de senaste åren 5 är dock att fler och fler samarbeten dykt upp, t.ex. Google & ODP, Yahoo! & Google 6 och AltaVista & LookSmart. Varför det blivit så och vad som kännetecknar en bra katalog skall här utredas något närmare. 3.2.1 Kvalitetsbedömning av Webbkatalogen Redan i avsnitt 2.2.2 nämndes ett antal kriterier från Attardi et al. [1] på vad som kännetecknar en bra webbkatalog, just som katalog. Hur väl uppfyller SUNETs webbkatalog dessa? Klassifikationskvalitet hur intuitiv, komplett, välordnad och koncis den är. Det här gäller kategoristrukturen som är en hierarkisk trädstruktur med 16 rötter, ursprungligen inspirerad av Yahoo!. För att bli mer intuitiv finns ett antal symboliska korslänkar mellan olika delar av träden. Som exempel kan nämnas Danssport dvs. tävlingsdans. Skall man då leta under Dans eller under Sport? Kategorin visar sig ligga som /Nöjen och fritid/dans/danssport men kan lika gärna nås som /Nöjen och fritid/sport/danssport. För att hålla strukturen komplett har något som kan liknas vid organisk tillväxt tillämpats när en kategori blir för stor delas den upp i underkategorier. Det kan också vara så att en ny länk inte passar in i någon befintlig kategori. Om den representerar ett tillräckligt väldefinierat ämnesområde kan det räcka för att skapa en ny kategori. Se även avsnitt 5.4. Beskrivningstexter på kategorisidorna är tänkta att förtydliga strukturen. Som extra finess kan kategorierna inte bara sorteras i bokstavs- eller datumordning. Länkarna kan även ordnas eller sållas efter geografisk hemvist. Det sistnämnda alternativet, som även innehåller en zoomfunktion är en slags virtuell finkategorisering som inte minst är användbar i kategorier med många länkar, vilka annars är svåra att överblicka. Auktoritet hur vederhäftig användaren anser katalogen vara. 5 En utveckling som pågått åtminstone sedan 1996 då Inktomi, http://inktomi.com/ började förse olika portaler med sökmotorer. 6 Precis före julen 2002 rapporterades att Yahoo! istället köper Inktomi. 21

I kraft av ålder startades 1993, när WWW nätt och jämnt fanns i Sverige, kopplingen till den akademiska världen och SUNETs/KTHNOCs namn inom Internet i Sverige (SUNET var det första IP-nätet i Sverige och från början styrdes det mesta från eller via SUNET/KTHNOC) gör att auktoriteten får anses hög. Att katalogen är helt fri från reklam ger förmodligen ett seriöst intryck. (Annars finns alltid misstanken att det går att köpa sig bättre exponering). Riktighet hur välvald kategoriseringen är för ett visst dokument. Här sätts det manuella arbetet på prov. Tydliga definitioner och hög noggrannhet krävs. Ibland kan en dialog med branschfolk vara givande, för att reda ut hur ett ämnesområde bäst delas upp. Att anmälarna meddelas om beslutad kategorisering och har möjlighet att överklaga beslut, ger goda möjligheter till en riktig bedömning. Om katalogen står fast vid ett fattat beslut bör det kunna motiveras. Konsekvens huruvida liknande dokument är lika kategoriserade. Det här kan innebära vissa svårigheter. Det finns gränsdragningar som kan vara svåra att uppfatta. Varför ligger t.ex. vissa författare under /Näringsliv/Arbete/Författare och andra under /Kultur/Litteratur/Författare? Svaret är att den förra kategorin är avsedd för svenska aktiva författares egna webbplatser, även för kommersiella syften, medan den senare kategorin är ämnad för övriga författare och därmed väsentligen innehåller författarporträtt och sidor av biografisk natur. Andra orsaker till inkonsekvens beskrivs i avsnitt 5.3.3. Att vissa företeelser riskerar att kategoriseras inkonsekvent beror normalt på att de har beröringspunkter med flera kategorier (dvs. de kan passa in på flera håll) samt att det är flera personer som arbetar med kategorisering vilket alltid innebär en risk för olika bedömning. Att kategoriseringsbeslutet ändå ligger helt i händerna på den egna personalen och att av anmälarna föreslagen kategorisering endast är ett förslag, möjliggör ändå en konsekvent behandling. För att minimera riskerna för inkonsekvent kategorisering är det viktigt med tydliga riktlinjer. Det gäller då inte bara kategoridefinitioner som tidigare nämnts utan även att man gör en samlad bedömning av svårplacerade företeelser. Aktualitet hur snabbt katalogen återspeglar ändringar i dokumentsamlingen. Detta knyter an till den tröghet som nämns i avsnitt 5.2.1 under punkt 8 på sidan 37. Att inte ta in länkar av kortvarig natur, underlättar arbetet med att hålla katalogen aktuell. Värre är det med den nackdel som nämns i avsnitt 2.2.2: att innehållet ändras efter registrering och kategorisering. Att manuellt granska samtliga länkar fortlöpande låter sig inte göras utan en mycket stor arbetsinsats med motsvarande lönekostnader. Istället används två automatiska verktyg. Sedan hösten 1996 kontrolleras nåbarheten för samtliga länkar i katalogen, tre gånger per vecka. För en länk som vid upprepade tillfällen inte fungerar väntar följande åtgärder: två misslyckade försök leder till en varning via e-post, fyra misslyckade försök renderar en ny varning samt att länken göms (inte längre visas i katalogen, men finns 22