Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder

Relevanta dokument
Checklista. 10 saker du behöver ha på plats för SEO 2019

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

SEO Sökmotoroptimering

Introduktion till språkteknologi

Googles sidrankning - linjär algebra värt en förmögenhet


Sök artiklar i databaser för Vård- och hälsovetenskap

Sammanfattning av informationssökning VT19

Hur man hjälper besökare hitta på en webbplats

Googles besöksfrekvens & uppdatering av cache

Biblioteken, Futurum 2017


Optimering av webbsidor

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Att söka information (med betoning på Internet)

Sökmotormarknadsföring

Söka artiklar i CSA-databaser Handledning

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Etiska regler för sökmarknadsföring via sökmotoroptiering

Internets historia Tillämpningar

Sökmotoroptimering. Hur gör jag min sida sökmotorvänlig?

Socialtjänstbiblioteket

Peter Hellström. PH-Digital Marketing

Sökmotoroptimering av en webbshop och sökordsrelevans för försäljningen. Ulf Liljankoski, januari

SEMSEO sökmotoroptimering SEO

Business research methods, Bryman & Bell 2007

Mångdubbla din försäljning med målsökande marknadsföring

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

Snabbguide till Cinahl

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

Bra hemsidor, trender och Google sökmotor

Sökoptimering - Innehåll

Att köpa webb En guide till en värld i daglig förändring.

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

WEBBKLUSTRING SLUTRAPPORT

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

TILLGÄNGLIGHET PÅ WEBBEN KOMMUNIKATIONSENHETEN

Information Retrieval. Information Retrieval (IR)

SEO & SEM ESSENTIALS

SEMSEO sökmotoroptimering SEO "Google Top 10. Google SEO sökmotoroptimering Seminarier 2011

Internet. En enkel introduktion. Innehåll:

SEO-rapport. Innehållsförteckning. Introduktion EkoLekos sökord.. 3. Rapport från Semrusch som visar EkoLekos Organic Search Summary,...

Web Crawlers. TDTS09, Datornät och internetprotokoll. Denis Golubovic Fredrik Salin Linköpings universitet Linköping

Statligt stöd för miljö- och sociala frågor till små och medelstora företag - en jämförande studie mellan Sverige och Storbritannien

Nya sundbyberg.se. Webbkoncept. v1.0, Sundbyberg där staden är som bäst

17. DEN OSYNLIGA FRIA WEBBEN EXEMPEL

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Vad är SEO? Topp 10 SEO handlar om att förenkla för sökmotorerna att förstå vad din webbplats handlar om

PubMed (Medline) Fritextsökning

Guide. 10 steg till en lyckad dwords annonsering

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

Lathund till PsycINFO (OVID)

PubMed gratis Medline på Internet 1946-

Sociala medier och Flickr som marknadsföring Essä i kursen Digitala Distributionsformer Högskolan Väst Av: Nicklas Johansson

Nya EU-förordningar. Manual om hur man använder EUR-Lex avancerade sökfunktion

WEBBLÄTTLÄST SLUTRAPPORT

Komma igång med det nya AdWords-gränssnittet En guide till ändringar av kampanjhanteringen

Kort om World Wide Web (webben)

Arbeta med Selected Works en lathund

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

YAHOO! SEARCH MARKETING Tips för att öka trafiken

Cinahl sökguide. Enkel sökning. Ämnesordsökning

AI inom Ämnesinriktad Webcrawling

Synliggör din forskning! Luleå universitetsbibliotek

Sök artiklar i PubMed: handledning

Vad innebär det att vara datadriven?

DIGITAL MARKNADSFÖRING. SEO - SEA - Google AdWords - Google Analytics

ARBETSMATERIAL. Intern webbsök på Göteborgs universitet

Webbplats analys cite4me.org

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

tidskrift för politisk filosofi nr årgång 9

ATT SKRIVA FÖR WEBBEN

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

Avtalsform Ramavtal & enstaka köp Namn Söktjänst

5HVLVWHQVWDEHOO 'DWD3DUWQHU. Er partner inom data

Lathund för Lifos-systemet

BLOGG PETER DPI.FI

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Pass 2: Datahantering och datahanteringsplaner

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson

Synkronisering av kalenderdata

Svensk nationell datatjänst, SND BAS Online

SU publikationer och ESI klasser: citeringsgrad och andel högt citerade publikationer

Tentamen Marco Kuhlmann

» RSS - Bygg din egen RSS!

Uppdaterad / EM. The Cochrane Library

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret Lektion 4

Vad är Internet? Innehåll: Inledning Vad är Internet? Om du kan Internetadressen Söka på Internet Länklistor Övningar Repetition

Manual HSB Webb brf

Algoritmer: Från kaos till ordning? Bild från Pixabay

Automatisk textsammanfattning

Transkript:

Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder Adam Blomberg d98-abl@d.kth.se Abstract Genom att analysera inte enbart individuella dokument och dess textinnehåll utan även sambanden mellan dokumenten i form av länkar, kan informationssökningsmetoderna för sökning i hyperlänkade dokumentmängder förbättras. Denna rapport studerar ett par befintliga strategier för detta, och föreslår också en utvidgning som kan förbättra vissa typer av utsökningar, framförallt i mindre dokumentmängder. Introduktion Denna rapport kommer att sammanfatta och granska en rad olika metoder för att på olika sätt förbättra utbytet av informationssökning i hyperlänkade dokumentsamlingar. Ingen större vikt kommer dock att läggas vid implementationstekniska problem eller optimeringar i denna rapport. Inom informationssökning finns två grundläggande och ofta motstående begrepp, täckning och precision. Bättre täckning innebär att fler matchande (i någon betydelse) dokument ges av en specifik utsökning, och bättre precision innebär att de matchande dokumenten är av högre relevans för frågan. I denna rapport skall vi uppehålla oss vid sökning i hyperlänkade dokumentmängder såsom Internet, men vi skall inte uteslutande behandla Internet i stort. Intressant är även att titta på sökningar i betydligt mindre dokumentmängder, vilka dock delar många av de egenskaper som särskiljer Internet från exempelvis bibliotekskataloger, databaser över forskningsresultat eller någon annan välordnad samling. När man talar om sökmotorer för Internet är ett centralt koncept rankning, ett begrepp som beskriver hur de returnerade dokumenten ordnas efter en utsökning. Detta är i många avseenden liktydigt med precision, dock utan något tröskelvärde för när ett dokument skall bedömas som icke-relevant för en sökfråga. Framledes kommer i allmänhet begreppet rankning att användas. Modeller för informationssökning En allmänt spridd och vedertagen modell för informationssökning är den s.k. vector space-modellen. I korthet beskrivs varje dokument av en vektor, med en längd av antalet distinkta termer i den samlade dokumentmängden. Varje element i ett dokuments vektor har ett icke-negativt värde som indikerar huruvida termen ifråga finns i dokumentet. Detta värde kan antingen vara 0 eller 1, för att indikera existens av termen, eller ett heltal som anger antalet förekomster av termen i dokumentet. En utsökning görs genom att en sökfråga matas in, varpå en vektor skapas som beskriver frågan. Därefter jämförs denna vektor med vektorerna i dokumentmängden, och de dokument vars vektorer är mest överensstämmande med

frågevektorn returneras som ett svar på sökfrågan. Notera här att sökfrågan i analysen likställs med dokumenten, ett tillvägagångssätt som intuitivt verkar något märkligt. Det har också visat sig att denna metod inte fungerar speciellt väl i praktiken (Brin och Page, 1998), då användare i allmänhet endast anger ett fåtal frågeord. Detta tenderar att premiera mycket korta dokument som innehåller i princip endast innehåller själva frågetermerna. En annan modell för informationssökning är boolesk sökning, där sökfrågan betraktas som ett booleskt uttryck av termer som alla, eller var för sig (beroende på antagen/angiven logisk operator), måste finnas med i varje matchande dokument. Dagens kommersiellt tillgängliga sökmotorer använder ofta en kombination av ovanstående två modeller, i praktiken en boolesk sökning där rankningen avgörs av termfrekvenser/inversa dokumentfrekvenser (härefter kallat TF/IDF) samt andra, ofta heuristiska, regler för att vikta en terms betydelse i ett dokument. TF/IDF syftar till att poängsätta varje term i ett dokument, där termer som är vanligt förekommande i det specifika dokumentet samtidigt som de är relativt ovanliga i den övriga dokumentsamlingen ges högst poäng då de antas beskriva dokumentet speciellt bra. Gemensamt för både TF/IDF-beräkning och heuristiska regler för rankning är att de varken analyserar en texts semantiska innehåll eller sätter dokumenten i den kontext i vilka de förekommer. En hyperlänkad dokumentsamling innehåller dock mycket metadata, som kan utnyttjas för att analysera såväl semantiskt innehåll som kontext. Egenskaper hos hyperlänkade dokumentsamlingar En hyperlänkad dokumentsamling uppvisar vissa egenskaper som inte återfinns hos en plan dokumentsamling. En naturlig egenskap är förekomsten av länkar, som kan vara av två typer. Dels förekommer länkar som rena navigationsverktyg, av karaktären tillbaka till förstasidan, nästa sida, osv., och dels finns länkar som beskriver ett semantiskt samband mellan olika dokument. (Frei och Steiger, 1992) Det som gör dessa intressanta ur ett informationssökningsperspektiv är både själva länken i sig, som påvisar en relation mellan två dokument, och den ankartext som ofta utgörs en ytterst kortfattad beskrivning av måldokumentet. En s.k. semantisk länk mellan två dokument kan vara en av flera typer. Låt oss till att börja med anta att vi har två dokument, p och q. I q finns en länk till p, och vi säger att p är det länkade dokumentet och q är det länkande dokumentet. Innehållet i p kan då vara en fördjupning av innehållet i q, dvs. en specialisering. Innehållet i p kan också beskriva ett bredare ämnesområde än q, dvs. vara en generalisering. De båda dokumenten kan också ligga på samma nivå. Slutligen finns ytterligare en typ av relation som är tämligen unik för webben, liksom vanligt förekommande där. Detta är en relation mellan en länksamling och sida som innehåller en traditionell diskurs. Länksamlingar, om än fattiga på information sedda i ett textmässigt perspektiv, kan var mycket rika på semantisk länkinformation då de ofta samlar flera dokument inom samma ämnesområde som av dokumentförfattaren utsetts som speciellt bra dokument i någon bemärkelse. Vi skall se senare att denna speciella typ av sidor kan utnyttjas i en sökning, och att det har visat sig i praktiska experiment att resultatet blir mycket gott. Förbättring av precision Som jag har nämnt tidigare skall jag i denna rapport anse begreppen precision och rankning som två sidor av samma mynt, i det att en god rankning i praktiken är liktydigt med god precision när man gör utsökningar på vidare begrepp som resulterar i stora matchande dokumentmängder. När vi istället rör oss om mer

specialiserade sökfrågor som returnerar små dokumentmängder är dessa begrepp inte längre liktydiga, så en klar distinktion måste göras mellan dess fall. Forskningen inom detta specifika område har under senare år ofta inriktat sig på att förbättra resultat av sökningar på ett fåtal, tämligen breda termer, där det finns mycket information att tillgå. Det kan handla om sökfrågor av typen katter, bilar eller kanske sökmotor. Alla dessa sökfrågor ger stora svarsmängder (framförallt om frågorna ställs på engelska), och utan någon form av semantisk analys är det mycket svårt att rangordna dokumenten på ett sätt så att de första dokumenten också är de som är mest relevanta. PageRank PageRank är Googles metod för att hitta de mest relevanta dokumenten vid sökning på vida begrepp. Denna metod går ut på att varje dokument vid indexeringen tilldelas en rankning (detta är en rankning i hela dokumentmängden, och inte i en speciell utsökning), som avgörs av hur många dokument som länkar till detta dokument, samt vilken rankning dessa dokument i sin tur har. (Brin och Page, 1998, Brin, Page, Motwani, Winograd, 1998) PageRank kan ses som en markov-modell där en användare antas slumpmässigt klicka sig igenom webben, och där varje dokuments rankning anger sannolikheten för att just det dokumentet skall väljas. Varje dokuments rankning kan beskrivas av formeln PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn)), där PR(X) är sidan X:s rankning, T1 Tn är sidor som länkar till A, C(X) är antal länkar som lämnar sidan X, och d är en dämpningsfaktor. Anledningen till att varje länkande sidas rankning delas med antalet länkar från densamma sidan är naturligtvis för att kompensera för sidor som har många alternativt få länkar ut. Finns endast ett fåtal länkar ut från en sida kan man anta att dessa visar på en starkare relation till de länkade sidorna, än en sida med hundratals ut-länkar Dämpningsfaktorn d, ett tal mellan 0 och 1, bestäms heuristiskt, och kan ses som den genomsnittliga tiden en besökare stannar på en sida. Ett lämpligt värde på denna har av Brin och Page satts till 0,85. Alla dokuments sammanlagda PageRank-värden blir som synes 1, och varje dokuments PageRank-värde anger sannolikheten för att den slumpmässiga besökaren skall befinna sig på den aktuella sidan i ett givet ögonblick. Om man tittar på PageRank-modellen inser man att den värderar populära sidor som länkas till av andra poulära sidor högt. Att använda enbart denna teknik kan dock vara problematiskt. Som Kleinberg (Kleinberg, 1999) påpekar väger denna rankning inte alls in de aktuella frågetermerna. Populära sidor som Yahoo!, Netscape eller liknande riskerar att värderas högt givet att de innehåller frågetermer, endast på grundval av deras popularitet. Att det sedan finns mindre populära men mer relevanta sidor tas ingen hänsyn till. Kleinberg föreslår en alternativ metod med hubbar och auktoriteter, som beskrivs härnäst. Hubbar och auktoriteter Kleinberg (1999) beskriver en modell, som liksom PageRank har målet att förbättra rankningen av dokument vid vida sökfrågor. Till skillnad från PageRank kan den även öka täckningen och returnera dokument som inte innehåller de faktiska söktermerna, men som istället sägs beskrivas av dessa. (Här bör man dock ha i åtanke att PageRank i praktiken används i förening med ankartextindexering, och på detta sätt kan prestera betydligt bättre än som enda metod.) Jag skall i korthet beskriva hur Kleinbergs modell ser ut, då den bjuder på ett antal intressanta lösningar.

Efter att en sökfråga har tagits emot görs en vanlig textsökning på dessa termer, exempelvis i en av de kommersiella sökmotorerna. För att få en hanterbar dokumentmängd används sedan runt 200 av de först returnerade dokumenten, och analysen startar därifrån. De dokument som vi nu har bildar en mängd, låt oss kalla den R. Dokumenten i R är alla tämligen relevanta för sökningen, då vi fortfarande gör antagandet att sökningen gäller ett brett ämnesområde. Dokumenten i R parsas för att hitta dels länkar som pekar mot dokument utanför R, dels länkar som pekar från dokument utanför R och in. Varje dokument i R får bidra med maximalt d antal sidor, d väljs runt 50. Vi har nu en ny mängd S som består av alla dokument i R, liksom de dokument utanför R som är länkade till dokument i R, med ovan nämnda restriktion. Antalet dokument i S brukar ligga mellan 1000 och 5000, med parametrar valda enligt ovan. S innehåller nu samling dokument, som alla kan antas beröra det sökta ämnet. Nästa steg är att analysera länkstrukturen. Målet är att identifiera auktoriteter och hubbar, dvs. dokument som innehåller information som är populär respektive dokument av typen länksamlingar, som innehåller länkar till många auktoriteter. En auktoritet klassificeras som sådan genom att många hubbar länkar till denna. Sidor som har många in-länkar, men vars länkande dokument inte är s.k. hubbar, anses inte vara auktoriteter. Vi kan exemplifiera detta genom att anta att vi har sökt på bilar. Troligen återfinns då en eller flera mycket populära s.k. portalsidor i mängden S, trots att dessa inte specifikt handlar om bilar. Det är också möjligt att dessa dokument har många inlänkar från övriga dokument i mängden. Det som gör att vi ändå kan filtrera bort portalsidor som bidrar med lite information är att de länkande sidorna inte är några hubbar, vilka i detta fall skulle vara länksamlingar som handlar om bilar. Det man i praktiken plockar ut är de mest koncentrerade nätverken av hubbar och auktoriteter. Det är också detta som gör att denna modell fungerar bra, trots att vi efter den inledande utsökningen inte granskar dokumentens textinnehåll. En fördel med denna metod är, förutom att rankningen tar hänsyn till själva sökfrågan, att dokument som inte innehåller söktermerna men likväl är mycket relevanta kan fångas upp. Vid sökningar på breda begrepp som t.ex. sökmotor är det inte speciellt sannolikt att de största sökmotorerna returneras om bara sidornas textuella innehåll granskas, trots att dessa uppenbarligen vore de bästa träffarna. (Man kan naturligtvis ha invändningar mot detta, men exempelvis Googles förstasida innehåller inte frasen search engine.) Anledningen till att man ändå kan få t.ex. Google rankad först är dels utvidgningssteget, där man utökar S med sidor direkt länkade från den ursprungliga sidmängden, och dels det faktum att många av hubbarna länkar till Google och sidan av denna anledning betraktas som en auktoritet. Nackdelar Denna metod har ett par nackdelar, främst av vilka är uppmjukningen av sökfrågan mot en högre abstraktionsnivå. Metoden tenderar att premiera det/de mest generella (eller vanligt förekommande) av de begrepp sökningen gäller, och på så sätt returnera dokument som är mindre specifika än vad användaren kanske avsåg. Å andra sidan är de returnerade dokumenten i allmänhet av sådan kvalitet att det är lätt att borra sig ned, och finna dokument som behandlar den specialisering användaren avsåg. En egenskap hos både denna metod och PageRank, som i vissa fall är en avsevärd nackdel, är att de fungerar bäst när man söker på vida begrepp, med de stora matchande dokumentmängder man då har att undersöka. Om det hyperlänkade nätverket inte är tillräckligt stort är det svårt att finna auktoriteter och hubbar, och

variationerna i PageRank-värde torde vara tämligen små. Båda metoderna blir också känsligare för fel, då man inte skall glömma att många av länkar är av mindre god kvalitet i det att de inte fungerar som det semantiska verktyg man önskar. Hit hör t.ex. länkar i annonser, rena navigationslänkar liksom länkar till copyrighttexter, webbyråer och andra typer av länkar som inte har med dokumentets egentliga innehåll att göra. Sammanfattningsvis skall man komma ihåg syftet med dessa båda metoder, nämligen att förbättra rankningen, precisionen, i en utsökning då täckningen är god. Den externa kontexten Kleinbergs metod erbjöd ett sätt att med hjälp av kontexten i dokumentmängden, här kallat den externa kontexten (till skillnad från kontext inom ett dokument), skilja ut vissa dokument som bättre matchningar än andra dokument. Detta kan dock göras på andra sätt, och mer explicit. Vi skall först granska indexering av ankartexter, som tillsammans med PageRank-modellen ger mycket goda resultat. Därefter skall vi titta på en utvidgning av denna indexering som inte endast inbegriper ankartexter, utan även den lokala kontext dessa återfinns i. Den senare metoden har med framgång använts tillsammans med Kleinbergs metod, vilket vi också skall se. Slutligen skall jag diskutera ytterligare en utvidgning av kontextindexeringen, som kombinerar en PageRank-liknande metod med indexering av nyckelord från hela länkande dokument. Samtliga dessa metoder syftar till att både förbättra täckningen och att öka precisionen, och bör fungera tämligen väl även vid utsökningar på mer specialiserade begrepp. Indexering av ankartexter Det finns flera anledningar till att det kan vara önskvärt att indexera inte endast de termer som förekommer i ett dokument, utan även termer som förekommer i ankartexterna som länkar till detta dokument. Ankartexter används på webben för att i endast ett fåtal ord beskriva ett dokument, och i allmänhet ge en relativt god beskrivning. (Amitay, 1997) Att indexera även ankartexter är inte en ny idé, utan implementerades redan 1994 i World Wide Web Worm, en mycket tidig sökmotor som indexerade runt 100 000 dokument (McBryan, 1994). Denna teknik används också tillsammans med PageRank i Google (Brin och Page, 1998), och ger där mycket bra resultat. Anledningen till att ankartexter ger goda resultat både vad gäller täckning och precision är flera. Ett relativt stort problem vid sökning av dokument på webben är s.k. sökmotorspamming, vilket innebär att en sidas upphovsmakare genom att i ett dokument ange stora mängder av nyckelord som inte är beskrivande för dokumentets innehåll, för att på detta sätt lura sökmotorer att ranka dokumentet i fråga högt även i sökningar som inte alls relaterar till dess innehåll. Detta problem finns dock i regel inte om den aktuella sökrymden är kontrollerad på något sätt, exempelvis då man söker på ett specifikt företags eller institutions webbplats, eller vid sökning på intranät. Indexering av ankartexter gör sökningen mindre känslig för spamming, eftersom ankartexter i allmänhet är en utomstående betraktares uppfattning om ett dokuments innehåll. Även i helt legitima dokument kan det vara svårt att med säkerhet bestämma värdet av enskilda termer, och även här kan ankartexter ge en bättre bild av dokumentet ifråga. Således är det möjligt att med hjälp av ankartexter öka precisionen. Denna typ av indexering av ankartexter kan även öka täckningen, i det att ord söktermerna inte behöver förekomma i ett dokument för att det skall anses som en träff, utan det

räcker att det förekommer i ankartexterna. Detta är en stor fördel vid sökning både på vidare begrepp och vid sökning på mycket ovanliga ord. Här kan man givetvis fråga sig om kvaliteten på ankartexterna är så pass hög att dessa i sig själv räcker som kontextinstrument. Det har visat sig att kvaliteten är relativt god (Amitay, 1997), och att framförallt länksamlingar av olika slag uppvisar ett språkbruk som är specifikt för webben, men som fungerar väl för indexeringsbehov. Exempelvis är satserna ofta förenklade och saknar t.ex. verb och determinerare, men fokuserar istället på substantiv med ett högt informationsinnehåll, ord som i regel lämpar sig väl som nyckelord för det måldokumentet. Indexering av ankarkontext Vi har sett att ankartexter ofta innehåller goda beskrivningar av dokument, men det kan finnas anledning att ytterligare utvidga indexeringen till att även inbegripa den kontext i vilken ankaret återfinns. Det är inte ovanligt att ord förknippade med det länkade dokumentet inte finns inom själva ankartaggen, utan i dess närhet. I en experimentell undersökning utförd av Chakrabarti et al (1998) granskade man länkar till Yahoo!, och fann att termen Yahoo oftast fanns inom ett fönster på 50 tecken från ankaret. Omkring 20% av förekomster av termen Yahoo fanns inte inom ankartaggen, vilket visar på att det kan finnas ett behov av att indexera även ankarkontexten. Chakrabarti använde sig av Kleinbergs modell med hubbar och auktoriteter för själva indexeringen, med ankarkontexten som tillägg och kunde på detta sätt generera länklistor av den typen som återfinns på bl.a. Yahoo! och OpenDirectory, men utan manuell intervention. Dessa maskinellt genererade listor upplevdes av de försökspersoner man använde sig av som nästan lika bra som de manuellt genererade listorna, och i vissa fall upplevdes till och med de automatgenererade listorna något förvånande som bättre. I detta experiment gjordes sökningar på vida termer, som cykling, ost och arkitektur. Indexering av externa nyckelord Det är ett välkänt faktum att många termer som förekommer i ett dokument är specialiseringar av vidare termer, och det har visat sig att det kan vara svårt att finna dessa dokument då de ofta inte innehåller någon indikation i sig själva på vilket begrepp specialiseringen gäller. Som vi har sett tidigare tenderar metoder som endast förlitar sig till analysering av länkstrukturer att premiera populära dokument, som i allmänhet beskriver eller behandlar begrepp på en generell nivå. Speciellt problematiskt kan det bli om användaren i sin sökfråga använder en blandning av generella och specialiserade begrepp, framförallt i en begränsad dokumentmängd. Gör användaren en utsökning på husdjur och sphynx 1 förväntas att dokument som handlar om katter av rasen sphynx returneras. Det förefaller inte osannolikt att sådana dokument saknar termen husdjur, då det för en besökare torde framgå relativt tydligt av sidan är det handlar om en typ av husdjur, nämligen just katter av rasen sphynx. Det är vidare inte bra att i sökfrågan utelämna termen husdjur, då en sökning på termen sphynx riskerar att returnera dokument från ett helt annat ämnesområde. (Detta är också fallet, en sökning på Google returnerar först ett antal träffar på olika företag med detta namn.) Det är inte heller osannolikt att ankartexten eller dess närmaste kontext inte heller innehåller ordet husdjur. 1 Sphynx är en kattras som speciellt kännetecknas av avsaknaden av päls, katterna är i princip hårlösa.

Här skulle man alltså önska att det utifrån termen sphynx liksom andra termer i det specifika dokumentet skulle vara möjligt att avgöra att detta sorterar under kategorin husdjur. Försök med automatisk kategorisering av dokument har gjorts, men det har visat sig att dessa tekniker fungerar mindre väl (för att inte säga dåligt) på heterogena dokumentsamlingar av den typ man finner på webben. (Chakrabarti, Dom, Indyk, 1998) Att finna generaliseringar av specifika termer är alltså önskvärt, men undantaget försök inom forskningen 2 finns ingen väl fungerande metod för detta. Givet att vi således inte försöker använda någon form av semantisk analys av varje dokument kan en metod för att göra en approximation av det semantiska innehållet i ett dokument vara att undersöka gemensamma drag i andra dokument som länkar till detta dokument. Metoden Metoden går i korthet ut på att alla dokument som länkar till ett dokument analyseras för nyckelord (vilka i sin tur kan utvinnas med TF/IDF-metoden), och likheter bland dessa nyckelord undersöks. Om termen husdjur är signifikant för merparten av de länkande dokumenten kan man dra slutsatsen att också det länkade dokumentet bör handla om eller ha någon relation till begreppet husdjur, även om detta alltså inte går att utläsa vid en analys av dokumentets text. Låt oss kalla de gemensamma nyckelord funna i den länkande dokumentmängden för externa nyckelord för det länkade dokumentet. Det finns dock ett par problem med denna metod. För det första finns en överhängande risk för brus. Det handlar om en approximation av ett dokuments semantiska innehåll, det vill säga i praktiken en gissning. Till skillnad från analys av ankartexter är sambandet mellan ett dokument och dess externa nyckelord inte lika starkt. Naturligtvis kan det vara så att en mängd sidor om husdjur länkar till en sida som inte alls är relaterad till detta ämne, i vilket fall denna sida kommer att få ett inkorrekt externt nyckelord. För att minimera negativa effekter till följd av denna osäkerhet bör man vikta de externa nyckelorden omsorgsfullt, och i deras värdering lägga stor vikt dels vid hur många länkande dokument som har funnits och hur stor del av dessa som delar respektive externa nyckelord. Diskussion Således kan man fråga sig om det inte, som vi har nämnt tidigare, räcker att titta på ankartexterna? Att endast titta på ankartexterna är i och för sig inte en dålig lösning, men vi kan i en ankartext troligen inte finna den generalisering vi söker. Många ankartexter är dessutom korta och föga informationsrika, av typen klicka här eller bilder utan titlar som utan resurskrävande textigenkänning inte kan behandlas. Det finns också en klar skillnad mellan dessa två metoder. Då man tittar på ankartexterna handlar det om att bättre försöka beskriva det länkade dokumentets innehåll på samma begreppsnivå. För att använda oss av en variant av det tidigare exemplet; i länkar till ett dokument om siameser kan man förvänta sig att finna just denna term, då det inte finns någon anledning att ankartexterna skall vara mer generella än dokumentet i sig. Då man istället tittar på hela (eller delar av) de länkande dokumenten, försöker man inte bara ta reda på vad det länkade dokumentet handlar om utan även vad de länkande dokumenten handlar om, för att på denna sätt finna en generalisering av det koncept som det länkade dokumentet behandlar. Betänk också att det kan gå åt motsatt håll, dvs. att man finner en 2 Om än fungerande är WordNet sådan forskningsresurs. WordNet är ett lexikalt referenssystem där man bland annat kan söka sig uppåt från specifik termer till mer generella sådana. WordNet finns på http://www.cogsci.princeton.edu/~wn/.

specialisering av det aktuella konceptet, även om sannolikheten för detta torde vara lägre. Det är på denna grund man kan dra slutsatsen att det verkar vara intressant att analysera ett större segment av det länkande dokumentet än endast länktexten. Vi har sett att man då kan analysera kontexten länken finns i. Beroende på dokumentets karaktär kan detta göras med mer eller mindre gott resultat, men det löser i allmänhet inte vårt generaliseringsproblem. För mycket långa dokument finns naturligtvis andra problem, i det att olika stycken av dokumentet kan skilja sig inte bara i innehåll utan även ämnesområde. I dessa fall kan det vara lämpligt att segmentera texten på något sätt. Textsegmentering i bl.a. informationssökningssyfte är ett område inom vilket en hel del forskning har bedrivits, och dessa resultat är naturligtvis intressanta att undersöka vidare, även om detta faller utanför området för denna rapport. Textsegmentering kan alltså vara intressant, men detta medför givetvis en ökning av komplexiteten. Av praktiska skäl kan det vara lämpligt att analysera hela dokumentet, då denna analys ändå måste göras för att indexera detta dokument. Här börjar vi också närma oss en annan fråga, nämligen om externa nyckelord skall betraktas som en del av ett dokuments egna termmängd eller inte, och på vilket sätt detta påverkar indexerbarheten och användbarheten av denna metod. Utan praktiska försök är det svårt att säga huruvida rekursiviteten som ett inkluderande av externa nyckelord innebär utgör ett hinder i implementationen, men då denna till stor del liknar PageRank-modellen torde det inte vara några större problem. Slutligen kan antas att denna metod fungerar bäst i mindre dokumentsamlingar och framför allt vid utsökningar på mindre vanliga ord och begrepp kombinerat med generella termer. Använd tillsammans med PageRank eller hubb- och auktoritetmodellen kan den även vara användbar på godtyckligt stora dokumentmängder. Slutsatser Man kan dra slutsatsen att det är möjligt att dra långtgående slutsatser ur den semantiska strukturen en hyperlänkad dokumentmängd uppvisar. Det finns idag flera exempel där dessa modeller utnyttjas i praktiken, med gott resultat. Jag har gått igenom ett antal metoder för att på olika sätt utnyttja denna struktur, och kan konstatera att det detta är ett mycket aktivt forskningsområde (vilket också är naturligt med tanke på att hyperlänkade dokumentmängder i den skala webben representerar är ett relativt nytt fenomen). Idéen att försöka dra slutsatser om ett dokuments ämnesområde utifrån dess omgivning, som vi tack vare den hyperlänkade strukturen lätt kan finna, påminner om försök som har gjorts med dokumentkategorisering och dokumentklustring. Omsatta i praktiken har dock dessa metoder givit varierande resultat, varför en bedömning av en metods lämplighet endast kan göras efter omfattande tester. I detta sammanhang kan det slutligen vara värt att nämna att metoderna för evaluering, tidigare speciellt omnämnda som mycket goda, i dagsläget verkar mindre idealiska. Ofta har sökmotorer jämförts på väl avgränsade dokumentmängder med ett homogent innehåll, vilka ställer helt andra (och möjligen lägre) krav på en sökmotor än vad den betydligt mer vildvuxna webben gör.

Litteraturhänvisningar E. Amitay. 1997. Hypertext: The importance of being different. MSc thesis. Centre for Cognitive Science, The University of Edinburgh, Scotland. S. Brin och L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. I Ashman and Thistlewaite, sidor 107 117. Brisbane, Australia. S. Brin, L. Page, R. Motwani, T. Winograd. 1998. The PageRank citation ranking: Bringing order to the Web. Insänd för publicering. S. Chakrabarti B. Dom, P. Indyk. 1998. "Enhanced hypertext categorization using hyperlinks". SIGMOD 1998, sidor 307 318. S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan, D. Gibson, J. Kleinberg. 1998. Automatic resource compilation by analyzing hyperlink structure and associated text. Proceedings of the 7th International World Wide Web Conference. H. P. Frei och D. Steiger. 1992. Making use of hypertext links when retrieving information. Proceedings of the 4th ACM Conference on Hypertext ECHT 92, sidor 102 111. ACM Press, New York. J. Kleinberg. 1999. Authoritative sources in a hyperlinked environment. Journal of the ACM, Vol. 46, Nr. 5, September 1999, sidor 604 632. O. A. McBryan. 1994. GENVL and WWWW: Tools for taiming the web. International Conference on the World Wide Web. CERN, Geneva.