Expansion av sökfrågor med Svenskt OrdNät som termkälla

Relevanta dokument
Query expansion med semantiskt relaterade termer

Effekten av avståndsoperatorer samt expansion med synonymer med avseende på återvinningseffektiviteten

Nominalfrasers inverkan på återvinningseffektiviteten i ett probabilistiskt IR-system

Query expansion med hjälp av en elektronisk tesaurus i en bibliografisk online-databas.

Den kombinerade effekten av query-expansion och querystrukturer på återvinningseffektiviteten i ett probabilistiskt system

Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys

Sök artiklar i databaser för Vård- och hälsovetenskap

Word sense disambiguation med Svenskt OrdNät

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

Att expandera sökfrågor i en elektronisk bibliotekskatalog En jämförelse av återvinningseffektiviteten för fyra olika sökfrågetyper

Automatisk tesauruskonstruktion med latent semantisk indexering

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar

Snabbguide till Cinahl

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys

Biblioteken, Futurum 2017

Sö ka litteratur i ERIC

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

Att söka information (med betoning på Internet)

So ka artiklar och annan litteratur

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg

Riktlinjer för bedömning av examensarbeten

Sö ka artiklar öch annan litteratur

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator

PubMed (Medline) Fritextsökning

En komparativ litteraturstudie av olika termkällor för query expansion

Språkteknologi och Open Source

Kontrollerad vokabulär eller naturligt språk? En empirisk studie

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

32IIÅ1 HT17 Masterprogram i Biblioteks- och informationsvetenskap, distansutbildning (BMBD116h) Johan Eklund Johan Eklund

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas till examinator

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Skriv! Hur du enkelt skriver din uppsats

UB:s sö ktjä nst - Söka artiklar och annan litteratur

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

» RSS - Bygg din egen RSS!

en översikt av stegen i en systematisk utvärdering

Passage Retrieval En studie av index

Söka, värdera, referera

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Evaluering av återvinningseffektiviteten i Svensk Medicin och Google Scholar med medicinska frågor ur Fråga doktorn

REV Dnr: 1-563/ Sid: 1 / 8

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Hitta en artikel som använt samma teoretiker i samma sammanhang som du. Viktor Öman, bibliotekarie viktor.oman@mdh.se

Sö ka artiklar öch annan litteratur

Söka artiklar i CSA-databaser Handledning

PubMed (Public Medline) - sökmanual

E-biblioteket en tjänst från sjukhusbiblioteken

Oppositionsprotokoll-DD143x

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar

Sö ka artiklar öch annan litteratur

Sökexempel Arbetsterapeuter T3

Business research methods, Bryman & Bell 2007

Semantik. Semantik och språkteknologi

Cross-Language Information Retrieval Sökfrågestruktur & sökfrågeexpansion

Lost in Translation? En empirisk undersökning av användningen av tesaurer vid queryexpansion inom Cross Language Information Retrieval

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Slutrapport Projektet OCR-tolkning för indexering av,

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Referenser i informationsåtervinning utvärdering av en sökstrategi för citationsindex

Passage Retrieval En litteraturstudie av ett forskningsområde Inom information retrieval

Bibliotekariestudenter och söksträngsexpansion Ett experiment om manuell söksträngsexpansion

Automatisk indexering på webben En studie av sökmotorn HotBot

Hur söker noviser information? En studie av novisers tillvägagångssätt vid informationssökning

Globala och lokala sökmotorer: En utvärdering av Google, MSN Search och Svesök

Registrera konferenspublikationer i DiVA

Informationssökning inför uppsatsen

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

PubMed gratis Medline på Internet 1946-

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

EAs krav vid ackreditering av flexibel omfattning

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Ett projektarbete i svenska, teknik och engelska, riktat mot DICE. Thoren Innovation School HT2012.

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Typer av sökfrågor på webben En effektivitetsstudie

Sälja eller låna ut, är det skillnad? En experimentell komparativ studie av återvinningseffektivitet i bibliografiska databaser.

Bortom AND, OR och NOT. Fördjupning i fritextsökning

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

FOR BETTER UNDERSTANDING. Snabbguide.

Betygskriterier för examensarbete/självständigt arbete

Primär eller sekundär söktjänst? - En effektivitetsstudie av söktjänsten Google och metasöktjänsten Dogpile

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Utveckling av ett grafiskt användargränssnitt

En utvärdering av två pearl growing-metoder i ISI Web of Science

Publikationstyp Kapitel i bok, del av antologi

Migrering av applikationen AMM till molnet

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT Lars Larsson Algoritmer 1

WEBBKLUSTRING SLUTRAPPORT

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Arbeta med Selected Works en lathund

ALEPH ver. 16 Sökning

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson

Transkript:

MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:38 ISSN 1404-0891 Expansion av sökfrågor med Svenskt OrdNät som termkälla SUSANNA LÖNNQVIST Susanna Lönnqvist Mångfaldigande och spridande av innehållet i denna uppsats helt eller delvis är förbjudet utan medgivande.

Svensk titel: Engelsk titel: Författare: Expansion av sökfrågor med Svenskt OrdNät som termkälla Query Expansion using the Swedish WordNet Susanna Lönnqvist Kollegium: 2 Färdigställt: 2006 Handledare: Per Ahlgren Abstract: The purpose of this Master s thesis is to examine the performance of queries that are expanded by synonyms and hyponyms from Svenskt OrdNät, the Swedish version of the Princeton WordNet. Four different types of queries were constructed: a baseline query (S1), the baseline query expanded with synonyms (S2), the baseline query expanded with hyponyms (S3) and finally the baseline query expanded with the synonyms and hyponyms used in S2 and S3. The terms for expansion were picked by hand. The queries were executed in the Query Performance Analyser (QPA), a tool used in IR education and in experimental IR research for analysing and comparing the performance of individual queries. 20 topics from the test collection GP_HDINF were chosen for the experiment. The four query types were analyzed with regard to precision and recall. The experimental results suggest that expansion with synonyms is the most effective of the four query types, since this query type performs the highest average recall, with only a slight decline in precision. However, there is no great difference in performance between the different query types. Nyckelord: query expansion, sökfrågor, tesaurus, synonymer, hyponymer, precision, recall, information retrieval Jag vill tacka Per Ahlgren för mycket god handledning och många värdefulla synpunkter.

Innehållsförteckning 1 INLEDNING 1 1.1 Syfte och forskningsfrågor 2 1.2 Användning av termer 2 1.3 Uppsatsens disposition 2 2 IR 3 2.1 IR-modeller 3 2.2 Query Expansion 4 2.3 Recall och precision 6 3 RELATERAD FORSKNING 8 3.1 Slutsatser från relaterad forskning 11 4 METOD 12 4.1 Svenskt OrdNät 12 4.2 Testmiljön 13 4.2.1 InQuery 13 4.2.2 QPA 15 4.2.3 Testkollektionen 15 4.3 Val av topics och formulering av sökfrågor 16 4.4 Utvärdering av återvinningseffektivitet 17 5 RESULTAT OCH ANALYS 18 5.1 Expansionen 18 5.2 Precision 19 5.3 Recall 20 5.3.1 Recall topic för topic 22 5.4 Diskussion av resultat 24 5.5 Avslutande reflektioner 27 6 SAMMANFATTNING 29 REFERENSER 31 BILAGA TOPICS OCH SÖKFRÅGOR 33

1 Inledning En informationssökningsprocess inleds med att en användare har ett informationsbehov av något slag. Användarens uppgift är då att försöka formulera en sökfråga som representerar detta informationsbehov och köra denna sökfråga i ett informationsåtervinningssystem. Systemet presenterar sedan ett återvinningsresultat för användaren. Den ideala situationen är att alla relevanta dokument återvinns, samtidigt som så få icke-relevanta dokument som möjligt kommer upp. 1 Det verkliga resultatet är dock många gånger långt ifrån det ideala sökresultatet. Om så är fallet står användaren inför ett val. Antingen kan denne nöja sig med de dokument som återvanns vid den första sökningen, eller också kan hon eller han göra ett försök att förbättra återvinningseffektiviteten. Då en initial sökfråga utökas med nya termer talar man om query expansion (QE). QE är en del av ämnet information retrieval (IR), i sin tur ett delområde av informationsvetenskapen. IR behandlar representation, lagring och organisation av dokument, samt åtkomst till dessa. 2 Query expansion är ett sätt att försöka förbättra återvinningseffektiviteten. Centrala frågor vid QE är var de nya termerna skall hämtas och vilka termer som bäst lämpar sig för QE. Nya termer kan hämtas från olika typer av termkällor och expansionen kan ske antingen manuellt, interaktivt eller helt automatiskt. En typ av termkälla är en kollektionsspecifik tesaurus som, liksom namnet antyder, är uppbyggd kring en speciell dokumentsamling. Det är dessvärre långt ifrån alla databaser och sökmotorer som är kopplade till någon specifik tesaurus, vilket ofta leder till att användaren står utan hjälp vid formulerandet och omformulerandet av sina sökfrågor. Det är här den kollektionsoberoende termkällan kommer in. En kollektionsoberoende termkälla kan se ut på olika sätt, men förtecknar på något sätt, liksom den kollektionsspecifika tesauren, relationer mellan olika ord. Skillnaden är att denna inte är bunden till någon speciell dokumentsamling. När man bestämt sig för var termerna för QE skall hämtas återstår frågan vilka termer som skall väljas, eftersom ord kan vara besläktade på en mängd olika sätt. Man kan skilja mellan fyra huvudtyper av semantiska relationer: meronymi, antonymi, hyponymi och synonymi. Meronymi kallas relationen mellan en del och en helhet. Ordet hus står för en helhet medan dörr eller vägg är komponenter i denna helhet. Antonymi betyder att ord står i något slags motsatsförhållande till varandra, t.ex. stor - liten eller bror - syster. Med hyponymi avses över- och underordnade begrepp såsom t.ex. djur-fågel-bofink. Termen djur är hypernym till fågel och fågel är hyponym till djur. Synonymi, slutligen, handlar om att ord är liktydiga, t.ex. är knoga - gno - slita synonymer till varandra. 3 I denna uppsats kommer fokus att stå på de semantiska relationerna hyponymi och synonymi. Denna uppsats undersöker query expansion med semantiskt relaterade termer. Expansion med termer som står i synonymt och hyponymt släktskap till termerna i den initiala sökfrågan kommer att utföras och expansionstermerna kommer att hämtas ur Svenskt OrdNät. Detta är ett svenskt lexikon på dator utvecklat vid institutionen för lingvistik vid Lunds universitet och institutionen för lingvistik vid Uppsala universitet. I denna uppsats kommer Svenskt OrdNät 1 Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier 1999. Modern information retrieval, s. 2. 2 Baeza-Yates & Ribeiro-Neto 1999, s. 1. 3 Viberg, Åke 2000. Svenskt OrdNät - Lexikon på dator som modell för ordförrådet i hjärnan hos infödda talare och andraspråkstalare, s. 7-8. 1

således att fungera som en kollektionsoberoende termkälla. Lexikonet förtecknar substantiv och verb och termerna är placerade i en struktur som visar ordens betydelse och hur de är relaterade till andra termer. På c-kursen Information Retrieval fick vi studenter bekanta oss närmare med ämnesområdet IR. Kursen gav mersmak och jag, med en bakgrund inom huvudsakligen humanistiska ämnen, fann området både intressant och utmanande. Ämnet involverar mätbara fenomen, vilket tilltalade mig, liksom tanken på att integrera en experimentell del i mitt magisterarbete. 1.1 Syfte och forskningsfrågor Syftet med denna uppsats är att undersöka vilken effekten blir på återvinningseffektiviteten då en initial sökfråga expanderas med synonymer, hyponymer och en kombination av dessa. Sammanlagt kommer fyra olika sökfrågetyper att jämföras. Som termkälla fungerar det databaserade lexikala referensverket Svenskt OrdNät. Detta kommer att undersökas utifrån följande frågeställningar: 1) Vilken av de fyra typerna av sökfrågor som används är mest effektiv, mätt med måtten recall och precision? 2) Hur väl fungerar Svenskt OrdNät som termkälla vid query expansion? 1.2 Användning av termer Det mesta som skrivs och skrivits inom IR är på engelska, varför det för många engelska termer inte ännu existerar några riktigt etablerade svenska motsvarigheter. Detta har medfört att man inom svensk IR ofta lånat termer från engelskan, såsom t.ex. query. I denna uppsats kommer jag dock att hålla mig till svenska termer så långt det är möjligt. I stället för termen query använder jag sökfråga och baseline query ersätts av initial sökfråga. Den engelska termen topic som står för en beskrivning av ett informationsbehov i naturligt språk 4 kommer jag dock att använda eftersom det inte existerar någon bra översättning av denna. 1.3 Uppsatsens disposition I kapitel 2 kommer en kort introduktion till ämnesområdet IR att ges, och de klassiska IRmodellerna att presenteras. De två mått som används för att mäta återvinningseffektiviteten, precision och recall, kommer också att beskrivas i kapitel 2 och en utförligare beskrivning av delområdet query expansion ges här. Tidigare forskning beskrivs i kapitel 3 och därefter följer metodkapitlet, kapitel 4, där Svenskt OrdNät, testmiljön, IR-systemet och testkollektionen beskrivs, liksom studiens praktiska genomförande. I kapitel 5 redogörs för studiens resultat, och dessa analyseras och diskuteras. Därefter följer en sammanfattning av hela uppsatsen. 4 Baeza-Yates & Ribeiro-Neto 1999, s. 88. 2

2 IR Information retrieval behandlar representation, lagring och organisation av dokument, samt åtkomst till dessa. 5 Termen information retrieval myntades redan 1952 6 men området sågs fram tills rätt nyligen som ett smalt intresseområde med relevans främst för bibliotekarier och informationsspecialister. I början av 1990-talet förändrades dock detta i och med att internet uppkom och det blev allt vanligare att folk överlag, inte endast personer med speciell utbildning för detta, sökte i databaser och informationsåtervinningssystem. 7 2.1 IR-modeller En IR-modell är en förenklad teori om hur ett informationsåtervinningssystem ska vara beskaffat. IR-systemet avgör vilka dokument som är relevanta och vilka som inte är det och detta beror i sin tur på vilken IR-modell som systemet är baserat på. 8 De tre klassiska modellerna inom IR kallas den booleska modellen, vektormodellen och den probabilistiska modellen. Den booleska modellen Den booleska modellen är en enkel återvinningsmodell baserad på mängdlära. Tack vare sin inbyggda enkelhet har modellen varit mycket uppmärksammad och den användes av många av de tidiga kommersiella bibliografiska systemen. Det finns dock begränsningar med modellen. För det första är återvinningsstrategin baserad på binär relevans, d.v.s. ett dokument betraktas antingen som relevant eller icke-relevant. För det andra är det inte alltid helt enkelt att översätta ett informationsbehov till en boolesk sökformulering. Trots dessa nackdelar är den booleska modellen den dominerande modellen bland de kommersiella informationsåtervinningssystemen. Sett genom den booleska modellen är indextermer antingen närvarande eller frånvarande i ett dokument och varje dokument är antingen relevant eller icke-relevant. Några grader av relevans (partiell matchning) finns inte. Fördelar med modellen är dess enkelhet och den klara formalismen, medan en nackdel är att exakt matchning kan leda till att för få eller för många dokument återvinns. 9 För en användare kan det dessutom vara svårt att formulera sökfrågor på egen hand. 10 Vektormodellen Vektormodellen, till skillnad från den booleska modellen, tillåter partiell matchning. Detta åstadkoms genom att indextermer i sökfrågor och dokument tilldelas icke-binära vikter. Dessa termvikter används för att räkna ut graden av likhet mellan varje dokument i databasen och användarens sökfråga. Genom att sortera de återvunna dokumenten i fallande ordning enligt denna likhetsgrad, beaktar vektormodellen också sådana dokument som endast delvis matchar 5 Baeza-Yates & Ribeiro-Neto 1999, s. 1. 6 Chowdhury, G.G. 1999. Introduction to modern information retrieval, s. 1. 7 Baeza-Yates& Ribeiro-Neto 1999, s. 2-3. 8 Baeza-Yates& Ribeiro-Neto 1999, s. 19. 9 Baeza-Yates& Ribeiro-Neto 1999, s. 25-27. 10 Chowdhury 1999, s. 161. 3

termerna i sökfrågan. Den huvudsakliga effekten av detta blir att listan över rankade dokument mycket bättre matchar användarens informationsbehov än den lista som återvinns av den booleska modellen. 11 Fördelar med modellen är att dess termviktningsschema förbättrar återvinningseffektiviteten och att det räcker med partiell matchning för att dokument skall återvinnas. En annan fördel är rankningsformeln som sorterar dokumenten enligt deras likhet med sökfrågan. En tänkbar nackdel med modellen är att indextermer förutsätts vara sinsemellan oberoende, men det är tveksamt om detta har någon betydelse i praktiken. 12 Den probabilistiska modellen Grundidén bakom den probabilistiska modellen är att det, sett till en användares sökfråga, finns en uppsättning dokument som innehåller exakt de relevanta dokumenten och inga andra. Denna uppsättning dokument kan kallas den ideala svarsuppsättningen. Om vi fick en beskrivning av denna ideala svarsuppsättning, skulle vi inte ha några problem att återvinna dess dokument. Därmed kan vi föreställa oss frågeformuleringsprocessen som en process där man specificerar egenskaperna hos den ideala svarsuppsättningen. Problemet är att vi inte vet exakt vilka dessa egenskaper är, varför vi måste göra ett försök att initialt gissa vilka de kan tänkas vara. Denna initiala gissning ger oss möjligheten att generera en preliminär probabilistisk beskrivning av den ideala svarsuppsättningen, som sedan används för att återvinna en första uppsättning dokument. En interaktion med användaren kan sedan inledas med avsikten att förbättra den probabilistiska beskrivningen av den ideala svarsuppsättningen. 13 Fördelar med den probabilistiska modellen är att dokumenten rankas i fallande ordning utifrån sannolikheten att de är relevanta. En nackdel är behovet att gissa den grundläggande uppdelningen i relevanta och icke-relevanta dokument. En annan nackdel är att metoden inte tar i beaktande med vilken frekvens en indexterm förekommer i ett dokument och att alla indextermer antas vara ömsesidigt oberoende. Det är, som tidigare nämnts, dock osäkert om den sistnämnda faktorn har någon betydelse i praktiken. 14 Det IR-system som kommer att användas i denna studie heter InQuery, och är ett probabilistiskt IR-system. 2.2 Query Expansion Vid informationssökning är det inte ovanligt att den första sökningen inte ger tillräckligt bra resultat. Den initiala sökfrågan behöver då utökas på något vis, och det är detta som kallas Query Expansion. En sökning i en online databas kan sålunda bestå av två stadier: på det första stadiet formuleras den initiala sökfrågan och på det andra stadiet omformuleras denna. Användaren försöker antingen manuellt eller med assistans av systemet justera den 11 Baeza-Yates& Ribeiro-Neto 1999, s. 27. 12 Baeza-Yates& Ribeiro-Neto 1999, s. 30. 13 Baeza-Yates& Ribeiro-Neto 1999, s. 30-31. 14 Baeza-Yates& Ribeiro-Neto 1999, s. 34. 4

ursprungliga sökfrågan och förbättra slutresultatet. Det kan också vara så att det är systemet som automatiskt eller med assistans av användaren gör detta. 15 Vid QE är det för det mesta frågan om att fler termer läggs till den initiala sökfrågan. Hur detta skall ske är dock inte på något vis oproblematiskt eller självklart. Många frågor dyker upp. Vilka termer är bra vid QE? Var skall termerna hämtas? Hur skall termerna väljas ut? Viktiga faktorer vid alla former av QE är den källa varifrån termerna hämtas och den metod som tillämpas för att välja vilka termer som ska användas. En typ av termkälla är sökresultaten från den första sökningen. En annan typ av termkälla utgörs av någon form av kunskapsstruktur, som står oberoende av själva sökprocessen. En sådan kunskapsstruktur kan antingen vara specifik för den aktuella dokumentsamlingen eller helt oberoende av denna. Exempel på kollektionsberoende kunskapsstrukturer är algoritmprocesser, speciella karaktäristika hos dokumentsamlingen (t.ex. termkluster) eller automatiskt konstruerade tesaurer. Exempel på kollektionsoberoende kunskapsstrukturer är domänspecifika (manuellt konstruerade) tesaurer och söktesaurer, d.v.s. tesaurer som används enbart till sökning, inte indexering. Andra exempel är tesaurer avsedda för allmänt bruk, såsom Roget s eller WordNet, liksom ordböcker och lexikon. 16 Efthimis N. Efthimiadis delar i sin artikel Query Expansion upp QE i tre olika typer: manuell, automatisk och interaktiv QE. 17 Manuell QE har främst använts vid boolesk onlinesökning och sökning på CDROM. Det finns flera olika slags sökstrategier kopplade till manuell QE, building blocks, citation pearl growing och most specific facet first för att nämna några. Valet av söktaktik är viktigt med tanke på det ultimata sökresultatet eftersom den taktik som används direkt påverkar hur framgångsrik sökningen är. 18 Sålunda ställer denna form av QE höga krav på användaren, som själv måste välja ut vilka termer han eller hon vill expandera med och hur sökfrågorna skall konstrueras. Till sin hjälp kan användaren ta, som tidigare nämnts, antingen tidigare sökresultat eller också någon form av kunskapsstruktur, för det mesta en tesaurus av något slag, där relationer termer emellan finns förtecknade. Användaren kan handplocka de termer som han eller hon tror kan vara användbara. Även automatisk QE är baserad antingen på tidigare sökresultat eller på någon form av kunskapsstruktur. Ett exempel på automatisk QE baserad på kollektionsberoende kunskapsstrukturer är termklustring. Vid klustring identifieras de termer som utifrån någon särskild aspekt är relaterade till termerna i den initiala sökfrågan. Det kan vara frågan om synonymer, olika varianter av ordstammar, eller termer som ligger inom ett visst avstånd från varandra i själva dokumenttexten. Klustringen sker antingen utifrån lokal eller utifrån global analys. Vid lokal analys används de dokument som återvunnits av en initial sökfråga som källa för nya expansionstermer. 19 Det finns många olika tekniker för lokal klustring, som exempel kan nämnas associationskluster. Ett associationskluster baseras på samförekomsten av ordstammar inuti dokument. Tanken är att stammar som samförekommer frekvent inuti dokument har en synonymlik relation. 20 Vid en global strategi används samtliga dokument i 15 Efthimiadis, Efthimis N. 1996. Query expansion, s. 122. 16 Efthimiadis 1996, s. 122-123. 17 Efthimiadis 1996, s. 121-187. 18 Efthimiadis 1996, s. 126-127, 131. 19 Baeza-Yates & Ribeiro-Neto 1999, s. 123. 20 Baeza-Yates & Ribeiro-Neto 1999, s. 125. 5

dokumentsamlingen för att skapa en global tesaurusliknande struktur som anger relationer mellan termerna. Man kan här skilja mellan två huvudtyper av tesaurer: likhetstesaurer och statistiska tesaurer. 21 Automatisk expansion kan också ske med hjälp av en kollektionsoberoende tesaurus som anger semantiska relationer termer emellan. 22 Vid automatisk expansion med hjälp av en tesaurus plockas termerna automatiskt ur tesauren, till skillnad från manuell expansion där användaren handplockar termerna. Den tredje typen av QE kallas interaktiv QE. Vid interaktiv QE är två parter ansvariga för att välja termer för expansionen, detta till skillnad från automatisk QE där systemet ensamt har ansvaret. Den ena parten är återvinningssystemet som, liksom vid automatisk QE, är utformat för att välja termer från ett antal förbestämda fält i dokumentet och sedan vikta och ranka dessa termer. Den andra parten är användaren, som av återvinningssystemet får en rankad lista med termer och vars uppgift är att bestämma vilka termer som skall läggas till sökningen. Det är sålunda användaren som gör det slutgiltiga beslutet över vilka termer som är användbara. Källan för expansionstermerna kan, liksom vid automatisk QE, antingen bestå av resultaten från den första sökningen eller av någon form av kunskapsstruktur. 23 Den undersökning av QE jag ämnar utföra handlar om manuellt utförd expansion av sökfrågor med hjälp av en kollektionsoberoende tesaurus. Man kunde dock även tänka sig att Svenskt OrdNät skulle kunna användas vid interaktiv QE genom att användaren automatiskt fick en lista med synonymer/hyponymer som denne sedan kunde välja bland vid en expansion av sökfrågan. Observera dock att återvinningssystemet i denna undersökning inte viktar och rankar termerna, vilket vanligtvis sker vid interaktiv QE enligt Efthimiadis (se ovanstående stycke). 2.3 Recall och precision Det finns olika sätt att utvärdera informationsåtervinningssystem på. Under slutet av 1950- talet inleddes de första storskaliga evalueringsstudierna av IR-system på allvar. Dessa studier ägde rum vid Cranfield College of Aeronautics i England. Under de två Cranfieldprojekten etablerades en standard för utvärdering av IR-prestanda och två mått för ett mäta ett IRsystem utvecklades: recall och precision. Dessa mått har kvarstått som centrala i efterföljande evalueringsexperiment. 24 Recall räknas ut genom att antalet återvunna relevanta dokument divideras med totala antalet relevanta dokument i dokumentsamlingen. Vill man få fram ett procentuellt tal multipliceras resultatet med 100. Precision räknas ut genom att antalet återvunna relevanta dokument divideras med totala antalet återvunna dokument. Liksom vid recall kan resultatet multipliceras med 100 ifall man vill få ett procentuellt tal. Recall handlar således om systemets förmåga att återvinna relevanta dokument, medan precision handlar om dess förmåga att inte återvinna icke-relevanta dokument. 25 21 Baeza-Yates & Ribeiro-Neto 1999, s. 131. 22 Efthimiadis 1996, s. 156. 23 Efthimiadis 1996, s. 156-157. 24 Large, Andrew, Tedd, Lucy A. & Hartley, R. J. 2001. Information Seeking in the Online Age: Principles and Practice, s. 278-279. 25 Chowdhury 1999, s. 205. 6

Det ideala IR-systemet försöker uppnå en 100 %-ig recall och en 100 %-ig precision, d.v.s. det strävar efter att återvinna alla relevanta dokument och endast relevanta dokument. Huruvida detta är möjligt i praktiken, är forskarna dock inte helt eniga om. Chowdhury skriver att en ökad recall tenderar att minska precisionen. Oftast ger en sökning med mycket allmänna söktermer hög recall och låg precision, medan en högre specificitet brukar leda till att recallen sjunker och precisionen stiger. Han påpekar dock att teorin om det inversa förhållandet mellan recall och precision kommit att ifrågasättas av andra forskare som visat att en ökning i precision på inga vis alltid följs av en minskning i recall och att en ökning i recall på intet sätt alltid behöver medföra en försämrad precision. 26 Därtill kan man fråga sig om alla användare alltid strävar efter en 100 %-ig recall. Chowdhury menar att verkliga användare för det mesta inte strävar efter mycket hög recall, utan hellre ett fåtal relevanta dokument. Hög precision är däremot eftersträvansvärt eftersom det sparar användarens tid och kraft. De flesta IR-system strävar efter att en moderat nivå av recall och precision på ca 50-60 %. 27 Måtten är heller inte helt problemfria i sig. Ett problem med recall-måttet är att det, för att man ska kunna mäta maximal recall för en sökfråga, krävs att man har detaljerad information om alla dokument i samlingen. I stora samlingar är denna information inte tillgänglig, vilket leder till att recall inte kan mätas exakt. En annan invändning mot måtten är att recall och precision är besläktade mått som fångar olika aspekter av uppsättningen återvunna dokument. I många situationer kunde en metod som kombinerar både recall och precision vara mer lämplig. 28 Ytterligare en nackdel med måtten är att det förutsätts att alla relevanta dokument har samma värde, vilket inte alltid stämmer. De återvunna dokumenten kan vara av olika relevansgrad och relevansgraden kan variera från användare till användare, dessutom även från tidpunkt till tidpunkt även om användaren är den samma. I relevansbegreppet ligger en grad av subjektivitet som måtten inte tar hänsyn till. 29 26 Chowdhury 1999, s. 205-207. 27 Chowdhury 1999, s. 206-207. 28 Baeza-Yates& Ribeiro-Neto 1999, s. 81. 29 Chowdhury 1999, s. 208. 7

3 Relaterad forskning Ett antal studier har genomförts där man undersökt vilken effekten blir då man expanderar en initial sökfråga med termer plockade ur någon form av termkälla, antingen en samlingsspecifik eller en samlingsoberoende sådan. I merparten av de studier jag tagit del av är det en samlingsspecifik tesaurus som använts vid expansionen, till skillnad från min studie där en samlingsoberoende termkälla används. En samlingsspecifik tesaurus är skapad utifrån en speciell samling dokument och avsedd antingen för både indexering och sökning eller enbart för sökning. En samlingsoberoende termkälla däremot, är en allmän ordbok eller liknande lexikalt referensverk, som förtecknar relationer termerna emellan. Den forskning som tillämpat samlingsspecifika tesaurer som hjälpmedel vid QE pekar rätt så samstämmigt på att QE med hjälp av sådana tesaurer i hög grad bidrar till förbättrad återvinningseffektivitet, genom att en ökad recall uppnås på bekostnad av en endast obetydlig förlust i precision. Två forskare som utfört flera studier inom detta ämne är Jaana Kristensen (sedermera Kekäläinen) och Kalervo Järvelin. I artikeln The Effectiveness of a Searching Thesaurus in Free-Text Searching in a Full-Text Database redogör det för en studie i vilken de använt sig av en söktesaurus de själva skapat för att utöka initiala sökfrågor med synonymer respektive synonymer tillsammans med bredare termer. Resultaten analyserades i termer av relativ recall och precision genom att recallen för den tredje sökningen lades till 100%. I undersökningen kom de fram till att expansion med synonymer ledde till en avsevärd ökning i recall på bekostnad av en obetydlig förminskning i precision. Utökades sökningen ytterligare med bredare termer ökade recallen ytterligare men tappade då mycket i precision. Kristensen och Järvelin drar slutsatsen att en söktesaurus verkar vara ett effektivt verktyg för att förbättra sökresultatet vid fritextsökning i en fulltextdatabas. 30 En annan forskare inom ämnet är Jane Greenberg som i artikeln Automatic Query Expansion via Lexical-Semantic Relationships redogör för en studie där en strukturerad, domänspecifik och kollektionsberoende tesaurus används för att expandera initiala sökfrågor. I experiment undersökte Greenberg huruvida termer hämtade ur en tesaurus hade en positiv effekt på återvinningseffektiviteten då de adderades till en sökfråga genom automatisk QE. Den operationella miljön i studien bestod av databasen ABI/Inform och verkliga användare och verkliga sökfrågor undersöktes. Detta var den första studien som utforskade ämnet i en operationell miljö med verkliga användare och verkliga sökfrågor utförda i en allmänt tillgänglig, populär databas. Sökfrågorna expanderades med synonymer, partiella synonymer, hyponymer, relaterade termer och bredare termer. Undersökningen visade att automatisk QE med synonymer, partiella synonymer och hyponymer ökade den relativa recallen med en försämring i precision som inte var statistiskt signifikant, och att automatisk QE med relaterade termer och bredare termer ökade den relativa recallen med en försämring i precision som var statistiskt signifikant. 31 Varken Kristensen & Järvelins eller Greenbergs undersökning är dock direkt jämförbar med min, eftersom bägge dessa undersökningar gäller QE med hjälp av tesaurer som är konstruerade utifrån en speciell samling dokument. Tyngdpunkten i denna genomgång av relaterad forskning kommer därför att läggas på forskning som rör QE med hjälp av 30 Kristensen, Jaana & Järvelin, Kalervo 1990. The effectiveness of a searching thesaurus in free-text searching in a full-text database, s. 77-84. 31 Greenberg, Jane 2001. Automatic query expansion via lexical-semantic relationships, s. 402-415. 8

samlingsoberoende termkällor. Utifrån min bedömning har det inte bedrivits någon omfattande forskning inom detta ämne. I artikeln On Expanding Query Vectors with Lexically Related Words beskriver Ellen M.Voorhees ett experiment som rör query expansion med hjälp av termer hämtade ur det engelska WordNet, föregångaren till Svenskt OrdNät som jag använder i min studie. Voorhees undersöker vilken effekten blir på återvinningseffektiviteten då sökfrågor ur den stora testkollektionen TREC-2 expanderas med handplockade termer. En initial sökfråga expanderades med synonymer, synonymer+hyponymer, synonymer+hypernymer+hyponymer och slutligen med synonymer+alla termer i samtliga synonymuppsättningar som länkade till den ursprungliga synonymuppsättningen, oberoende av släktskapsrelation. Endast substantiv expanderades. Målet vid val av synonymgrupper var att välja de synonymuppsättningar som lade tonvikten på viktiga koncept i topicet. Synonymuppsättningarna valdes manuellt av Voorhees. Hon påpekar att resultaten därmed kan ha blivit bättre än ifall en helt automatisk expansionsprocess hade tillämpats. Resultaten från undersökningen visar att denna QE-teknik inte gör någon stor skillnad i återvinningseffektivitet. Detta har enligt Voorhees flera möjliga förklaringar. En orsak kan vara att de topics som finns i TREC-kollektionen redan ger en så fullständig beskrivning av den information som ska sökas fram. Query expansion är en teknik som ska öka recall och topic-beskrivningarna i TREC är redan väldigt omfattande om man jämför med sökfrågor som finns i traditionella IR-samlingar. Även om de flesta av de expanderade sökfrågorna utökades med någon ny term, fanns de allra viktigaste termerna ofta redan i den grundläggande uppsättningen med termer. En annan möjlig förklaring till resultatet är enligt Voorhees att WordNet inte lämpar sig för denna uppgift. WordNet utformades inte för att användas på detta sätt och innehåller kanske inte de nödvändiga länkarna. Samma gäller antagligen för vilken som helst motsvarande allmän kunskapsstruktur, menar Voorhees. Ett annat mål med studien var att jämföra vilken typ av lexikal relation som är mest effektiv vid expansion av en sökfråga. Voorhees konstaterar att förutsatt att den uppsättning ord som ska expanderas är välvald, kan vilket som helst närbesläktat ord, oberoende av typ av relation, vara ett bra ord att expandera med. Hon påpekar dock att alla expansionstermer borde ges en lägre vikt än grundtermerna. Voorhees prövade att ge expansionstermerna lika eller högre vikt än grundtermerna och kom fram till att dessa sökfrågor genomgående gav ett sämre resultat än de omgångar där viktningen var mer konservativ. Dessutom gav expansion med nära besläktade termer genomgående ett bättre återvinningsresultat än expansion med avlägset relaterade termer. Resultaten ger hursomhelst vid handen att den QE-strategi som använts inte ger någon signifikant förbättring av återvinningsresultaten ens då viktiga koncept manuellt väljs ut. Vissa expanderade sökfrågor var visserligen mer effektiva än deras icke-expanderade motsvarigheter, men i andra gav däremot den icke-expanderade versionen bättre resultat. I ingetdera fallet var dock skillnaden i effektivitet mellan de två versionerna särskilt stor. 32 I en annan artikel, Query Expansion using Lexical- Semantic Relations, redogör Voorhees för samma studie som den ovan refererade, men lyfter här även fram att korta och inte så välformulerade sökfrågor kan förbättras väsentligt genom expansion med handplockade termer. Användare skapar ofta korta, inte så detaljerade sökfrågor, varför en expansion med lexikal-semantiska relationer i dessa fall har potential att förbättra en initial sökfråga. Det är dock osannolikt att denna expanderade sökfråga är lika effektiv som en bättre formulerad initial sökfråga. Utmaningen ligger i att hitta en automatisk procedur som har förmågan att välja lämpliga koncept att expandera, avslutar Voorhees. 33 32 Voorhees, Ellen M. 1994a. On expanding query vectors with lexically related words, s. 223-231. 33 Voorhees, Ellen M. 1994b. Query expansion using lexical-semantic relations, s. 61-69. 9

Rila Mandala, Takenobu Tokunaga & Hozumi Tanaka lyfter i artikeln Query expansion using heterogenous thesauri fram det faktum att QE med hjälp av WordNet inte alltid resulterat i en förbättring av återvinningseffektiviteten. En anledning till detta är enligt forskarna att WordNet är en tesaurus avsedd för allmänt bruk. WordNet har skapats för att kunna användas inom en rad olika domäner, och saknar därför domänspecifika tesauriska relationer. Forskarna föreslår att man i stället skall kombinera flera olika typer av tesaurer vid QE. Den underliggande idén är att varje typ av tesaurus har olika egenskaper och därför kan en kombination av dem resultera i en värdefull källa för QE. I artikeln redovisas en undersökning där Mandala, Tokunaga & Tanaka kombinerade tre olika typer av tesaurer: en manuellt skapad tesaurus avsedd för generellt bruk (WordNet), en automatiskt konstruerad tesaurus baserad på samförekomst av termer och en automatiskt konstruerad tesaurus baserad på antagandet att ord som förekommer i en liknande grammatisk kontext uppvisar likheter med varandra. För att utvärdera effektiviteten hos denna metod, gjordes experiment där testkollektionen TREC-7 användes. Testkollektionen bestod av 50 topics och 528 155 dokument från flera olika källor: the Financial Times (FT), Federal Register (FR94), Foreign Broadcast Information Service (FBIS) och LA Times. Varje topic bestod av tre sektioner: en titel, en kortare beskrivning av informationsbehovet, kallad description och en lite längre, kallad narrative". Vid skapandet av sökfrågor användes i tur och ordning endast titeln, endast beskrivningen och slutligen alla delar av topicet. WordNet användes till att expandera substantiv med hyponymer och hypernymer, det vill säga under- och överordnade termer. Man viktade termerna för att undvika felaktig expansion. Återvinningseffektiviteten mättes genom att precisionen räknades ut. Resultaten från undersökningen visar att bäst återvinningseffektivitet uppnåddes då en sökfråga expanderades med en kombination av alla tre tesaurer. Sämst resultat uppnåddes då en expansion med enbart termer hämtade ur WordNet gjordes. Även här uppnåddes en förbättring gentemot den initiala sökfrågan, men i jämförelse med den som uppnåddes då en kombination av tesaurerna användes, var förbättringen i återvinningseffektivitet endast marginell. 34 I magisteruppsatsen Query expansion med WordNet av Johan Andersson och Anna Malkki undersöker uppsatsförfattarna vilka resultat som sökfrågeexpansion med hyponymer och hypernymer hämtade ur det engelska WordNet ger. Av sina experiment drar de slutsatsen att QE med hjälp av Wordnet inte i någon större omfattning bidrar till att förbättra resultaten vare sig med avseende på recall eller precision. 35 Sofia Höglund expanderar i magisteruppsatsen Query expansion med semantiskt relaterade termer initiala sökfrågor med böjningsformer, med synonymer ur en synonymordbok och med hyponymer, hypernymer och relaterade termer hämtade ur en allmän tesaurus. Hennes slutsatser från undersökningen är att samtliga sökfrågetyper ger en förbättring i recall men att den med böjningsformer ger allra bäst resultat. Samtliga sökfrågetyper uppvisar även en förbättring i precision, med ett undantag: vid expansion med synonymer. Uppsatsförfattaren konstaterar att det faktum att expansion med enbart böjningsformer på termerna presterar bäst av sökfrågetyperna medför att varken synonymordboken eller tesauren framstår som övertygande hjälpmedel för QE i denna undersökning. 36 34 Mandala, Rila, Tokunaga, Takenobu & Tanaka, Hozumi 2000. Query expansion using heterogenous thesauri, s. 361-378. 35 Andersson, Johan & Malkki, Anna 2004. Query expansion med WordNet. 36 Höglund, Sofia 2004. Query expansion med semantiskt relaterade termer. 10

3.1 Slutsatser från relaterad forskning Query Expansion med termer hämtade ur en samlingsspecifik tesaurus har i flera studier visat sig ge gott resultat. Viktiga namn inom denna forskning är exempelvis Kristensen, Järvelin och Greenberg. Vad gäller QE med hjälp av termer hämtade ur en samlingsoberoende termkälla, har resultaten från tidigare forskning däremot inte varit lika uppmuntrande. Inom detta område är det framförallt Voorhees forskning som är relevant för min undersökning, medan den refererade studien av Mandala, Tokunaga & Tanaka utgör ett intressant komplement i och med att dessa forskare kombinerar flera olika tesaurer och då uppnår goda återvinningsresultat. Dessa forskare konstaterar dock, liksom Voorhees, att enbart expansion med det lexikala referensverket WordNet inte nämnvärt förbättrar återvinningseffektiviteten. Samma språk talar de magisteruppsatser som tidigare skrivits inom ämnet vid Högskolan i Borås. Man kan fråga sig varför jag i min undersökning väljer att expandera med termer ur en samlingsoberoende termkälla då sådan i tidigare forskning inte visat sig ge särskilt bra resultat. Orsakerna till detta är flera. För det första har inte den svenska versionen av WordNet, Svenskt OrdNät, använts vid denna typ av undersökning förut. Därför kan det vara av intresse att undersöka huruvida denna har potential att fungera som hjälpmedel vid QE. För det andra anser jag att det faktum att tidigare forskning inom QE inte visat sig ge så uppmuntrande resultat på inget vis motiverar till att hela forskningsämnet läggs ner. Såväl ett samstämmigt som ett motstridigt resultat säger ju någonting om forskningsämnet. Dessutom avser jag inte enbart att utvärdera huruvida Svenskt OrdNät fungerar som termkälla vid QE, utan även att jämföra olika sökfrågetyper med varandra. I kapitel 5 kommer jag att återknyta till resultaten från Voorhees undersökning, eftersom denna är den mest utförligt refererade forskningen jag kunnat hitta inom ämnet. 11

4 Metod I detta kapitel beskrivs den metod jag kommer att använda mig av vid utförandet av undersökningen. I de påföljande underkapitlen ges en beskrivning av Svenskt OrdNät, av testmiljön och IR-systemet, testkollektionen och slutligen visar jag hur jag rent praktiskt kommer att gå till väga för att utföra studien, det vill säga hur jag kommer att välja ut topics och utifrån vilka principer jag kommer att formulera mina sökfrågor. Jag presenterar även ett exempel på en sökfråga för varje expansionsstrategi. 4.1 Svenskt OrdNät Till den testkollektion som används i denna studie finns ingen speciell tesaurus kopplad, varför det blev aktuellt att välja en lämplig kollektionsoberoende termkälla för expansion av sökfrågor. Det finns två anledningar till att just Svenskt OrdNät valdes till denna studie. För det första krävde testkollektionen, som består av artiklar ur dagstidningar, en termkälla lämplig för naturligt språk, eller kanske hellre tidningsspråk. Hursomhelst är det inte frågan om descriptorer. För det andra har ingen studie tidigare gjorts som undersöker hur väl just Svenskt OrdNät fungerar som termkälla vid QE, vilket motiverar valet ytterligare. Svenskt OrdNät pågick som ett projekt åren 2000-2002 vid institutionen för lingvistik i Lund, men flyttades under slutfasen till institutionen för lingvistik vid Uppsala universitet. Som projektledare fungerade professor Åke Viberg. Syftet med projektet Svenskt OrdNät var att utveckla ett betydelsebaserat svenskt lexikon på dator som skulle kunna kopplas till ett antal parallella lexikon för andra europeiska språk som också utvecklats inom projektet EuroWordNet 37. Lexikonet är tänkt att fungera som en basresurs för språkteknologiska tillämpningar på svenska, såsom t.ex. informationssökning, tolkning och generering av texter. Det är därtill av betydelse som en psykolingvistisk modell med tillämpbarhet bland annat för språkinlärning. 38 Åke Viberg, projektledare för Svenskt OrdNät, påpekar det faktum att lexikonet också har ett praktiskt syfte som en resurs vid utvecklandet av språkteknologiska hjälpmedel på svenska. Han lyfter fram att lexikon på dator bland annat kan användas till informationssökning i stora textsamlingar. Om man söker på ett relevant ord möjliggör ordnätet att man inte söker enbart på detta i texterna utan även på relaterade ord, t.ex. alla ord med underordnad betydelse och/eller alla synonymer. 39 Svenskt Ordnät är strukturerat enligt samma principer som originalet Princeton WordNet, som finns tillgängligt på internet och som har använts i flera studier liknande den som föreligger i denna uppsats. 40 Basen i ordnäten är synonymgrupper, det vill säga uppsättningar med synonymer som representerar särskilda betydelser. Svenskt OrdNät förtecknar i första hand substantiv och verb, till skillnad från sin engelska förebild, sålunda inte adjektiv och adverb. 41 37 EuroWordNet är namnet på en samling ordnät som utarbetats för flera europeiska språk, i dagsläget holländska, italienska, spanska och engelska. Ordnäten är länkade till varandra så att man kan skriva in ett ord på ett språk och få fram närmast motsvarande ord i de andra språken. Svenskt OrdNät är länkat till EuroWordNet, men eftersom det inte är denna funktion jag kommer att använda mig av i min undersökning går jag inte närmare in på detta här. 38 Viberg, Åke 2002. Svenskt OrdNät, s. 135. 39 Viberg, Åke 2000, s. 21. 40 Se kapitlet om relaterad forskning. 41 Viberg, Åke et al. 2002. The Swedish WordNet Project, s. 407. 12

I dagsläget har Svenskt OrdNät precis börjat distribueras, och det är i princip fritt tillgängligt för forskning och undervisning. För kommersiella syften krävs dock särskilt avtal. De senaste två åren har det inte funnits några särskilda medel för projektet, men visst arbete har ändå pågått. Åke Viberg uppger att man avser söka ytterligare medel för att utvidga lexikonet. I början av 2004 fanns runt 25 000 begrepp och drygt 30 000 ord förtecknade i Svenskt OrdNät. Enligt Åke Viberg har det tillkommit runt 5000 ord sedan dess. 42 Jag har fått tillgång till Svenskt OrdNät genom min handledare och har laddat ner lexikonet på min dator. På Uppsala Universitets hemsida under Institutionen för lingvistik och filologi kan den som så vill göra provsökningar i Svenskt OrdNät. 43 4.2 Testmiljön I föreliggande undersökning används Query Performance Analyser (QPA), ett IR-verktyg som involverar ett antal testdatabaser. I QPA är InQuery inbyggt. En utförligare presentation av InQuery och QPA ges i detta kapitel, liksom en beskrivning av den testkollektion som används. 4.2.1 InQuery InQuery (version 3.1) är ett probabilistiskt IR-system utvecklat vid Department of Computer Science vid University of Massachusetts, USA. InQuery är baserat på s.k. bayesianska nätverk. Då dokument ska återvinnas matchas dokumentrepresentationerna mot en sökfråga. Detta sker enligt en partiell matchningsteknik, vilket innebär att en approximation av sökfrågans villkor äger rum. Graden av likhet mellan en dokumentrepresentation och en sökfråga mäts. 44 I InQuery tillämpas en termviktningsmetod som informellt kan beskrivas enligt följande. Det existerar ett dokument i en dokumentmängd och det existerar en sökfråga. Därtill finns en vokabulär bestående av mängden indexeringstermer för dokumentmängden. Varje term i vokabulären tilldelas nu ett beliefvärde som ungefärligen beräknas genom en speciell modifiering av tf-idf-metoden. Beliefvärdet för en term i ett visst dokument kan betraktas som vikten för termen i detta dokument och antas avspegla den betydelse denna term har i dokumentet. För att termen ska få en stor vikt i det aktuella dokumentet ska följande gälla: - termen förekommer ofta i dokumentet (hög frekvens) - dokumentet är ett kort dokument i förhållande till dokumentens snittlängd i dokumentsamlingen - termen förekommer i ett litet antal dokument i dokumentsamlingen. 45 Sökfrågor kan formuleras antingen i naturligt eller i mer exakt strukturerat språk. Används naturligt språk skriver användaren in sökfrågan som en vanlig mening, och systemet ändrar sedan sökfrågan till strukturerat språk. Skrivs däremot sökfrågan in i strukturerad form direkt, kan användaren mer precist ange relationer mellan termerna i sökfrågan och förhoppningvis 42 Viberg, Åke. E-post till uppsatsförfattaren 2006-04-19. 43 Adressen är: http://www.lingfil.uu.se/swordnet_test/ [2006-05-03] 44 Ahlgren, Per & Eklund, Johan 2003. Manual för Query Performance Analyser, s. 3. 45 Ahlgren & Eklund 2003, s. 3. 13

få ett bättre sökresultat. Strukturerad form innebär att olika operatorer används. 46 Operatorerna följs av en mängd operander, d.v.s. en lista av uttryck. Ett beliefvärde beräknas både för termerna och för hela sökfrågan i förhållande till ett visst dokument. Detta värde är InQuerys likhetsvärde för dokumentet med avseende på sökfrågan. När likhetsvärdena för varje dokument i dokumentsamlingen beräknats kan dokumenten rankas utifrån dessa värden. 47 I InQuery finns ett antal olika operatorer. Den enklaste av dessa är #sum-operatorn. En enkel sökfråga formulerad i naturligt språk konverteras automatiskt till en #sum-operation. Termerna inom #sum-operatorn har lika stor inverkan på det slutliga resultatet. 48 Inom #sumoperatorn placeras antingen en term eller ett operator-uttryck, t.ex. en #syn-sökfråga eller en avståndsoperator följd av minst två termer. Beliefvärdet för en #sum-sökfråga, med avseende på ett visst dokument i dokumentsamlingen, fås genom att man beräknar medelvärdet över beliefvärdena hos de operander som ingår i sökfrågan. 49 En annan operator är #syn-operatorn. Termerna inom operatorn behandlas som instanser av samma term. 50 Inom #syn-operatorn placerar man sålunda ord och fraser som ska betraktas som synonyma. Sett till storleken på beliefvärdet för en viss sökfråga med #syn, med avseende på ett visst dokument, har det ingen betydelse hur många av de termer som står inom #syn-operatorn som är närvarande i dokumentet, givet att summan av termernas frekvenser är konstant. Det har alltså ingen betydelse om det är samma term som förekommer två gånger i dokumentet och den andra inte alls, eller om termerna förekommer en gång var i dokumentet, beliefvärdet blir ändå det samma. För att få ett högt beliefvärde ska det begrepp som associeras med termerna inom #syn-operatorn förekomma ett större antal gånger i det aktuella dokumentet. De olika termernas frekvenser i dokumentet summeras eftersom dessa antas stå för samma begrepp. 51 De ovan beskrivna operatorerna, #sum och #syn, är de operatorer som kommer att användas i denna uppsats. I den initiala sökfrågan kommer endast #sum-operatorn att användas, medan #syn-operatorn tillkommer vid expansion med synonymer respektive hyponymer, liksom vid expansion med synonymer och hyponymer tillsammans. Jag övervägde att använda avståndsoperatorn #od1 vid termer som kan betraktas som fraser, exempelvis sydafrikanska republiken. Termer inom #od1-operatorn måste stå intill varandra i texten, och i den ordning de förekommer inom operatorn, för att de ska bidra till dokumentets beliefvärde. 52 Efter några testsökningar gjordes dock bedömningen att användandet av denna operator inte nämnvärt påverkade sökresultatet, varför jag beslöt att inte ta med denna i sökfrågorna. 46 InQuery document retrieval system 1996. 47 Ahlgren & Eklund 2003, s. 3. 48 InQuery document retrieval system 1996. 49 Ahlgren & Eklund 2003, s. 4. 50 InQuery document retrieval system 1996. 51 Ahlgren & Eklund 2003, s. 3-4. 52 InQuery document retrieval system 1996. 14

4.2.2 QPA QPA har utvecklats vid Institutionen för informationsstudier vid Tammerfors universitet i Finland. 53 Det är ett webbaserat verktyg utvecklat för analys, visualisering och jämförelse av effektivitet hos individuella sökfrågor. 54 QPA har flera olika användningsområden inom experimentell IR forskning. Exempelvis är det vanligt att enbart ett medelvärde för resultatet av en sökning räknas ut. Ibland kan det dock vara viktigt att också analysera individuella sökfrågor, för att kunna förstå vilka orsaker som ligger bakom variationer i effektivitet mellan olika topics eller olika sökfrågor. Detta kan göras i QPA. 55 I QPA räknas recall, precision och Average Precision (anges som P(ave) i QPA) automatiskt ut för varje sökfråga som ställs till systemet. Vid Average Precision beräknas precisionen vid varje relevant dokument i den returnerade listan, varefter värdena summeras och därefter divideras med det totala antalet kända relevanta dokument. Resultaten från sökningarna åskådliggörs i form av stapeldiagram, cirkeldiagram och recall/precision-kurvor. I denna studie används QPA version 5.1. 4.2.3 Testkollektionen Testkollektionen som används heter GP_HDINF och utgörs av en fulltextdatabas, bestående av nyhetsartiklar ur Göteborgsposten och Helsingborgs Dagblad från 1994, samt 52 stycken topics och därtill relevansbedömningar av artiklarna i samlingen. Såväl dokument som topics är svenskspråkiga och sammanlagt 161 336 dokument ingår i samlingen. I GP_HDINF har relevansbedömningen skett enligt poolingmetoden 56. Relevansbedömningen gjordes utifrån fälten Title och Description av sammanlagt fyra personer, samtliga före detta studenter inom biblioteks- och informationsvetenskap. En 4-gradig skala (0-3) användes vid relevansbedömningen. 57 I min undersökning kommer jag dock att tillämpa binär relevans, det vill säga ett dokument är antingen relevant (1-3 på skalan) eller icke-relevant (0 på skalan). Samtliga ord är sökbara i den form de förts in, och sökningen sker inte i fält utan i ostrukturerad text. 53 QPA finns tillgängligt på adressen http://www.info.uta.fi/qpaservlet/qpastart?language=english. För inloggning krävs ett fungerande konto med tillhörande användarnamn och lösenord. 54 Sormunen, Eero, Halttunen, Kai & Keskustalo, Heikki 2002. Query Performance Analyser a tool for bridging information retrieval research and instruction, s. 4-5. 55 Sormunen, Halttunen & Keskustalo 2002, s. 7. 56 Poolingmetoden innebär att inte alla dokument i en samling relevansbedöms, utan endast en pool av dokument. De dokument som inte relevansbedömts har betecknats som icke -relevanta. Detta medför att det inte kan uteslutas att det i själva verket finns ytterligare relevanta dokument utöver de som bedömts som relevanta. 57 Ahlgren, Per 2004. The effects of indexing strategy-query term combination on retrieval effectiveness in a Swedish full text database, s. 85-87. 15

4.3 Val av topics och formulering av sökfrågor I studien ingår 20 stycken topics. Kravet på den initiala sökfrågan är att det måste finnas minst en term i denna som kan expanderas med en eller flera synonymer och minst en term som kan expanderas med en eller flera hyponymer ur Svenskt OrdNät. Topics med endast ett relevant dokument väljs bort eftersom de anses för små för att kunna ge ett intressant resultat. För varje topic görs fyra olika sökningar, vilket resulterar i sammanlagt 80 olika sökfrågor. Sökfrågorna utformas enligt följande regler: - Samtliga ord i samtliga sökfrågor står i grundform. Ifall betydelsen av ett ord inte blir helt riktig om en obestämd form väljs framför en bestämd form, frångås denna regel. Exempel på ett sådant ord är världen som förlorar sin korrekta betydelse i sammanhanget ifall formen värld används. - Inga uppbrytningar av sammansatta ord görs. - Eftersom Svenskt OrdNät endast förtecknar substantiv och verb är det endast ord ur dessa ordklasser som kan expanderas. Adjektiv kan ingå i sökfrågorna men expanderas sålunda inte. Prepositioner och adverb tas inte med i sökfrågorna. - Synonymer och hyponymer handplockas och väljs med stor noggrannhet. Alternativet är att automatiskt ta med alla synonymer respektive hyponymer som finns listade i Svenskt OrdNät. Att jag väljer att handplocka termerna beror på att jag anser att resultatet skulle bli missvisande ifall samtliga synonymer och hyponymer togs med. T.ex. finns det i Svenskt OrdNät inte mindre än 88 hyponymer till ordet människa, såsom tävlande, skurk och resenär. Att ta med alla hyponymer skulle i detta fall medföra en expansion med sådana ord som inte alls har någon anknytning till termens betydelse i den initiala sökfrågan. Antalet expansionstermer varierar från sökfråga till sökfråga, beroende på hur många lämpliga termer som finns i termkällan. Att det är jag själv som väljer ut expansionstermerna kan ses som en svaghet, eftersom man kan hävda att resultatet skulle bli annorlunda ifall någon annan gjorde detta. Personligen är jag dock av den åsikten att detta inte nämnvärt påverkar resultatet. - Ord som är flertydiga har i Svenskt OrdNät förts till skilda synonymgrupper, varför flera olika synonymgrupper kan finnas på samma ord. I varje enskilt fall måste man då ta ställning till vilken betydelse som är den man eftersöker. Ett topic är en beskrivning av ett informationsbehov i naturligt språk. Exempel: Topic 033: Sök dokument som behandlar nyligen gjorda upptäckter om sambandet mellan gener och cancer. 16