Expansion av sökfrågor med Svenskt OrdNät som termkälla

Storlek: px
Starta visningen från sidan:

Download "Expansion av sökfrågor med Svenskt OrdNät som termkälla"

Transkript

1 MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:38 ISSN Expansion av sökfrågor med Svenskt OrdNät som termkälla SUSANNA LÖNNQVIST Susanna Lönnqvist Mångfaldigande och spridande av innehållet i denna uppsats helt eller delvis är förbjudet utan medgivande.

2 Svensk titel: Engelsk titel: Författare: Expansion av sökfrågor med Svenskt OrdNät som termkälla Query Expansion using the Swedish WordNet Susanna Lönnqvist Kollegium: 2 Färdigställt: 2006 Handledare: Per Ahlgren Abstract: The purpose of this Master s thesis is to examine the performance of queries that are expanded by synonyms and hyponyms from Svenskt OrdNät, the Swedish version of the Princeton WordNet. Four different types of queries were constructed: a baseline query (S1), the baseline query expanded with synonyms (S2), the baseline query expanded with hyponyms (S3) and finally the baseline query expanded with the synonyms and hyponyms used in S2 and S3. The terms for expansion were picked by hand. The queries were executed in the Query Performance Analyser (QPA), a tool used in IR education and in experimental IR research for analysing and comparing the performance of individual queries. 20 topics from the test collection GP_HDINF were chosen for the experiment. The four query types were analyzed with regard to precision and recall. The experimental results suggest that expansion with synonyms is the most effective of the four query types, since this query type performs the highest average recall, with only a slight decline in precision. However, there is no great difference in performance between the different query types. Nyckelord: query expansion, sökfrågor, tesaurus, synonymer, hyponymer, precision, recall, information retrieval Jag vill tacka Per Ahlgren för mycket god handledning och många värdefulla synpunkter.

3 Innehållsförteckning 1 INLEDNING Syfte och forskningsfrågor Användning av termer Uppsatsens disposition 2 2 IR IR-modeller Query Expansion Recall och precision 6 3 RELATERAD FORSKNING Slutsatser från relaterad forskning 11 4 METOD Svenskt OrdNät Testmiljön InQuery QPA Testkollektionen Val av topics och formulering av sökfrågor Utvärdering av återvinningseffektivitet 17 5 RESULTAT OCH ANALYS Expansionen Precision Recall Recall topic för topic Diskussion av resultat Avslutande reflektioner 27 6 SAMMANFATTNING 29 REFERENSER 31 BILAGA TOPICS OCH SÖKFRÅGOR 33

4 1 Inledning En informationssökningsprocess inleds med att en användare har ett informationsbehov av något slag. Användarens uppgift är då att försöka formulera en sökfråga som representerar detta informationsbehov och köra denna sökfråga i ett informationsåtervinningssystem. Systemet presenterar sedan ett återvinningsresultat för användaren. Den ideala situationen är att alla relevanta dokument återvinns, samtidigt som så få icke-relevanta dokument som möjligt kommer upp. 1 Det verkliga resultatet är dock många gånger långt ifrån det ideala sökresultatet. Om så är fallet står användaren inför ett val. Antingen kan denne nöja sig med de dokument som återvanns vid den första sökningen, eller också kan hon eller han göra ett försök att förbättra återvinningseffektiviteten. Då en initial sökfråga utökas med nya termer talar man om query expansion (QE). QE är en del av ämnet information retrieval (IR), i sin tur ett delområde av informationsvetenskapen. IR behandlar representation, lagring och organisation av dokument, samt åtkomst till dessa. 2 Query expansion är ett sätt att försöka förbättra återvinningseffektiviteten. Centrala frågor vid QE är var de nya termerna skall hämtas och vilka termer som bäst lämpar sig för QE. Nya termer kan hämtas från olika typer av termkällor och expansionen kan ske antingen manuellt, interaktivt eller helt automatiskt. En typ av termkälla är en kollektionsspecifik tesaurus som, liksom namnet antyder, är uppbyggd kring en speciell dokumentsamling. Det är dessvärre långt ifrån alla databaser och sökmotorer som är kopplade till någon specifik tesaurus, vilket ofta leder till att användaren står utan hjälp vid formulerandet och omformulerandet av sina sökfrågor. Det är här den kollektionsoberoende termkällan kommer in. En kollektionsoberoende termkälla kan se ut på olika sätt, men förtecknar på något sätt, liksom den kollektionsspecifika tesauren, relationer mellan olika ord. Skillnaden är att denna inte är bunden till någon speciell dokumentsamling. När man bestämt sig för var termerna för QE skall hämtas återstår frågan vilka termer som skall väljas, eftersom ord kan vara besläktade på en mängd olika sätt. Man kan skilja mellan fyra huvudtyper av semantiska relationer: meronymi, antonymi, hyponymi och synonymi. Meronymi kallas relationen mellan en del och en helhet. Ordet hus står för en helhet medan dörr eller vägg är komponenter i denna helhet. Antonymi betyder att ord står i något slags motsatsförhållande till varandra, t.ex. stor - liten eller bror - syster. Med hyponymi avses över- och underordnade begrepp såsom t.ex. djur-fågel-bofink. Termen djur är hypernym till fågel och fågel är hyponym till djur. Synonymi, slutligen, handlar om att ord är liktydiga, t.ex. är knoga - gno - slita synonymer till varandra. 3 I denna uppsats kommer fokus att stå på de semantiska relationerna hyponymi och synonymi. Denna uppsats undersöker query expansion med semantiskt relaterade termer. Expansion med termer som står i synonymt och hyponymt släktskap till termerna i den initiala sökfrågan kommer att utföras och expansionstermerna kommer att hämtas ur Svenskt OrdNät. Detta är ett svenskt lexikon på dator utvecklat vid institutionen för lingvistik vid Lunds universitet och institutionen för lingvistik vid Uppsala universitet. I denna uppsats kommer Svenskt OrdNät 1 Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier Modern information retrieval, s Baeza-Yates & Ribeiro-Neto 1999, s Viberg, Åke Svenskt OrdNät - Lexikon på dator som modell för ordförrådet i hjärnan hos infödda talare och andraspråkstalare, s

5 således att fungera som en kollektionsoberoende termkälla. Lexikonet förtecknar substantiv och verb och termerna är placerade i en struktur som visar ordens betydelse och hur de är relaterade till andra termer. På c-kursen Information Retrieval fick vi studenter bekanta oss närmare med ämnesområdet IR. Kursen gav mersmak och jag, med en bakgrund inom huvudsakligen humanistiska ämnen, fann området både intressant och utmanande. Ämnet involverar mätbara fenomen, vilket tilltalade mig, liksom tanken på att integrera en experimentell del i mitt magisterarbete. 1.1 Syfte och forskningsfrågor Syftet med denna uppsats är att undersöka vilken effekten blir på återvinningseffektiviteten då en initial sökfråga expanderas med synonymer, hyponymer och en kombination av dessa. Sammanlagt kommer fyra olika sökfrågetyper att jämföras. Som termkälla fungerar det databaserade lexikala referensverket Svenskt OrdNät. Detta kommer att undersökas utifrån följande frågeställningar: 1) Vilken av de fyra typerna av sökfrågor som används är mest effektiv, mätt med måtten recall och precision? 2) Hur väl fungerar Svenskt OrdNät som termkälla vid query expansion? 1.2 Användning av termer Det mesta som skrivs och skrivits inom IR är på engelska, varför det för många engelska termer inte ännu existerar några riktigt etablerade svenska motsvarigheter. Detta har medfört att man inom svensk IR ofta lånat termer från engelskan, såsom t.ex. query. I denna uppsats kommer jag dock att hålla mig till svenska termer så långt det är möjligt. I stället för termen query använder jag sökfråga och baseline query ersätts av initial sökfråga. Den engelska termen topic som står för en beskrivning av ett informationsbehov i naturligt språk 4 kommer jag dock att använda eftersom det inte existerar någon bra översättning av denna. 1.3 Uppsatsens disposition I kapitel 2 kommer en kort introduktion till ämnesområdet IR att ges, och de klassiska IRmodellerna att presenteras. De två mått som används för att mäta återvinningseffektiviteten, precision och recall, kommer också att beskrivas i kapitel 2 och en utförligare beskrivning av delområdet query expansion ges här. Tidigare forskning beskrivs i kapitel 3 och därefter följer metodkapitlet, kapitel 4, där Svenskt OrdNät, testmiljön, IR-systemet och testkollektionen beskrivs, liksom studiens praktiska genomförande. I kapitel 5 redogörs för studiens resultat, och dessa analyseras och diskuteras. Därefter följer en sammanfattning av hela uppsatsen. 4 Baeza-Yates & Ribeiro-Neto 1999, s

6 2 IR Information retrieval behandlar representation, lagring och organisation av dokument, samt åtkomst till dessa. 5 Termen information retrieval myntades redan men området sågs fram tills rätt nyligen som ett smalt intresseområde med relevans främst för bibliotekarier och informationsspecialister. I början av 1990-talet förändrades dock detta i och med att internet uppkom och det blev allt vanligare att folk överlag, inte endast personer med speciell utbildning för detta, sökte i databaser och informationsåtervinningssystem IR-modeller En IR-modell är en förenklad teori om hur ett informationsåtervinningssystem ska vara beskaffat. IR-systemet avgör vilka dokument som är relevanta och vilka som inte är det och detta beror i sin tur på vilken IR-modell som systemet är baserat på. 8 De tre klassiska modellerna inom IR kallas den booleska modellen, vektormodellen och den probabilistiska modellen. Den booleska modellen Den booleska modellen är en enkel återvinningsmodell baserad på mängdlära. Tack vare sin inbyggda enkelhet har modellen varit mycket uppmärksammad och den användes av många av de tidiga kommersiella bibliografiska systemen. Det finns dock begränsningar med modellen. För det första är återvinningsstrategin baserad på binär relevans, d.v.s. ett dokument betraktas antingen som relevant eller icke-relevant. För det andra är det inte alltid helt enkelt att översätta ett informationsbehov till en boolesk sökformulering. Trots dessa nackdelar är den booleska modellen den dominerande modellen bland de kommersiella informationsåtervinningssystemen. Sett genom den booleska modellen är indextermer antingen närvarande eller frånvarande i ett dokument och varje dokument är antingen relevant eller icke-relevant. Några grader av relevans (partiell matchning) finns inte. Fördelar med modellen är dess enkelhet och den klara formalismen, medan en nackdel är att exakt matchning kan leda till att för få eller för många dokument återvinns. 9 För en användare kan det dessutom vara svårt att formulera sökfrågor på egen hand. 10 Vektormodellen Vektormodellen, till skillnad från den booleska modellen, tillåter partiell matchning. Detta åstadkoms genom att indextermer i sökfrågor och dokument tilldelas icke-binära vikter. Dessa termvikter används för att räkna ut graden av likhet mellan varje dokument i databasen och användarens sökfråga. Genom att sortera de återvunna dokumenten i fallande ordning enligt denna likhetsgrad, beaktar vektormodellen också sådana dokument som endast delvis matchar 5 Baeza-Yates & Ribeiro-Neto 1999, s Chowdhury, G.G Introduction to modern information retrieval, s Baeza-Yates& Ribeiro-Neto 1999, s Baeza-Yates& Ribeiro-Neto 1999, s Baeza-Yates& Ribeiro-Neto 1999, s Chowdhury 1999, s

7 termerna i sökfrågan. Den huvudsakliga effekten av detta blir att listan över rankade dokument mycket bättre matchar användarens informationsbehov än den lista som återvinns av den booleska modellen. 11 Fördelar med modellen är att dess termviktningsschema förbättrar återvinningseffektiviteten och att det räcker med partiell matchning för att dokument skall återvinnas. En annan fördel är rankningsformeln som sorterar dokumenten enligt deras likhet med sökfrågan. En tänkbar nackdel med modellen är att indextermer förutsätts vara sinsemellan oberoende, men det är tveksamt om detta har någon betydelse i praktiken. 12 Den probabilistiska modellen Grundidén bakom den probabilistiska modellen är att det, sett till en användares sökfråga, finns en uppsättning dokument som innehåller exakt de relevanta dokumenten och inga andra. Denna uppsättning dokument kan kallas den ideala svarsuppsättningen. Om vi fick en beskrivning av denna ideala svarsuppsättning, skulle vi inte ha några problem att återvinna dess dokument. Därmed kan vi föreställa oss frågeformuleringsprocessen som en process där man specificerar egenskaperna hos den ideala svarsuppsättningen. Problemet är att vi inte vet exakt vilka dessa egenskaper är, varför vi måste göra ett försök att initialt gissa vilka de kan tänkas vara. Denna initiala gissning ger oss möjligheten att generera en preliminär probabilistisk beskrivning av den ideala svarsuppsättningen, som sedan används för att återvinna en första uppsättning dokument. En interaktion med användaren kan sedan inledas med avsikten att förbättra den probabilistiska beskrivningen av den ideala svarsuppsättningen. 13 Fördelar med den probabilistiska modellen är att dokumenten rankas i fallande ordning utifrån sannolikheten att de är relevanta. En nackdel är behovet att gissa den grundläggande uppdelningen i relevanta och icke-relevanta dokument. En annan nackdel är att metoden inte tar i beaktande med vilken frekvens en indexterm förekommer i ett dokument och att alla indextermer antas vara ömsesidigt oberoende. Det är, som tidigare nämnts, dock osäkert om den sistnämnda faktorn har någon betydelse i praktiken. 14 Det IR-system som kommer att användas i denna studie heter InQuery, och är ett probabilistiskt IR-system. 2.2 Query Expansion Vid informationssökning är det inte ovanligt att den första sökningen inte ger tillräckligt bra resultat. Den initiala sökfrågan behöver då utökas på något vis, och det är detta som kallas Query Expansion. En sökning i en online databas kan sålunda bestå av två stadier: på det första stadiet formuleras den initiala sökfrågan och på det andra stadiet omformuleras denna. Användaren försöker antingen manuellt eller med assistans av systemet justera den 11 Baeza-Yates& Ribeiro-Neto 1999, s Baeza-Yates& Ribeiro-Neto 1999, s Baeza-Yates& Ribeiro-Neto 1999, s Baeza-Yates& Ribeiro-Neto 1999, s

8 ursprungliga sökfrågan och förbättra slutresultatet. Det kan också vara så att det är systemet som automatiskt eller med assistans av användaren gör detta. 15 Vid QE är det för det mesta frågan om att fler termer läggs till den initiala sökfrågan. Hur detta skall ske är dock inte på något vis oproblematiskt eller självklart. Många frågor dyker upp. Vilka termer är bra vid QE? Var skall termerna hämtas? Hur skall termerna väljas ut? Viktiga faktorer vid alla former av QE är den källa varifrån termerna hämtas och den metod som tillämpas för att välja vilka termer som ska användas. En typ av termkälla är sökresultaten från den första sökningen. En annan typ av termkälla utgörs av någon form av kunskapsstruktur, som står oberoende av själva sökprocessen. En sådan kunskapsstruktur kan antingen vara specifik för den aktuella dokumentsamlingen eller helt oberoende av denna. Exempel på kollektionsberoende kunskapsstrukturer är algoritmprocesser, speciella karaktäristika hos dokumentsamlingen (t.ex. termkluster) eller automatiskt konstruerade tesaurer. Exempel på kollektionsoberoende kunskapsstrukturer är domänspecifika (manuellt konstruerade) tesaurer och söktesaurer, d.v.s. tesaurer som används enbart till sökning, inte indexering. Andra exempel är tesaurer avsedda för allmänt bruk, såsom Roget s eller WordNet, liksom ordböcker och lexikon. 16 Efthimis N. Efthimiadis delar i sin artikel Query Expansion upp QE i tre olika typer: manuell, automatisk och interaktiv QE. 17 Manuell QE har främst använts vid boolesk onlinesökning och sökning på CDROM. Det finns flera olika slags sökstrategier kopplade till manuell QE, building blocks, citation pearl growing och most specific facet first för att nämna några. Valet av söktaktik är viktigt med tanke på det ultimata sökresultatet eftersom den taktik som används direkt påverkar hur framgångsrik sökningen är. 18 Sålunda ställer denna form av QE höga krav på användaren, som själv måste välja ut vilka termer han eller hon vill expandera med och hur sökfrågorna skall konstrueras. Till sin hjälp kan användaren ta, som tidigare nämnts, antingen tidigare sökresultat eller också någon form av kunskapsstruktur, för det mesta en tesaurus av något slag, där relationer termer emellan finns förtecknade. Användaren kan handplocka de termer som han eller hon tror kan vara användbara. Även automatisk QE är baserad antingen på tidigare sökresultat eller på någon form av kunskapsstruktur. Ett exempel på automatisk QE baserad på kollektionsberoende kunskapsstrukturer är termklustring. Vid klustring identifieras de termer som utifrån någon särskild aspekt är relaterade till termerna i den initiala sökfrågan. Det kan vara frågan om synonymer, olika varianter av ordstammar, eller termer som ligger inom ett visst avstånd från varandra i själva dokumenttexten. Klustringen sker antingen utifrån lokal eller utifrån global analys. Vid lokal analys används de dokument som återvunnits av en initial sökfråga som källa för nya expansionstermer. 19 Det finns många olika tekniker för lokal klustring, som exempel kan nämnas associationskluster. Ett associationskluster baseras på samförekomsten av ordstammar inuti dokument. Tanken är att stammar som samförekommer frekvent inuti dokument har en synonymlik relation. 20 Vid en global strategi används samtliga dokument i 15 Efthimiadis, Efthimis N Query expansion, s Efthimiadis 1996, s Efthimiadis 1996, s Efthimiadis 1996, s , Baeza-Yates & Ribeiro-Neto 1999, s Baeza-Yates & Ribeiro-Neto 1999, s

9 dokumentsamlingen för att skapa en global tesaurusliknande struktur som anger relationer mellan termerna. Man kan här skilja mellan två huvudtyper av tesaurer: likhetstesaurer och statistiska tesaurer. 21 Automatisk expansion kan också ske med hjälp av en kollektionsoberoende tesaurus som anger semantiska relationer termer emellan. 22 Vid automatisk expansion med hjälp av en tesaurus plockas termerna automatiskt ur tesauren, till skillnad från manuell expansion där användaren handplockar termerna. Den tredje typen av QE kallas interaktiv QE. Vid interaktiv QE är två parter ansvariga för att välja termer för expansionen, detta till skillnad från automatisk QE där systemet ensamt har ansvaret. Den ena parten är återvinningssystemet som, liksom vid automatisk QE, är utformat för att välja termer från ett antal förbestämda fält i dokumentet och sedan vikta och ranka dessa termer. Den andra parten är användaren, som av återvinningssystemet får en rankad lista med termer och vars uppgift är att bestämma vilka termer som skall läggas till sökningen. Det är sålunda användaren som gör det slutgiltiga beslutet över vilka termer som är användbara. Källan för expansionstermerna kan, liksom vid automatisk QE, antingen bestå av resultaten från den första sökningen eller av någon form av kunskapsstruktur. 23 Den undersökning av QE jag ämnar utföra handlar om manuellt utförd expansion av sökfrågor med hjälp av en kollektionsoberoende tesaurus. Man kunde dock även tänka sig att Svenskt OrdNät skulle kunna användas vid interaktiv QE genom att användaren automatiskt fick en lista med synonymer/hyponymer som denne sedan kunde välja bland vid en expansion av sökfrågan. Observera dock att återvinningssystemet i denna undersökning inte viktar och rankar termerna, vilket vanligtvis sker vid interaktiv QE enligt Efthimiadis (se ovanstående stycke). 2.3 Recall och precision Det finns olika sätt att utvärdera informationsåtervinningssystem på. Under slutet av talet inleddes de första storskaliga evalueringsstudierna av IR-system på allvar. Dessa studier ägde rum vid Cranfield College of Aeronautics i England. Under de två Cranfieldprojekten etablerades en standard för utvärdering av IR-prestanda och två mått för ett mäta ett IRsystem utvecklades: recall och precision. Dessa mått har kvarstått som centrala i efterföljande evalueringsexperiment. 24 Recall räknas ut genom att antalet återvunna relevanta dokument divideras med totala antalet relevanta dokument i dokumentsamlingen. Vill man få fram ett procentuellt tal multipliceras resultatet med 100. Precision räknas ut genom att antalet återvunna relevanta dokument divideras med totala antalet återvunna dokument. Liksom vid recall kan resultatet multipliceras med 100 ifall man vill få ett procentuellt tal. Recall handlar således om systemets förmåga att återvinna relevanta dokument, medan precision handlar om dess förmåga att inte återvinna icke-relevanta dokument Baeza-Yates & Ribeiro-Neto 1999, s Efthimiadis 1996, s Efthimiadis 1996, s Large, Andrew, Tedd, Lucy A. & Hartley, R. J Information Seeking in the Online Age: Principles and Practice, s Chowdhury 1999, s

10 Det ideala IR-systemet försöker uppnå en 100 %-ig recall och en 100 %-ig precision, d.v.s. det strävar efter att återvinna alla relevanta dokument och endast relevanta dokument. Huruvida detta är möjligt i praktiken, är forskarna dock inte helt eniga om. Chowdhury skriver att en ökad recall tenderar att minska precisionen. Oftast ger en sökning med mycket allmänna söktermer hög recall och låg precision, medan en högre specificitet brukar leda till att recallen sjunker och precisionen stiger. Han påpekar dock att teorin om det inversa förhållandet mellan recall och precision kommit att ifrågasättas av andra forskare som visat att en ökning i precision på inga vis alltid följs av en minskning i recall och att en ökning i recall på intet sätt alltid behöver medföra en försämrad precision. 26 Därtill kan man fråga sig om alla användare alltid strävar efter en 100 %-ig recall. Chowdhury menar att verkliga användare för det mesta inte strävar efter mycket hög recall, utan hellre ett fåtal relevanta dokument. Hög precision är däremot eftersträvansvärt eftersom det sparar användarens tid och kraft. De flesta IR-system strävar efter att en moderat nivå av recall och precision på ca %. 27 Måtten är heller inte helt problemfria i sig. Ett problem med recall-måttet är att det, för att man ska kunna mäta maximal recall för en sökfråga, krävs att man har detaljerad information om alla dokument i samlingen. I stora samlingar är denna information inte tillgänglig, vilket leder till att recall inte kan mätas exakt. En annan invändning mot måtten är att recall och precision är besläktade mått som fångar olika aspekter av uppsättningen återvunna dokument. I många situationer kunde en metod som kombinerar både recall och precision vara mer lämplig. 28 Ytterligare en nackdel med måtten är att det förutsätts att alla relevanta dokument har samma värde, vilket inte alltid stämmer. De återvunna dokumenten kan vara av olika relevansgrad och relevansgraden kan variera från användare till användare, dessutom även från tidpunkt till tidpunkt även om användaren är den samma. I relevansbegreppet ligger en grad av subjektivitet som måtten inte tar hänsyn till Chowdhury 1999, s Chowdhury 1999, s Baeza-Yates& Ribeiro-Neto 1999, s Chowdhury 1999, s

11 3 Relaterad forskning Ett antal studier har genomförts där man undersökt vilken effekten blir då man expanderar en initial sökfråga med termer plockade ur någon form av termkälla, antingen en samlingsspecifik eller en samlingsoberoende sådan. I merparten av de studier jag tagit del av är det en samlingsspecifik tesaurus som använts vid expansionen, till skillnad från min studie där en samlingsoberoende termkälla används. En samlingsspecifik tesaurus är skapad utifrån en speciell samling dokument och avsedd antingen för både indexering och sökning eller enbart för sökning. En samlingsoberoende termkälla däremot, är en allmän ordbok eller liknande lexikalt referensverk, som förtecknar relationer termerna emellan. Den forskning som tillämpat samlingsspecifika tesaurer som hjälpmedel vid QE pekar rätt så samstämmigt på att QE med hjälp av sådana tesaurer i hög grad bidrar till förbättrad återvinningseffektivitet, genom att en ökad recall uppnås på bekostnad av en endast obetydlig förlust i precision. Två forskare som utfört flera studier inom detta ämne är Jaana Kristensen (sedermera Kekäläinen) och Kalervo Järvelin. I artikeln The Effectiveness of a Searching Thesaurus in Free-Text Searching in a Full-Text Database redogör det för en studie i vilken de använt sig av en söktesaurus de själva skapat för att utöka initiala sökfrågor med synonymer respektive synonymer tillsammans med bredare termer. Resultaten analyserades i termer av relativ recall och precision genom att recallen för den tredje sökningen lades till 100%. I undersökningen kom de fram till att expansion med synonymer ledde till en avsevärd ökning i recall på bekostnad av en obetydlig förminskning i precision. Utökades sökningen ytterligare med bredare termer ökade recallen ytterligare men tappade då mycket i precision. Kristensen och Järvelin drar slutsatsen att en söktesaurus verkar vara ett effektivt verktyg för att förbättra sökresultatet vid fritextsökning i en fulltextdatabas. 30 En annan forskare inom ämnet är Jane Greenberg som i artikeln Automatic Query Expansion via Lexical-Semantic Relationships redogör för en studie där en strukturerad, domänspecifik och kollektionsberoende tesaurus används för att expandera initiala sökfrågor. I experiment undersökte Greenberg huruvida termer hämtade ur en tesaurus hade en positiv effekt på återvinningseffektiviteten då de adderades till en sökfråga genom automatisk QE. Den operationella miljön i studien bestod av databasen ABI/Inform och verkliga användare och verkliga sökfrågor undersöktes. Detta var den första studien som utforskade ämnet i en operationell miljö med verkliga användare och verkliga sökfrågor utförda i en allmänt tillgänglig, populär databas. Sökfrågorna expanderades med synonymer, partiella synonymer, hyponymer, relaterade termer och bredare termer. Undersökningen visade att automatisk QE med synonymer, partiella synonymer och hyponymer ökade den relativa recallen med en försämring i precision som inte var statistiskt signifikant, och att automatisk QE med relaterade termer och bredare termer ökade den relativa recallen med en försämring i precision som var statistiskt signifikant. 31 Varken Kristensen & Järvelins eller Greenbergs undersökning är dock direkt jämförbar med min, eftersom bägge dessa undersökningar gäller QE med hjälp av tesaurer som är konstruerade utifrån en speciell samling dokument. Tyngdpunkten i denna genomgång av relaterad forskning kommer därför att läggas på forskning som rör QE med hjälp av 30 Kristensen, Jaana & Järvelin, Kalervo The effectiveness of a searching thesaurus in free-text searching in a full-text database, s Greenberg, Jane Automatic query expansion via lexical-semantic relationships, s

12 samlingsoberoende termkällor. Utifrån min bedömning har det inte bedrivits någon omfattande forskning inom detta ämne. I artikeln On Expanding Query Vectors with Lexically Related Words beskriver Ellen M.Voorhees ett experiment som rör query expansion med hjälp av termer hämtade ur det engelska WordNet, föregångaren till Svenskt OrdNät som jag använder i min studie. Voorhees undersöker vilken effekten blir på återvinningseffektiviteten då sökfrågor ur den stora testkollektionen TREC-2 expanderas med handplockade termer. En initial sökfråga expanderades med synonymer, synonymer+hyponymer, synonymer+hypernymer+hyponymer och slutligen med synonymer+alla termer i samtliga synonymuppsättningar som länkade till den ursprungliga synonymuppsättningen, oberoende av släktskapsrelation. Endast substantiv expanderades. Målet vid val av synonymgrupper var att välja de synonymuppsättningar som lade tonvikten på viktiga koncept i topicet. Synonymuppsättningarna valdes manuellt av Voorhees. Hon påpekar att resultaten därmed kan ha blivit bättre än ifall en helt automatisk expansionsprocess hade tillämpats. Resultaten från undersökningen visar att denna QE-teknik inte gör någon stor skillnad i återvinningseffektivitet. Detta har enligt Voorhees flera möjliga förklaringar. En orsak kan vara att de topics som finns i TREC-kollektionen redan ger en så fullständig beskrivning av den information som ska sökas fram. Query expansion är en teknik som ska öka recall och topic-beskrivningarna i TREC är redan väldigt omfattande om man jämför med sökfrågor som finns i traditionella IR-samlingar. Även om de flesta av de expanderade sökfrågorna utökades med någon ny term, fanns de allra viktigaste termerna ofta redan i den grundläggande uppsättningen med termer. En annan möjlig förklaring till resultatet är enligt Voorhees att WordNet inte lämpar sig för denna uppgift. WordNet utformades inte för att användas på detta sätt och innehåller kanske inte de nödvändiga länkarna. Samma gäller antagligen för vilken som helst motsvarande allmän kunskapsstruktur, menar Voorhees. Ett annat mål med studien var att jämföra vilken typ av lexikal relation som är mest effektiv vid expansion av en sökfråga. Voorhees konstaterar att förutsatt att den uppsättning ord som ska expanderas är välvald, kan vilket som helst närbesläktat ord, oberoende av typ av relation, vara ett bra ord att expandera med. Hon påpekar dock att alla expansionstermer borde ges en lägre vikt än grundtermerna. Voorhees prövade att ge expansionstermerna lika eller högre vikt än grundtermerna och kom fram till att dessa sökfrågor genomgående gav ett sämre resultat än de omgångar där viktningen var mer konservativ. Dessutom gav expansion med nära besläktade termer genomgående ett bättre återvinningsresultat än expansion med avlägset relaterade termer. Resultaten ger hursomhelst vid handen att den QE-strategi som använts inte ger någon signifikant förbättring av återvinningsresultaten ens då viktiga koncept manuellt väljs ut. Vissa expanderade sökfrågor var visserligen mer effektiva än deras icke-expanderade motsvarigheter, men i andra gav däremot den icke-expanderade versionen bättre resultat. I ingetdera fallet var dock skillnaden i effektivitet mellan de två versionerna särskilt stor. 32 I en annan artikel, Query Expansion using Lexical- Semantic Relations, redogör Voorhees för samma studie som den ovan refererade, men lyfter här även fram att korta och inte så välformulerade sökfrågor kan förbättras väsentligt genom expansion med handplockade termer. Användare skapar ofta korta, inte så detaljerade sökfrågor, varför en expansion med lexikal-semantiska relationer i dessa fall har potential att förbättra en initial sökfråga. Det är dock osannolikt att denna expanderade sökfråga är lika effektiv som en bättre formulerad initial sökfråga. Utmaningen ligger i att hitta en automatisk procedur som har förmågan att välja lämpliga koncept att expandera, avslutar Voorhees Voorhees, Ellen M. 1994a. On expanding query vectors with lexically related words, s Voorhees, Ellen M. 1994b. Query expansion using lexical-semantic relations, s

13 Rila Mandala, Takenobu Tokunaga & Hozumi Tanaka lyfter i artikeln Query expansion using heterogenous thesauri fram det faktum att QE med hjälp av WordNet inte alltid resulterat i en förbättring av återvinningseffektiviteten. En anledning till detta är enligt forskarna att WordNet är en tesaurus avsedd för allmänt bruk. WordNet har skapats för att kunna användas inom en rad olika domäner, och saknar därför domänspecifika tesauriska relationer. Forskarna föreslår att man i stället skall kombinera flera olika typer av tesaurer vid QE. Den underliggande idén är att varje typ av tesaurus har olika egenskaper och därför kan en kombination av dem resultera i en värdefull källa för QE. I artikeln redovisas en undersökning där Mandala, Tokunaga & Tanaka kombinerade tre olika typer av tesaurer: en manuellt skapad tesaurus avsedd för generellt bruk (WordNet), en automatiskt konstruerad tesaurus baserad på samförekomst av termer och en automatiskt konstruerad tesaurus baserad på antagandet att ord som förekommer i en liknande grammatisk kontext uppvisar likheter med varandra. För att utvärdera effektiviteten hos denna metod, gjordes experiment där testkollektionen TREC-7 användes. Testkollektionen bestod av 50 topics och dokument från flera olika källor: the Financial Times (FT), Federal Register (FR94), Foreign Broadcast Information Service (FBIS) och LA Times. Varje topic bestod av tre sektioner: en titel, en kortare beskrivning av informationsbehovet, kallad description och en lite längre, kallad narrative". Vid skapandet av sökfrågor användes i tur och ordning endast titeln, endast beskrivningen och slutligen alla delar av topicet. WordNet användes till att expandera substantiv med hyponymer och hypernymer, det vill säga under- och överordnade termer. Man viktade termerna för att undvika felaktig expansion. Återvinningseffektiviteten mättes genom att precisionen räknades ut. Resultaten från undersökningen visar att bäst återvinningseffektivitet uppnåddes då en sökfråga expanderades med en kombination av alla tre tesaurer. Sämst resultat uppnåddes då en expansion med enbart termer hämtade ur WordNet gjordes. Även här uppnåddes en förbättring gentemot den initiala sökfrågan, men i jämförelse med den som uppnåddes då en kombination av tesaurerna användes, var förbättringen i återvinningseffektivitet endast marginell. 34 I magisteruppsatsen Query expansion med WordNet av Johan Andersson och Anna Malkki undersöker uppsatsförfattarna vilka resultat som sökfrågeexpansion med hyponymer och hypernymer hämtade ur det engelska WordNet ger. Av sina experiment drar de slutsatsen att QE med hjälp av Wordnet inte i någon större omfattning bidrar till att förbättra resultaten vare sig med avseende på recall eller precision. 35 Sofia Höglund expanderar i magisteruppsatsen Query expansion med semantiskt relaterade termer initiala sökfrågor med böjningsformer, med synonymer ur en synonymordbok och med hyponymer, hypernymer och relaterade termer hämtade ur en allmän tesaurus. Hennes slutsatser från undersökningen är att samtliga sökfrågetyper ger en förbättring i recall men att den med böjningsformer ger allra bäst resultat. Samtliga sökfrågetyper uppvisar även en förbättring i precision, med ett undantag: vid expansion med synonymer. Uppsatsförfattaren konstaterar att det faktum att expansion med enbart böjningsformer på termerna presterar bäst av sökfrågetyperna medför att varken synonymordboken eller tesauren framstår som övertygande hjälpmedel för QE i denna undersökning Mandala, Rila, Tokunaga, Takenobu & Tanaka, Hozumi Query expansion using heterogenous thesauri, s Andersson, Johan & Malkki, Anna Query expansion med WordNet. 36 Höglund, Sofia Query expansion med semantiskt relaterade termer. 10

14 3.1 Slutsatser från relaterad forskning Query Expansion med termer hämtade ur en samlingsspecifik tesaurus har i flera studier visat sig ge gott resultat. Viktiga namn inom denna forskning är exempelvis Kristensen, Järvelin och Greenberg. Vad gäller QE med hjälp av termer hämtade ur en samlingsoberoende termkälla, har resultaten från tidigare forskning däremot inte varit lika uppmuntrande. Inom detta område är det framförallt Voorhees forskning som är relevant för min undersökning, medan den refererade studien av Mandala, Tokunaga & Tanaka utgör ett intressant komplement i och med att dessa forskare kombinerar flera olika tesaurer och då uppnår goda återvinningsresultat. Dessa forskare konstaterar dock, liksom Voorhees, att enbart expansion med det lexikala referensverket WordNet inte nämnvärt förbättrar återvinningseffektiviteten. Samma språk talar de magisteruppsatser som tidigare skrivits inom ämnet vid Högskolan i Borås. Man kan fråga sig varför jag i min undersökning väljer att expandera med termer ur en samlingsoberoende termkälla då sådan i tidigare forskning inte visat sig ge särskilt bra resultat. Orsakerna till detta är flera. För det första har inte den svenska versionen av WordNet, Svenskt OrdNät, använts vid denna typ av undersökning förut. Därför kan det vara av intresse att undersöka huruvida denna har potential att fungera som hjälpmedel vid QE. För det andra anser jag att det faktum att tidigare forskning inom QE inte visat sig ge så uppmuntrande resultat på inget vis motiverar till att hela forskningsämnet läggs ner. Såväl ett samstämmigt som ett motstridigt resultat säger ju någonting om forskningsämnet. Dessutom avser jag inte enbart att utvärdera huruvida Svenskt OrdNät fungerar som termkälla vid QE, utan även att jämföra olika sökfrågetyper med varandra. I kapitel 5 kommer jag att återknyta till resultaten från Voorhees undersökning, eftersom denna är den mest utförligt refererade forskningen jag kunnat hitta inom ämnet. 11

15 4 Metod I detta kapitel beskrivs den metod jag kommer att använda mig av vid utförandet av undersökningen. I de påföljande underkapitlen ges en beskrivning av Svenskt OrdNät, av testmiljön och IR-systemet, testkollektionen och slutligen visar jag hur jag rent praktiskt kommer att gå till väga för att utföra studien, det vill säga hur jag kommer att välja ut topics och utifrån vilka principer jag kommer att formulera mina sökfrågor. Jag presenterar även ett exempel på en sökfråga för varje expansionsstrategi. 4.1 Svenskt OrdNät Till den testkollektion som används i denna studie finns ingen speciell tesaurus kopplad, varför det blev aktuellt att välja en lämplig kollektionsoberoende termkälla för expansion av sökfrågor. Det finns två anledningar till att just Svenskt OrdNät valdes till denna studie. För det första krävde testkollektionen, som består av artiklar ur dagstidningar, en termkälla lämplig för naturligt språk, eller kanske hellre tidningsspråk. Hursomhelst är det inte frågan om descriptorer. För det andra har ingen studie tidigare gjorts som undersöker hur väl just Svenskt OrdNät fungerar som termkälla vid QE, vilket motiverar valet ytterligare. Svenskt OrdNät pågick som ett projekt åren vid institutionen för lingvistik i Lund, men flyttades under slutfasen till institutionen för lingvistik vid Uppsala universitet. Som projektledare fungerade professor Åke Viberg. Syftet med projektet Svenskt OrdNät var att utveckla ett betydelsebaserat svenskt lexikon på dator som skulle kunna kopplas till ett antal parallella lexikon för andra europeiska språk som också utvecklats inom projektet EuroWordNet 37. Lexikonet är tänkt att fungera som en basresurs för språkteknologiska tillämpningar på svenska, såsom t.ex. informationssökning, tolkning och generering av texter. Det är därtill av betydelse som en psykolingvistisk modell med tillämpbarhet bland annat för språkinlärning. 38 Åke Viberg, projektledare för Svenskt OrdNät, påpekar det faktum att lexikonet också har ett praktiskt syfte som en resurs vid utvecklandet av språkteknologiska hjälpmedel på svenska. Han lyfter fram att lexikon på dator bland annat kan användas till informationssökning i stora textsamlingar. Om man söker på ett relevant ord möjliggör ordnätet att man inte söker enbart på detta i texterna utan även på relaterade ord, t.ex. alla ord med underordnad betydelse och/eller alla synonymer. 39 Svenskt Ordnät är strukturerat enligt samma principer som originalet Princeton WordNet, som finns tillgängligt på internet och som har använts i flera studier liknande den som föreligger i denna uppsats. 40 Basen i ordnäten är synonymgrupper, det vill säga uppsättningar med synonymer som representerar särskilda betydelser. Svenskt OrdNät förtecknar i första hand substantiv och verb, till skillnad från sin engelska förebild, sålunda inte adjektiv och adverb EuroWordNet är namnet på en samling ordnät som utarbetats för flera europeiska språk, i dagsläget holländska, italienska, spanska och engelska. Ordnäten är länkade till varandra så att man kan skriva in ett ord på ett språk och få fram närmast motsvarande ord i de andra språken. Svenskt OrdNät är länkat till EuroWordNet, men eftersom det inte är denna funktion jag kommer att använda mig av i min undersökning går jag inte närmare in på detta här. 38 Viberg, Åke Svenskt OrdNät, s Viberg, Åke 2000, s Se kapitlet om relaterad forskning. 41 Viberg, Åke et al The Swedish WordNet Project, s

16 I dagsläget har Svenskt OrdNät precis börjat distribueras, och det är i princip fritt tillgängligt för forskning och undervisning. För kommersiella syften krävs dock särskilt avtal. De senaste två åren har det inte funnits några särskilda medel för projektet, men visst arbete har ändå pågått. Åke Viberg uppger att man avser söka ytterligare medel för att utvidga lexikonet. I början av 2004 fanns runt begrepp och drygt ord förtecknade i Svenskt OrdNät. Enligt Åke Viberg har det tillkommit runt 5000 ord sedan dess. 42 Jag har fått tillgång till Svenskt OrdNät genom min handledare och har laddat ner lexikonet på min dator. På Uppsala Universitets hemsida under Institutionen för lingvistik och filologi kan den som så vill göra provsökningar i Svenskt OrdNät Testmiljön I föreliggande undersökning används Query Performance Analyser (QPA), ett IR-verktyg som involverar ett antal testdatabaser. I QPA är InQuery inbyggt. En utförligare presentation av InQuery och QPA ges i detta kapitel, liksom en beskrivning av den testkollektion som används InQuery InQuery (version 3.1) är ett probabilistiskt IR-system utvecklat vid Department of Computer Science vid University of Massachusetts, USA. InQuery är baserat på s.k. bayesianska nätverk. Då dokument ska återvinnas matchas dokumentrepresentationerna mot en sökfråga. Detta sker enligt en partiell matchningsteknik, vilket innebär att en approximation av sökfrågans villkor äger rum. Graden av likhet mellan en dokumentrepresentation och en sökfråga mäts. 44 I InQuery tillämpas en termviktningsmetod som informellt kan beskrivas enligt följande. Det existerar ett dokument i en dokumentmängd och det existerar en sökfråga. Därtill finns en vokabulär bestående av mängden indexeringstermer för dokumentmängden. Varje term i vokabulären tilldelas nu ett beliefvärde som ungefärligen beräknas genom en speciell modifiering av tf-idf-metoden. Beliefvärdet för en term i ett visst dokument kan betraktas som vikten för termen i detta dokument och antas avspegla den betydelse denna term har i dokumentet. För att termen ska få en stor vikt i det aktuella dokumentet ska följande gälla: - termen förekommer ofta i dokumentet (hög frekvens) - dokumentet är ett kort dokument i förhållande till dokumentens snittlängd i dokumentsamlingen - termen förekommer i ett litet antal dokument i dokumentsamlingen. 45 Sökfrågor kan formuleras antingen i naturligt eller i mer exakt strukturerat språk. Används naturligt språk skriver användaren in sökfrågan som en vanlig mening, och systemet ändrar sedan sökfrågan till strukturerat språk. Skrivs däremot sökfrågan in i strukturerad form direkt, kan användaren mer precist ange relationer mellan termerna i sökfrågan och förhoppningvis 42 Viberg, Åke. E-post till uppsatsförfattaren Adressen är: [ ] 44 Ahlgren, Per & Eklund, Johan Manual för Query Performance Analyser, s Ahlgren & Eklund 2003, s

17 få ett bättre sökresultat. Strukturerad form innebär att olika operatorer används. 46 Operatorerna följs av en mängd operander, d.v.s. en lista av uttryck. Ett beliefvärde beräknas både för termerna och för hela sökfrågan i förhållande till ett visst dokument. Detta värde är InQuerys likhetsvärde för dokumentet med avseende på sökfrågan. När likhetsvärdena för varje dokument i dokumentsamlingen beräknats kan dokumenten rankas utifrån dessa värden. 47 I InQuery finns ett antal olika operatorer. Den enklaste av dessa är #sum-operatorn. En enkel sökfråga formulerad i naturligt språk konverteras automatiskt till en #sum-operation. Termerna inom #sum-operatorn har lika stor inverkan på det slutliga resultatet. 48 Inom #sumoperatorn placeras antingen en term eller ett operator-uttryck, t.ex. en #syn-sökfråga eller en avståndsoperator följd av minst två termer. Beliefvärdet för en #sum-sökfråga, med avseende på ett visst dokument i dokumentsamlingen, fås genom att man beräknar medelvärdet över beliefvärdena hos de operander som ingår i sökfrågan. 49 En annan operator är #syn-operatorn. Termerna inom operatorn behandlas som instanser av samma term. 50 Inom #syn-operatorn placerar man sålunda ord och fraser som ska betraktas som synonyma. Sett till storleken på beliefvärdet för en viss sökfråga med #syn, med avseende på ett visst dokument, har det ingen betydelse hur många av de termer som står inom #syn-operatorn som är närvarande i dokumentet, givet att summan av termernas frekvenser är konstant. Det har alltså ingen betydelse om det är samma term som förekommer två gånger i dokumentet och den andra inte alls, eller om termerna förekommer en gång var i dokumentet, beliefvärdet blir ändå det samma. För att få ett högt beliefvärde ska det begrepp som associeras med termerna inom #syn-operatorn förekomma ett större antal gånger i det aktuella dokumentet. De olika termernas frekvenser i dokumentet summeras eftersom dessa antas stå för samma begrepp. 51 De ovan beskrivna operatorerna, #sum och #syn, är de operatorer som kommer att användas i denna uppsats. I den initiala sökfrågan kommer endast #sum-operatorn att användas, medan #syn-operatorn tillkommer vid expansion med synonymer respektive hyponymer, liksom vid expansion med synonymer och hyponymer tillsammans. Jag övervägde att använda avståndsoperatorn #od1 vid termer som kan betraktas som fraser, exempelvis sydafrikanska republiken. Termer inom #od1-operatorn måste stå intill varandra i texten, och i den ordning de förekommer inom operatorn, för att de ska bidra till dokumentets beliefvärde. 52 Efter några testsökningar gjordes dock bedömningen att användandet av denna operator inte nämnvärt påverkade sökresultatet, varför jag beslöt att inte ta med denna i sökfrågorna. 46 InQuery document retrieval system Ahlgren & Eklund 2003, s InQuery document retrieval system Ahlgren & Eklund 2003, s InQuery document retrieval system Ahlgren & Eklund 2003, s InQuery document retrieval system

18 4.2.2 QPA QPA har utvecklats vid Institutionen för informationsstudier vid Tammerfors universitet i Finland. 53 Det är ett webbaserat verktyg utvecklat för analys, visualisering och jämförelse av effektivitet hos individuella sökfrågor. 54 QPA har flera olika användningsområden inom experimentell IR forskning. Exempelvis är det vanligt att enbart ett medelvärde för resultatet av en sökning räknas ut. Ibland kan det dock vara viktigt att också analysera individuella sökfrågor, för att kunna förstå vilka orsaker som ligger bakom variationer i effektivitet mellan olika topics eller olika sökfrågor. Detta kan göras i QPA. 55 I QPA räknas recall, precision och Average Precision (anges som P(ave) i QPA) automatiskt ut för varje sökfråga som ställs till systemet. Vid Average Precision beräknas precisionen vid varje relevant dokument i den returnerade listan, varefter värdena summeras och därefter divideras med det totala antalet kända relevanta dokument. Resultaten från sökningarna åskådliggörs i form av stapeldiagram, cirkeldiagram och recall/precision-kurvor. I denna studie används QPA version Testkollektionen Testkollektionen som används heter GP_HDINF och utgörs av en fulltextdatabas, bestående av nyhetsartiklar ur Göteborgsposten och Helsingborgs Dagblad från 1994, samt 52 stycken topics och därtill relevansbedömningar av artiklarna i samlingen. Såväl dokument som topics är svenskspråkiga och sammanlagt dokument ingår i samlingen. I GP_HDINF har relevansbedömningen skett enligt poolingmetoden 56. Relevansbedömningen gjordes utifrån fälten Title och Description av sammanlagt fyra personer, samtliga före detta studenter inom biblioteks- och informationsvetenskap. En 4-gradig skala (0-3) användes vid relevansbedömningen. 57 I min undersökning kommer jag dock att tillämpa binär relevans, det vill säga ett dokument är antingen relevant (1-3 på skalan) eller icke-relevant (0 på skalan). Samtliga ord är sökbara i den form de förts in, och sökningen sker inte i fält utan i ostrukturerad text. 53 QPA finns tillgängligt på adressen För inloggning krävs ett fungerande konto med tillhörande användarnamn och lösenord. 54 Sormunen, Eero, Halttunen, Kai & Keskustalo, Heikki Query Performance Analyser a tool for bridging information retrieval research and instruction, s Sormunen, Halttunen & Keskustalo 2002, s Poolingmetoden innebär att inte alla dokument i en samling relevansbedöms, utan endast en pool av dokument. De dokument som inte relevansbedömts har betecknats som icke -relevanta. Detta medför att det inte kan uteslutas att det i själva verket finns ytterligare relevanta dokument utöver de som bedömts som relevanta. 57 Ahlgren, Per The effects of indexing strategy-query term combination on retrieval effectiveness in a Swedish full text database, s

19 4.3 Val av topics och formulering av sökfrågor I studien ingår 20 stycken topics. Kravet på den initiala sökfrågan är att det måste finnas minst en term i denna som kan expanderas med en eller flera synonymer och minst en term som kan expanderas med en eller flera hyponymer ur Svenskt OrdNät. Topics med endast ett relevant dokument väljs bort eftersom de anses för små för att kunna ge ett intressant resultat. För varje topic görs fyra olika sökningar, vilket resulterar i sammanlagt 80 olika sökfrågor. Sökfrågorna utformas enligt följande regler: - Samtliga ord i samtliga sökfrågor står i grundform. Ifall betydelsen av ett ord inte blir helt riktig om en obestämd form väljs framför en bestämd form, frångås denna regel. Exempel på ett sådant ord är världen som förlorar sin korrekta betydelse i sammanhanget ifall formen värld används. - Inga uppbrytningar av sammansatta ord görs. - Eftersom Svenskt OrdNät endast förtecknar substantiv och verb är det endast ord ur dessa ordklasser som kan expanderas. Adjektiv kan ingå i sökfrågorna men expanderas sålunda inte. Prepositioner och adverb tas inte med i sökfrågorna. - Synonymer och hyponymer handplockas och väljs med stor noggrannhet. Alternativet är att automatiskt ta med alla synonymer respektive hyponymer som finns listade i Svenskt OrdNät. Att jag väljer att handplocka termerna beror på att jag anser att resultatet skulle bli missvisande ifall samtliga synonymer och hyponymer togs med. T.ex. finns det i Svenskt OrdNät inte mindre än 88 hyponymer till ordet människa, såsom tävlande, skurk och resenär. Att ta med alla hyponymer skulle i detta fall medföra en expansion med sådana ord som inte alls har någon anknytning till termens betydelse i den initiala sökfrågan. Antalet expansionstermer varierar från sökfråga till sökfråga, beroende på hur många lämpliga termer som finns i termkällan. Att det är jag själv som väljer ut expansionstermerna kan ses som en svaghet, eftersom man kan hävda att resultatet skulle bli annorlunda ifall någon annan gjorde detta. Personligen är jag dock av den åsikten att detta inte nämnvärt påverkar resultatet. - Ord som är flertydiga har i Svenskt OrdNät förts till skilda synonymgrupper, varför flera olika synonymgrupper kan finnas på samma ord. I varje enskilt fall måste man då ta ställning till vilken betydelse som är den man eftersöker. Ett topic är en beskrivning av ett informationsbehov i naturligt språk. Exempel: Topic 033: Sök dokument som behandlar nyligen gjorda upptäckter om sambandet mellan gener och cancer. 16

Query expansion med semantiskt relaterade termer

Query expansion med semantiskt relaterade termer MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:84 Query expansion med semantiskt relaterade termer Sofia Höglund Sofia Höglund

Läs mer

Effekten av avståndsoperatorer samt expansion med synonymer med avseende på återvinningseffektiviteten

Effekten av avståndsoperatorer samt expansion med synonymer med avseende på återvinningseffektiviteten MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:87 ISSN 1404-0891 Effekten av avståndsoperatorer samt expansion med synonymer

Läs mer

Nominalfrasers inverkan på återvinningseffektiviteten i ett probabilistiskt IR-system

Nominalfrasers inverkan på återvinningseffektiviteten i ett probabilistiskt IR-system MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2007:46 ISSN 1654-0247 Nominalfrasers inverkan på återvinningseffektiviteten

Läs mer

Query expansion med hjälp av en elektronisk tesaurus i en bibliografisk online-databas.

Query expansion med hjälp av en elektronisk tesaurus i en bibliografisk online-databas. MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2003:49 Query expansion med hjälp av en elektronisk tesaurus i en bibliografisk online-databas.

Läs mer

Den kombinerade effekten av query-expansion och querystrukturer på återvinningseffektiviteten i ett probabilistiskt system

Den kombinerade effekten av query-expansion och querystrukturer på återvinningseffektiviteten i ett probabilistiskt system MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:59 ISSN 1404-0891 Den kombinerade effekten av query-expansion och querystrukturer

Läs mer

Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys

Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:82 Automatisk query expansion En komparativ studie av olika strategier för termklustring

Läs mer

Sök artiklar i databaser för Vård- och hälsovetenskap

Sök artiklar i databaser för Vård- och hälsovetenskap Sök artiklar i databaser för Vård- och hälsovetenskap Bibliografiska databaser eller referensdatabaser ger hänvisningar (referenser) till artiklar och/eller rapporter och böcker. Ibland innehåller referensen

Läs mer

Word sense disambiguation med Svenskt OrdNät

Word sense disambiguation med Svenskt OrdNät MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN 1404-0891 Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON

Läs mer

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I 13 NOVEMBER 2012 Idag ska vi titta på: Sökprocessen: förberedelser inför sökning, sökstrategier Databaser: innehåll, struktur Sökteknik:

Läs mer

Att expandera sökfrågor i en elektronisk bibliotekskatalog En jämförelse av återvinningseffektiviteten för fyra olika sökfrågetyper

Att expandera sökfrågor i en elektronisk bibliotekskatalog En jämförelse av återvinningseffektiviteten för fyra olika sökfrågetyper MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:92 ISSN 1404-0891 Att expandera sökfrågor i en elektronisk bibliotekskatalog En

Läs mer

Automatisk tesauruskonstruktion med latent semantisk indexering

Automatisk tesauruskonstruktion med latent semantisk indexering MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:40 ISSN 1404-0891 Automatisk tesauruskonstruktion med latent semantisk indexering

Läs mer

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:76 ISSN 1404-0891 Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar

Läs mer

Snabbguide till Cinahl

Snabbguide till Cinahl Christel Olsson, BLR 2008-09-26 Snabbguide till Cinahl Vad är Cinahl? Cinahl Cumulative Index to Nursing and Allied Health Literature är en databas som innehåller omvårdnad, biomedicin, alternativ medicin

Läs mer

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2003:124 Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande

Läs mer

Biblioteken, Futurum 2017

Biblioteken, Futurum 2017 Biblioteken, Futurum 2017 Om PubMed PubMed innehåller mer än 27 miljoner referenser till tidskriftsartiklar inom biomedicin, omvårdnad, odontologi m.m. PubMed är fritt tillgänglig men om du använder länken

Läs mer

Sö ka litteratur i ERIC

Sö ka litteratur i ERIC 1 Sö ka litteratur i ERIC Det finns två ingångar om man vill söka i databasen ERIC: Via webben gratis version från the Education Resources Information Center: Denna version kan vara bra att känna till

Läs mer

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science KANDIDATUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2012:32 Akademiska söktjänster - En jämförande studie av Google Scholar,

Läs mer

Att söka information (med betoning på Internet)

Att söka information (med betoning på Internet) Att söka information (med betoning på Internet) - en sökguide för distansstuderande 1. Var finns informationen? 2. Hur söker man? Sökstrategier 3. Olika informationskällor, hjälpmedel vid informationssökning

Läs mer

So ka artiklar och annan litteratur

So ka artiklar och annan litteratur 1 So ka artiklar och annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur vare sig du letar efter böcker eller artiklar. Sökrutan är nästan det första du lägger märke till. Bakom

Läs mer

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se Tänk kreativt! Informationssökning Ha ett kritiskt förhållningssätt! Informationssökning steg för steg Innan du börjar behöver du formulera en fråga. Vad vill du hitta information om? Att utgå från: -

Läs mer

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg Betygskriterier Examensuppsats 30 hp. Betygskriterier Tregradig betygsskala används med betygen icke godkänd (IG), godkänd (G) och väl godkänd (VG). VG - Lärandemål har uppfyllts i mycket hög utsträckning

Läs mer

Riktlinjer för bedömning av examensarbeten

Riktlinjer för bedömning av examensarbeten Fastställda av Styrelsen för utbildning 2010-09-10 Dnr: 4603/10-300 Senast reviderade 2012-08-17 Riktlinjer för bedömning av Sedan 1 juli 2007 ska enligt högskoleförordningen samtliga yrkesutbildningar

Läs mer

Sö ka artiklar öch annan litteratur

Sö ka artiklar öch annan litteratur 1 Sö ka artiklar öch annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur. Sökrutan är nästan det första du lägger märke till. Bakom denna sökruta döljer sig en databrunn och

Läs mer

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator version 2014-09-10 Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator Studentens namn Handledares namn Examinerande

Läs mer

PubMed (Medline) Fritextsökning

PubMed (Medline) Fritextsökning PubMed (Medline) PubMed är den största medicinska databasen och innehåller idag omkring 19 miljoner referenser till tidskriftsartiklar i ca 5 000 internationella tidskrifter. I vissa fall får man fram

Läs mer

En komparativ litteraturstudie av olika termkällor för query expansion

En komparativ litteraturstudie av olika termkällor för query expansion MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:80 ISSN 1404-0891 En komparativ litteraturstudie av olika termkällor för query

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Kontrollerad vokabulär eller naturligt språk? En empirisk studie

Kontrollerad vokabulär eller naturligt språk? En empirisk studie MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:20 Kontrollerad vokabulär eller naturligt språk? En empirisk studie Hillevi Johansson

Läs mer

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013 Campus Örnsköldsvik Söka artiklar, kursen Människans livsvillkor, 22 januari 2013 Under Söka och skriva på http://ovik.u b.umu.se/ finns länkar till lexikon, Sökhjälp och guider, Medicin och Skriva uppsats,

Läs mer

32IIÅ1 HT17 Masterprogram i Biblioteks- och informationsvetenskap, distansutbildning (BMBD116h) Johan Eklund Johan Eklund

32IIÅ1 HT17 Masterprogram i Biblioteks- och informationsvetenskap, distansutbildning (BMBD116h) Johan Eklund Johan Eklund Kursrapport Informationsåtkomst (7,5 hp) Kurskod: Kursomgång: Program: Kursansvarig: Examinator: 32IIÅ1 HT17 Masterprogram i Biblioteks- och informationsvetenskap, distansutbildning (BMBD116h) Johan Eklund

Läs mer

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Litteraturstudie Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Vad är en litteraturstudie? Till skillnad från empiriska studier söker man i litteraturstudier svar på syftet

Läs mer

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas till examinator

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas till examinator version 2017-08-21 Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas till examinator Studentens namn Handledares namn Examinerande lärare Uppsatsens titel

Läs mer

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:37 ISSN 1404-0891 Hur effektiva är de egentligen? en evaluering av tre webbaserade

Läs mer

Skriv! Hur du enkelt skriver din uppsats

Skriv! Hur du enkelt skriver din uppsats Skriv! Hur du enkelt skriver din uppsats Josefine Möller och Meta Bergman 2014 Nu på gymnasiet ställs högra krav på dig när du ska skriva en rapport eller uppsats. För att du bättre ska vara förberedd

Läs mer

UB:s sö ktjä nst - Söka artiklar och annan litteratur

UB:s sö ktjä nst - Söka artiklar och annan litteratur 1 UB:s sö ktjä nst - Söka artiklar och annan litteratur Innehåll Börja här... 2 Logga in... 2 Mitt konto... 3 Adressändring... 3 Spara sökresultat... 4 Sökhistorik & litteraturbevakning... 5 Söka, välja,

Läs mer

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)

Läs mer

» RSS - Bygg din egen RSS!

» RSS - Bygg din egen RSS! 1 of 5 29.4.2006 18:46» RSS - Bygg din egen RSS! Sett en orange liten skylt med vita bokstäver som antingen sagt XML eller RSS nyligen utan att direkt koppla varför den finns där? Du är antagligen inte

Läs mer

en översikt av stegen i en systematisk utvärdering

en översikt av stegen i en systematisk utvärdering 2 reviderad 2017 En översikt av stegen i en systematisk utvärdering Inledning Den metod för utvärdering som SBU tillämpar grundas på en systematisk granskning av den vetenskapliga litteraturen. Detta innebär

Läs mer

Passage Retrieval En studie av index

Passage Retrieval En studie av index MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:36 ISSN 1404-0891 Passage Retrieval En studie av index LARS BJÖRKLUND LINDA BÄCKMAN

Läs mer

Söka, värdera, referera

Söka, värdera, referera KTH ROYAL INSTITUTE OF TECHNOLOGY Söka, värdera, referera Ika Jorum, jorum@kth.se Definiera Vad behöver jag veta? Kommunicera Citera och argumentera korrekt Hitta Var och hur kan jag hitta information?

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Evaluering av återvinningseffektiviteten i Svensk Medicin och Google Scholar med medicinska frågor ur Fråga doktorn

Evaluering av återvinningseffektiviteten i Svensk Medicin och Google Scholar med medicinska frågor ur Fråga doktorn MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2008:58 ISSN 1654-0247 Evaluering av återvinningseffektiviteten i Svensk

Läs mer

REV Dnr: 1-563/ Sid: 1 / 8

REV Dnr: 1-563/ Sid: 1 / 8 REV 170518 Dnr: 1-563/2017 2017-05-29 Sid: 1 / 8 Arbetsgruppen för kvalitetsgranskning av examensarbeten Kriterier för bedömning av examensarbeten Sedan 1 juli 2007 ska enligt högskoleförordningen samtliga

Läs mer

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet Kursens mål Efter avslutad kurs skall studenten kunna planera, genomföra, sammanställa och försvara ett eget projekt samt kunna granska och opponera på annan students projekt. Studenten ska även kunna

Läs mer

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1 Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper

Läs mer

Hitta en artikel som använt samma teoretiker i samma sammanhang som du. Viktor Öman, bibliotekarie viktor.oman@mdh.se

Hitta en artikel som använt samma teoretiker i samma sammanhang som du. Viktor Öman, bibliotekarie viktor.oman@mdh.se Hitta en artikel som använt samma teoretiker i samma sammanhang som du Viktor Öman, bibliotekarie viktor.oman@mdh.se Stora Tänkare i tillämpad form Alla ämnen har sina Stora Tänkare, men inom vissa är

Läs mer

Sö ka artiklar öch annan litteratur

Sö ka artiklar öch annan litteratur 1 Sö ka artiklar öch annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur. Sökrutan är nästan det första du lägger märke till. Bakom denna sökruta döljer sig en databrunn och

Läs mer

Söka artiklar i CSA-databaser Handledning

Söka artiklar i CSA-databaser Handledning På Malmö högskola har vi flera databaser via CSA, bl.a. Sociological Abstracts, Social Services Abstracts, ERIC och PsychInfo, det betyder att gränssnittet för dessa databaser ser likadana ut. Om du har

Läs mer

PubMed (Public Medline) - sökmanual

PubMed (Public Medline) - sökmanual PubMed (Public Medline) - sökmanual Medicinska fakultetens bibliotek, Lund. Monica Landén. 2014-02 PubMed/Medline är den största medicinska databasen och innehåller idag omkring 23 miljoner referenser

Läs mer

E-biblioteket en tjänst från sjukhusbiblioteken

E-biblioteket en tjänst från sjukhusbiblioteken E-biblioteket en tjänst från sjukhusbiblioteken Snabbsök Innebär att du söker samtidigt i flera förvalda grupper av databaser. Snabbsök är i första hand avsett för att ge en första orientering i ämnet.

Läs mer

Oppositionsprotokoll-DD143x

Oppositionsprotokoll-DD143x Oppositionsprotokoll-DD143x Datum: 2011-04-26 Rapportförfattare Sara Sjödin Rapportens titel En jämförelse av två webbsidor ur ett MDI perspektiv Opponent Sebastian Remnerud Var det lätt att förstå vad

Läs mer

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med. CINAHL Vad innehåller CINAHL? I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med. Fritextsökning Fritextsökning innebär att du söker i alla

Läs mer

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Sjuksköterskeprogrammet T3 Maj 2015 Camilla Persson camilla.persson@umu.se Idag tittar vi på: Repetition av sökprocessen: förberedelser

Läs mer

Sö ka artiklar öch annan litteratur

Sö ka artiklar öch annan litteratur 1 Sö ka artiklar öch annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur. Sökrutan är nästan det första du lägger märke till. Bakom denna sökruta döljer sig en databrunn och

Läs mer

Sökexempel Arbetsterapeuter T3

Sökexempel Arbetsterapeuter T3 Sökexempel Arbetsterapeuter T3 En repetition om hur man söker i olika databaser och hur man (i bästa fall) kan få ut den aktuella artikeln i fulltext. Som exempel har vi valt en sökning om arbetsterapi

Läs mer

Business research methods, Bryman & Bell 2007

Business research methods, Bryman & Bell 2007 Business research methods, Bryman & Bell 2007 Introduktion Kapitlet behandlar analys av kvalitativ data och analysen beskrivs som komplex då kvalitativ data ofta består av en stor mängd ostrukturerad data

Läs mer

Semantik. Semantik och språkteknologi

Semantik. Semantik och språkteknologi Semantik Semantik studiet av innebörd(mening) Går tillbaka till Platon (dialogen Kratylos) Relationen språk verklighet Betydelsen av ett ord är dess användning i språket (Wittgenstein) Semantik och språkteknologi

Läs mer

Cross-Language Information Retrieval Sökfrågestruktur & sökfrågeexpansion

Cross-Language Information Retrieval Sökfrågestruktur & sökfrågeexpansion MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2008:55 ISSN 1654-0247 Cross-Language Information Retrieval Sökfrågestruktur

Läs mer

Lost in Translation? En empirisk undersökning av användningen av tesaurer vid queryexpansion inom Cross Language Information Retrieval

Lost in Translation? En empirisk undersökning av användningen av tesaurer vid queryexpansion inom Cross Language Information Retrieval MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:118 Lost in Translation? En empirisk undersökning av användningen av tesaurer

Läs mer

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi. Sökplan TDDD39 Perspektiv på informationsteknologi Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi. Anvisningar Sökplanen påbörjas

Läs mer

Slutrapport Projektet OCR-tolkning för indexering av,

Slutrapport Projektet OCR-tolkning för indexering av, 2011-05-13/PB Slutrapport Projektet OCR-tolkning för indexering av, och sökning i, inskannade dokument Projektorganisation Projektarbetet har bedrivits med lokala arbetsgrupper i både Uppsala och i Umeå.

Läs mer

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar. marie.gustafsson@hb.

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar. marie.gustafsson@hb. Att söka information Marie Gustafsson marie.gustafsson@hb.se Dagens föreläsning: Att söka vetenskaplig litteratur Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga

Läs mer

Referenser i informationsåtervinning utvärdering av en sökstrategi för citationsindex

Referenser i informationsåtervinning utvärdering av en sökstrategi för citationsindex MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:135 ISSN 1404-0891 Referenser i informationsåtervinning utvärdering av en sökstrategi

Läs mer

Passage Retrieval En litteraturstudie av ett forskningsområde Inom information retrieval

Passage Retrieval En litteraturstudie av ett forskningsområde Inom information retrieval MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKSHÖGSKOLAN/BIBLIOTEKS- OCH INFORMATIONSVETENSKAP 2000:49 Passage Retrieval En litteraturstudie av ett forskningsområde Inom information

Läs mer

Bibliotekariestudenter och söksträngsexpansion Ett experiment om manuell söksträngsexpansion

Bibliotekariestudenter och söksträngsexpansion Ett experiment om manuell söksträngsexpansion KANDIDATUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2012:61 Bibliotekariestudenter och söksträngsexpansion Ett experiment

Läs mer

Automatisk indexering på webben En studie av sökmotorn HotBot

Automatisk indexering på webben En studie av sökmotorn HotBot MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKSHÖGSKOLAN/BIBLIOTEKS- OCH INFORMATIONSVETENSKAP 2002:39 Automatisk indexering på webben En studie av sökmotorn HotBot KATRIN FREDRIKSON

Läs mer

Hur söker noviser information? En studie av novisers tillvägagångssätt vid informationssökning

Hur söker noviser information? En studie av novisers tillvägagångssätt vid informationssökning MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKSHÖGSKOLAN/BIBLIOTEKS- OCH INFORMATIONSVETENSKAP 2001:41 Hur söker noviser information? En studie av novisers tillvägagångssätt vid

Läs mer

Globala och lokala sökmotorer: En utvärdering av Google, MSN Search och Svesök

Globala och lokala sökmotorer: En utvärdering av Google, MSN Search och Svesök MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:127 ISSN 1404-0891 Globala och lokala sökmotorer: En utvärdering av Google, MSN

Läs mer

Registrera konferenspublikationer i DiVA

Registrera konferenspublikationer i DiVA Registrera konferenspublikationer i DiVA Senast uppdaterad: 2011-05-27 Vad är en konferenspublikation? Det finns flera typer av konferenspublikationer. Konferensbidrag kan exempelvis vara publicerade:

Läs mer

Informationssökning inför uppsatsen

Informationssökning inför uppsatsen Informationssökning inför uppsatsen Vetenskapliga förhållningssätt, 2010-05-19 Anna Prymka, Högskolebiblioteket 1 Vi har två timmar för: Informationskompetens ett komplext begrepp Vetenskaplig information

Läs mer

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE Innehåll Vad är en bra uppsats? Söka, använda och refera till litteratur Insamling

Läs mer

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre? Utvärdering av nyhetsbevakningssystem Eriks Sneiders eriks@dsv.su.se 24-1-12 Nyhetsbevakning och Information Retrieval Applikationsnivå Nyhetsbevakning att hitta intressanta artiklar i flödet Tekniknivå

Läs mer

PubMed gratis Medline på Internet 1946-

PubMed gratis Medline på Internet 1946- Klicka på 1. SÖK i E-biblioteket 2. Flik Databaser 3. PubMed PubMed gratis Medline på Internet 1946- www.ebiblioteket.vgregion.se Fritextsökning Skriv in de ord du vill söka på (AND läggs automatiskt in

Läs mer

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality Lathund till PEP Databasen PEP (Psychoanalytic Electronic Publishing) innehåller 59 tidskrifter och 96 klassiska böcker inom psykoanalys. Dessutom innehåller PEP fulltext och redaktörskommentarer till

Läs mer

EAs krav vid ackreditering av flexibel omfattning

EAs krav vid ackreditering av flexibel omfattning SWEDAC DOC 12:1 2012-05-10 Utgåva 1 Inofficiell översättning av EA 2/15 M:2008 EAs krav vid ackreditering av flexibel omfattning Swedac, Styrelsen för ackreditering och teknisk kontroll, Box 878, 501 15

Läs mer

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online Pass 3: Metadata Funktioner hos metadata Den här presentationen kommer att ta upp olika funktioner som metadata kan ha. Jag kommer också visa att det finns olika typer av metadata beroende på vilken funktion

Läs mer

Ett projektarbete i svenska, teknik och engelska, riktat mot DICE. Thoren Innovation School HT2012.

Ett projektarbete i svenska, teknik och engelska, riktat mot DICE. Thoren Innovation School HT2012. PROJEKT: DICE Ett projektarbete i svenska, teknik och engelska, riktat mot DICE. Thoren Innovation School HT2012. UPPDRAG Uppgiften är att arbeta med den första delen av teknikutvecklingsprocessen d.v.s.

Läs mer

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK Sökning, källkritik och referenshantering EITA55 2018-09-07 LINA AHLGREN & OLA HEDBÄCK Agenda Sökprocessen Söktjänster Referenshantering Sökprocessen Problemställning Källkritik Sökord Sökresultat Söktjänster

Läs mer

Typer av sökfrågor på webben En effektivitetsstudie

Typer av sökfrågor på webben En effektivitetsstudie MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKSHÖGSKOLAN/BIBLIOTEKS- OCH INFORMATIONSVETENSKAP 2002:41 Typer av sökfrågor på webben En effektivitetsstudie JOSEFINE ANDERSSON ) UIDWWDUHQ)

Läs mer

Sälja eller låna ut, är det skillnad? En experimentell komparativ studie av återvinningseffektivitet i bibliografiska databaser.

Sälja eller låna ut, är det skillnad? En experimentell komparativ studie av återvinningseffektivitet i bibliografiska databaser. MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2014:3 ISSN 1654-0247 Sälja eller låna ut, är det skillnad? En experimentell

Läs mer

Bortom AND, OR och NOT. Fördjupning i fritextsökning

Bortom AND, OR och NOT. Fördjupning i fritextsökning Bortom AND, OR och NOT. Fördjupning i fritextsökning Workshop vid Medicinska bibliotekskonferensen 2016 Magdalena Svanberg Lotta Mathiesen Vi ska öka vår förståelse för fritextsökning kunna tillämpa våra

Läs mer

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1 Medicinska biblioteket www.ub.umu.se IDAG SKA VI TITTA PÅ: Förberedelser för att söka vetenskaplig artikel: o Formulera en sökfråga o Välja ut bra sökord

Läs mer

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation

Läs mer

Betygskriterier för examensarbete/självständigt arbete

Betygskriterier för examensarbete/självständigt arbete Fastställt av BIG: s institutionsstyrelse 2008-10-22 Betygskriterier för examensarbete/självständigt arbete 1. Bedömningsgrunder och innehåll Ett examensarbete eller självständigt arbete ska bedömas inom

Läs mer

Primär eller sekundär söktjänst? - En effektivitetsstudie av söktjänsten Google och metasöktjänsten Dogpile

Primär eller sekundär söktjänst? - En effektivitetsstudie av söktjänsten Google och metasöktjänsten Dogpile MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:51 Primär eller sekundär söktjänst? - En effektivitetsstudie av söktjänsten Google

Läs mer

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet Lexikal semantik & Kognitiv semantik Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet 1 Dagens föreläsning Saeed 2009, kap.3, 11 Lexikal semantik Lexikala relationer Kognitiv

Läs mer

Utveckling av ett grafiskt användargränssnitt

Utveckling av ett grafiskt användargränssnitt Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat

Läs mer

En utvärdering av två pearl growing-metoder i ISI Web of Science

En utvärdering av två pearl growing-metoder i ISI Web of Science MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:27 ISSN 1404-0891 En utvärdering av två pearl growing-metoder i ISI Web of Science

Läs mer

Publikationstyp Kapitel i bok, del av antologi

Publikationstyp Kapitel i bok, del av antologi Publikationstyp Kapitel i bok, del av antologi 1. Författare Fyll i lokalt användarid. ORCID-id är ett internationellt, unikt forskar-id. Ett ORCID-id innehåller 16 siffror: 0000-0002-1825-0097. Organisationstillhörighet

Läs mer

Migrering av applikationen AMM till molnet

Migrering av applikationen AMM till molnet Datavetenskap Opponenter: Erik Andersson och Marcus Larsson Respondenter: Anders Nguyen och Linus Svensson Migrering av applikationen AMM till molnet Oppositionsrapport, C-nivå 2010:06 1 Sammanfattat omdöme

Läs mer

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1 Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut

Läs mer

WEBBKLUSTRING SLUTRAPPORT

WEBBKLUSTRING SLUTRAPPORT Arne Jönsson 2014-01-09 WEBBKLUSTRING SLUTRAPPORT 1. Inledning Inom projektet har vi utvecklat teknik som gör det möjligt att identifiera webbsidors innehåll och därefter klustra (gruppera) dem så att

Läs mer

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Titel Mall för Examensarbeten (Arial 28/30 point size, bold) Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP

Läs mer

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare Fibonacci / översättning från engelska IBSE Ett självreflekterande(självkritiskt) verktyg för lärare Riktlinjer för lärare Vad är det? Detta verktyg för självutvärdering sätter upp kriterier som gör det

Läs mer

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek INNEHÅLL: ATT BÖRJA SÖKA:... 2 DATABASER MM:... 2-5 NE BIBLIOTEKSKATALOGEN LIBRA.SE ARTIKELSÖK MEDIEARKIVET/RETRIVER ALEX

Läs mer

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse Dagens föreläsning Semantik VT07 Ordbetydelse (Lexikal semantik) Stina Ericsson 1. Introduktion 2. Extensioner 3. Begrepp 4. Extensioner och begrepp - några ytterligare saker Lexikal semantik: studerar

Läs mer

Arbeta med Selected Works en lathund

Arbeta med Selected Works en lathund Arbeta med Selected Works en lathund Att redigera din egen Selected Works-sida Ta fram din sida och logga in via My Account längts ner på sidan. Klicka på Edit My Site för att redigera sidan. Gå nu vidare

Läs mer

ALEPH ver. 16 Sökning

ALEPH ver. 16 Sökning Fujitsu, Westmansgatan 47, 582 16 Linköping INNEHÅLLSFÖRTECKNING 1. INLEDNING... 1 2. SÖK... 1 2.1 Avancerad sökning... 2 2.2 CCL flera databaser... 2 2.3 Flera fält... 3 2.4 Regler för sökning... 4 2.5

Läs mer

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson 2014-04-10

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson 2014-04-10 Källkritik - om att kritiskt granska och värdera information Ted Gunnarsson 2014-04-10 Källkritik - Innehåll Vad är källkritik? Varför källkritik? De källkritiska kriterierna Exempel på källkritiska frågor

Läs mer