Word sense disambiguation med Svenskt OrdNät

Transkript

1 MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON ZEINA ZIMMERMAN Författarna Mångfaldigande och spridande av innehållet i denna uppsats helt eller delvis är förbjudet utan medgivande.

2 Svensk titel: Word sense disambiguation med Svenskt OrdNät Engelsk titel: Författare: Word sense disambiguation with Swedish WordNet Jens Christiansson och Zeina Zimmerman Kollegium: 2 Färdigställt: 2006 Handledare: Johan Eklund Abstract: Nyckelord: In information retrieval there is a problem with ambiguous words. To solve this problem word sense disambiguation (WSD) is used. Few studies combining information retrieval and word sense disambiguation have been conducted with Swedish words. The purpose of this thesis has been divided in two. The first purpose was to examine Swedish information retrieval and disambiguation in the query phase. The second purpose was to compare the disambiguation between automatic and manual expansion. We chose a number of topics from the GP_HDINF test collection in Query Performance Analyser (QPA). The topics we chose had to have more than ten relevant documents so that expansion would be possible. According to the rules of the automatic expansion we were to choose relations in the following order; synonyms, hyponyms, hypernyms. If such relations did not exist the topic was rejected. This left us with 14 topics. We made a baseline query with inflections of the Swedish words. Our baseline query was expanded once automatically using the sense that the Lesk algorithm chose from the Swedish WordNet and once manually by the authors. We compared precision and recall from our baseline with precision and recall from both the automatic and the manual expansions. Our study shows that the Lesk algorithm performs 60 % correct disambiguation and that manual expansion performs better than automatic expansion. The difference between automatic WSD and manual WSD is negligible and we suggest the use of automatic WSD to overcome the problems in IR because it saves the user a lot of time. Word Sense Disambiguation, Svenskt OrdNät, Information Retrieval, Natural Language Processing, Lesk, semantik, homografer, Query Expansion 2

3 1. INLEDNING 5 2. PROBLEM, SYFTE OCH FORSKNINGSFRÅGOR PROBLEM SYFTE 2.3. FORSKNINGSFRÅGOR DISPOSITION 9 4. INFORMATION RETRIEVAL (IR) IR-MODELLER ÅTERVINNINGSPROCESSEN Sökfrågeexpansion Sökning Källor och termval Manuell sökfrågeexpansion Automatisk sökfrågeexpansion UTVÄRDERING NATURAL LANGUAGE PROCESSING (NLP) LINGVISTIK Semantik och flertydighet Kollokationer ORDKLASSTAGGNING Ordklasstaggning och homografi Ordklasstaggarens moduler Ordklasstaggning och mappning PARSING IR OCH NLP DOKUMENTREPRESENTATION GRÄNSSNITT INFORMATIONSBEHOV OCH NATURLIGT SPRÅK WORD SENSE DISAMBIGUATION (WSD) Kunskapsbaserade metoder Lexikala resurser Ordböcker Tesaurusar Semantiska nätverk WordNet Svenskt OrdNät och EuroWordNet Korpusbaserade metoder Övervakad inlärning Naiv bayesiansk klassificerare Beslutslistor Beslutsträd Oövervakad inlärning Klustring En betydelse per kollokation En betydelse per diskurs Hybrider Bootstrapping Yarowskys algoritm Utvärdering av WSD-system SENSEVAL Pseudo-ord TIDIGARE FORSKNING 45 3

4 7.1. AUTOMATIC SENSE DISAMBIGUATION USING MACHINE READABLE DICTIONARIES: HOW TO TELL A PINE CONE FROM AN ICE CREAM CONE LEXICAL AMBIGUITY AND INFORMATION RETRIEVAL USING WORDNET TO DISAMBIGUATE WORD SENSES FOR TEXT RETRIEVAL QUERY EXPANSION USING LEXICAL-SEMANTIC RELATIONS WORD SENSE DISAMBIGUATION AND INFORMATION RETRIEVAL AN ADAPTED LESK ALGORITHM FOR WORD SENSE DISAMBIGUATION USING WORDNET USING MEASURES OF SEMANTIC RELATEDNESS FOR WORD SENSE DISAMBI GUATION WORD SENSE DISAMBIGUATION IN QUERIES METOD INFORMATIONSSÖKNING TESTMILJÖ TESTKOLLEKTIONEN WSD METOD UTFÖRANDET Baseline Automatisk expansion Manuell expansion UTVÄRDERING RESULTAT ANALYS BASELINE AUTOMATISK EXPANSION MANUELL EXPANSION TOLKNING AV RESULTAT TOPICS MED FÖRBÄTTRING I JÄMFÖRELSE MED BASELINE TOPICS MED FÖRSÄMRING I JÄMFÖRELSE MED BASELINE OFÖRÄNDRADE TOPICS I JÄMFÖRELSE MED BASELINE TOPICS MED BÅDE FÖRBÄTTRINGAR OCH FÖRSÄMRINGAR DISKUSSION SAMMANFATTNING 66 REFERENSLISTA 68 BILAGA 1. ORDLISTA 73 BILAGA 2. BÖJNINGSSCHEMAN 76 BILAGA 3. WORDNET DEFINITIONER 77 BILAGA 4. TOPICS 78 BILAGA 5. SVENSKT ORDNÄT 86 BILAGA 6. LESKS ALGORITM 87 4

5 1. Inledning De flesta som sökt information har säkert upplevt att resultatet av en sökning genererat många irrelevanta träffar. Det kan bero på informationssökarens ovana, men även erfarna informationssökare har upplevt detta problem. Information retrieval (IR) (se kap. 4.) är ett stort och brett fält och det finns åtskilliga förklaringar till att återvinningen blir dålig vid en sökning. Vår ansats är att belysa detta problem ur ett språkligt perspektiv. Vid mellanmänsklig kommunikation stöds språket av sammanhanget, vilket kan vara kroppsspråk eller den miljö samtalet utspelar sig i. Då är det sällan något tvivel om vilken betydelse ett ord har. När vi däremot kommunicerar med en dator är ett ords betydelse inte lika självklar. 1 När människor kommunicerar med varandra är de oftast inte medvetna om att ord kan ha flera betydelser. De flesta blir mycket förvånade när de inser att datorer har problem med detta, som uppenbarligen fungerar bland människor. Ett tillfälle då man trots allt använder flertydiga ord medvetet är vid olika slags skämt. 2 För att kunna klara av att kommunicera med ett system i en dator krävs inte bara att systemet kan hantera data, det måste dessutom kunna hantera språk. Vi vill ju att systemet skall behandla naturligt språk på samma sätt som vi människor använder det i sökfrågor och dokument. Detta är en viktig del inom fältet Natural Language Processing (NLP) (se kap. 5.). Om systemet skall behandla ett flertydigt ords betydelse korrekt behövs en funktion som talar om vilken betydelse av det flertydiga ordet informationssökaren vill använda. Denna funktion benämns Word Sense Disambiguation (WSD) (se kap. 6.4.). Den svenska termen är ordbetydelsedisambiguering, 3 men vi kommer i fortsättningen att anvä nda oss av förkortningen, WSD. De flesta ord matchas med rätt betydelser av systemet i datorn, men vad det gäller homografer 4 så är det ett problem för IR. Homografer kan vara homonymer 5 eller polysemer 6. Då vi talar om homografer menar vi fortsättningsvis både homonymer och polysemer. Vårt val av magisteruppsatsämne har sin grund i ett stort språkligt intresse och en frustration över återvunna dokument som saknar relevans för den givna sökfrågan. 7 Vi har olika bakgrund men gemensamma intressen. Ett av dessa gemensamma intressen är IR. Vi är båda nyfikna på varför man får de svar man får av datorn och systemet när man skrivit in sin sökfråga. Detta förde oss ihop och ledde till ett samarbete. Vår undersökning utförs i en testkollektion 8 som heter GP_HDINF och finns i Query Performance Analyser (QPA), ett system som visualiserar resultat av sökningar (se kap och kap. 8.3.). För att tillämpa WSD har vi valt att ta hjälp av Svenskt OrdNät (se 1 Somers, Harold Machine translation. Ingår i Dale, Robert, Mois l, Herman, Somers, Harold, eds. Handbook of natural language processing. s Gaustad, Tanja Linguistic knowledge and word sense disambiguation. s. 1 3 Disambiguering handlar om att bestämma ett flertydigt ords betydelse. Det är det val av tolkning som normalt görs när man stöter på flertydiga uttryck. 4 Homografer är ord som stavas likadant, hon (pronomen) och hon (bestämd form av en ho). Homografer har olika betydelser och är överordnade homonymer och polysemer. 5 Homonymer är ord som både stavas och/eller uttalas likadant men som har olika betydelse, bok (att läsa) och bok (träd). En homonyms betydelser är orelaterade. 6 En polysem är ett ord som har flera relaterade betydelser. Polysemi är grekiska för flertydighet. 7 En sökfråga representerar en användares informationsbehov. Den formuleras i ett givet IR-systems syntax. 8 En testkollektion består av tre delar: en databas innehållande dokument, en uppsättning topics och en uppsättning relevansbedömningar för varje topic i databasen. 5

6 kap ), en svensk motsvarighet till engelska WordNet (se kap ). Det är ett semantiskt nätverk som bland annat utgörs av synonymer och andra semantiska relationer. I den mån det finns passande svenska motsvarigheter till de engelska termerna som används i litteraturen kommer vi att använda dessa. Vi gör dock undantag för kända förkortningarna som WSD, NLP och IR då detta förenklar läsningen. Termer som används för utvärdering (baseline, topic, recall, cut-off värde, Document Cutoff Value) är kända med sin engelska form och det skulle därför vara missvisande att göra en svensk översättning för dessa. Termen synset förekommer ingen annanstans än i WordNet och Svenskt OrdNät varvid vi använder det uttrycket. Bootstrapping och parsing är också termer som vi behåller då det inte finns någon bra svensk översättning. 6

7 2. Problem, syfte och forskningsfrågor 2.1. Problem Ord kan ha fler än en betydelse och för informationsåtervinningen är detta ett problem. Ett index innehåller ord som har pekare till dokumentrepresentationer. Problemet ligger i att dessa ord kan vara flertydiga. Flera ämnen kan därmed representeras av samma term. För att komma till rätta med detta problem kan WSD tillämpas. Målet med WSD är att disambiguera flertydiga ord. Detta kan sedan tillämpas för att förbättra återvinningseffektiviteten inom IR. Forskning har gjorts på området men det har visat sig att återvinningen endast förbättras marginellt med WSD (med några få undantag). Trots många försök har få framsteg gjorts. 9 Forskning har oftast gjorts med engelska ord. Därför ser vi det som viktigt att angripa WSD ur det svenska språkets perspektiv Syfte Vår uppsats har ett tvådelat syfte. Det första delsyftet är att studera återvinningseffektiviteten för det svenska språket då automatisk WSD används i sökstadiet. Det andra delsyftet med uppsatsen är att jämföra automatisk och manuell disambiguering i relation till återvinningseffektivitet. Den andra delen i vår undersökning blir således att jämföra disambiguatorns val av betydelse och expansion av sökfråga mot ett mänskligt val. Vi vill ge en introduktion till ämnet och därför kan många delar i litteraturgenomgången inte kopplas till vår undersökning men vi anser ändå att det är viktigt att presentera ämnet i sin helhet eftersom vi är först att skriva om WSD på institutionen Forskningsfrågor För det första syftet ställer vi följande övergripande forskningsfråga: 1. Hur påverkas återvinningseffektiviteten när automatisk WSD tillämpas på svenska ord? För att få svar på den övergripande frågan preciserar vi oss ytterligare: 1a. Hur förändras recall jämfört med baseline 10 när automatisk WSD tillämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 1b. Hur förändras precision jämfört med baseline när automatisk WSD tillämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 9 Stevenson, Mark Word sense disambiguation: The case for combinations of knowledge sources. s I vår studie är baseline en inledande ickeexpanderad sökfråga med böjn ingsvarianter. 7

8 För vårt andra syfte har vi följande övergripande forskningsfråga: 2. Hur skiljer sig återvinningseffektiviteten mellan automatisk WSD och manuell WSD när WSD tillämpas på svenska ord? Denna fråga preciseras: 2a. Hur skiljer sig recall mellan automatisk WSD och manuell WSD när WSD tillämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 2b. Hur skiljer sig precision mellan automatisk WSD och manuell WSD när WSD tilllämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 8

9 3. Disposition I det fjärde kapitlet (Information retrieval) ges en kort introduktion till ämnet. Däri ingår en kort presentation av de tre klassiska IR-modellerna; den booleska modellen, vektormodellen och den probabilistiska modellen. Sedan följer en beskrivning av de olika stegen som ingår i återvinningsprocessen med en fördjupning av sökfrågeexpansion, vilka problem inom IR-området som behöver lösas i framtiden och hur problem löses med utvärderingsmetoder som precision och recall. I kapitel fem (Natural language processing) ges en kort introduktion till ämnet. Den följs av underkapitel om lingvistik, semantik, kollokationer, 11 ordklasstaggning 12 och parsing. Kapitlet om ordklasstaggning börjar med en kort introduktion till ämnet och är indelat i ytterligare tre underkapitel för att ge en bättre översikt. Kapitel sex (IR och NLP) är en korsning av de två ovanstående kapitlen och beskriver först hur forskningen sett ut på området för att sedan gå in på dokumentrepresentation, gränssnitt samt informationsbehov 13 och naturligt språk. Därefter följer en ganska omfattande teoretisk del som handlar om olika metoder till WSD. Det ges en ganska lång introduktion till ämnet och däri ingår en översikt för ämnets naturliga uppdelning; kunskapsbaserade metoder och korpusbaserade metoder. 14 Den förra delas in i lexikala resurser och semantiska nätverk så som WordNet och Svenskt OrdNät. Den senare delas in i ytterligare två grupper; övervakad inlärning och oövervakad inlärning. Övervakad inlärning innefattar bland annat naiv bayesiansk klassifikation, beslutslistor och beslutsträd. Oövervakad inlärning består bland annat av klustring, en betydelse per diskurs och en betydelse per kollokation. Till detta finns det hybrider, det vill säga korsningar me l- lan kunskapsbaserade och korpusbaserade metoder. En av dessa kallas bootstrapping, 15 för vilken det finns flera varianter. Vi väljer dock att endast ge ett smakprov på en av de mest kända, nämligen Yarowskys algoritm 16. På detta följer ett kapitel om utvärderingssystem för WSD och olika metoder för detta. Dessa är SENSEVAL och pseudoord. Kapitel sju (Tidigare forskning) tar upp relaterade undersökningar och relevanta dokument som kan återknytas till vår uppsats. I kapitel åtta (Metod) presenterar vi den metod vi valt att följa. Som underrubriker till kapitlet finns informationssökning, testmiljö, testkollektionen, WSD-metod, utförandet och utvärdering. Underkapitlet som heter utförandet är indelat i tre olika underrubriker; baseline, automatisk expansion och manuell expansion, eftersom vår undersökning kräver tre sorters sökningar. 11 En kollokation är ett ordpar eller en fras som är vanligt förekommande i ett språk och som inte lyder under några generella syntaktiska eller semantiska regler. 12 Taggning innebär att antingen betydelserna eller ordklasserna i en text märks ut. 13 Informationsbehov är den information, uttalad eller outtalad, en användare önskar sig. 14 En korpus är en insamlad textmängd för en bestämd undersökning. 15 Bootstrapping är en metod som innebär att man betydelsetaggar en liten korpus för hand och samlar statistisk information från kontexten. Denna information används för att märka upp (klassificera) den ännu ouppmärkta (oklassificerade) informationen. Den nya klassificerade informationen används i sin tur för att samla ännu mer statistisk information. Processen sker upprepande tills hela korpusen är uppmärkt (klassificerad). 16 En algoritm används för att lösa matematiska eller logiska problem. Det är en systematisk procedur som i ett ändligt antal steg anger hur man utför en beräkning eller löser ett givet problem. 9

10 I kapitel nio (Resultat) presenterar vi våra resultat i sex olika tabeller; en för precisionen av den automatiska expansionen, en för recall för den automatiska expansionen, en för precisionen för den manuella expansionen, en för recall för den manuella expansionen, en för precisionen för både automatisk och manuell expansion och en för recall för både automatisk och manuell expansion. För bättre översikt presenteras också två diagram. I kapitel tio (Analys) sker en analys av undersökningens resultat. För varje sökvariant sker en enskild analys (baseline, automatisk expansion och manuell expansion). Därefter analyseras varje topic 17 för sig och vi försöker ge förklaringar till dessa resultat. I kapitel elva (Diskussion) diskuterar vi resultatet och anledningarna till detta. Vi relaterar även resultatet till tidigare forskning. I kapitel tolv (Sammanfattning) återfinns en sammanfattning av uppsatsens viktigare delar. I bilaga ett återfinns en ordlista som avses att användas som läshjälp. Den är alfabetiskt uppställd och innehåller återkommande termer och termer man behöver kunna för att förstå sammanhanget i vissa delar av uppsatsen. När termerna dyker upp i texten har vi förklarat dem utan att ange referenser. Referenserna återfinns i ordlistan. Termerna som förekommer i ordlistan har vi markerat med fet stil första gången de nämns i uppsatsen. Bilaga två innehåller det böjningsschema vi använt vid sökning. Tredje bilagan innehåller de termer för vilka vi hämtat definitioner ur WordNet då Svenskt OrdNät saknat sådana. I bilaga fyra återfinns de topics vi använt i vår undersökning. Där finns de tre sökvarianterna vi använt; baseline, automatisk expansion och manuell expansion. Bilaga fem innehåller en tryckt bildskärm ur Svenskt OrdNät och en förklaring till de grundläggande funktionerna i ordnätet. 17 Ett topic är ett informationsbehov uttryckt i naturligt språk. 10

11 4. Information retrieval (IR) IR behandlar representation, lagring, organisation och tillgång till information. En användare har ett informationsbehov som måste omvandlas till en sökfråga för att sökning i ett IR-system skall möjliggöras. Informationsbehovet representeras i sökfrågan av ett eller flera ord. 18 Också dokumenten i en samling representeras av ett antal ord, även kallade indexeringstermer. Indexeringstermerna skall uttrycka innehållet i dokumenten. Dessa termer kan tas direkt från texten eller tillsättas manuellt av experter. Det har emellertid blivit vanligare att representera dokument med alla ord i texten för så kallade fulltextdokument. 19 Detta kallas okontrollerad vokabulär och innebär att användaren i sin sökfråga måste använda exakt det ord och böjningsform som står i texten för att dokumentet skall återvinnas. Användning av kontrollerad vokabulär säkerställer däremot återvinningen då endast en term representerar alla former av ett begrepp. Det innebär att användaren måste konsultera en tesaurus eller liknande verktyg för att finna den term som återvinner dokument, vilka behandlar samma begrepp. 20 Användningen av index förenklar åtkomsten av information i dokument. I ett index finns ord som pekar på relaterad information (dokumentrepresentationer). 21 Syftet med IR är att återvinna så många relevanta dokument som möjligt och så få irrelevanta dokument som möjligt. Relevans är således kärnan i information retrieval. 22 Ord som förekommer i många dokument är inte bra indextermer på grund av låg urskiljningsfö r- måga. Ord som däremot förekommer i några få dokument är bättre eftersom de avgränsar antalet dokument som intresserar användaren. 23 För att få en lämplig avvägning mellan precision och recall (se kap. 4.3.) bör medelfrekventa termer användas, eftersom de både kan särskilja dokument samtidigt som många dokument återvinns. 24 Figur 1 illustrerar detta. Varje indexterm tilldelas en vikt för att beskriva termens värde i samlingen. 25 IR-systemet matchar termer i sökfrågan med dokumentrepresentationer och rankar dessa efter likhet med sökfrågan. 26 För denna matchning används syntaktisk och semantisk information ur dokumenttexterna Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier Modern information retrieval. s Ibid., s Large, Andrew, Tedd, Lucy A. & Hartley R. J Information seeking in the online age: Principles and practice. s Ibid., s Ibid., s Ibid., s Gudivada, Venkat N. et al Information retrieval on the World Wide Web. s Baeza-Yates & Ribeiro-Neto 1999, s Ibid., s Ibid., s. 2 11

12 Figur 1 Ord som överstiger det övre cut-offvärdet anses vanliga och ord som understiger det lägre cutoffvärdet anses ovanliga. Dessa ord bidrar alltså inte till dokumentets innehåll. Enligt van Rijsbergen försökte Luhn hitta betydelsefulla ord och han antog att ords förmåga att urskilja ett dokuments innehåll nådde sin klimax i en rankningsposition mitt emellan de båda cut-offvärdena. 28 Figuren bygger på Luhns modell för ordfrekvensdiagram. Luhn, H. P The automatic creation of literature abstracts. IBM Journal of Research and Development, vol. 2, s. 161 Den vanligaste formen av IR benämns ad hoc återvinning. Dokument i en samling är relativt statiska men nya sökfrågor matchas hela tiden mot samlingen. På senare år har emellertid filtrerande återvinning blivit mer vanlig. Med filtrerande återvinning är sökfrågor relativt statiska men nya dokument kommer hela tiden in i och lämnar systemet (samlingen). Med detta angreppssätt skapas användarprofiler IR-modeller Följande komponenter ingår i en IR-modell: Dokument - eller snarare dokumentrepresentationer Sökfrågor - eller snarare representationer för användarens informationsbehov Ett ramverk för utformning av dokumentrepresentationer, sökfrågor och deras relationer En rankningsfunktion 30 Eftersom relevans är kärnan i information retrieval rankas dokument efter relevans för sökfrågan. Den rankningsfunktion som ett IR-system använder strävar efter att få de relevanta dokumenten högt upp i rankningslistan. Vilken IR-modell som används är därför avgörande. 28 van Rijsbergen, Cornelis Joost Information Retrieval. Kap. 2 Luhn s ideas 29 Baeza-Yates & Ribeiro-Neto 1999, s Ibid., s

13 De tre klassiska IR- modellerna är den booleska modellen, vektormodellen och den probabilistiska modellen. 31 Den booleska modellen är mängdteoretisk eftersom både dokument och sökfrågor representeras av en mängd indextermer. Den booleska modellens största brist är att ett dokument antingen är relevant eller irrelevant givet en sökfråga. Beslutskriteriet är binärt. Det betyder att om ett dokument skall återvinnas måste det matcha sökfrågan exakt. 32 Vektormodellen representerar dokument och sökfrågor som vektorer i en t-dimensionell rymd. Vektormodellen rankar dokument efter graden av likhet mellan sökfrågan och dokumentet. Dokument som delvis matchar sökfrågan återvinns. Vektormodellen tar hänsyn till hur ofta en term förekommer i ett dokument (tf) 33 och den inversa frekvensen av en terms förekomst i samlingen (idf). 34 En representativ term för ett dokument kan urskilja ett dokument från ett annat och skall således förekomma frekvent i dokumentet men inte så ofta i samlingen. Termviktning baseras på en kombination av tf och idf genom multiplikation (tf*idf) och detta ger en termvikt. 35 Den probabilistiska modellen baseras på sannolikhetsteori. Den probabilistiska modellens grundtanke är att det finns en mängd dokument i samlingen som innehåller exakt de relevanta dokument användaren önskar sig. Inledningsvis görs en gissning om vad dessa relevanta dokument innehåller för termer. Användaren får sedan bedöma releva n- sen för de återvunna dokumenten. Systemet förbättrar sedan beskrivningen av de relevanta dokumenten. Den probabilistiska modellen försöker att uppskatta sannolikheten för att ett dokument är relevant för användaren Återvinningsprocessen Baeza-Yates och Ribeiro-Neto beskriver vilka steg som ingår i återvinningsprocessen. Första steget är att definiera textdatabasen genom att specificera: (1) vilka dokument som skall användas, (2) vilka operationer som skall göras på texten, (3) textmodellen (textstrukturen och vilka dokument som skall återvinnas). Därefter indexeras samlingens dokument. Användaren specificerar sitt informationsbehov, vilket sedan parsas (se kap. 5.3.) och transformeras av samma textoperationer som tillämpas på texten. Sedan utförs sökfrågeoperationer innan sökfrågan är färdig att användas för sökning. Sökfrågan körs mot samlingen. Innan dokument som matchar sökfrågan återvinns rankas de efter relevans. Användaren undersöker de återvunna dokumenten i hopp om att tillfredsställa sitt informationsbehov. De dokument användaren bedömer relevanta kan användas för användarfeedback. Information från användarfeedback kan användas för att förändra sökfrågan för att bättre representera informationsbehovet. 37 Blair, forskare inom 31 Baeza-Yates & Ribeiro-Neto 1999, s Ibid., s. 20 och s. 26f 33 Tf (term frequency) är en given terms frekvens i ett dokument, alltså det antal gånger en viss term förekommer i ett dokument. 34 Idf (inverse document frequency) är 1 delat med det totala antal gånger som en term förekommer i en hel dokumentsamling, (1/df). 35 Baeza-Yates & Ribeiro-Neto 1999, s. 20 och s. 27ff 36 Ibid., s. 20 och s. 30f 37 Ibid., s. 9 13

14 IR och lingvistik menar att IR inte handlar om att få rätt svar utan om att ställa rätt frågor Sökfrågeexpansion Sökfrågeexpansion eller termexpansion är processen att komplettera den initiala sökfrågan med fler termer och används för att språket är flertydigt och för att det är svårt att representera ett helt topic. Detta är en metod för förbättring av återvinningseffektiviteten. Sökfrågeexpansion är applicerbart på vilken situation som helst oberoende av de återvinningstekniker som används. Den initiala sökfrågan kan vara otillräcklig eller så kan den vara en inkomplett representation av användarens informationsbehov, antingen i sig själv eller i förhållande till representationerna av idéerna i dokumenten. 39 Sökfrågeexpansion är en viktig del av IR-processen. 40 Figur 2 Sökfrågeexpansion och metoder. Inspiration till figuren kommer från Efthimiadis, Efthimis, N Query expansion s Sökning För enkelhetens skull kan en sökning delas in i två olika stadier (1) initial sökfrågefo r- mulering och (2) omformulering av sökfrågan. På första stadiet konstruerar användaren sin sökfråga och skickar iväg den till systemet. På det andra stadiet försöker användaren manuellt eller systemet automatiskt (baserat på resultaten från första sökningen) eller användaren med hjälp av systemet eller systemet med hjälp av användaren, justera den 38 Blair, David C Language and representation in information retrieval. s Efthimiadis, Efthimis, N Query expansion. Ingår i: Williams, Martha E., ed. Annual Review of Information Systems and Technology (ARIST). s Ibid., s

15 initiala sökfrågan och förbättra det slutliga resultatet (se figur 2). 41 Sökningar blir allt mer komplicerade och dynamiska. Deras framgång varierar och beror på användarens förmågor. Denne skall inte bara lära sig använda det existerande systemet, dess sökfrågespråk och de tillgängliga kunskapsstrukturerna utan också att utveckla informationssökningar som modifieras eller dikteras i elektronisk form för kunskapsstrukturerna. 42 I traditionella sökmiljöer måste användaren bryta ner informationsbehovet till distinkta begrepp. Sedan måste denne fundera över hur dessa begrepp och termerna som associeras med begreppen motsvarar dokumentrepresentationerna som finns lagrade i databasen Källor och termval Två viktiga ingredienser när sökfrågeexpansion utförs är (1) källan för expansionstermerna och (2) metoden som används för att välja termerna i expansionen (rankningsalgoritm). En typ av källa är någon form av kunskapsstruktur som är oberoende av sökprocessen. Denna källa kan antingen vara beroende av en kollektion, alltså korpusbaserad eller oberoende av den. Ett exempel på kollektionsberoende kunskapsstrukturer är en algoritmisk process som till exempel beräknar en (sök)strängs likhet. Ett exempel på kollektionsoberoende kunskapsstrukturer är globala tesaurer som till exempel Roget s international tesaurus. 44 Något som är viktigt i all typ av sökfrågeexpansion är hur man definierar vilka termer som är nära relaterade med sökfrågetermerna. 45 När termerna väl valts kan de kombineras för att formulera en sökfråga. Dock händer det ibland att en term inte är tillräcklig för att uttrycka ett begrepp på ett korrekt sätt och att det krävs en ansträngning från användarens sida för att hitta termer som kompletterar den initialt valda termen. Denna situation kräver att användaren tänker om i valet av termer. Det kan vara nödvändigt att konsultera en tesaurus, en ämnesordlista, en ordbok eller ett klassifikationssystem och dess index för att få hjälp med att välja termer. Detta kräver vanligtvis specialiserad träning eller erfarenhet å användarens sida eftersom resultaten för en oerfaren användare eller en användare som inte tar till den hjälp som finns, sannolikt kommer att vara dåliga. 46 Sökfrågeexpansion kräver ett termval antingen av systemet, i så fall baserat på vissa kriterier, eller av användaren. Termernas rankningsordning är viktig och de mest relevanta termerna bör helst hamna längst upp i listan och tvärtom Manuell sökfrågeexpansion Utvecklandet av sökstrategier för manuell sökfrågeexpansion, det vill säga att handskas med hela sökningen för ett ämne, är den mest intellektuellt krävande aspekten av sökning. 48 Det har under en längre tid varit känt att användarens kunskapsstruktur, i stadiet 41 Efthimiadis 1996, s Ibid., s Ibid., s Ibid., s. 122f 45 Ibid., s Ibid., s Ibid., s Ibid., s

16 för sökfrågans formulering, omformulering och expansion, spelar en viktig roll för huruvida en sökning lyckas. 49 Den dynamiska naturen av interaktionen gör det svårare och svårare att formalisera den i en algoritmisk process. Därför spelar användarens erfarenhet och bedömning en stor roll för att söktaktiken skall implementeras med framgång Automatisk sökfrågeexpansion I automatisk sökfrågeexpansion är det systemet som ansvarar för att expansionen av sökfrågetermerna baseras på samma metod. 51 Formuleringar av sökstrategier utgör ett väldigt ostrukturerat problem och kräver en bred kunskap. Till exempel krävs kunskap om användarens problem och om dokumentåtervinningssystemet. Därför är det fortfarande inte en välförstådd process och det är anledningen till att sökformuleringsprocessen är svår att automatisera. 52 Det har gjorts många laboratorieexperiment på system som inkluderar någon form av automatisk sökfrågeexpansion. Det har dock i många av dessa fall varit svårt att ange hur sökfrågeexpansionen i sig sker eftersom expansionsprocessen är dold i den överordnade IR-processen Utvärdering IR-experiment har länge utförts i små testsamlingar, men har kritiserats för att inte vara representativa för verkliga samlingar. Detta och bristen på ett teoretiskt ramverk för IR mynnade under tidigt 1990-tal ut i Text REtrieval Conference (TREC). Vid dessa träffar utfördes experiment i stora testsamlingar. I TRECs samling återfinns, förutom texterna, en mängd informationsförfrågningar, så kallade topics. Topics är informationsbehov som uttrycks i naturligt språk. 54 För att kunna utföra en sökning måste ett topic omvandlas till en sökfråga, det vill säga ett antal söktermer. 55 Baeza-Yates och Ribeiro-Neto betonar att trots många tekniska framsteg finns tre problem inom IR som behöver lösas i framtiden: Användarna har svårt att hitta relevant information för sina informationsbehov Användarna kräver snabba svar Att förstå användarnas beteenden bättre, vilket får konsekvenser för design och återvinningsstrategier 56 För att kunna lösa problemen inom IR är det väsentligt att ha bra utvärderingsmetoder. De två mest använda utvärderingsmetoderna för IR är recall och precision. Baeza-Yates och Ribeiro-Neto definierar recall och precision enligt följande, där R är antalet relevanta dokument i samlingen givet ett informationsbeho v, A är antalet återvunna doku- 49 Efthimiadis, Efthimis, N. 1996, s Ibid., s Ibid., s Ibid., s Ibid., s Baeza-Yates & Ribeiro-Neto 1999, s. 84ff 55 Ibid., s Ibid., s. 8 16

17 ment och Ra antalet relevanta dokument av de återvunna dokumenten 57 (se även figur 3): Recall = Ra R Precision = Ra A Figur 3 Exempel på precision och recall för ett givet informationsbehov. Inspirerad av Baeza-Yates & Ribeiro-Neto 1999, s. 75. För att få en överblick av hur olika IR-metoder presterar kan recall-precision-kurvor användas. Genom att mäta precisionen vid olika recallnivåer och sedan föra in resultaten i ett diagram erhålls dessa kurvor. Recallnivå anges ofta i % och är beroende av hur många relevanta dokument det finns för en sökfråga. Vid positionen för det första relevanta dokumentet i rankningslistan erhålls den första recallnivån delat med antal relevanta dokument för sökfrågan. Om det finns fem relevanta dokument för en sökfråga är den första recallnivån 20 % (1/5), den andra 40 % (2/5) och så vidare. Det vanligaste är att använda 11 recallnivåer (0 %, 10 %, 20 %, 100 %). Precision vid recallnivå 10 % är den position i rankningslistan då 10 % av alla relevanta dokument har återvunnits. Om denna nivå är vid det första återvunna dokumentet i rankningslistan är precisionen 100 % (1/1). Om recallnivå 20 % är det tredje dokumentet i rankningslistan blir precisionen 66 % (2/3) Baeza-Yates & Ribeiro-Neto 1999, s. 74f 58 Ibid., s

18 Det är möjligt att göra recall-precision-kurvor för varje sökfråga och för medelvärdet av alla sökfrågor. Beroende på hur många relevanta dokument som finns i samlingen är det inte alltid möjligt att använda de 11 standardnivåerna för recall. Om det endast finns tre relevanta dokument är recallnivån 33,3 % vid det första återvunna relevanta dokumentet. En interpolationsprocess kan då göras, vilket innebär att man ändå tar utgångspunkt från de 11 standardnivåerna. En utvärderingsmetod som ofta används är medelprecisionen vid givna Document Cutoff Values (DCV). Först väljer man ut positionen där mätningen skall göras. Om positionen är 10 återvunna dokument så mäts precisionen vid den punkten. Ett medelvärde för alla sökfrågor kan sedan beräknas vid denna position Baeza-Yates & Ribeiro-Neto s. 76ff 18

19 5. Natural Language Processing (NLP) NLP är ett forskningsområde som utforskar hur text i naturligt (mänskligt) språk kan bearbetas i ett datorsystem. 60 Det som skiljer användningen av språkbehandling från andra databehandlingssystem är språkkännedom. Systemet är utvecklat för att kunna hantera språk. 61 Automatiska tekniker för NLP är eftertraktade inom IR. 62 Att beräkna likheter mellan olika begrepp i en text är en central uppgift för många områden, däribland NLP. Inom varje område används detta på olika sätt. För NLP beräknas likheter mellan olika begrepp i en text för att utesluta eller i alla fall minska ambiguitet Detta kan ses som ett mål för WSD (se kap. 6.4.). Några av dessa likheter beräknas genom kontextuella samförekomstvektorer och kan vara baserade på till exempel informationsteori. 65 Burton och Steward anser att det finns tre källor till ambiguitet i NLP; (1) grammatiken kan ge två analyser av en given diskurs, (2) ett ord kan ha flera betydelser, och (3) förekomsten av anaforiska referenser. 66 En anaforisk referens syftar på något tidigare nämnt; Jag såg ett hus. Det var rött Lingvistik Ett system för behandling av naturligt språk kräver tre sorters kunskap: syntaktisk, semantisk och pragmatisk. 68 Inom lingvistiken grupperas språkets ord i klasser som har liknande syntaktiskt beteende och ofta är av ett typisk semantiskt slag. Dessa kallas syntaktiska eller grammatiska kategorier men är mer kända som ordklasser, (part of speech på engelska). De tre största ordklasserna är substantiv, verb och adjektiv. Substantiv är till exempel benämningar på människor, djur, begrepp eller saker. De kännetecknas av att man kan sätta en eller ett framför dem. Verb talar om vad som händer i en mening och adjektiv beskriver hur någonting är. 69 Orden i ett språk kan inte komma i vilken ordning som helst utan det finns en ordföljd att beakta. Syntax är samma sak som satslära och handlar om hur ord kombineras med varandra till större språkliga enheter (fraser och satser). 70 Syntax inkluderar oftast ordböcker som består av ord som ses som valida i den givna domänen. Dessutom behövs en grammatik som beskriver möjlig ordföljd och olika gällande regler. 71 Nästan alla system försöker kontrollera vokabulä- 60 Chowdhury, G.G Introduction to modern information retrieval. s Jurafsky, Daniel & Martin, James H Speech and language processing: An introduction to natural language processing, computational linguistics and speech recognition. s Smeaton, Alan F Natural language processing and information retrieval. s Ambiguitet innebär att ett ord eller ett språkligt yttrande är flertydigt. 64 Lebart, Ludovic & Rajman, Martin Computing similarity. Ingår i Dale, Robert, Moisl, Herman, Somers, Harold, eds. Handbook of natural language processing. s Ibid., s. 478f 66 Burton, Alan & Steward, Anthony P Domain modelling for intelligent natural language interfaces: Proceedings of the BCS IRSG Research Colloquium on Information Retrieval, Huddersfield, England, 3rd & 4th April. s Malmström, Sten, Györki, Iréne & Sjögren, Peter A Bonniers svenska ordbok. s Chowdhury 1999, s Manning, Christopher D. & Schütze, Hinrich Foundations of statistical natural language processing. s Florby, Gunilla & Fält, Erik Grammatiskt ABC: Grammatiska termer och begrepp för effektiva språkstudier. s. 30 och s Chowdhury 1999, s

20 ren för naturligt språk genom ordböcker, tesaurusar eller liknande verktyg. Underhållningen av detta verktyg är en avgörande faktor eftersom en vokabulär används dagligen och är stor. Regelbunden uppdatering blir därför svår. 72 Alla system med syntaktisk analys måste använda semantiken för att eliminera flertydighet som inte kan lösas enbart genom att se på en menings struktur. 73 Inom semantiken 74 studeras språkliga uttrycks betydelse. När man väl vet vad ett individuellt ord betyder skall det sättas in i en mening. Detta kan vara svårt eftersom naturligt språk inte följer principerna för komposition 75, det vill säga att helhetens betydelse kan förutsägas genom delarnas betydelse. 76 Meningen Alla gick inte på bio kan betyda att inte någon (ingen) gick på bio eller att åtminstone en person inte gick på bio. För att få fram rätt betydelse måste man se till en större kontext 77, en diskurs. Man gör alltså en diskursanalys. 78 En diskursanalys är en del av pragmatiken 79. Pragmatik används för att ta reda på ett visst ords betydelse i olika kontexter. Detta är en hjälp för att eliminera flertydiga ord och kompletterar den semantiska representationen Semantik och flertydighet Ferdinand de Saussure, en lingvist från Schweiz som anses vara strukturalismens fader, menar att språket kan ses som ett system med tecken. Varje ord är ett lingvistiskt tecken. Varje tecken består av en kombination av ett uttryck och ett innehåll. Således är träd ett svenskt tecken. Dess uttryck är den bild ljudet [tre:d] framkallar och dess innehåll är en särskild typ av växt. Varje gång en svensk hör ordet träd ser denne en bild av en särskild typ av växt. 81 Både uttrycket och innehållet är abstrakta och psykologiska termer som endast existerar i mottagarens hjärna. (Mottagaren är en person som talar språket.) Dessa existenser kan relateras till verkliga ting, som då kallas referenser (se figur 4). 82 Det finns en arbiträr relation mellan ett uttryck och ett innehåll. Detta för att samma innehåll motsvarar olika uttryck på olika språk. Uttrycket träd heter tree på engelska och arbre på franska. Detta är tre olika uttryck som hör till samma innehåll Chowdhury 1999, s Ibid., s Semantik är studiet av ords och satsers betydelse. 75 Komposition är när språkliga uttryck bildas genom sammansättning och när helhetens betydelse kan förutsägas från delarnas betydelse. 76 Manning & Schütze 2003, s Kontext är vad som står runt omkring ett ord eller ett ställe i texten. 78 Manning & Schütze 2003, s Pragmatiken studerar hur språk används för att tjäna olika syften. I vissa fall behövs en diskursanalys för att hitta ett ords betydelse. Denna diskursanalys ingår i pragmatiken som hjälper till att eliminera ambiguitet. 80 Chowdhury 1999, s Danell, Karl Johan La linguistique: Pratique et théorie. s. 21 och Saussure, Ferdinand de Kurs i allmän lingvistik. s. 93ff 82 Ibid., s. 22 och s. 93ff 83 Ibid., s. 23 och s. 93ff 20

21 Figur 4 Det språkliga tecknet. Danell 1993, s. 22. Inom semantiken studeras som sagt språkliga uttrycks betydelse. Det kan vara svårt att hitta rätt betydelse för ord som är flertydiga. Om man ser till homonymer och polysemer kan man skilja på dem genom att titta i en ordbok. Homonymer har oftast egna ingångar medan polysemer är undergrupper till en ingång. Exempel på homonymer är bok som kan läsas och bok trädslaget. Exempel på polysemer är antyda som kan betyda flyktigt omnämna eller låta förstå. 84 En annan slags ambiguitet finns hos ordklasserna. Ett ord kan tillhöra mer än en ordklass och alltså ha fler än en betydelse. Ordet gunga till exempel kan vara både ett substantiv, en gunga och ett verb, att gunga. 85 Att bestämma ett ords ordklass kallas för ordklasstaggning (se kap. 5.2.). Nedan följer några semantiska relationer som återfinns i WordNet och Svenskt OrdNät. Synonymer är lexem 86 med olika ortografiska former (stavning) men med samma betydelse. Om ett ord i en mening kan bytas ut mot ett annat utan att betydelsen förändras har man att göra med en synonym. Bädd, säng och slaf är ord som är synonyma. Antonymer är ord som uttrycker ett motsatsförhållande till exempel stor och liten. En hyponym är ett lexem som är en underklass till en annan klass. En hyperonym är den mer generella klassen. 87 Växt är en hyperonym till blomma som är en hyponym i detta exempel. En meronym är ett ord som anger en del av en större helhet. 88 Till exempel är arm och ben meronymer till kropp. För grundläggande semantiska relationer i WordNet och Svenskt OrdNät se figur Riad, Tomas Ordbetydelser. Polysemi 85 Ibid. 86 Ett lexem är en individuell ingång i ett lexikon grundat på ett ords ortografi (stavning). 87 Jurafsky & Martin 2000, s Cognitive Science Laboratory

22 Över-/underordnade begrepp (hyponymi) Djur? fågel? bofink Instrument? kniv? förskärare Förflytta? dra? rycka Helhet/del (meronymi) Helhet/komponent Grupp/medlem Föremål/ämne, material Fot? tå? nagel; Båt? för, akter, köl; Hus? dörr, vägg Skock? får; Klubb? medlem; Flotta? skepp Pinne? trä; Klippa? sten, mineral Motsatsord (antonymi) Stor? liten; Ge? ta; Bror? syster Synonymgrupper Knoga, gno, slita; Liten, småväxt, obetydlig Figur 5 Grundläggande semantiska relationer i WordNet och Svenskt OrdNät. Viberg, Åke Svenskt OrdNät Lexikon på dator som modell för ordförrådet i hjärnan hos infödda talare och andraspråkstalare. Ordbetydelse är svårt att definiera. Kilgarriff påstår till och med att han inte tror på ordbetydelse. Genom att förutbestämma ords betydelse i en ordbok kan man missa andra betydelser som möjligen skulle kunna finnas. 89 Han visar med flera exempel på hur ordet handväska i texter används med fler än de betydelser som återfinns i en ordbok. I en text används handväska i betydelsen vapen. 90 Handväskan används för att slåss med. Med detta betonar Kilgarriff att ett ords betydelse avgörs av hur ordet används i en text. Han menar att ordbetydelse endast existerar om man utgår ifrån ett ords förekomster i en kontext och dessa är tillräckligt många för att forma ett kluster (se kap ) som är distinkt från andra kluster. Om detta är möjligt kan man betrakta klustret som en ordbetydelse Kollokationer Strategier för disambiguering som förlitar sig på manuellt skapade regler producerar en flaskhals för kunskapsförvärvandet och presterar dåligt när de utvärderas i naturligt förekommande text. Ett statistiskt tillvägagångssätt för NLP försöker lösa dessa problem 89 Gaustad 2004, s Kilgarriff, Adam I don t believe in word senses. s. 103f 91 Ibid., s

23 genom automatisk lexikal inlärning och strukturell preferens från korpusen. Det finns mycket information att hämta i ordens relation till varandra, det vill säga ord som tenderar att hamna tillsammans. Sådana kollokationer kan användas för djupare semantisk analys. 92 Ord i sig själva har ingen mening. Borttagna ur en kontext kan de inte referera till världen. Ett ord kan inte vara sant eller falskt. Det är endast tillsammans med andra ord som ord får mening. 93 Kollokationer är fraser där helheten existerar bortom summan av delarna. Ett uttryck som människor ofta upprepar för att de hört någon annan använda det är en god kandidat för en kollokation. Ett ord kan i maskinöversättning (automatisk översättning av text eller tal) få olika betydelser beroende på den kollokation i vilken det förekommer. 94 En kollokation är alltså ett uttryck som består av två eller fler ord som motsvarar något konventionellt sätt att säga saker. Kollokationer har en begränsad komposition. Ett uttryck i naturligt språk är kompositionellt om uttryckets betydelse kan förutsägas av delarnas betydelse Ordklasstaggning Ett av de mest tillämpade sätten att annotera 96 text inom NLP är genom ordklasstaggning. Detta beror på två faktorer, dels att det har forskats mycket inom området och att det går att tagga en stor text automatiskt med relativt hög korrekthet och dels att ordklasstaggning anses vara ett nödvändigt första steg vid syntaktisk uppmärkning av texter. Efter den syntaktiska uppmärkningen kan olika typer av analys av naturligt språk utföras. Ordklasstaggning innebär att varje ord i en sats tilldelas en tagg som talar om ordets ordklass. Taggningsprocessen handlar om att koppla ihop rätt tagg med rätt ord. Taggning uppnår lätt ett medelvärde på % korrekt disambiguerade ord. 97 Green och Rubin beskrev 1971, enligt Kokkinakis, en enkel regelbaserad taggare som byggde på syntagmatisk information (se kap ). Den taggade endast 77 % av orden korrekt och misslyckades med homografer. 98 Kokkinakis skriver om Charniak som 1993 gjorde ett försök med en taggare som både innehöll information om homografa ord och om vilken tagg som var mest frekvent för ett ord. Denna taggare kom lätt upp i 90 % korrekt taggade ord. Detta resultat har senare blivit en baseline, det vill säga en miniminivå för taggare Ordklasstaggning och homografi I början av talet använder de flesta taggare både syntagmatisk information (beskrivningar av sekvenser av taggar) och lexikal information (statistiska data som skall försöka förutse vilken tagg som skall användas för ett visst ord). Homografi är en av de 92 Manning & Schütze 2003, s Jurafsky & Martin 2000, s Manning & Schütze 2003, s. 29 och s Ibid., s Annotation betyder att man gör anteckningar om något. 97 Johansson Kokkinakis, Sofie Disambiguering av homografa ord i Språkbanken med hjälp av Svensk morfologisk databas. Ingår i Gäller stam, suffix och ord: Festskrift till Martin Gellerstam den 15 oktober s Ibid., s Ibid., s

24 aspekter som försvårar ordklasstaggning. En homograf kan ofta tilldelas mer än en ordklasstagg och det problemet löses genom disambiguering och homografseparering. Kontexten kring ett ord kan ofta tala om vilken ordklass ordet tillhör, om inte kontexten är flertydig det vill säga. En flertydig kontext komplicerar disambigueringen ännu mer. I ett språk med många homografer är disambigueringen i ordklasstaggar mycket viktig. 100 Taggning är dock inte oproblematiskt. Ett problem är att nya ord ständigt dyker upp i vokabulären. Då kan man dels ta hjälp av kontexten men ordet självt kan också ge information, genom olika affix. 101 Ett affix är en stavelse som kan läggas till en ordstam. Det kan vara ett prefix och stå före ordstammen eller ett suffix och stå efter ordstammen, till exempel indelning Ordklasstaggarens moduler En ordklasstaggare består av flera delar som kallas moduler. Dessa är en lexikonmodul, en morfologisk 103 modul och en disambigueringsmodul. 104 Principen för lexikonet, som kan skifta i utseende, är att varje ingång (lexem) innehåller ett ord plus ett antal möjliga taggar. Ingången för ett ord innehåller en beskrivning av ordet och information som är kopplad till ordet. Lexikonet kan skapas för hand eller genereras från stora taggade textmängder. Det kan variera i storlek, men det antas att ju större lexikonet är desto bättre chans att ett ord tilldelas rätt tagg. Ord som inte finns i lexikonet, det vill säga ord som är okända, går vidare till den morfologiska analysen. 105 Om lexikonet bara innehåller grundformen av ett ord kan en morfologisk analys spåra böjningar, ändelser och pluralformer och på så vis hitta den rätta ordklasstaggen. Eftersom homografin är stor i svenskan kan detta vara svårare för svenska språket än för många andra språk. Ändelserna identifieras genom en enkel mönstermatchning i den morfologiska analysen. De ord som inte kan härledas till en grundform och som ofta hör ihop med ett annat ord för att bilda ett uttryck kallas ej nedbrytbara ord. Exempel på sådana är i samband med (orden bildar tillsammans en preposition) och i dag (adverb). Dessa uttryck har ofta speciella regler i lexikonet och grupperas och taggas med hjälp av dem. 106 Många ord har efter dessa två steg fått flera taggar och nu skall homograferna disambigueras. Varje ord skall i fortsättningen endast ha en tagg. En matris kan skapas till exempel genom användningen av en korpus. Matrisen använder en probabilitet för att beskriva hur troligt det är att en tagg följs av en annan Johansson Kokkinakis 2001, s Brill, Eric Part-of-speech tagging. Ingår i Dale, Robert, Moisl, Herman, Somers, Harold, eds. Handbook of natural language processing. s. 403ff 102 Malmström 2002, s Morfologi redogör för ordens struktur, det vill säga böjning och ordbildning. 104 Johansson Kokkinakis 2001, s Johansson Kokkinakis 2001, s Ibid., s Ibid., s. 182f 24

Visa mer