MÖTESPLATS INFÖR FRAMTIDEN. Borås 8-9 oktober 2003

Relevanta dokument
Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys

Automatisk tesauruskonstruktion med latent semantisk indexering

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Word sense disambiguation med Svenskt OrdNät

Språkteknologi. Språkteknologi

Grammatik för språkteknologer

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Automatisk indexering på webben En studie av sökmotorn HotBot

Introduktion till språkteknologi

Att skriva en matematisk uppsats

Språkteknologi och Open Source

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Svensk nationell datatjänst, SND BAS Online

Mönster. Ulf Cederling Växjö University Slide 1

ORDKLASSERNA I. Ett sätt att sortera våra ord

Unit course plan English class 8C

Tekniker för storskalig parsning

Grammatik för språkteknologer

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar


Introduction to the Semantic Web. Eva Blomqvist

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Query expansion med hjälp av en elektronisk tesaurus i en bibliografisk online-databas.

En komparativ litteraturstudie av olika termkällor för query expansion

Grundläggande textanalys. Joakim Nivre

grammatik Ordklasser, nominalfraser, substantiv

Grammatik för språkteknologer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Några skillnader mellan svenska och engelska

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Lingvistiska grundbegrepp

Nominalfrasers inverkan på återvinningseffektiviteten i ett probabilistiskt IR-system

Cross-Language Information Retrieval Sökfrågestruktur & sökfrågeexpansion

Writing with context. Att skriva med sammanhang

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Kontrollerad vokabulär eller naturligt språk? En empirisk studie

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG LIU-KOGVET-D--06/05--SE

Grammatik skillnader mellan svenska och engelska

Ordklasser och satsdelar

Authentication Context QC Statement. Stefan Santesson, 3xA Security AB

Lexikon: ordbildning och lexikalisering

Tentamen Marco Kuhlmann

Ontologier. Cassandra Svensson

Sri Lanka Association for Artificial Intelligence

Goals for third cycle studies according to the Higher Education Ordinance of Sweden (Sw. "Högskoleförordningen")

En bild säger mer än tusen ord?

Session: Historieundervisning i högskolan

12 Programstege Substantiv

DONALD DAVIDSON: MENINGSTEORI

Den kombinerade effekten av query-expansion och querystrukturer på återvinningseffektiviteten i ett probabilistiskt system

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Word- sense disambiguation

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Passage Retrieval En studie av index

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Referenser i informationsåtervinning utvärdering av en sökstrategi för citationsindex

Fragment, ellipser och informationsberikade konstituenter

State Examinations Commission

Introduktion till språkteknologi. Datorstöd för språkgranskning

Chapter 1 : Who do you think you are?

Svenskans struktur, 7,5 hp Tentamensexempel 1

Ett hållbart boende A sustainable living. Mikael Hassel. Handledare/ Supervisor. Examiner. Katarina Lundeberg/Fredric Benesch

Snabbguide till Cinahl

Statistisk Maskinöversättning eller:

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Sociala medieströmmar metoder för analys och samarbete via nya medieformat. Pelle Snickars, Umeå universitet & Lars Degerstedt, Södertörns högskola

Teoretisk lingvistik och datalingvistik. Robin Cooper

Mis/trusting Open Access JUTTA

Att skriva en matematisk uppsats

Här kan du checka in. Check in here with a good conscience

Sök artiklar i databaser för Vård- och hälsovetenskap

VAD ÄR NUDGING, VEM ANVÄNDER DET OCH VARFÖR?

Get Instant Access to ebook Om Ett Ord PDF at Our Huge Library OM ETT ORD PDF. ==> Download: OM ETT ORD PDF

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys

Vässa kraven och förbättra samarbetet med hjälp av Behaviour Driven Development Anna Fallqvist Eriksson

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Föreläsning 3.1: Datastrukturer, en översikt

Workplan Food. Spring term 2016 Year 7. Name:

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Ansvarig lärare: Jörgen Larsson Mariann Bourghardt Telefonnummer:

Quicksort. Koffman & Wolfgang kapitel 8, avsnitt 9

Syfte med undervisningen Genom undervisningen i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

FTEA21:3 Spr akfilosofi F orel asning II Martin J onsson

Småprat Small talk (stressed vowels are underlined)

Grafer, traversering. Koffman & Wolfgang kapitel 10, avsnitt 4

Typer av sökfrågor på webben En effektivitetsstudie

Ökat personligt engagemang En studie om coachande förhållningssätt

Kungliga Tekniska Högskolan Patrik Dallmann

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Kursplan. FÖ1038 Ledarskap och organisationsbeteende. 7,5 högskolepoäng, Grundnivå 1. Leadership and Organisational Behaviour

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Lingvistiskt uppmärkt text

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Skrivträning som fördjupar den naturvetenskapliga förståelsen Pelger, Susanne

Transkript:

MÖTESPLATS INFÖR FRAMTIDEN Borås 8-9 oktober 2003 Monica Lassi, Institutionen biblioteks- och informationsvetenskap/bibliotekshögskolan, Högskolan i Borås

Informationssökning i naturligt språk svenska språket ur återvinningsperspektiv Monica Lassi monica.lassi@hb.se Sveriges nationella forskarskola i språkteknologi Institutionen biblioteks- och informationsvetenskap/bibliotekshögskolan, Högskolan i Borås Inledning Dagens system för informationssökning kräver att användaren anpassar sig till systemet, vilket innebär att användaren måste omvandla sitt informationsbehov, som enklas uttrycks i naturligt språk, till ett språk som systemet kan tolka och använda sig av. Systemens språk skiljer sig vanligen markant från naturligt språk både syntaktiskt och semantiskt, och det är upp till användaren att lära sig varje systems språk för att kunna få någorlunda tillfredsställande resultat av sina sökningar. Det vanligaste sättet att söka i informationsåtervinningssystem är att ange ett antal sökord samt att eventuellt ange relationer dem emellan. De av användaren angivna sökorden matchas mot systemets indexeringstermer, det vill säga de ord som valts ut för att representera innehållet i de dokument som är sökbara i systemet. Vanligtvis sker indexering med hjälp av statistiska metoder, genom att beräkna förekomster av ord och fraser inom dokument och inom en dokumentsamling. Dessa metoder tar liten, om någon, hänsyn till de lingvistiska egenskaperna i texterna som indexeras, trots att dessa egenskaper rimligtvis bör kunna vara till stor nytta för att representera eller spegla innehållet i dokumenten. Nedan följer en kort beskrivning av informationsåtervinning och indexering samt de problem som finns med de statistiska metoder som används idag. Därefter presenteras ett antal metoder för lingvistisk analys som kan användas för att förbättra resultatet av indexering och återvinning av dokument. Informationsåtervinning Informationsåtervinning, eller IR (från engelska benämningen Information Retrieval), är ett tvärvetenskapligt forskningsområde som undersöks inom bland annat biblioteks- och informationsvetenskap, datavetenskap och datalingvistik. Centralt inom området är system för att lagra och återvinna information. När forskningsområdet växte fram, kring 1960-talet, var målet i stort att på ett optimalt sätt återvinna dokumentrepresentationer, det vill säga bibliografiska poster som beskriver dokument till både form och innehåll. Idag kan man skönja ett bredare mål med IR-forskningen, nämligen att skapa IR-system som på ett optimalt sätt återvinner information som är relevant för ett informationsbehov. Ett informationsbehov kan vara relativt svårt att verbalisera och specificera i en persons naturliga språk, och

informationsbehovet måste dessutom omvandlas till ett språk som IR-systemet kan tolka och behandla. Informationsåtervinningsprocessen kan sägas bestå av fyra olika delar: representation, lagring, matchning och presentation. Representationsprocessen innebär att de dokument som ska inkorporeras i en dokumentsamling analyseras till både form och innehåll. Formaspekter är sådana som rör dokumentet som innehållsbärare. Exempel på uppgifter som beskriver form är upphov, källa (exempelvis tidskriftsnamn) samt publiceringsår. Den innehållsmässiga aspekten rör vad dokumentet kan sägas handla om, och för detta används bland annat klassifikationskoder och indexeringstermer. Den dokumentrepresentation som skapas i representationsprocessen möjliggör fältsökning, vilket innebär att användaren kan rikta sin sökning mot specifika fält för att ange vilka egenskaper som återvunna dokument ska ha. När dokumentrepresentationerna skapats så lagras de, tillsammans med de index som används för sökning, i IR-systemet. I matchningsprocessen matchas den söksträng som formulerats av användaren mot lagrade dokumentrepresentationer. För bästa resultat måste användarens informationsbehov formulerat i naturligt språk omvandlas till en söksträng som systemet kan tolka och bearbeta. Resultatet av matchningsprocessen är en mängd dokument som bedöms som relevanta givet den söksträng som användaren givit systemet och de lagrade dokumentrepresentationerna. Många system använder någon form av relevansrankning för att skapa en lista ordnad i fallande ordning, med det mest relevanta dokumentet först och det minst relevanta dokumentet sist i listan. Indexering Målet med indexering är att utse ett antal indexeringstermer ord eller fraser som ska representera innehållet i ett dokument. Användarens sökord matchas mot indexeringstermerna vid en ämnessökning. Vid automatisk indexering väljs indexeringstermer ut genom beräkningar på de ord som förekommer i enskilda dokument och i en samling dokument. De ord som anses mest lämpliga för att representera innehållet i ett dokument utses till indexeringstermer. Denna process kallas för viktning, i vilken varje ord i ett dokument får en vikt som reflekterar hur viktiga de är för att beskriva det aktuella dokumentets innehåll. Viktning baseras oftast på ords förekomst i enskilda dokument och/eller i en dokumentsamling. Goda indexeringstermer är sådana som väl representerar innehållet i ett dokument samt skiljer dokumentet från resten av dokumentsamlingen. De vanligaste viktningsformlerna är termfrekvens (TF), omvänd dokumentfrekvens (IDF från engelskans Inverse Document Frequency) samt en kombination av de två, TF*IDF. Idén bakom TF är att ord som förekommer frekvent i ett dokument är säger mycket om innehållet i dokumentet. Högfrekventa ord tilldelas därmed höga vikter, medan lågfrekventa ord tilldelas lägre vikter. För TF ligger fokus på varje individuellt dokument i en dokumentsamling, medan ingen hänsyn tas till hur vanlig en term är i samlingens övriga dokument. När TF används för viktning kan resultatet av en sökning bli att alla dokument i en samling återvinns, eftersom ingen hänsyn tas till hur vanligt förekommande ett ord är i hela samlingen. Ett annat problem med TF är att formord, som har syntaktisk funktion (till exempel att sammanfoga satser och meningar) snarare än semantisk, får höga vikter eftersom de förekommer frekvent. Ordet och förekommer frekvent i svenska språket, men är inte någon lämplig indexeringsterm. Med hjälp av en stoppordlista kan man förhindra att formord får höga vikter och därmed utses till indexeringstermer.

IDF fokuserar på en terms förekomst i en dokumentsamling i stället för på förekomsten i individuella dokument. Ord som förekommer i få dokument i en samling anses vara goda indexeringstermer eftersom de särskiljer dessa dokument från resten av dokumenten i samlingen. Lågfrekventa ord får därmed höga vikter, medan högfrekventa ord får lägre vikter. Ett problem med IDF är att den inte tar hänsyn till individuella dokument, och därmed inte ger högre vikter till ord som representerar innehållet i ett enskilt dokument. Kombinationen av de två formlerna, TF*IDF, tar hänsyn till ords förekomst både i individuella dokument och i en dokumentsamling, och tar på så sätt ut några av problemen som formlerna har var för sig. Alla tre metoder för automatisk indexering behandlar dokument som en mängd ord utan några relationer mellan orden (något som på engelska kallas för the bag-of-words approach). Vid indexering brukar man ta bort all interpunktion för att bara ha en mängd ord att utföra beräkningarna på. Liten eller ingen hänsyn brukar tas till de lingvistiska egenskaper i de texter som indexeras. Hur kan IR-system ta tillvara de lingvistiska egenskaperna i de texter som indexeras? Några metoder för lingvistisk analys av naturligt språk tas upp i avsnitt 3. För att belysa det problem som statistiska (och probabilistiska) indexeringsmetoder medför tar Hjørland och Albrechtsen upp det engelska ordet gold och de betydelser som ordet kan ha i olika sammanhang. Detta i samband med att de introducerade den domänanalytiska modellen som de står bakom. Naturligt språk The meaning of a term such as gold can only be understood by an interpretation of the discourse in which that term appears. Gold has at least one chemical meaning (a heavy metal, difficult to dissolve by acids, electrical leading, etc.), one economic meaning (conventional economic measurement and reserve), one fictional meaning (related to wealth, happiness, the half kingdom and princess), etc. What other terms would be related to gold in a thesaurus depends entirely on the function served by a particular thesaurus. Whether documents retrieved by that term in an algorithm would be relevant to a question depends entirely upon whether that term has one or another of its possible meanings. The approach of statistical and probabilistic retrieval seems to be blind with regard to these problems of interpretation and to the contextual, dialogical, and historical character of knowledge and meaning. (Hjørland & Albrechtsen 1995, s. 413f) Natural Language Processing, NLP, är liksom IR ett tvärvetenskapligt forskningsområde som studeras inom bland annat datalingvistik, språkteknologi, datavetenskap och biblioteks- och informationsvetenskap. Ett av de viktigaste målen med NLP är att göra det enklare för människor att kommunicera med datorer. Detta genom att implementera den kunskap som finns inom lingvistik i datorprogram och på så sätt skapa mjukvara som förstår och kan generera naturligt språk. Lingvistisk analys av de texter som indexeras kan vara användbart inom IR för att förbättra återvinningseffektiviteten i dagens IR-system. Två forskare inom NLP får presentera hur de ser på nyttan och utvecklingen av NLP för IR. The central task in NLP for IR is the translation of potentially ambiguous natural language queries and documents into unambiguous internal representations on which matching and retrieval can take place. In fact, the ideal IR system is one in which users can express their information need naturally and with all requisite detail exactly as they would state them to a

research librarian. The system should then understand the underlying meaning of the query in all its complexity and subtlety. (Liddy 1998) Without NLP, we have gone about as far as we can go. Text databases are getting bigger. Search engines are returning larger and larger sets of documents. While Boolean search techniques allow us to narrow down our retrieval to a manageable size, they eliminate too many potentially valuable documents. Statistical search techniques overwhelm us with documents, even with relevance ranking. NLP presents new tools for honouring a search query so that it states our information need fully and then matches that query with an elaborate knowledge base built with NLP techniques. (Feldman 1999) Forskningen kring NLP har koncentrerat sig på en mängd olika lingvistiska egenskaper hos text. Experiment har givit mycket omväxlande resultat, från att praktiskt taget försämra återvinningseffektiviteten till stora förbättringar. Att resultaten har skiftat så mycket har lett till en del problem: demonstrating the superiority of these techniques over simple statistical processing has proved harder than expected (Strzalkowski 1995, s. 400). En metod har trots detta används i många av dagens IR-system, nämligen stemming. Hedlund et al. (2001, s. 149) beskriver nedan några lingvistiska fenomen som kan påverka resultatet av indexeringsprocessen och därmed även återvinningseffektiviteten. - Val av begrepp och termer Dokument kan beskriva samma fenomen med helt olika termer. Dagens IR-system kräver att de termer som förekommer i sökfrågan kan matchas (ofta exakt) mot de indexeringstermer som representerar dokument. Om andra termer används vid indexeringen kommer dokumentet inte att hittas, hur relevant det än är. En tesaurus där relationer mellan begrepp beskrivs kan vara till hjälp för att hitta rätt söktermer och för att exempelvis expandera en sökning. De relationer man inom lingvistik brukar tala om mellan begrepp är hyponymi/hyperonymi, meronymi och antonymi. Hyponymi ( är en -relation) innebär en underordnad relation exempelvis mellan bil och fordon ( fordon är en hyperonym till bil, det vill säga överordnad bil ). Meronymi ( del av -relation) innebär relationen mellan en helhet och dess delar, såsom mellan finger och hand. Antonymi innebär en motsatsrelation, såsom stor och liten. - Morfologisk variation Många IR-system kräver att söktermer och indexeringstermer ska matchas exakt. Utan morfologisk analys kommer inte söktermen skolan att matcha indexeringstermen skola, varpå relevanta dokument kan missas. Svenska språket är relativt morfologiskt komplext, och eftersom de flesta experiment på morfologi har gjorts på engelskspråkiga texter är det värt att testa hur morfologisk analys av svenska texter påverkar ett IR-systems prestation. - Anaforer och ellipser Anaforer innebär att något refereras till av exempelvis ett pronomen. Ellipser innebär att något fattas i en mening eller sats för att göra den grammatiskt korrekt, men att det ändå går att förstå dess betydelse. De statistiska indexeringsmetoderna gör beräkningar på de ord som finns i dokumenten, och anaforer och ellipser kan leda till att vikterna blir felaktiga eftersom ord är ersatta med andra eller helt fattas. I värsta fall nämns det som en artikel handlar om en gång i titeln, och sedan aldrig i själva brödtexten. Detta leder till att en viktig del av innehållet möjligen inte representeras av en indexeringsterm.

Lingvistisk analys av naturligt språk delas ofta in i ett antal nivåer, såsom den morfologiska och den syntaktiska nivån. Kommande avsnitt beskriver några metoder för lingvistisk analys som används inom IR. Morfologisk analys Morfologisk analys behandlar ord och deras beståndsdelar. Inom IR, där ord är centrala för att återvinna dokument, är det av största vikt att hantera ord och begrepp på ett sådant sätt att betydelsen fokuseras snarare än formen. För att inte indexeringstermers och sökords form skall hindra återvinning av relevanta dokument är normalisering av indexeringstermer vanligt i IR-system. Inom morfologi brukar man tala om böjning och avledning, där det förstnämnda inte förändrar ett ords betydelse särskilt mycket (Krovetz 2000, s. 282). Vid böjning av substantivet apa i singular till apor i plural förändras inte betydelsen nämnvärt det handlar om samma sorts djur, men i ental respektive flertal. Avledning kan däremot ha som följd att ett ord ändrar ordklass (Pirkola 2001, s. 331), såsom substantivet gräs som blir adjektivet gräslig då suffixet -lig läggs till. Ett system som använder sig av morfologisk analys skall rimligtvis kunna avgöra vilka ord som har samma betydelse och inte, så att apa och apor kopplas till varandra, medan gräs och gräslig inte gör det. Den vanligaste formen av normalisering är stemming, som går ut på att omvandla böjningar av ett ord till ordets stam. Detta sker vanligen genom att ta bort suffix och i vissa fall prefix. Många stemmingalgoritmer är skapade för att hantera det engelska språket och hugger i princip av ändelsen -s på pluralformen av substantiv ( cats cat ). Mer sofistikerade varianter finns, såsom Porterstemmern som hanterar 60 suffix och Lovinsstemmern som hanterar 260 suffix. En av nackdelarna med stemming är att ord inte nödvändigtvis omvandlas till ett rotmorfem, utan till något som bestämts vid utvecklingen av stemmern. Genom att transformera ord till lemma, en process som kallas lemmatisering, kan ett lexikon utnyttjas som hjälp. (Krovetz 2000, s. 279). Svenska språket är mer morfologiskt komplext än engelskan. (Hedlund et al. 2001, s. 151). Ett exempel är substantivens deklinationer, det vill säga vilken böjning ett ord får i plural, såsom -ar ( bil bilar ), -er ( katt katter ), och F (ingen) ( ben ben ). Nedan visas hur substantivet katt kan böjas. katt singular, basform katts singular, genitiv form katten singular, bestämd form kattens singular, bestämd form, genitiv form katter plural katters plural, genitiv form katterna plural, bestämd form katternas plural, bestämd form, genitiv form

Omljud är en annan egenskap i svenskans morfologi, som måste hanteras vid normalisering (Hedlund et al. 2001, s. 151). Vid omljud förändras stammen vid böjning, exempelvis från dotter i singular till döttrar i plural. Sammansättningar är ett sätt att skapa nya ord genom att lägga ihop flera andra, och är relativt vanligt i svenskan. Analys av sammansatta ord kan vara värdefullt för IR-system då den sista komponenten i ett sammansatt ord ofta är värdefullt som sökord och är en hyperonym till det sammansatta ordet (ibid, s. 333). Ett exempel är ordet marknadsföring som är överordnat direktmarknadsföring. Det finns många användningsområden för morfologisk analys i IR-system. Krovetz (2000, s. 278f) exemplifierar att stemming fungerar för query expansion (en process där en sökfråga utökas med fler termer som bedöms ha liknande betydelse som de termer som ingår i sökfrågan) genom att böjningar, och ibland ord som inte explicit angivits av användaren, ändå kan ingå i sökfrågan. Relationer mellan ordformer är viktigt för att kunna betydelsebestämma ord, och här kan den morfologiska analysen ses som förarbetet. För IR-system som hanterar lagring och sökning av dokument på språk som är morfologiskt komplexa (vilket svenskan anses vara), finns en extra vinst i att mindre lagringsutrymme går åt eftersom färre adresser sparas i indexet (Pirkola 2001, s. 333). Syntaktisk analys Medan morfologisk analys fokuserar på ord och deras beståndsdelar i form av bland annat affix, så koncentreras syntaktisk analys till strukturen hos fraser och meningar. Ordklasstaggning och parsning är metoder för syntaktisk analys som används inom IR. Parsning är en process där en text i naturligt språk omvandlas till en formell representation av textens struktur som kan behandlas vidare av systemet, exempelvis genom att finna viktiga innehållsord i en sökfråga. Ordklasstaggning kan sagas bestå av tre komponenter: en tokeniserare, en morfologisk klassificerare, och en morfologisk disambiguerare. Tokeniseraren analyserar texten och delar upp den i ord, meningar etc. Den morfologiska klassificeraren använder ett lexikon för igenkänning av möjliga ordklasser för varje ord i texten och ger varje ord en tagg som representerar aktuell(a) ordklass(er). (Megyesi 2002, s. 13) För sådana ord som inte ingår i aktuellt lexikon görs i vissa system en mer eller mindre kvalificerad gissning av ordklass medan andra system inte behandlar sådana ord vidare. Den morfologiska disambiguatorn behandlar till sist ambiguösa, det vill säga flertydiga, ord, vilka har taggats med mer än en ordklass (ibid). Den disambiguering som utförs i ordklasstaggningsprocessen är av att annat slag än som utförs i word-sense disambiguation, som tas upp senare och som innebär semantisk analys snarare än syntaktisk. Eftersom ordklasstaggning är en sorts syntaktisk analys kan sådana metoder vanligen inte disambiguera ord av samma ordklass. Alltså, det kan gå bra att skilja mellan substantivet lever (som i Johannas favoriträtt är lever ) och verbet lever (som i Svenskar lever allt längre ), men inte mellan de två betydelserna av substantivet tupp (som i Grannens tupp väcker alltid Marie i ottan samt i Hanna fick en tupp i halsen och kom sist i tävlingen ). De två vanligaste metoderna för ordklasstaggning är den regelbaserade och den datadrivna. Regelbaserade taggare använder regler som skapats av lingvister, vilket kräver stor kompetens inom det språk som analyseras. Datadrivna metoder är automatiska och använder sig av probabilistisk analys eller maskininlärning för att bestämma hur ett ord ska klassificeras. För denna metod krävs en korpus i aktuellt språk som kan ligga till grund för klassificeringen. (Megyesi 2002, s. 14f)

Förutom disambiguering av ord kan en ordklasstaggad text användas för bland annat frasigenkänning. Målet med frasigenkänning är att identifiera indexeringstermer som består av mer än ett ord, och kan även göras med hjälp av statistiska metoder som mäter samförekomsten av ord. Dessa metoder brukar dock resultera i relativt stora mängder felaktigheter, ibland så mycket som 50 % (Strzalkowski 1995, s.399). Ordklasstaggning ger bättre resultat men tenderar att vara mer krävande både ekonomiskt och tidsmässigt, och i slutändan måste man göra en bedömning om investerade resurser står i förhållande till nyttan. (Anderson & Pérez-Carballo 2001, s. 261). Somliga metoder för semantisk analys använder sig av resultatet från syntaktisk analys för att bestämma betydelsen av ett ord eller liknande. Strzalkowski menar att ett av skälen till varför NLP inte nått sådant genomslag som många förväntat sig kan vara att den syntaktiska analysen inte varit tillräckligt god, och att den semantiska analysen därmed baserats på bristfällig data. Lösningen på detta problem såg Strzalkowski år 1999 vara att antingen utveckla bättre metoder för syntaktisk analys eller att helt ändra fokus till tekniker som går djupare än de som testats hittills. (Strzalkowski 1999 p. xv) Semantisk analys Semantisk analys behandlar betydelsen av meningar, satser och ord. Man brukar tala om bokstavlig och bildlig betydelse, där den förstnämnda står för den eller de betydelser ett uttryck kan ha i språket, och den sistnämnda står för det som en talare menar med ett yttrande. Ordet underbart kan betyda precis motsatsen till den bokstavliga betydelsen om det sägs på ett ironiskt sätt. Semantisk analys kan användas inom IR för att exempelvis disambiguera flertydiga ord och för query expansion. Homografer innebär ambiguitet vilket kan leda till lägre återvinningseffektivitet på grund av falska träffar. Svenska språket har en större andel homografer i språket än engelskan. (Hedlund et al. 2001, s. 154) Genom att betydelsebestämma ord som kan ha flera betydelser (en process som på engelska kallas Word Sense Disambiguation, WSD) kan man öka återvinningseffektiviteten i IR-system. Två delproblem måste hanteras för att betydelsebestämningen ska ge bästa möjliga resultat: analys av vilka betydelser ett ord kan ha, och analys av vilken betydelse en specifik förekomst av ett ord har (Ide & Véronis 1998, s. 3). Som hjälpmedel för att fastställa betydelsen av ord brukar man använda lexikon eller tesaurer. Sådana verktyg kan även användas för query expansion. Pragmatisk analys Pragmatisk analys behandlar hur språk används i relation till struktur och sammanhang (Akmajian et al. 2001, s. 361). IR-system kan exempelvis ha användning av att hantera anafora och ellipser. En anafor innebär att något refereras till av exempelvis ett pronomen I exemplet Irene var där när det hände. finns två anaforer: där refererar till en plats och det till en händelse. En ellips innebär att något fattas i ett yttrande för att göra satsen grammatiskt korrekt, men att satsen ändå kan förstås utifrån sammanhanget. I meningen Jag åkte längdskidor och Ann- Therése snowboard. är åkte utelämnat mellan Ann-Therése och snowboard, men meningen går ändå bra att förstå. Genom att analysera anaforer och ellipser vid indexering kan indexeringstermerna tilldelas andra vikter eftersom mer lingvistisk information (fler ord) blir tillgänglig för analys (Hedlund et al. 2001, s. 149f). Exempelvis kan man vid analys av

anafora ta hjälp av svenskans två genus utrum och neutrum för att kontrollera att pronomina den och det är i kongruens (stämmer överens) med de ord de refererar till (ibid, s. 152). Sammanfattning Statistiska indexeringsmetoder tar knappt någon hänsyn till de lingvistiska egenskaperna i indexerade texter, trots att det finns en mängd metoder för analys av naturligt språk. Några av skälen är troligen att resultat av tidigare experiment inte är odelat positiva och att vissa verktyg är relativt kostsamma att producera. Bortsett från detta så har svenska språket en mängd egenskaper som skiljer sig från engelskan, och eftersom många tester utförts på engelska är det intressant att överföra testerna på svenskspråkigt material. Resultatet kommer säkert att skilja sig på flera punkter, och allt eftersom metoderna för lingvistisk analys utvecklas ännu mer finns mer att utforska. Referenser Akmajian, A., R. A. Demers, et al. (2001). Linguistics : An introduction to language and communication. Cambridge, Mass., MIT Press. Anderson, J. D. & Pérez-Carballo, J. (2001). "The nature of indexing: how humans and machines analyze messages and texts for retrieval. Part 2: Machine indexing, and the allocation of human versus machine effort." Information Processing & Management 37: 255-277 Baeza-Yates, R. & Ribeiro-Neto, B. (1999). Modern Information Retrieval. Addison-Wesley. Feldman, S. (1999). "NLP Meets the Jabberwocky: Natural Language Processing in Information Retrieval." ONLINE(May). [http://www.infotoday.com/online/ol1999/feldman5.html] 2003-04-07 Hedlund, T., A. Pirkola, et al. (2001). "Aspects of Swedish morphology and semantics from the perspective of mono- and cross-language information retrieval." Information Processing & Management 37: 147-161. Hjørland, B. & H. Albrechtsen (1995). "Towards a new horizon in information science: Domain-analysis." Journal of the American Society for Information Science 46(6): 400-425. Krovetz, R. (2000). "Viewing morphology as an inference process." Artificial Intelligence 118: 277-294. Liddy, E. D. (1998). "Enhanced Text Retrieval Using Natural Language Processing." ASIS Bulletin Apr/May. [http://www.asis.org/bulletin/apr-98/liddy.htm] 2003-03-22 Megyesi, B. (2002). Data-driven syntactic analysis: Methods and applications for Swedish. Department of speech, music and hearing. Stockholm, Kungliga tekniska högskolan Pirkola, A. and K. Järvelin (1996). Recall and precision effects of anaphor and ellipsis resolution in proximity searching in a text database. CoLIS, 2nd International Conference on Conceptions of Library and Information Science: Integration in Perspective. P. Ingwersen and N. O. Pors. Copenhagen Oct. 13-16, 1996, The Royal School of Librarianship.

Strzalkowski, T. (1995). "Natural language information retrieval." Information Processing & Management 31(3): 397-417. Strzalkowski, T. (1999). Preface. Natural Language Information Retrieval. T. Strzalkowski. Dordrecht, Kluwer Academic Publishers.