Word sense disambiguation med Svenskt OrdNät

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Word sense disambiguation med Svenskt OrdNät"

Transkript

1 MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON ZEINA ZIMMERMAN Författarna Mångfaldigande och spridande av innehållet i denna uppsats helt eller delvis är förbjudet utan medgivande.

2 Svensk titel: Word sense disambiguation med Svenskt OrdNät Engelsk titel: Författare: Word sense disambiguation with Swedish WordNet Jens Christiansson och Zeina Zimmerman Kollegium: 2 Färdigställt: 2006 Handledare: Johan Eklund Abstract: Nyckelord: In information retrieval there is a problem with ambiguous words. To solve this problem word sense disambiguation (WSD) is used. Few studies combining information retrieval and word sense disambiguation have been conducted with Swedish words. The purpose of this thesis has been divided in two. The first purpose was to examine Swedish information retrieval and disambiguation in the query phase. The second purpose was to compare the disambiguation between automatic and manual expansion. We chose a number of topics from the GP_HDINF test collection in Query Performance Analyser (QPA). The topics we chose had to have more than ten relevant documents so that expansion would be possible. According to the rules of the automatic expansion we were to choose relations in the following order; synonyms, hyponyms, hypernyms. If such relations did not exist the topic was rejected. This left us with 14 topics. We made a baseline query with inflections of the Swedish words. Our baseline query was expanded once automatically using the sense that the Lesk algorithm chose from the Swedish WordNet and once manually by the authors. We compared precision and recall from our baseline with precision and recall from both the automatic and the manual expansions. Our study shows that the Lesk algorithm performs 60 % correct disambiguation and that manual expansion performs better than automatic expansion. The difference between automatic WSD and manual WSD is negligible and we suggest the use of automatic WSD to overcome the problems in IR because it saves the user a lot of time. Word Sense Disambiguation, Svenskt OrdNät, Information Retrieval, Natural Language Processing, Lesk, semantik, homografer, Query Expansion 2

3 1. INLEDNING 5 2. PROBLEM, SYFTE OCH FORSKNINGSFRÅGOR PROBLEM SYFTE 2.3. FORSKNINGSFRÅGOR DISPOSITION 9 4. INFORMATION RETRIEVAL (IR) IR-MODELLER ÅTERVINNINGSPROCESSEN Sökfrågeexpansion Sökning Källor och termval Manuell sökfrågeexpansion Automatisk sökfrågeexpansion UTVÄRDERING NATURAL LANGUAGE PROCESSING (NLP) LINGVISTIK Semantik och flertydighet Kollokationer ORDKLASSTAGGNING Ordklasstaggning och homografi Ordklasstaggarens moduler Ordklasstaggning och mappning PARSING IR OCH NLP DOKUMENTREPRESENTATION GRÄNSSNITT INFORMATIONSBEHOV OCH NATURLIGT SPRÅK WORD SENSE DISAMBIGUATION (WSD) Kunskapsbaserade metoder Lexikala resurser Ordböcker Tesaurusar Semantiska nätverk WordNet Svenskt OrdNät och EuroWordNet Korpusbaserade metoder Övervakad inlärning Naiv bayesiansk klassificerare Beslutslistor Beslutsträd Oövervakad inlärning Klustring En betydelse per kollokation En betydelse per diskurs Hybrider Bootstrapping Yarowskys algoritm Utvärdering av WSD-system SENSEVAL Pseudo-ord TIDIGARE FORSKNING 45 3

4 7.1. AUTOMATIC SENSE DISAMBIGUATION USING MACHINE READABLE DICTIONARIES: HOW TO TELL A PINE CONE FROM AN ICE CREAM CONE LEXICAL AMBIGUITY AND INFORMATION RETRIEVAL USING WORDNET TO DISAMBIGUATE WORD SENSES FOR TEXT RETRIEVAL QUERY EXPANSION USING LEXICAL-SEMANTIC RELATIONS WORD SENSE DISAMBIGUATION AND INFORMATION RETRIEVAL AN ADAPTED LESK ALGORITHM FOR WORD SENSE DISAMBIGUATION USING WORDNET USING MEASURES OF SEMANTIC RELATEDNESS FOR WORD SENSE DISAMBI GUATION WORD SENSE DISAMBIGUATION IN QUERIES METOD INFORMATIONSSÖKNING TESTMILJÖ TESTKOLLEKTIONEN WSD METOD UTFÖRANDET Baseline Automatisk expansion Manuell expansion UTVÄRDERING RESULTAT ANALYS BASELINE AUTOMATISK EXPANSION MANUELL EXPANSION TOLKNING AV RESULTAT TOPICS MED FÖRBÄTTRING I JÄMFÖRELSE MED BASELINE TOPICS MED FÖRSÄMRING I JÄMFÖRELSE MED BASELINE OFÖRÄNDRADE TOPICS I JÄMFÖRELSE MED BASELINE TOPICS MED BÅDE FÖRBÄTTRINGAR OCH FÖRSÄMRINGAR DISKUSSION SAMMANFATTNING 66 REFERENSLISTA 68 BILAGA 1. ORDLISTA 73 BILAGA 2. BÖJNINGSSCHEMAN 76 BILAGA 3. WORDNET DEFINITIONER 77 BILAGA 4. TOPICS 78 BILAGA 5. SVENSKT ORDNÄT 86 BILAGA 6. LESKS ALGORITM 87 4

5 1. Inledning De flesta som sökt information har säkert upplevt att resultatet av en sökning genererat många irrelevanta träffar. Det kan bero på informationssökarens ovana, men även erfarna informationssökare har upplevt detta problem. Information retrieval (IR) (se kap. 4.) är ett stort och brett fält och det finns åtskilliga förklaringar till att återvinningen blir dålig vid en sökning. Vår ansats är att belysa detta problem ur ett språkligt perspektiv. Vid mellanmänsklig kommunikation stöds språket av sammanhanget, vilket kan vara kroppsspråk eller den miljö samtalet utspelar sig i. Då är det sällan något tvivel om vilken betydelse ett ord har. När vi däremot kommunicerar med en dator är ett ords betydelse inte lika självklar. 1 När människor kommunicerar med varandra är de oftast inte medvetna om att ord kan ha flera betydelser. De flesta blir mycket förvånade när de inser att datorer har problem med detta, som uppenbarligen fungerar bland människor. Ett tillfälle då man trots allt använder flertydiga ord medvetet är vid olika slags skämt. 2 För att kunna klara av att kommunicera med ett system i en dator krävs inte bara att systemet kan hantera data, det måste dessutom kunna hantera språk. Vi vill ju att systemet skall behandla naturligt språk på samma sätt som vi människor använder det i sökfrågor och dokument. Detta är en viktig del inom fältet Natural Language Processing (NLP) (se kap. 5.). Om systemet skall behandla ett flertydigt ords betydelse korrekt behövs en funktion som talar om vilken betydelse av det flertydiga ordet informationssökaren vill använda. Denna funktion benämns Word Sense Disambiguation (WSD) (se kap. 6.4.). Den svenska termen är ordbetydelsedisambiguering, 3 men vi kommer i fortsättningen att anvä nda oss av förkortningen, WSD. De flesta ord matchas med rätt betydelser av systemet i datorn, men vad det gäller homografer 4 så är det ett problem för IR. Homografer kan vara homonymer 5 eller polysemer 6. Då vi talar om homografer menar vi fortsättningsvis både homonymer och polysemer. Vårt val av magisteruppsatsämne har sin grund i ett stort språkligt intresse och en frustration över återvunna dokument som saknar relevans för den givna sökfrågan. 7 Vi har olika bakgrund men gemensamma intressen. Ett av dessa gemensamma intressen är IR. Vi är båda nyfikna på varför man får de svar man får av datorn och systemet när man skrivit in sin sökfråga. Detta förde oss ihop och ledde till ett samarbete. Vår undersökning utförs i en testkollektion 8 som heter GP_HDINF och finns i Query Performance Analyser (QPA), ett system som visualiserar resultat av sökningar (se kap och kap. 8.3.). För att tillämpa WSD har vi valt att ta hjälp av Svenskt OrdNät (se 1 Somers, Harold Machine translation. Ingår i Dale, Robert, Mois l, Herman, Somers, Harold, eds. Handbook of natural language processing. s Gaustad, Tanja Linguistic knowledge and word sense disambiguation. s. 1 3 Disambiguering handlar om att bestämma ett flertydigt ords betydelse. Det är det val av tolkning som normalt görs när man stöter på flertydiga uttryck. 4 Homografer är ord som stavas likadant, hon (pronomen) och hon (bestämd form av en ho). Homografer har olika betydelser och är överordnade homonymer och polysemer. 5 Homonymer är ord som både stavas och/eller uttalas likadant men som har olika betydelse, bok (att läsa) och bok (träd). En homonyms betydelser är orelaterade. 6 En polysem är ett ord som har flera relaterade betydelser. Polysemi är grekiska för flertydighet. 7 En sökfråga representerar en användares informationsbehov. Den formuleras i ett givet IR-systems syntax. 8 En testkollektion består av tre delar: en databas innehållande dokument, en uppsättning topics och en uppsättning relevansbedömningar för varje topic i databasen. 5

6 kap ), en svensk motsvarighet till engelska WordNet (se kap ). Det är ett semantiskt nätverk som bland annat utgörs av synonymer och andra semantiska relationer. I den mån det finns passande svenska motsvarigheter till de engelska termerna som används i litteraturen kommer vi att använda dessa. Vi gör dock undantag för kända förkortningarna som WSD, NLP och IR då detta förenklar läsningen. Termer som används för utvärdering (baseline, topic, recall, cut-off värde, Document Cutoff Value) är kända med sin engelska form och det skulle därför vara missvisande att göra en svensk översättning för dessa. Termen synset förekommer ingen annanstans än i WordNet och Svenskt OrdNät varvid vi använder det uttrycket. Bootstrapping och parsing är också termer som vi behåller då det inte finns någon bra svensk översättning. 6

7 2. Problem, syfte och forskningsfrågor 2.1. Problem Ord kan ha fler än en betydelse och för informationsåtervinningen är detta ett problem. Ett index innehåller ord som har pekare till dokumentrepresentationer. Problemet ligger i att dessa ord kan vara flertydiga. Flera ämnen kan därmed representeras av samma term. För att komma till rätta med detta problem kan WSD tillämpas. Målet med WSD är att disambiguera flertydiga ord. Detta kan sedan tillämpas för att förbättra återvinningseffektiviteten inom IR. Forskning har gjorts på området men det har visat sig att återvinningen endast förbättras marginellt med WSD (med några få undantag). Trots många försök har få framsteg gjorts. 9 Forskning har oftast gjorts med engelska ord. Därför ser vi det som viktigt att angripa WSD ur det svenska språkets perspektiv Syfte Vår uppsats har ett tvådelat syfte. Det första delsyftet är att studera återvinningseffektiviteten för det svenska språket då automatisk WSD används i sökstadiet. Det andra delsyftet med uppsatsen är att jämföra automatisk och manuell disambiguering i relation till återvinningseffektivitet. Den andra delen i vår undersökning blir således att jämföra disambiguatorns val av betydelse och expansion av sökfråga mot ett mänskligt val. Vi vill ge en introduktion till ämnet och därför kan många delar i litteraturgenomgången inte kopplas till vår undersökning men vi anser ändå att det är viktigt att presentera ämnet i sin helhet eftersom vi är först att skriva om WSD på institutionen Forskningsfrågor För det första syftet ställer vi följande övergripande forskningsfråga: 1. Hur påverkas återvinningseffektiviteten när automatisk WSD tillämpas på svenska ord? För att få svar på den övergripande frågan preciserar vi oss ytterligare: 1a. Hur förändras recall jämfört med baseline 10 när automatisk WSD tillämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 1b. Hur förändras precision jämfört med baseline när automatisk WSD tillämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 9 Stevenson, Mark Word sense disambiguation: The case for combinations of knowledge sources. s I vår studie är baseline en inledande ickeexpanderad sökfråga med böjn ingsvarianter. 7

8 För vårt andra syfte har vi följande övergripande forskningsfråga: 2. Hur skiljer sig återvinningseffektiviteten mellan automatisk WSD och manuell WSD när WSD tillämpas på svenska ord? Denna fråga preciseras: 2a. Hur skiljer sig recall mellan automatisk WSD och manuell WSD när WSD tillämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 2b. Hur skiljer sig precision mellan automatisk WSD och manuell WSD när WSD tilllämpas i sökstadiet genom expansion av sökfrågan med synonymer eller andra relationer från Svenskt OrdNät? 8

9 3. Disposition I det fjärde kapitlet (Information retrieval) ges en kort introduktion till ämnet. Däri ingår en kort presentation av de tre klassiska IR-modellerna; den booleska modellen, vektormodellen och den probabilistiska modellen. Sedan följer en beskrivning av de olika stegen som ingår i återvinningsprocessen med en fördjupning av sökfrågeexpansion, vilka problem inom IR-området som behöver lösas i framtiden och hur problem löses med utvärderingsmetoder som precision och recall. I kapitel fem (Natural language processing) ges en kort introduktion till ämnet. Den följs av underkapitel om lingvistik, semantik, kollokationer, 11 ordklasstaggning 12 och parsing. Kapitlet om ordklasstaggning börjar med en kort introduktion till ämnet och är indelat i ytterligare tre underkapitel för att ge en bättre översikt. Kapitel sex (IR och NLP) är en korsning av de två ovanstående kapitlen och beskriver först hur forskningen sett ut på området för att sedan gå in på dokumentrepresentation, gränssnitt samt informationsbehov 13 och naturligt språk. Därefter följer en ganska omfattande teoretisk del som handlar om olika metoder till WSD. Det ges en ganska lång introduktion till ämnet och däri ingår en översikt för ämnets naturliga uppdelning; kunskapsbaserade metoder och korpusbaserade metoder. 14 Den förra delas in i lexikala resurser och semantiska nätverk så som WordNet och Svenskt OrdNät. Den senare delas in i ytterligare två grupper; övervakad inlärning och oövervakad inlärning. Övervakad inlärning innefattar bland annat naiv bayesiansk klassifikation, beslutslistor och beslutsträd. Oövervakad inlärning består bland annat av klustring, en betydelse per diskurs och en betydelse per kollokation. Till detta finns det hybrider, det vill säga korsningar me l- lan kunskapsbaserade och korpusbaserade metoder. En av dessa kallas bootstrapping, 15 för vilken det finns flera varianter. Vi väljer dock att endast ge ett smakprov på en av de mest kända, nämligen Yarowskys algoritm 16. På detta följer ett kapitel om utvärderingssystem för WSD och olika metoder för detta. Dessa är SENSEVAL och pseudoord. Kapitel sju (Tidigare forskning) tar upp relaterade undersökningar och relevanta dokument som kan återknytas till vår uppsats. I kapitel åtta (Metod) presenterar vi den metod vi valt att följa. Som underrubriker till kapitlet finns informationssökning, testmiljö, testkollektionen, WSD-metod, utförandet och utvärdering. Underkapitlet som heter utförandet är indelat i tre olika underrubriker; baseline, automatisk expansion och manuell expansion, eftersom vår undersökning kräver tre sorters sökningar. 11 En kollokation är ett ordpar eller en fras som är vanligt förekommande i ett språk och som inte lyder under några generella syntaktiska eller semantiska regler. 12 Taggning innebär att antingen betydelserna eller ordklasserna i en text märks ut. 13 Informationsbehov är den information, uttalad eller outtalad, en användare önskar sig. 14 En korpus är en insamlad textmängd för en bestämd undersökning. 15 Bootstrapping är en metod som innebär att man betydelsetaggar en liten korpus för hand och samlar statistisk information från kontexten. Denna information används för att märka upp (klassificera) den ännu ouppmärkta (oklassificerade) informationen. Den nya klassificerade informationen används i sin tur för att samla ännu mer statistisk information. Processen sker upprepande tills hela korpusen är uppmärkt (klassificerad). 16 En algoritm används för att lösa matematiska eller logiska problem. Det är en systematisk procedur som i ett ändligt antal steg anger hur man utför en beräkning eller löser ett givet problem. 9

10 I kapitel nio (Resultat) presenterar vi våra resultat i sex olika tabeller; en för precisionen av den automatiska expansionen, en för recall för den automatiska expansionen, en för precisionen för den manuella expansionen, en för recall för den manuella expansionen, en för precisionen för både automatisk och manuell expansion och en för recall för både automatisk och manuell expansion. För bättre översikt presenteras också två diagram. I kapitel tio (Analys) sker en analys av undersökningens resultat. För varje sökvariant sker en enskild analys (baseline, automatisk expansion och manuell expansion). Därefter analyseras varje topic 17 för sig och vi försöker ge förklaringar till dessa resultat. I kapitel elva (Diskussion) diskuterar vi resultatet och anledningarna till detta. Vi relaterar även resultatet till tidigare forskning. I kapitel tolv (Sammanfattning) återfinns en sammanfattning av uppsatsens viktigare delar. I bilaga ett återfinns en ordlista som avses att användas som läshjälp. Den är alfabetiskt uppställd och innehåller återkommande termer och termer man behöver kunna för att förstå sammanhanget i vissa delar av uppsatsen. När termerna dyker upp i texten har vi förklarat dem utan att ange referenser. Referenserna återfinns i ordlistan. Termerna som förekommer i ordlistan har vi markerat med fet stil första gången de nämns i uppsatsen. Bilaga två innehåller det böjningsschema vi använt vid sökning. Tredje bilagan innehåller de termer för vilka vi hämtat definitioner ur WordNet då Svenskt OrdNät saknat sådana. I bilaga fyra återfinns de topics vi använt i vår undersökning. Där finns de tre sökvarianterna vi använt; baseline, automatisk expansion och manuell expansion. Bilaga fem innehåller en tryckt bildskärm ur Svenskt OrdNät och en förklaring till de grundläggande funktionerna i ordnätet. 17 Ett topic är ett informationsbehov uttryckt i naturligt språk. 10

11 4. Information retrieval (IR) IR behandlar representation, lagring, organisation och tillgång till information. En användare har ett informationsbehov som måste omvandlas till en sökfråga för att sökning i ett IR-system skall möjliggöras. Informationsbehovet representeras i sökfrågan av ett eller flera ord. 18 Också dokumenten i en samling representeras av ett antal ord, även kallade indexeringstermer. Indexeringstermerna skall uttrycka innehållet i dokumenten. Dessa termer kan tas direkt från texten eller tillsättas manuellt av experter. Det har emellertid blivit vanligare att representera dokument med alla ord i texten för så kallade fulltextdokument. 19 Detta kallas okontrollerad vokabulär och innebär att användaren i sin sökfråga måste använda exakt det ord och böjningsform som står i texten för att dokumentet skall återvinnas. Användning av kontrollerad vokabulär säkerställer däremot återvinningen då endast en term representerar alla former av ett begrepp. Det innebär att användaren måste konsultera en tesaurus eller liknande verktyg för att finna den term som återvinner dokument, vilka behandlar samma begrepp. 20 Användningen av index förenklar åtkomsten av information i dokument. I ett index finns ord som pekar på relaterad information (dokumentrepresentationer). 21 Syftet med IR är att återvinna så många relevanta dokument som möjligt och så få irrelevanta dokument som möjligt. Relevans är således kärnan i information retrieval. 22 Ord som förekommer i många dokument är inte bra indextermer på grund av låg urskiljningsfö r- måga. Ord som däremot förekommer i några få dokument är bättre eftersom de avgränsar antalet dokument som intresserar användaren. 23 För att få en lämplig avvägning mellan precision och recall (se kap. 4.3.) bör medelfrekventa termer användas, eftersom de både kan särskilja dokument samtidigt som många dokument återvinns. 24 Figur 1 illustrerar detta. Varje indexterm tilldelas en vikt för att beskriva termens värde i samlingen. 25 IR-systemet matchar termer i sökfrågan med dokumentrepresentationer och rankar dessa efter likhet med sökfrågan. 26 För denna matchning används syntaktisk och semantisk information ur dokumenttexterna Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier Modern information retrieval. s Ibid., s Large, Andrew, Tedd, Lucy A. & Hartley R. J Information seeking in the online age: Principles and practice. s Ibid., s Ibid., s Ibid., s Gudivada, Venkat N. et al Information retrieval on the World Wide Web. s Baeza-Yates & Ribeiro-Neto 1999, s Ibid., s Ibid., s. 2 11

12 Figur 1 Ord som överstiger det övre cut-offvärdet anses vanliga och ord som understiger det lägre cutoffvärdet anses ovanliga. Dessa ord bidrar alltså inte till dokumentets innehåll. Enligt van Rijsbergen försökte Luhn hitta betydelsefulla ord och han antog att ords förmåga att urskilja ett dokuments innehåll nådde sin klimax i en rankningsposition mitt emellan de båda cut-offvärdena. 28 Figuren bygger på Luhns modell för ordfrekvensdiagram. Luhn, H. P The automatic creation of literature abstracts. IBM Journal of Research and Development, vol. 2, s. 161 Den vanligaste formen av IR benämns ad hoc återvinning. Dokument i en samling är relativt statiska men nya sökfrågor matchas hela tiden mot samlingen. På senare år har emellertid filtrerande återvinning blivit mer vanlig. Med filtrerande återvinning är sökfrågor relativt statiska men nya dokument kommer hela tiden in i och lämnar systemet (samlingen). Med detta angreppssätt skapas användarprofiler IR-modeller Följande komponenter ingår i en IR-modell: Dokument - eller snarare dokumentrepresentationer Sökfrågor - eller snarare representationer för användarens informationsbehov Ett ramverk för utformning av dokumentrepresentationer, sökfrågor och deras relationer En rankningsfunktion 30 Eftersom relevans är kärnan i information retrieval rankas dokument efter relevans för sökfrågan. Den rankningsfunktion som ett IR-system använder strävar efter att få de relevanta dokumenten högt upp i rankningslistan. Vilken IR-modell som används är därför avgörande. 28 van Rijsbergen, Cornelis Joost Information Retrieval. Kap. 2 Luhn s ideas 29 Baeza-Yates & Ribeiro-Neto 1999, s Ibid., s

13 De tre klassiska IR- modellerna är den booleska modellen, vektormodellen och den probabilistiska modellen. 31 Den booleska modellen är mängdteoretisk eftersom både dokument och sökfrågor representeras av en mängd indextermer. Den booleska modellens största brist är att ett dokument antingen är relevant eller irrelevant givet en sökfråga. Beslutskriteriet är binärt. Det betyder att om ett dokument skall återvinnas måste det matcha sökfrågan exakt. 32 Vektormodellen representerar dokument och sökfrågor som vektorer i en t-dimensionell rymd. Vektormodellen rankar dokument efter graden av likhet mellan sökfrågan och dokumentet. Dokument som delvis matchar sökfrågan återvinns. Vektormodellen tar hänsyn till hur ofta en term förekommer i ett dokument (tf) 33 och den inversa frekvensen av en terms förekomst i samlingen (idf). 34 En representativ term för ett dokument kan urskilja ett dokument från ett annat och skall således förekomma frekvent i dokumentet men inte så ofta i samlingen. Termviktning baseras på en kombination av tf och idf genom multiplikation (tf*idf) och detta ger en termvikt. 35 Den probabilistiska modellen baseras på sannolikhetsteori. Den probabilistiska modellens grundtanke är att det finns en mängd dokument i samlingen som innehåller exakt de relevanta dokument användaren önskar sig. Inledningsvis görs en gissning om vad dessa relevanta dokument innehåller för termer. Användaren får sedan bedöma releva n- sen för de återvunna dokumenten. Systemet förbättrar sedan beskrivningen av de relevanta dokumenten. Den probabilistiska modellen försöker att uppskatta sannolikheten för att ett dokument är relevant för användaren Återvinningsprocessen Baeza-Yates och Ribeiro-Neto beskriver vilka steg som ingår i återvinningsprocessen. Första steget är att definiera textdatabasen genom att specificera: (1) vilka dokument som skall användas, (2) vilka operationer som skall göras på texten, (3) textmodellen (textstrukturen och vilka dokument som skall återvinnas). Därefter indexeras samlingens dokument. Användaren specificerar sitt informationsbehov, vilket sedan parsas (se kap. 5.3.) och transformeras av samma textoperationer som tillämpas på texten. Sedan utförs sökfrågeoperationer innan sökfrågan är färdig att användas för sökning. Sökfrågan körs mot samlingen. Innan dokument som matchar sökfrågan återvinns rankas de efter relevans. Användaren undersöker de återvunna dokumenten i hopp om att tillfredsställa sitt informationsbehov. De dokument användaren bedömer relevanta kan användas för användarfeedback. Information från användarfeedback kan användas för att förändra sökfrågan för att bättre representera informationsbehovet. 37 Blair, forskare inom 31 Baeza-Yates & Ribeiro-Neto 1999, s Ibid., s. 20 och s. 26f 33 Tf (term frequency) är en given terms frekvens i ett dokument, alltså det antal gånger en viss term förekommer i ett dokument. 34 Idf (inverse document frequency) är 1 delat med det totala antal gånger som en term förekommer i en hel dokumentsamling, (1/df). 35 Baeza-Yates & Ribeiro-Neto 1999, s. 20 och s. 27ff 36 Ibid., s. 20 och s. 30f 37 Ibid., s. 9 13

14 IR och lingvistik menar att IR inte handlar om att få rätt svar utan om att ställa rätt frågor Sökfrågeexpansion Sökfrågeexpansion eller termexpansion är processen att komplettera den initiala sökfrågan med fler termer och används för att språket är flertydigt och för att det är svårt att representera ett helt topic. Detta är en metod för förbättring av återvinningseffektiviteten. Sökfrågeexpansion är applicerbart på vilken situation som helst oberoende av de återvinningstekniker som används. Den initiala sökfrågan kan vara otillräcklig eller så kan den vara en inkomplett representation av användarens informationsbehov, antingen i sig själv eller i förhållande till representationerna av idéerna i dokumenten. 39 Sökfrågeexpansion är en viktig del av IR-processen. 40 Figur 2 Sökfrågeexpansion och metoder. Inspiration till figuren kommer från Efthimiadis, Efthimis, N Query expansion s Sökning För enkelhetens skull kan en sökning delas in i två olika stadier (1) initial sökfrågefo r- mulering och (2) omformulering av sökfrågan. På första stadiet konstruerar användaren sin sökfråga och skickar iväg den till systemet. På det andra stadiet försöker användaren manuellt eller systemet automatiskt (baserat på resultaten från första sökningen) eller användaren med hjälp av systemet eller systemet med hjälp av användaren, justera den 38 Blair, David C Language and representation in information retrieval. s Efthimiadis, Efthimis, N Query expansion. Ingår i: Williams, Martha E., ed. Annual Review of Information Systems and Technology (ARIST). s Ibid., s

15 initiala sökfrågan och förbättra det slutliga resultatet (se figur 2). 41 Sökningar blir allt mer komplicerade och dynamiska. Deras framgång varierar och beror på användarens förmågor. Denne skall inte bara lära sig använda det existerande systemet, dess sökfrågespråk och de tillgängliga kunskapsstrukturerna utan också att utveckla informationssökningar som modifieras eller dikteras i elektronisk form för kunskapsstrukturerna. 42 I traditionella sökmiljöer måste användaren bryta ner informationsbehovet till distinkta begrepp. Sedan måste denne fundera över hur dessa begrepp och termerna som associeras med begreppen motsvarar dokumentrepresentationerna som finns lagrade i databasen Källor och termval Två viktiga ingredienser när sökfrågeexpansion utförs är (1) källan för expansionstermerna och (2) metoden som används för att välja termerna i expansionen (rankningsalgoritm). En typ av källa är någon form av kunskapsstruktur som är oberoende av sökprocessen. Denna källa kan antingen vara beroende av en kollektion, alltså korpusbaserad eller oberoende av den. Ett exempel på kollektionsberoende kunskapsstrukturer är en algoritmisk process som till exempel beräknar en (sök)strängs likhet. Ett exempel på kollektionsoberoende kunskapsstrukturer är globala tesaurer som till exempel Roget s international tesaurus. 44 Något som är viktigt i all typ av sökfrågeexpansion är hur man definierar vilka termer som är nära relaterade med sökfrågetermerna. 45 När termerna väl valts kan de kombineras för att formulera en sökfråga. Dock händer det ibland att en term inte är tillräcklig för att uttrycka ett begrepp på ett korrekt sätt och att det krävs en ansträngning från användarens sida för att hitta termer som kompletterar den initialt valda termen. Denna situation kräver att användaren tänker om i valet av termer. Det kan vara nödvändigt att konsultera en tesaurus, en ämnesordlista, en ordbok eller ett klassifikationssystem och dess index för att få hjälp med att välja termer. Detta kräver vanligtvis specialiserad träning eller erfarenhet å användarens sida eftersom resultaten för en oerfaren användare eller en användare som inte tar till den hjälp som finns, sannolikt kommer att vara dåliga. 46 Sökfrågeexpansion kräver ett termval antingen av systemet, i så fall baserat på vissa kriterier, eller av användaren. Termernas rankningsordning är viktig och de mest relevanta termerna bör helst hamna längst upp i listan och tvärtom Manuell sökfrågeexpansion Utvecklandet av sökstrategier för manuell sökfrågeexpansion, det vill säga att handskas med hela sökningen för ett ämne, är den mest intellektuellt krävande aspekten av sökning. 48 Det har under en längre tid varit känt att användarens kunskapsstruktur, i stadiet 41 Efthimiadis 1996, s Ibid., s Ibid., s Ibid., s. 122f 45 Ibid., s Ibid., s Ibid., s Ibid., s

16 för sökfrågans formulering, omformulering och expansion, spelar en viktig roll för huruvida en sökning lyckas. 49 Den dynamiska naturen av interaktionen gör det svårare och svårare att formalisera den i en algoritmisk process. Därför spelar användarens erfarenhet och bedömning en stor roll för att söktaktiken skall implementeras med framgång Automatisk sökfrågeexpansion I automatisk sökfrågeexpansion är det systemet som ansvarar för att expansionen av sökfrågetermerna baseras på samma metod. 51 Formuleringar av sökstrategier utgör ett väldigt ostrukturerat problem och kräver en bred kunskap. Till exempel krävs kunskap om användarens problem och om dokumentåtervinningssystemet. Därför är det fortfarande inte en välförstådd process och det är anledningen till att sökformuleringsprocessen är svår att automatisera. 52 Det har gjorts många laboratorieexperiment på system som inkluderar någon form av automatisk sökfrågeexpansion. Det har dock i många av dessa fall varit svårt att ange hur sökfrågeexpansionen i sig sker eftersom expansionsprocessen är dold i den överordnade IR-processen Utvärdering IR-experiment har länge utförts i små testsamlingar, men har kritiserats för att inte vara representativa för verkliga samlingar. Detta och bristen på ett teoretiskt ramverk för IR mynnade under tidigt 1990-tal ut i Text REtrieval Conference (TREC). Vid dessa träffar utfördes experiment i stora testsamlingar. I TRECs samling återfinns, förutom texterna, en mängd informationsförfrågningar, så kallade topics. Topics är informationsbehov som uttrycks i naturligt språk. 54 För att kunna utföra en sökning måste ett topic omvandlas till en sökfråga, det vill säga ett antal söktermer. 55 Baeza-Yates och Ribeiro-Neto betonar att trots många tekniska framsteg finns tre problem inom IR som behöver lösas i framtiden: Användarna har svårt att hitta relevant information för sina informationsbehov Användarna kräver snabba svar Att förstå användarnas beteenden bättre, vilket får konsekvenser för design och återvinningsstrategier 56 För att kunna lösa problemen inom IR är det väsentligt att ha bra utvärderingsmetoder. De två mest använda utvärderingsmetoderna för IR är recall och precision. Baeza-Yates och Ribeiro-Neto definierar recall och precision enligt följande, där R är antalet relevanta dokument i samlingen givet ett informationsbeho v, A är antalet återvunna doku- 49 Efthimiadis, Efthimis, N. 1996, s Ibid., s Ibid., s Ibid., s Ibid., s Baeza-Yates & Ribeiro-Neto 1999, s. 84ff 55 Ibid., s Ibid., s. 8 16

17 ment och Ra antalet relevanta dokument av de återvunna dokumenten 57 (se även figur 3): Recall = Ra R Precision = Ra A Figur 3 Exempel på precision och recall för ett givet informationsbehov. Inspirerad av Baeza-Yates & Ribeiro-Neto 1999, s. 75. För att få en överblick av hur olika IR-metoder presterar kan recall-precision-kurvor användas. Genom att mäta precisionen vid olika recallnivåer och sedan föra in resultaten i ett diagram erhålls dessa kurvor. Recallnivå anges ofta i % och är beroende av hur många relevanta dokument det finns för en sökfråga. Vid positionen för det första relevanta dokumentet i rankningslistan erhålls den första recallnivån delat med antal relevanta dokument för sökfrågan. Om det finns fem relevanta dokument för en sökfråga är den första recallnivån 20 % (1/5), den andra 40 % (2/5) och så vidare. Det vanligaste är att använda 11 recallnivåer (0 %, 10 %, 20 %, 100 %). Precision vid recallnivå 10 % är den position i rankningslistan då 10 % av alla relevanta dokument har återvunnits. Om denna nivå är vid det första återvunna dokumentet i rankningslistan är precisionen 100 % (1/1). Om recallnivå 20 % är det tredje dokumentet i rankningslistan blir precisionen 66 % (2/3) Baeza-Yates & Ribeiro-Neto 1999, s. 74f 58 Ibid., s

18 Det är möjligt att göra recall-precision-kurvor för varje sökfråga och för medelvärdet av alla sökfrågor. Beroende på hur många relevanta dokument som finns i samlingen är det inte alltid möjligt att använda de 11 standardnivåerna för recall. Om det endast finns tre relevanta dokument är recallnivån 33,3 % vid det första återvunna relevanta dokumentet. En interpolationsprocess kan då göras, vilket innebär att man ändå tar utgångspunkt från de 11 standardnivåerna. En utvärderingsmetod som ofta används är medelprecisionen vid givna Document Cutoff Values (DCV). Först väljer man ut positionen där mätningen skall göras. Om positionen är 10 återvunna dokument så mäts precisionen vid den punkten. Ett medelvärde för alla sökfrågor kan sedan beräknas vid denna position Baeza-Yates & Ribeiro-Neto s. 76ff 18

19 5. Natural Language Processing (NLP) NLP är ett forskningsområde som utforskar hur text i naturligt (mänskligt) språk kan bearbetas i ett datorsystem. 60 Det som skiljer användningen av språkbehandling från andra databehandlingssystem är språkkännedom. Systemet är utvecklat för att kunna hantera språk. 61 Automatiska tekniker för NLP är eftertraktade inom IR. 62 Att beräkna likheter mellan olika begrepp i en text är en central uppgift för många områden, däribland NLP. Inom varje område används detta på olika sätt. För NLP beräknas likheter mellan olika begrepp i en text för att utesluta eller i alla fall minska ambiguitet Detta kan ses som ett mål för WSD (se kap. 6.4.). Några av dessa likheter beräknas genom kontextuella samförekomstvektorer och kan vara baserade på till exempel informationsteori. 65 Burton och Steward anser att det finns tre källor till ambiguitet i NLP; (1) grammatiken kan ge två analyser av en given diskurs, (2) ett ord kan ha flera betydelser, och (3) förekomsten av anaforiska referenser. 66 En anaforisk referens syftar på något tidigare nämnt; Jag såg ett hus. Det var rött Lingvistik Ett system för behandling av naturligt språk kräver tre sorters kunskap: syntaktisk, semantisk och pragmatisk. 68 Inom lingvistiken grupperas språkets ord i klasser som har liknande syntaktiskt beteende och ofta är av ett typisk semantiskt slag. Dessa kallas syntaktiska eller grammatiska kategorier men är mer kända som ordklasser, (part of speech på engelska). De tre största ordklasserna är substantiv, verb och adjektiv. Substantiv är till exempel benämningar på människor, djur, begrepp eller saker. De kännetecknas av att man kan sätta en eller ett framför dem. Verb talar om vad som händer i en mening och adjektiv beskriver hur någonting är. 69 Orden i ett språk kan inte komma i vilken ordning som helst utan det finns en ordföljd att beakta. Syntax är samma sak som satslära och handlar om hur ord kombineras med varandra till större språkliga enheter (fraser och satser). 70 Syntax inkluderar oftast ordböcker som består av ord som ses som valida i den givna domänen. Dessutom behövs en grammatik som beskriver möjlig ordföljd och olika gällande regler. 71 Nästan alla system försöker kontrollera vokabulä- 60 Chowdhury, G.G Introduction to modern information retrieval. s Jurafsky, Daniel & Martin, James H Speech and language processing: An introduction to natural language processing, computational linguistics and speech recognition. s Smeaton, Alan F Natural language processing and information retrieval. s Ambiguitet innebär att ett ord eller ett språkligt yttrande är flertydigt. 64 Lebart, Ludovic & Rajman, Martin Computing similarity. Ingår i Dale, Robert, Moisl, Herman, Somers, Harold, eds. Handbook of natural language processing. s Ibid., s. 478f 66 Burton, Alan & Steward, Anthony P Domain modelling for intelligent natural language interfaces: Proceedings of the BCS IRSG Research Colloquium on Information Retrieval, Huddersfield, England, 3rd & 4th April. s Malmström, Sten, Györki, Iréne & Sjögren, Peter A Bonniers svenska ordbok. s Chowdhury 1999, s Manning, Christopher D. & Schütze, Hinrich Foundations of statistical natural language processing. s Florby, Gunilla & Fält, Erik Grammatiskt ABC: Grammatiska termer och begrepp för effektiva språkstudier. s. 30 och s Chowdhury 1999, s

20 ren för naturligt språk genom ordböcker, tesaurusar eller liknande verktyg. Underhållningen av detta verktyg är en avgörande faktor eftersom en vokabulär används dagligen och är stor. Regelbunden uppdatering blir därför svår. 72 Alla system med syntaktisk analys måste använda semantiken för att eliminera flertydighet som inte kan lösas enbart genom att se på en menings struktur. 73 Inom semantiken 74 studeras språkliga uttrycks betydelse. När man väl vet vad ett individuellt ord betyder skall det sättas in i en mening. Detta kan vara svårt eftersom naturligt språk inte följer principerna för komposition 75, det vill säga att helhetens betydelse kan förutsägas genom delarnas betydelse. 76 Meningen Alla gick inte på bio kan betyda att inte någon (ingen) gick på bio eller att åtminstone en person inte gick på bio. För att få fram rätt betydelse måste man se till en större kontext 77, en diskurs. Man gör alltså en diskursanalys. 78 En diskursanalys är en del av pragmatiken 79. Pragmatik används för att ta reda på ett visst ords betydelse i olika kontexter. Detta är en hjälp för att eliminera flertydiga ord och kompletterar den semantiska representationen Semantik och flertydighet Ferdinand de Saussure, en lingvist från Schweiz som anses vara strukturalismens fader, menar att språket kan ses som ett system med tecken. Varje ord är ett lingvistiskt tecken. Varje tecken består av en kombination av ett uttryck och ett innehåll. Således är träd ett svenskt tecken. Dess uttryck är den bild ljudet [tre:d] framkallar och dess innehåll är en särskild typ av växt. Varje gång en svensk hör ordet träd ser denne en bild av en särskild typ av växt. 81 Både uttrycket och innehållet är abstrakta och psykologiska termer som endast existerar i mottagarens hjärna. (Mottagaren är en person som talar språket.) Dessa existenser kan relateras till verkliga ting, som då kallas referenser (se figur 4). 82 Det finns en arbiträr relation mellan ett uttryck och ett innehåll. Detta för att samma innehåll motsvarar olika uttryck på olika språk. Uttrycket träd heter tree på engelska och arbre på franska. Detta är tre olika uttryck som hör till samma innehåll Chowdhury 1999, s Ibid., s Semantik är studiet av ords och satsers betydelse. 75 Komposition är när språkliga uttryck bildas genom sammansättning och när helhetens betydelse kan förutsägas från delarnas betydelse. 76 Manning & Schütze 2003, s Kontext är vad som står runt omkring ett ord eller ett ställe i texten. 78 Manning & Schütze 2003, s Pragmatiken studerar hur språk används för att tjäna olika syften. I vissa fall behövs en diskursanalys för att hitta ett ords betydelse. Denna diskursanalys ingår i pragmatiken som hjälper till att eliminera ambiguitet. 80 Chowdhury 1999, s Danell, Karl Johan La linguistique: Pratique et théorie. s. 21 och Saussure, Ferdinand de Kurs i allmän lingvistik. s. 93ff 82 Ibid., s. 22 och s. 93ff 83 Ibid., s. 23 och s. 93ff 20

21 Figur 4 Det språkliga tecknet. Danell 1993, s. 22. Inom semantiken studeras som sagt språkliga uttrycks betydelse. Det kan vara svårt att hitta rätt betydelse för ord som är flertydiga. Om man ser till homonymer och polysemer kan man skilja på dem genom att titta i en ordbok. Homonymer har oftast egna ingångar medan polysemer är undergrupper till en ingång. Exempel på homonymer är bok som kan läsas och bok trädslaget. Exempel på polysemer är antyda som kan betyda flyktigt omnämna eller låta förstå. 84 En annan slags ambiguitet finns hos ordklasserna. Ett ord kan tillhöra mer än en ordklass och alltså ha fler än en betydelse. Ordet gunga till exempel kan vara både ett substantiv, en gunga och ett verb, att gunga. 85 Att bestämma ett ords ordklass kallas för ordklasstaggning (se kap. 5.2.). Nedan följer några semantiska relationer som återfinns i WordNet och Svenskt OrdNät. Synonymer är lexem 86 med olika ortografiska former (stavning) men med samma betydelse. Om ett ord i en mening kan bytas ut mot ett annat utan att betydelsen förändras har man att göra med en synonym. Bädd, säng och slaf är ord som är synonyma. Antonymer är ord som uttrycker ett motsatsförhållande till exempel stor och liten. En hyponym är ett lexem som är en underklass till en annan klass. En hyperonym är den mer generella klassen. 87 Växt är en hyperonym till blomma som är en hyponym i detta exempel. En meronym är ett ord som anger en del av en större helhet. 88 Till exempel är arm och ben meronymer till kropp. För grundläggande semantiska relationer i WordNet och Svenskt OrdNät se figur Riad, Tomas Ordbetydelser. Polysemi 85 Ibid. 86 Ett lexem är en individuell ingång i ett lexikon grundat på ett ords ortografi (stavning). 87 Jurafsky & Martin 2000, s Cognitive Science Laboratory

22 Över-/underordnade begrepp (hyponymi) Djur? fågel? bofink Instrument? kniv? förskärare Förflytta? dra? rycka Helhet/del (meronymi) Helhet/komponent Grupp/medlem Föremål/ämne, material Fot? tå? nagel; Båt? för, akter, köl; Hus? dörr, vägg Skock? får; Klubb? medlem; Flotta? skepp Pinne? trä; Klippa? sten, mineral Motsatsord (antonymi) Stor? liten; Ge? ta; Bror? syster Synonymgrupper Knoga, gno, slita; Liten, småväxt, obetydlig Figur 5 Grundläggande semantiska relationer i WordNet och Svenskt OrdNät. Viberg, Åke Svenskt OrdNät Lexikon på dator som modell för ordförrådet i hjärnan hos infödda talare och andraspråkstalare. Ordbetydelse är svårt att definiera. Kilgarriff påstår till och med att han inte tror på ordbetydelse. Genom att förutbestämma ords betydelse i en ordbok kan man missa andra betydelser som möjligen skulle kunna finnas. 89 Han visar med flera exempel på hur ordet handväska i texter används med fler än de betydelser som återfinns i en ordbok. I en text används handväska i betydelsen vapen. 90 Handväskan används för att slåss med. Med detta betonar Kilgarriff att ett ords betydelse avgörs av hur ordet används i en text. Han menar att ordbetydelse endast existerar om man utgår ifrån ett ords förekomster i en kontext och dessa är tillräckligt många för att forma ett kluster (se kap ) som är distinkt från andra kluster. Om detta är möjligt kan man betrakta klustret som en ordbetydelse Kollokationer Strategier för disambiguering som förlitar sig på manuellt skapade regler producerar en flaskhals för kunskapsförvärvandet och presterar dåligt när de utvärderas i naturligt förekommande text. Ett statistiskt tillvägagångssätt för NLP försöker lösa dessa problem 89 Gaustad 2004, s Kilgarriff, Adam I don t believe in word senses. s. 103f 91 Ibid., s

23 genom automatisk lexikal inlärning och strukturell preferens från korpusen. Det finns mycket information att hämta i ordens relation till varandra, det vill säga ord som tenderar att hamna tillsammans. Sådana kollokationer kan användas för djupare semantisk analys. 92 Ord i sig själva har ingen mening. Borttagna ur en kontext kan de inte referera till världen. Ett ord kan inte vara sant eller falskt. Det är endast tillsammans med andra ord som ord får mening. 93 Kollokationer är fraser där helheten existerar bortom summan av delarna. Ett uttryck som människor ofta upprepar för att de hört någon annan använda det är en god kandidat för en kollokation. Ett ord kan i maskinöversättning (automatisk översättning av text eller tal) få olika betydelser beroende på den kollokation i vilken det förekommer. 94 En kollokation är alltså ett uttryck som består av två eller fler ord som motsvarar något konventionellt sätt att säga saker. Kollokationer har en begränsad komposition. Ett uttryck i naturligt språk är kompositionellt om uttryckets betydelse kan förutsägas av delarnas betydelse Ordklasstaggning Ett av de mest tillämpade sätten att annotera 96 text inom NLP är genom ordklasstaggning. Detta beror på två faktorer, dels att det har forskats mycket inom området och att det går att tagga en stor text automatiskt med relativt hög korrekthet och dels att ordklasstaggning anses vara ett nödvändigt första steg vid syntaktisk uppmärkning av texter. Efter den syntaktiska uppmärkningen kan olika typer av analys av naturligt språk utföras. Ordklasstaggning innebär att varje ord i en sats tilldelas en tagg som talar om ordets ordklass. Taggningsprocessen handlar om att koppla ihop rätt tagg med rätt ord. Taggning uppnår lätt ett medelvärde på % korrekt disambiguerade ord. 97 Green och Rubin beskrev 1971, enligt Kokkinakis, en enkel regelbaserad taggare som byggde på syntagmatisk information (se kap ). Den taggade endast 77 % av orden korrekt och misslyckades med homografer. 98 Kokkinakis skriver om Charniak som 1993 gjorde ett försök med en taggare som både innehöll information om homografa ord och om vilken tagg som var mest frekvent för ett ord. Denna taggare kom lätt upp i 90 % korrekt taggade ord. Detta resultat har senare blivit en baseline, det vill säga en miniminivå för taggare Ordklasstaggning och homografi I början av talet använder de flesta taggare både syntagmatisk information (beskrivningar av sekvenser av taggar) och lexikal information (statistiska data som skall försöka förutse vilken tagg som skall användas för ett visst ord). Homografi är en av de 92 Manning & Schütze 2003, s Jurafsky & Martin 2000, s Manning & Schütze 2003, s. 29 och s Ibid., s Annotation betyder att man gör anteckningar om något. 97 Johansson Kokkinakis, Sofie Disambiguering av homografa ord i Språkbanken med hjälp av Svensk morfologisk databas. Ingår i Gäller stam, suffix och ord: Festskrift till Martin Gellerstam den 15 oktober s Ibid., s Ibid., s

24 aspekter som försvårar ordklasstaggning. En homograf kan ofta tilldelas mer än en ordklasstagg och det problemet löses genom disambiguering och homografseparering. Kontexten kring ett ord kan ofta tala om vilken ordklass ordet tillhör, om inte kontexten är flertydig det vill säga. En flertydig kontext komplicerar disambigueringen ännu mer. I ett språk med många homografer är disambigueringen i ordklasstaggar mycket viktig. 100 Taggning är dock inte oproblematiskt. Ett problem är att nya ord ständigt dyker upp i vokabulären. Då kan man dels ta hjälp av kontexten men ordet självt kan också ge information, genom olika affix. 101 Ett affix är en stavelse som kan läggas till en ordstam. Det kan vara ett prefix och stå före ordstammen eller ett suffix och stå efter ordstammen, till exempel indelning Ordklasstaggarens moduler En ordklasstaggare består av flera delar som kallas moduler. Dessa är en lexikonmodul, en morfologisk 103 modul och en disambigueringsmodul. 104 Principen för lexikonet, som kan skifta i utseende, är att varje ingång (lexem) innehåller ett ord plus ett antal möjliga taggar. Ingången för ett ord innehåller en beskrivning av ordet och information som är kopplad till ordet. Lexikonet kan skapas för hand eller genereras från stora taggade textmängder. Det kan variera i storlek, men det antas att ju större lexikonet är desto bättre chans att ett ord tilldelas rätt tagg. Ord som inte finns i lexikonet, det vill säga ord som är okända, går vidare till den morfologiska analysen. 105 Om lexikonet bara innehåller grundformen av ett ord kan en morfologisk analys spåra böjningar, ändelser och pluralformer och på så vis hitta den rätta ordklasstaggen. Eftersom homografin är stor i svenskan kan detta vara svårare för svenska språket än för många andra språk. Ändelserna identifieras genom en enkel mönstermatchning i den morfologiska analysen. De ord som inte kan härledas till en grundform och som ofta hör ihop med ett annat ord för att bilda ett uttryck kallas ej nedbrytbara ord. Exempel på sådana är i samband med (orden bildar tillsammans en preposition) och i dag (adverb). Dessa uttryck har ofta speciella regler i lexikonet och grupperas och taggas med hjälp av dem. 106 Många ord har efter dessa två steg fått flera taggar och nu skall homograferna disambigueras. Varje ord skall i fortsättningen endast ha en tagg. En matris kan skapas till exempel genom användningen av en korpus. Matrisen använder en probabilitet för att beskriva hur troligt det är att en tagg följs av en annan Johansson Kokkinakis 2001, s Brill, Eric Part-of-speech tagging. Ingår i Dale, Robert, Moisl, Herman, Somers, Harold, eds. Handbook of natural language processing. s. 403ff 102 Malmström 2002, s Morfologi redogör för ordens struktur, det vill säga böjning och ordbildning. 104 Johansson Kokkinakis 2001, s Johansson Kokkinakis 2001, s Ibid., s Ibid., s. 182f 24

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

FTEA12:2 Filosofisk metod. Att värdera argumentation I

FTEA12:2 Filosofisk metod. Att värdera argumentation I FTEA12:2 Filosofisk metod Att värdera argumentation I Dagens upplägg 1. Några generella saker att tänka på vid utvärdering av argument. 2. Grundläggande språkfilosofi. 3. Specifika problem vid utvärdering:

Läs mer

Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys

Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:82 Automatisk query expansion En komparativ studie av olika strategier för termklustring

Läs mer

Grafisk visualisering av en spårbarhetslösning

Grafisk visualisering av en spårbarhetslösning Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier:

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier: FTEA12:2 Föreläsning 3 Att värdera en argumentation I: Vad vi hittills har gjort: beaktat argumentet ur ett mer formellt perspektiv. Vi har funnit att ett argument kan vara deduktivt eller induktivt, att

Läs mer

Passage Retrieval En studie av index

Passage Retrieval En studie av index MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:36 ISSN 1404-0891 Passage Retrieval En studie av index LARS BJÖRKLUND LINDA BÄCKMAN

Läs mer

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2003:124 Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

En komparativ litteraturstudie av olika termkällor för query expansion

En komparativ litteraturstudie av olika termkällor för query expansion MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:80 ISSN 1404-0891 En komparativ litteraturstudie av olika termkällor för query

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Semantik. Semantik och språkteknologi

Semantik. Semantik och språkteknologi Semantik Semantik studiet av innebörd(mening) Går tillbaka till Platon (dialogen Kratylos) Relationen språk verklighet Betydelsen av ett ord är dess användning i språket (Wittgenstein) Semantik och språkteknologi

Läs mer

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:76 ISSN 1404-0891 Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

Föreläsning 3.1: Datastrukturer, en översikt

Föreläsning 3.1: Datastrukturer, en översikt Föreläsning.: Datastrukturer, en översikt Hittills har vi i kursen lagt mycket fokus på algoritmiskt tänkande. Vi har inte egentligen ägna så mycket uppmärksamhet åt det andra som datorprogram också består,

Läs mer

Tankar om språkundervisning

Tankar om språkundervisning in Lingua Nr 1, 1983.. 1 Tankar om språkundervisning Jens Allwood, Inst. för lingvistik, Göteborg universitet Om man funderar över undervisning inom något visst område, är det naturligt att ta sin utgångspunkt

Läs mer

Individuellt fördjupningsarbete

Individuellt fördjupningsarbete Individuellt fördjupningsarbete Ett individuellt fördjupningsarbete kommer pågå under hela andra delen av kursen, v. 14-23. Fördjupningsarbetet kommer genomföras i form av en mindre studie som presenteras

Läs mer

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Om SVOX AG Jag gjorde min praktik på företaget SVOX AG, ett företag som bygger och sysslar med TTSmotorer. Företaget bildades våren 2000 och har

Läs mer

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1 Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper

Läs mer

Automatisk tesauruskonstruktion med latent semantisk indexering

Automatisk tesauruskonstruktion med latent semantisk indexering MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:40 ISSN 1404-0891 Automatisk tesauruskonstruktion med latent semantisk indexering

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Rocchio, Ide, Okapi och BIM En komparativ studie av fyra metoder för relevance feedback

Rocchio, Ide, Okapi och BIM En komparativ studie av fyra metoder för relevance feedback MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2008:45 ISSN 1654-0247 Rocchio, Ide, Okapi och BIM En komparativ studie

Läs mer

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar Sjuksköterskeprogrammet T3 Maj 2015 Camilla Persson camilla.persson@umu.se Idag tittar vi på: Repetition av sökprocessen: förberedelser

Läs mer

Expansion av sökfrågor med Svenskt OrdNät som termkälla

Expansion av sökfrågor med Svenskt OrdNät som termkälla MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:38 ISSN 1404-0891 Expansion av sökfrågor med Svenskt OrdNät som termkälla SUSANNA

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality Lathund till PEP Databasen PEP (Psychoanalytic Electronic Publishing) innehåller 59 tidskrifter och 96 klassiska böcker inom psykoanalys. Dessutom innehåller PEP fulltext och redaktörskommentarer till

Läs mer

En nybörjarkurs i kritiskt tänkande

En nybörjarkurs i kritiskt tänkande En nybörjarkurs i kritiskt tänkande Jesper Jerkert Andreas Anundi & CJ Åkerberg: Skeptikerskolan. Handbok i kritiskt tänkande. Stockholm: Forum, 2010, 226 s. ISBN 978-91-37-13588-5. Andreas Anundi och

Läs mer

Query expansion med semantiskt relaterade termer

Query expansion med semantiskt relaterade termer MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:84 Query expansion med semantiskt relaterade termer Sofia Höglund Sofia Höglund

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Att designa en vetenskaplig studie

Att designa en vetenskaplig studie Att designa en vetenskaplig studie B-uppsats i hållbar utveckling Jakob Grandin våren 2015 @ CEMUS www.cemusstudent.se Vetenskap (lågtyska wetenskap, egentligen kännedom, kunskap ), organiserad kunskap;

Läs mer

Lingvistik. introduktion. Dolores Meden. Dolores Meden 2009-12-11 1

Lingvistik. introduktion. Dolores Meden. Dolores Meden 2009-12-11 1 Lingvistik introduktion Dolores Meden Dolores Meden 2009-12-11 1 Innehållsförteckning 1. Inledning 2 Vad är språk? 3. Världens språk 4. Skriften 5. Hur studerar man språk? Dolores Meden 2009-12-11 2 1.

Läs mer

Återkoppling att få gruppen att arbeta. Ann-Marie Falk Irene Karlsson-Elfgren Örjan Östman

Återkoppling att få gruppen att arbeta. Ann-Marie Falk Irene Karlsson-Elfgren Örjan Östman Återkoppling att få gruppen att arbeta Ann-Marie Falk Irene Karlsson-Elfgren Örjan Östman Grupparbete inom kursen Aktiva studenter i grupparbeten våren 2007 Inledning I denna rapport beskriver vi återkoppling

Läs mer

BARNS SPRÅKUTVECKLING

BARNS SPRÅKUTVECKLING BARNS SPRÅKUTVECKLING BARNS SPRÅKUTVECKLING Hur lär sig barn sitt språk? Vad skiljer barns språkutveckling från vuxnas språkinlärning? Hur kan vi forska om barns språkutveckling? Vad säger språkutvecklingen

Läs mer

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

TDDB96 Projekt: Object priming med visuell stimuli

TDDB96 Projekt: Object priming med visuell stimuli TDDB96 Projekt: Object priming med visuell stimuli Daniel Johansson danjo133@student.liu.se Rickard Jonsson ricjo400@student.liu.se 1. Sammanfattning Vad vi ville komma fram till i denna studie var huruvida

Läs mer

Betydelse och betydelse

Betydelse och betydelse Betydelse och betydelse Ordbetydelsedisambiguering i praktiken Stian Rødven Eide stian@fripost.org Självständigt arbete i lingvistik, 15 hp Göteborgs universitet Institutionen för filosofi, lingvistik

Läs mer

Lathund till Academic Search Complete

Lathund till Academic Search Complete Lathund till Academic Search Complete Academic Search Complete är en databas som bl.a. innehåller samhällsvetenskap, humaniora, pedagogik, omvårdnad och medicin. Databasen innehåller mer än 8 500 tidskrifter

Läs mer

Lathund till Nursing & Allied Health Source

Lathund till Nursing & Allied Health Source Lathund till Nursing & Allied Health Source Databasen Nursing & Allied Health Source riktar sig såväl till forskare och studenter på högskolor/universitet som till forskare aktiva inom klinisk verksamhet.

Läs mer

Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter

Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Datavetenskap Opponenter: Daniel Jansson Mikael Jansson Respondenter: Mats Almgren Erik Hansen Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Oppositionsrapport,

Läs mer

Välkommen till Övertygande Kommunikation

Välkommen till Övertygande Kommunikation Välkommen till Övertygande Kommunikation Urban Gavelin/Henrik Mannerstråle Hur vår hjärna kodar språket Om man är stark måste man vara snäll Använd vassa vapen med försiktighet För att fungera måste detta

Läs mer

Målet är att ge maskiner förmågan att plocka ut information ur

Målet är att ge maskiner förmågan att plocka ut information ur Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:

Läs mer

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)

Läs mer

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007) Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket

Läs mer

- Språk och kön - Hemtentamen i feministisk filosofi HT 2005 Anna Schön

- Språk och kön - Hemtentamen i feministisk filosofi HT 2005 Anna Schön - Språk och kön - Hemtentamen i feministisk filosofi HT 2005 Anna Schön - Språk och kön - - Män, kvinnor och språket - Få ämnen är så svåra att behandla som språket och dess influenser. Detta hävdar jag

Läs mer

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Maia Andréasson, Susanna Karlsson, Erik Magnusson och Sofia Tingsell Att de finita formerna av verbet ha, dvs. har och hade, kan utelämnas när

Läs mer

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig. Mål med Mango Språk Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig. Kunna förstå och använda uttryck såsom idiom, ordpar och ordspråk. Behärska olika strategier

Läs mer

1. Skriv = eller i den tomma rutan, så att det stämmer. Motivera ditt val av tecken.

1. Skriv = eller i den tomma rutan, så att det stämmer. Motivera ditt val av tecken. Modul: Taluppfattning och tals användning. Del 3: Det didaktiska kontraktet Likhetstecknet Ingrid Olsson, fd lärarutbildare Mitthögskolan Läraraktivitet. 1. Skriv = eller i den tomma rutan, så att det

Läs mer

Lilla PubMed-lathunden

Lilla PubMed-lathunden Lilla PubMed-lathunden Om databasen PubMed PubMed är en databas som produceras av National Center for Biotechnology Information (NCBI) vid National Library of Medicine (NLM) i USA. Det är den största databasen

Läs mer

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan. Sökexempel - Hälsovägledare Hälsovägledning med inriktning mot olika folkhälsoproblem som t ex rökning, tips på hur man går tillväga för att göra en datasökning och hur man även kontrollerar om artiklarna

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

(Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet)

(Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet) INSTRUKTIONER FÖR REFERENSHANTERING (Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet) 2012-01-10 Katarina Ayton När du skriver en examination,

Läs mer

Kärlekens språk En analys

Kärlekens språk En analys (publ. i Ottar - boktidningen om sexualitet samlevnad samhälle Nr 3/1988) Kärlekens språk En analys AV JENS ALLWOOD 1 "Det är, åtminstone i de bästa faserna, frågan om en så total och öppen kommunikation

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)

Läs mer

Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10

Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10 Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10 Maria Björklund (Bibliotek & IKT) & Fredrik von Wowern (Kursansvariga termin 10), reviderad 2014-06-30 Introduktion till

Läs mer

Mönster. Ulf Cederling Växjö University Ulf.Cederling@msi.vxu.se http://www.msi.vxu.se/~ulfce. Slide 1

Mönster. Ulf Cederling Växjö University Ulf.Cederling@msi.vxu.se http://www.msi.vxu.se/~ulfce. Slide 1 Mönster Ulf Cederling Växjö University UlfCederling@msivxuse http://wwwmsivxuse/~ulfce Slide 1 Beskrivningsmall Beskrivningsmallen är inspirerad av den som användes på AG Communication Systems (AGCS) Linda

Läs mer

Tips för uppsatsskribenter. Examensarbete C 10p, D10p och D20p

Tips för uppsatsskribenter. Examensarbete C 10p, D10p och D20p Institutionen för informationsvetenskap 2007 Data- och systemvetenskap Tips för uppsatsskribenter Examensarbete C 10p, D10p och D20p Av: Anne Håkansson Innehåll 1. PROMEMORIA...3 2. RAPPORT...3 3. TIPS

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen

MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen SELMA MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen 4. SÖK I SELMA 4.1 Allmänt om sökningar 4.2 Valfria sökord 4.2.1 Utökad sökning (högertrunkering) 4.2.2 Kombinerad sökning (boolska operatorer)

Läs mer

1 Skapa Tabell...2. 2 Skapa Relationer...20. 3 Redigera Relationer...24. 4 Redigera Fält i Tabell...26. 5 Lägga till Poster i Tabell...

1 Skapa Tabell...2. 2 Skapa Relationer...20. 3 Redigera Relationer...24. 4 Redigera Fält i Tabell...26. 5 Lägga till Poster i Tabell... Kapitel 5 Tabell 1 Skapa Tabell...2 1.1 Tabellfönstret... 4 1.2 Fältegenskaper... 8 1.3 Primärnyckel... 11 1.4 Spara Tabell... 12 1.5 Tabellguiden... 12 2 Skapa Relationer...20 3 Redigera Relationer...24

Läs mer

Artiklar via UB:s sö ktja nst

Artiklar via UB:s sö ktja nst 1 Artiklar via UB:s sö ktja nst UBs startsida har fått ett nytt utseende. I centrum finns nu UBs söktjänst. Istället för tre sökrutor möts du nu som användare av en sökruta där det är meningen att du kan

Läs mer

Tentamen: Programutveckling ht 2015

Tentamen: Programutveckling ht 2015 Tentamen: Programutveckling ht 2015 Datum: 2015-11-04 Tid: 09:00-13:00 Sal: Ansvarig: Resultat: Hjälpmedel: Maxpoäng: Betygsgränser: Anslås inom 3 veckor. Inga 40 p 20 p för G, 32 p för VG. Iakttag följande:

Läs mer

Capítulo 5, La ciudad V 9-14 Spanska år 8

Capítulo 5, La ciudad V 9-14 Spanska år 8 Capítulo 5, La ciudad V 9-14 Spanska år 8 Varför ska vi arbeta med det här Det vi har på oss talar ofta om vilken slags person vi är. Därför ska du i detta kapitel få läsa om olika klädstilar på spanska.

Läs mer

GRÄNSSNITT, ANVÄNDBARHET OCH SÖKMOTORER ETT EXPERIMENT

GRÄNSSNITT, ANVÄNDBARHET OCH SÖKMOTORER ETT EXPERIMENT MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2003:58 GRÄNSSNITT, ANVÄNDBARHET OCH SÖKMOTORER ETT EXPERIMENT Sara Larsson Författaren/Författarna

Läs mer

ALEPH ver. 16 Sökning

ALEPH ver. 16 Sökning Fujitsu, Westmansgatan 47, 582 16 Linköping INNEHÅLLSFÖRTECKNING 1. INLEDNING... 1 2. SÖK... 1 2.1 Avancerad sökning... 2 2.2 CCL flera databaser... 2 2.3 Flera fält... 3 2.4 Regler för sökning... 4 2.5

Läs mer

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen LINKÖPINGS UNIVERSITET Institutionen för Datavetenskap Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen Namn E-mail Evelina Rennes evere305@student.liu.se INNEHÅLL INNEHÅLL

Läs mer

Viktigt att tänka på i en intervju och de vanligaste fallgroparna. som intervjuar. Ett kostnadsfritt whitepaper utgivet av Level Recruitment

Viktigt att tänka på i en intervju och de vanligaste fallgroparna. som intervjuar. Ett kostnadsfritt whitepaper utgivet av Level Recruitment Viktigt att tänka på i en intervju och de vanligaste fallgroparna för dig som intervjuar Ett kostnadsfritt whitepaper utgivet av Level Recruitment Level Recruitment AB - 2015 Viktigt att tänka på i en

Läs mer

BASKET FÖR UNGA SPELARE

BASKET FÖR UNGA SPELARE 106 BASKET FÖR UNGA SPELARE 4 COACHEN PÅ TRÄNING 107 Coachen på träning Jose María Buceta Konstruktiv attityd Att leda övningar Använda förebilder Instruktioner och kommentarer Frågor och påminnelser Att

Läs mer

Vetenskapligt skrivande Ann-Charlotte Smedler 2009

Vetenskapligt skrivande Ann-Charlotte Smedler 2009 Några tips om Vetenskapligt skrivande Ann-Charlotte Smedler 2009 1 En god vetenskapligt text karaktersieras av bra forskning som är korrekt återgiven i en logiskt disponerad framställning med klara resonemang

Läs mer

Concept Selection Chaper 7

Concept Selection Chaper 7 Akademin för Innovation, Design och Teknik Concept Selection Chaper 7 KPP306 Produkt och processutveckling Grupp 2 Johannes Carlem Daniel Nordin Tommie Olsson 2012 02 28 Handledare: Rolf Lövgren Inledning

Läs mer

SLALOMINGÅNGAR hur svårt kan det vara?

SLALOMINGÅNGAR hur svårt kan det vara? SLALOMINGÅNGAR hur svårt kan det vara? Av Marie Hansson Ju mer man börjar tänka på vad en slalomingång innebär, desto mer komplicerat blir det! Det är inte lite vi begär att hundarna ska lära sig och hålla

Läs mer

Ett barns interaktion på två språk

Ett barns interaktion på två språk lektiot Ett barns interaktion på två språk En studie i språkval och kodväxling RAIJA BERGLUND Inledningsföredrag i samband med disputation den 6 juni 2008 vid humanistiska fakulteten vid Vasa universitet

Läs mer

Stina Nyman 2012-09-16

Stina Nyman 2012-09-16 LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem

Läs mer

Auktorisation som tolk

Auktorisation som tolk PROVSPECIFIKATION Auktorisation som tolk Prov i allmän språkfärdighet Sid 2 (6) 2014-04-24 Prov i språkfärdighet För att kunna bli auktoriserad som tolk krävs bland annat att man ska behärska svenska och

Läs mer

MA 1202 Matematik B Mål som deltagarna skall ha uppnått efter avslutad kurs.

MA 1202 Matematik B Mål som deltagarna skall ha uppnått efter avslutad kurs. MA 202 Matematik B Mål som deltagarna skall ha uppnått efter avslutad kurs. Deltagaren skall kunna formulera, analysera och lösa matematiska problem av betydelse för tillämpningar och vald studieinriktning

Läs mer

Sekretessmeddelande Kelly Services AB Innehåll

Sekretessmeddelande Kelly Services AB Innehåll Sekretessmeddelande Kelly Services AB Innehåll Vår sekretessöverenskommelse Vilken typ av personliga uppgifter som vi samlar in Med vilka vi delar informationen? Val: Tackar Nej/Tackar Ja Noggrannhet och

Läs mer

Sänka schackskepp. Författare: Martin Borg. Examinatorer: Jesper Hall Lars Holmstrand Pesach Laksman. Lärande och samhälle

Sänka schackskepp. Författare: Martin Borg. Examinatorer: Jesper Hall Lars Holmstrand Pesach Laksman. Lärande och samhälle Lärande och samhälle Schack som pedagogiskt verktyg Sänka schackskepp Författare: Martin Borg Examinatorer: Jesper Hall Lars Holmstrand Pesach Laksman Inledning. Jag har valt att testa och utveckla det

Läs mer

Lokal Pedagogisk Planering

Lokal Pedagogisk Planering Skolområde Väster Lokal Pedagogisk Planering Enhet / skola: Lindens skola i Lanna Åk: 2 Avsnitt / arbetsområde: Tema: Undersöka med Hedvig Ämnen som ingår: Svenska/svenska som andraspråk, matematik, bild,

Läs mer

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är

Läs mer

1) Introduktion. Jonas Aspelin

1) Introduktion. Jonas Aspelin 1) Introduktion Jonas Aspelin Uttrycket relationell förekommer i många sammanhang. Man talar till exempel om relationell psykoterapi, relationell estetik, relationell sociologi och relationell psykologi.

Läs mer

Språket, individen och samhället VT08

Språket, individen och samhället VT08 Språket, individen och samhället VT08 Barns och vuxnas andraspråksinlärning Tvåspråkighet, kognition, m.m. Ellen Breitholtz 1. Barns och vuxnas andraspråksinlärning Vem är bäst? Vem är bäst på att lära

Läs mer

Informationssökning inför uppsatsen

Informationssökning inför uppsatsen Informationssökning inför uppsatsen Vetenskapliga förhållningssätt, 2010-05-19 Anna Prymka, Högskolebiblioteket 1 Vi har två timmar för: Informationskompetens ett komplext begrepp Vetenskaplig information

Läs mer

SVA 3.18 SVENSKA SOM ANDRASPRÅK. Syfte

SVA 3.18 SVENSKA SOM ANDRASPRÅK. Syfte 3.18 SVENSKA SOM ANDRASPRÅK Språk är människans främsta redskap för att tänka, kommunicera och lära. Genom språket utvecklar människor sin identitet, uttrycker känslor och tankar och förstår hur andra

Läs mer

SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG 2006-04-27 LIU-KOGVET-D--06/05--SE

SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG 2006-04-27 LIU-KOGVET-D--06/05--SE SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG 2006-04-27 LIU-KOGVET-D--06/05--SE SÖKFRASANALYS PÅ GULA SIDORNA MAGISTERUPPSATS I KOGNITIONSVETENSKAP SANNA ÅSBERG 2006-04-27 Institutionen för Datavetenskap,

Läs mer

Skriftlig kommunikation. Att väcka och behålla läsarnas intresse

Skriftlig kommunikation. Att väcka och behålla läsarnas intresse Skriftlig kommunikation Att väcka och behålla läsarnas intresse Verktyg för skrivande! Innehåll! Språk! Struktur! Layout! Vetenskaplighet Innehåll! Det som ska förmedlas! Vad efterfrågas?! Vad förväntas?!

Läs mer

Kommentarmaterial, Skolverket 1997

Kommentarmaterial, Skolverket 1997 Att utveckla förstf rståelse för f r hela tal Kommentarmaterial, Skolverket 1997 Att lära sig matematik handlar om att se sammanhang och att kunna föra logiska resonemang genom att känna igen, granska

Läs mer

Semantiska relationer. Hanna Seppälä Uppsala universitet 1

Semantiska relationer. Hanna Seppälä Uppsala universitet 1 Semantiska relationer Föreläsning 6 Uppsala universitet 1 Teman idag Lexikal semantik Kollokation och idiom Ambiguitet och vaghet Semantiska relationer mellan ord Lexikala universalier Uppsala universitet

Läs mer

Digitalt lärande och programmering i klassrummet

Digitalt lärande och programmering i klassrummet Digitalt lärande och programmering i klassrummet Innehåll Programmering Vad är programmering och varför behövs det? Argument för (och emot) programmering Kort introduktion om programmering Några grundbegrepp

Läs mer

Quine. Det förekommer två versioner av kritiken mot analyticitet i Quines artikel.

Quine. Det förekommer två versioner av kritiken mot analyticitet i Quines artikel. Quine Den intuitiva betydelsen av analytiskt sann sats är sats som är sann enbart i kraft av sin mening. Dessa brukar ställas mot syntetiskt sanna satser som är sanna inte enbart som ett resultat av vad

Läs mer

Språkliga uttrycks mening

Språkliga uttrycks mening Språkliga uttrycks mening Mysteriet med mening består i att den inte tycks ha någon lokalisering inte i världen, inte i medvetandet, inte i ett separat begrepp eller någon idé som svävar mellan ordet medvetandet

Läs mer

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation Innehåll Föreläsning 11 Trie Sökträd Trie och Sökträd 356 357 Trie Ytterligare en variant av träd. Vi har tidigare sett: Oordnat träd där barnen till en nod bildar en mängd Ordnat träd där barnen till

Läs mer

Svenska webbaserade nyhetssöktjänster En utvärdering av Yahoo! Nyheter och Sesams återvinningseffektivitet

Svenska webbaserade nyhetssöktjänster En utvärdering av Yahoo! Nyheter och Sesams återvinningseffektivitet MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2007:120 ISSN 1654-0247 Svenska webbaserade nyhetssöktjänster En utvärdering

Läs mer

Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt

Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt Linköpings universitet Grundskollärarprogrammet, 1-7 Linda Irebrink Skolmiljö och stress Ett arbete om hur lärare och elever upplever skolmiljön med stress som utgångspunkt Examensarbete 10 poäng Handledare:

Läs mer

Tillförlitlighetsaspekter på bedömningsinstrument Sammanfattning från workshop den 22 april 2002

Tillförlitlighetsaspekter på bedömningsinstrument Sammanfattning från workshop den 22 april 2002 Projektet Systematiska bedömningsinstrument är en del av Nationellt stöd för kunskapsutveckling inom socialtjänsten. Tillförlitlighetsaspekter på bedömningsinstrument Sammanfattning från workshop den 22

Läs mer

En handledning för studerande på Högskolan Kristianstad

En handledning för studerande på Högskolan Kristianstad Använda kurskonferenser i FirstClass En handledning för studerande på Åsa Kronkvist, augusti 2005 Innehåll Introduktion...3 Webbklient eller FirstClassklient?...3 Allt ligger online...3 Hitta rätt...4

Läs mer