Word- sense disambiguation

KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013

Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation, alltså ett ord vars lexikala betydelse bestäms utifrån kontexten. Den första metoden som behandlas är handskrivna regler. Där vi tittar på två tillvägagångssätt, dels ord som förekommer i närheten av en viss klass samt ordklassregler som matchar grammatiken för en klass. Den andra metoden är TBL vilket är en maskininlärningsalgoritm. Vilken går ut på att man får tagga upp träningsdata med Part- of- Speech- taggar samt klassificera de ord som ska undersökas i förväg. Vi fick i vår utvärdering att de handskrivna reglerna presterade bättre. Dock har vi ett antal felkällor som påverkar detta resultat, bland annat att vi hade en begränsad mängd träningsdata. Ju större mängd träningsdata desto fler regler kan hittas och få bättre resultat. Dock krävdes det en mindre insats att hitta regler och så vidare för maskininlärningsmetoden och är mer generell än de handskrivna reglerna som är väldigt specifika just för det ord som vi valde att undersöka. 2

Innehållsförteckning Sammanfattning... 2 1. Inledning... 4 2. Teori... 4 2.1 Bag- of- Words... 4 2.2 TBL... 4 3. Metod... 5 3.0.1 Träningsdata... 6 3.0.2 Testdata... 6 3.1 Handskrivna regler... 6 3.1.1 Ordregler... 6 3.1.2 Ordklassreglerna... 7 3.1.3 Programmet... 8 3.2 Maskininlärning... 9 3.2.1 Förändringar i labb 5... 9 3.2.2 Ordregler... 9 3.2.3 Ordklassregler... 9 4. Resultat... 9 4.1 Handskrivna regler... 9 4.1.1 Antal regler... 10 4.1.2 Fönsterstorlek för ordregler... 10 4.1.3 Poängsystem... 10 4.2 Maskininlärning... 10 4.2.1 Fönsterstorlek för ordregler... 10 4.2.2 Positioner för ordklassregler... 11 5. Diskussion... 11 6. Slutsats... 11 Referenser... 12 3

1. Inledning Inom språkteknologin är word- sense disambiguation, WSD, ett känt problem som handlar om att identifiera ett ords lexikala betydelse i ett visst sammanhang. Svenskan består av många ord som stavas likadant, men beroende på kontexten har helt olika betydelser (homonymer samt homografer). Det finns många exempel, ett exempel är ordet fluga. Fluga kan syfta på en insekt, ett klädesplagg, ett fiskedrag eller en kortlivad trend. För en människa är det oftast lätt att avgöra rätt betydelse, men för en dator behövs metoder för att kunna avgöra. Det finns flera olika metoder som kan användas, men i denna rapport kommer handskrivna regler samt med hjälp av maskininlärning att undersökas och jämföras [1]. 2. Teori 2.1 Bag-of-Words Bag- of- words är ett angreppssätt som tar hänsyn till information om grannorden till ordet som ska undersökas (huvudordet). Med en bag- of- words menas ett oordnat set av ord, då den exakta positionen till huvudordet är ignorerat. Det enklaste bag- of- words- angreppssättet går ut på att ha en vektor som innehåller ord som är kopplade till huvudordet samt en binär vektor som indikerar om något av orden förekommit eller inte i sammanhanget. Ord som stoppord brukar sällan användas, utan ord som frekvent förekommer i samband med huvudordet används. Omfattningen av hur många ord före och efter huvudordet bestäms ofta av ett fönster. Fönsterstorleken kan sedan ställas in beroende hur många kringliggande ord som önskas. I figur 2.1 är fönsterstorleken 6, 3 ord framför och 3 ord bakom huvudordet som i detta fall är det tvetydiga ordet fil [2]. Figur 2.1 Ett fönster då fönsterstorlek är 6 samt huvudordet är det tvetydiga ordet fil. 2.2 TBL Transformation- based learning (TBL) är en metod som använder sig av regelinduktion där man försöker hitta transformationsregler som gör klassificeringen bättre. TBL får som indata ett antal regelmallar samt en mängd meningar för att hitta transformationsregler som utgår från mallarna och passar för de meningarna i träningsdatan. Dessa mallar beskriver vilken egenskap för ordet som regeln ska ta hänsyn till och vilken position utifrån det ord som ska klassificeras. De egenskaper man kan titta på är dels ordet, dels PoS- taggningen samt vilken gissning som gjorts. I träningsdatan finns meningar som innehåller ordet fil, samt PoS- taggningen för orden. Utifrån regelmallarna som TBL fick i indata skapas transformationsregler, transformationreglerna ordnas så att de transformationsregler som byter flest till korrekt klass får högst prioritet och appliceras därför sist. De appliceras sist eftersom transformationsregler kan skriva över varandra. Vi 4

får alltså en fil med transformationsregler som vi sedan applicerar på testdata. En positiv aspekt på denna typ av maskininlärning är att man kan använda sig av weakly supervised learning. I supervised learning får programmet veta alla korrekta svar, medan i weakly supervised learning behöver man inte ge alla korrekta svar. Det är dock svårt att utnyttja detta i vårt fall då vi tittar på WSD, alltså ord som stavas likadant och vars betydelse är beroende av kontexten [1, 2]. 3. Metod För att försöka lösa WSD- problemet har två metoder används i denna undersökning; med hjälp av handskrivna regler samt med hjälp av maskinlärning. Den första avgränsningen som gjordes var att begränsa sig till endast ett tvetydigt ord som skulle undersökas, ordet fil valdes. Ordet fil har framförallt fyra olika betydelser beroende på kontext: Dokument på datorn Syrad mjölprodukt Trafikfil för fordon Verktyg för att släta till ytor Målet var att skapa två program som skulle kunna bestämma den lexikala betydelsen för varje förekomst av ordet fil. Till dessa program skapade vi träningsdata samt testdata. Datan består av meningar där ordet fil förekom en gång i varje mening. Varje rad i dessa datafiler motsvarar ett ord i meningen då själv ordet fås, ordklasstaggnigen samt om ordet är fil står den korrekta lexikala klassificeringen. Hur en sådan datafil ser ut, kan ses i figur 3.1 Figur 3.1 Datafilens utseende. Ordklasstagningen för varje ord har fåtts genom att använda programmet Granska som är skapat av Viggo Kann 1. 1 http://skrutten.nada.kth.se/granska/scrutinizer-rules-demo.html 5

3.0.1 Träningsdata Träningsdatan består av 400 meningar, det är 50 meningar av varje klass av ordet fil. Dessa meningar är tagna från olika sidor på internet. Utifrån träningsdatan har många av de handskrivna reglerna skapats samt att träningsdatan har används för att träna maskininlärningsprogrammet. 3.0.2 Testdata Testdatan består av 40 meningar, det är 10 meningar av varje klass av ordet fil. Dessa meningar är tagna från olika sidor på internet. Testdatan är den data som reglerna ska testas mot, resultatet visar hur bra programmen åstadkommit. 3.1 Handskrivna regler För att undersöka hur väl handskrivna regler fungerar för att bestämma ett ords lexikala betydelse beroende på sammanhang så har ett program skapats. Programmet kan hantera två typer av handskrivna regler: ordregler och ordklassregler. 3.1.1 Ordregler Ordreglerna består av handskrivna ord som ansetts relaterade till ordet fil beroende på vilken klass av fil det handlat om. Då denna undersökning behandlar fyra olika typer av ordet fil så har fyra olika filer skapats med relaterade ord. Filen som användes då det handlade om dokumentfil kan ses i figur 3.2, där varje ord finns i flera böjningar. Figur 3.2 Fil som innehåller ord som är relaterade till ordet fil då det handlar om dokument. I tabell 3.1 kan relaterade ord för alla fil- typerna ses. Dokument Mjölkprodukt Trafik Verktyg bifoga bild data a- fil b- fil bakterie avfart avstånd bil använda arbete billig 6

dator dela dokument film flytta förlora information innehåll inställning kommando konvertera kopiera korrupt kryptera ladda ligga länk läsa manuell mapp musik papperskorg program radera rensa skapa skrivare skrivbord spara stänga säkerhet sök sökbar text viktiga utrymme window återställa återskapa öppna bär fetthalt flingor frukost god hälla hälsa krämig kök laktos laktosfri mage magsäck mejeri mjölk müsli naturell nyttig näring recept servera skål slut smak sur syra tillverka tallrik underbar yoghurt äta äcklig blinka buss fordon höger högerfil kort kö kör körbana körriktning lastbil lång mittfält motor motorväg per riktning rondell skylt taxi trafik tunnel väg vänster vänsterfil åka borr dyr effektiv egg egenskap fila fin flisa form fot grit grov grovlek hand jämn klor kvalité lyft material metall nagel nagelfil pris rasp riktning rätta slö slät tand upprepa vass verktyg verktygsväska äga Tabell 3.1 Alla ord som ansetts relaterade med ordet fil i denna undersökning. Bag- of- words- angreppssättet användes och fönsterstorleken undersöktes för att få högsta möjliga resultat. 3.1.2 Ordklassreglerna Ordklassreglerna tar hänsyn till kringliggande ords ordklass till ordet fil. Reglerna är skrivna så att en viss position från ordet fil undersöks, dess ordklass, beroende på vilken klass av fil det handlat om. Då denna undersökning behandlar fyra olika typer av ordet fil så har fyra olika filer skapats 7

med ordklasser samt position. Filen i figur 3.3 kan ses som ett exempel då det handlade om dokumentfil. Filen avläses enligt följande: ordet som har position 2 efter ordet fil ska vara ett verb, ordet som följer ordet fil ska vara en preposition och ordet innan ordet fil ska vara ett substantiv. Figur 3.3 Exempel på hur en fil kan se ut innehållandes ordklass samt position till ordet fil då det handlar om dokument. I tabell 3.2 är alla ordklasser samt positioner för alla fil- typerna ses. Dokument Mjölkprodukt Trafik Verktyg vb 2 pp 1 kn 1 kn - 1 rg - 1 vb - 1 jj - 1 nn - 1 Tabell 3.2 Ordklasseglerna för alla klasser. 3.1.3 Programmet Vi skrev ett program som hanterar de handskrivna reglerna. Indata till programmet är ordregler, ordklassregler samt tränings- eller testdata. Det finns tre olika sätt att använda reglerna: Endast använda ordreglerna Endast använda ordklassreglerna Använda ordreglerna och ordkassreglerna Oberoende av vilken av dessa tre alternativ som används så skapas fyra olika poängvariabler (en för dokument, mjölkprodukt, trafik samt verktyg). Dessa variabler ökar varje gång en regel matchas och när alla regler gåtts igenom så kommer den poängvaribel som är högst att väljas. Om dokumentpoängvaribeln är högst kommer alltså programmet sätta Dokument som rätt betydelse för ordet fil. När alla regler gåtts igenom så kommer den gissade typen för varje fil att jämföras med den korrekta lexikala betydelsen i varje mening. 8

3.2 Maskininlärning 3.2.1 Förändringar i labb 5 Vi utgick från programmet för den femte laborationen i kursen. Det problem vi fick i laborationen var lite annorlunda mot det problemet som vi ville lösa. Vi gjorde två stora förändringar, den första förändringen var att titta på fil som ord och inte endast en ordklasstaggning. Den andra förändringen var att om vi hittar en lösning på en viss position ska vi även lägga till alla positioner för hela fönsterstorleken. Denna förändring var endast för ord som hittades och inte några ordklassregler då positionen troligtvis har en större betydelse för ordklassreglerna än för enskilda ord. 3.2.2 Ordregler Vi skrev mallarna så att vi tittade endast på ordet på position Y framför och en annan mall för Y bakom. För ordreglerna tittade vi endast på själva ordet, vi tittade alltså varken på ordets PoS- taggning eller vilken gissning ordet har. Vi bestämde oss även för ignorera vilken position ett ord står på. 3.2.3 Ordklassregler Vi använder mallarna för ordklassreglerna i ett speciellt mönster, vi hade tre olika mallar för positionerna. Dels tittade vi framför, bakom och sedan en tredje mall där vi tittade både framför och bakom. Antalet positioner och så vidare kommer vi att behandla mer i resultatdelen då vi optimerade dessa parametrar baserade på de datamängder vi hade att tillgå. 4. Resultat 4.1 Handskrivna regler Det fanns många faktorer som påverkade resultatet, såsom antal regler, fönsterstorlek och poängsystem. Nedan presenteras resultatet i tabell 4.1. Ordklassreglerna gav mycket bättre resultat än ordklassreglerna, detta beror framförallt på att det var få ordklassregler som användes då det var svårt att applicera regler som skulle gälla allmänt. Bäst resultat gav ordregler och ordklassregler kombinerat, som bäst nästan 64% rätt. Ordregler (%) Ordklassregler (%) Kombinerat (%) Träningsdata - Dokument 88,00 24,00 90,00 Träningsdata - Mjölkprodukt 86,00 24,00 86,00 Träningsdata - Trafik 72,00 36,00 86,00 Träningsdata - Verktyg 74,00 30,00 78,00 Testdata 60,98 34,15 63,41 Tabell 4.1 Visar resultatet då de handskrivna reglerna användes och hur många procent rätt som erhölls för respektive. 9

4.1.1 Antal regler Resultatet varierade beroende på hur många regler som applicerades. Till en början ökade resultatet kraftigt för ordet fil då ordregler lades till och testades på just vår träningsdata. Efter en viss punkt så fick vi ingen märkbar skillnad om fler ordregler lades till. Detta beror framförallt på meningarna i träningsdatan och vilka ord som förekommer i de meningarna. Ungefär 35 relaterade ord för varje fil- typ gav bäst resultat. Bäst resultat erhölls när det var få ordklassregler, 2 stycken regler för varje fil- typ. 4.1.2 Fönsterstorlek för ordregler Fönsterstorleken undersöktes och det bästa resultatet ficks då fönsterstorleken var 18, 9 ord framför och 9 ord bakom, vilket i stort sätt fångade upp hela meningen. 4.1.3 Poängsystem Bäst resultat erhölls då ordreglerna vägde dubbelt så mycket som ordklassreglerna, varje gång en ordregel matchades ökade poängvariabeln med 2, medan när en ordklassreglen matchades ökade poängvaribeln med 1. 4.2 Maskininlärning Utifrån resultatet för testdatan i tabell 4.2 nedan kan man utläsa att endast ordregler totalt fick 21,42% korrekta klassificeringar, vilket är lägre än om vi valt att endast svara samma på alla klassificeringar. Det bästa resultatet på 42,86% är bättre, men är inte på samma nivå som för handskrivna regler. Vidare kan vi se att när vi kombinerar ordregler och ordklassregler får vi ett sämre resultat. Detta beror på att regler skriver över varandra, exempelvis att ordregler som har en högre prioritet ändrar en korrekt gissning till en inkorrekt gissning. Ordregler (%) Ordklassregler (%) Kombinerat (%) Dokument 27,27 45,45 45,45 Mjölkprodukt 0 54,54 18,18 Trafik 9 9 27,27 Verktyg 55,56 66,67 22,22 Totalt 21,42 42,86 28,6 Tabell 4.2 Visar resultatet för testdata då maskininlärning användes och hur många procent rätt som erhölls för respektive. 4.2.1 Fönsterstorlek för ordregler Vi valde att titta på 9 ord före och 9 ord efter, därför att vi ville få med alla i ord i meningen, vilket också gav det bästa resultatet. Står ord längre bort än 9 ord så kan det vara troligt att dessa ord inte har direkt betydelse till vilken klass huvudordet ska tillhöra. För träningsdatan såg vi inte några skillnader mellan 6 och 9 ord. 10

4.2.2 Positioner för ordklassregler Vi fick bäst resultat då vi tittade på 3 taggar framför och bakom. Tittade vi på fler antal taggar framför eller bakom fick vi ett sämre resultat. 5. Diskussion Utifrån vår undersökning gav de handskrivna reglerna bättre resultat (64%) jämfört med TBL (43%). Detta beror troligtvis på att vi hade för lite träningsdata, då vi endast hade 400 meningar. Vid mer träningsdata borde vi få ett bättre resultat, eftersom vi då kommer få en generellare regeluppsättning. Därmed kommer vi att kunna klassificera fler antal meningar, och få ett bättre resultat. Jämför man med laborationens träningsdata som hade 943 förekomster av namn så är det ungefär 2,5 gånger så många träningspunkter. Då vi inte hade ett verktyg för att skapa tränings- och testdatan så var det väldigt tidskrävande att skapa datan, vilket resulterade i lite träningsdata. Hade mer tid funnits så hade ett verktyg som hittar meningar samt taggar texten varit ett alternativ som hade förenklat processen att skapa data. En förbättring vi kunde ha gjort gällande tränings- och testdatan var att använda k- folds. Vilket skulle innebära att vi delade upp datan i set, därefter använda alla set förutom ett som träningdata och därefter använda sista setet som testdata och upprepa tills dess att alla set har används som testdata. 6. Slutsats För att applicera dessa metoder på ett annat tvetydigt ord så är TBL ett bättre alternativ. Då det inte ändras mycket i programmet, det enda som behöver ändras är de ord som man ska titta på. För de handskrivna reglerna däremot måste vi göra om allting. Eftersom det är väldigt specifika ord för varje ordregel som tillhör ett huvudord. Däremot kan vi återanvända programmet som vi skrev för att utvärdera ordreglerna samt ordklassreglerna. Slutsatsen är den att om vi har ett specifikt ändamål, så är det mindre tidskrävande att få ett bra resultat om handskrivna regler används. Däremot är TBL en mer generell lösning då mindre ändring behöver göras då man ska klassificera flera tvetydiga ord. 11

Referenser [1] Jurafsky & Martin. Speech and language processing An Introduction To Natural Language Processing, Computational Linguistics and Speech Recognition. Pearson Education, 2009. [2] Boye, Johan. KTH. Föreläsning i Språkteknologi, DD2418. Maskininlärning i språkteknologiska applikationer, 2012-11- 01. 12