Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer

Relevanta dokument
Word- sense disambiguation

Grammatik för språkteknologer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Grundläggande textanalys. Joakim Nivre

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Lingvistiskt uppmärkt text

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Kungliga Tekniska Högskolan Patrik Dallmann

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Språkteknologi och Open Source

Bootstrapping för substantivtaggning

Grammatik för språkteknologer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Tekniker för storskalig parsning

Tekniker för storskalig parsning

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Obesvarade frågor från F1

Obesvarade frågor från F4

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Dependensregler - Lathund

Introduktion till språkteknologi. Datorstöd för språkgranskning

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Pre-editering och maskinöversättning. Convertus AB

Svensk minigrammatik

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Mälardalens högskola

Inlämningsuppgift: Pronomenidentifierare

Statistisk grammatikgranskning

Lingvistiska grundbegrepp

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Ontologier. Cassandra Svensson

Betydelse och betydelse

SUBSTANTIV = namn på saker, personer, känslor

Svenskans struktur, 7,5 hp Tentamensexempel 1

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Grammatik för språkteknologer

Partiell parsning Parsning som sökning

Tekniker för storskalig parsning

Neurolingvistik - Grammatik

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Semantik och pragmatik

Svensk grammatik Ordklasser!

Svårigheter med kurslitteraturen

Tentamen Marco Kuhlmann

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Satslära introduktion

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Kort presentation av Korp, Sveriges nationalkorpus

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korp. Övningar Språkbankens höstworkshop oktober 2016

Artighetsmarkörer? Om förstås och andra självklarhetsadverb

Språkteknologi. Språkteknologi

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Korpuslingvistik vt 2007

ORDKLASSERNA I. Ett sätt att sortera våra ord

Grundläggande syntaktiska funktioner och roller

grammatik Ordklasser, nominalfraser, substantiv

Lexikon: ordbildning och lexikalisering

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Ordklasser och satsdelar

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Ordförråd och Ordbildning

Semantik och pragmatik

Vad kan statistik avslöja om svenska sammansättningar?

Arbetsplan i Thailändska

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser

LINKOPINGS UNIVERSITET, KOGNITIONSVETENSKAP 1. Analys av primacy- och recencyeffekter för falska minnen

Fraser, huvuden och bestämningar

Grundläggande textanalys, VT2013

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Maskinöversättning möjligheter och gränser

Grammatifix Svensk grammatikkontroll i MS Word

2D1418, Språkteknologi

FUZZY LOGIC. Christopher Palm chrpa087

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli?

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpuslingvistik vt 2007

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Gul utanpå ORDLISTA PATRIK LUNDBERG ARBETSMATERIAL FÖR LÄSAREN

Word sense disambiguation med Svenskt OrdNät

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Transkript:

Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer Natalia Zinovjeva Språkgranskningsverktyg, HT 2005 1. Inledning Ord som liknar varandra uttalsmässigt eller betydelsemässigt utan att vara synonymer tenderar ibland att förväxlas med varandra och utgör ett särskilt problem för inlärare av främmande språk. Det rör sig ofta om paronymer, ord som är besläktade med varandra, uppvisar fonetiska likheter och tillhör samma ordklass, men har olika betydelser. De förtjänar särskild uppmärksamhet eftersom felaktigt val av sådana ord inte kan upptäckas med hjälp av stavnings- och grammatikkontroll. I denna rapport beskrivs ett försök att automatiskt generera regler för identifiering av sådana fel i rysk text. Rapporten är disponerad enligt följande. I nästa avsnitt presenteras paronympar som vi använder som exempelord i våra experiment. Vi förklarar deras betydelser och ger exempel på korrekt användning av dessa ord. Avsnitt 3 beskriver vår metod. Avsnitt 4 ger en kortfattad beskrivning av träningskorpusen och testmaterialet. I avsnitt 5 beskrivs själva experimenten. I avsnitt 6 sammanfattar vi resultaten av experimenten och diskuterar möjligheterna till att utveckla och förbättra metoden. 2. Exempelorden I våra experiment försöker vi automatiskt generera regler som skall detektera felaktig användning av följande paronymiska ordpar 1 : Adjektiven дождливый <dozjdlivyj> och дождевой <dozjdevoj> Båda adjektiven är besläktade med substantivet дождь <dozjd > regn. Det första adjektivet, дождливый, betyder regnig och modifierar i regel substantiv som betecknar tidsperioder, till exempel дождливый день <dozjdlivyj den > regnig dag, дождливый сентябрь <dozjdlivyj sentjabr > regnig september, дождливое лето <dozjdlivoe leto> regnig sommar, samt substantivet погода <pogoda> väder i uttrycket дождливая погода <dozjdlivaja pogoda> regnväder, regnigt väder. Det andra adjektivet, дождевой, modifierar ord som betecknar vatten, moln och nederbörd (дождевая вода <dozjdevaja voda> regnvatten, дождевые капли <dozjdevye kapli> regndroppar, дождевая лужа <dozjdevaja luzja> pöl av regnvatten, дождевое облако 1 Se Beltjikov och Panjusjeva (2004). 1

<dozjdevoe oblako> regnmoln ) samt klädesplagg och föremål som skyddar mot regn (till exempel, дождевой плащ <dozjdevoj plasjtj> regnkappa ). Adjektiven человеческий <tjelovetjeskij> och человечный <tjelovetjnyj> Båda adjektiven är besläktade med substantivet человек <tjelovek>, människa. Det första adjektivet, человеческий <tjelovetjeskij>, kan översättas till svenska som mänskilg, människans, mänsklighetens : человеческая голова <tjelovetjeskaja golova> en människas huvud, человеческий голос <tjelovetjeskij golos> en människas röst, человеческая жизнь <tjelovetjeskaja zjizn > människans liv, человеческий язык <tjelovetjeskij jazyk> männsikans språk. Ordet kan även användas i betydelsen human, godhjärtad, snäll : человеческое отношение <tjelovetjeskoe otnosjenie> human attityd. Det andra adjektivet, человечный, kan endast betyda human, godhjärtad; som visar humana känslor; som är snäll mot sina medmänniskor. Användningen av båda adjektiven kan vara korrekt i vissa sammanhang. Uttrycken человеческое отношение <tjelovetjeskoe otnosjenie> och человечное отношение <tjelovetjnoe otnosjenie> human attityd, human inställning är synonyma. Båda adjektiven kan modifiera substantivet общество <obsjtjestvo> samhälle, civilisation, men de resulterande uttrycken, человеческое общество <tjelovetjeskoe obsjtjestvo> mänskligheten, mänskligt samhälle och человечное общество <tjelovetjnoe obsjtjestvo> humant samhälle har olika betydelser. I många andra kontexter kan man dock endast använda ett av adjektiven. Till exempel kan adjektivet человечный inte modifiera substantiv som betecknar kropp och kroppsdelar, som ноги <nogi> ben, fötter : att säga *человечные ноги <tjelovetjnye nogi> skulle vara ungefär detsamma som att beskriva ben eller fötter som humana. Adjektivet человеческий brukar i regel inte modifiera substantiv som betecknar personer samt vissa andra ord: суд <sud> domstol, приговор <prigovor> dom, рассказ <rasskaz> berättelse. Användningen av ordet человечный är mer korrekt och naturlig i dessa fall. Substantiven воспоминание <vospominanie> och напоминание <napominanie> Orden är besläktade med verbet помнить <pomnit > minnas. Det första substantivet, воспоминание <vospominanie>, betyder minne, det att minnas, det att komma ihåg och används till exempel i uttrycken воспоминание о детстве <vospominanie o detstve> minne av barndomen och воспоминание о путешествии <vospominanie o putesjestvii> minne av resan. I pluralis kan detta substantiv användas i betydelsen memoarer : воспоминания писателя <vospominanija pisatelja> författarens memoarer. Det andra substantivet, напоминание <napominanie>, betyder påminnelse, något som väcker minnen : напоминание о встрече <napominanie o vstretje> påminnelse om en träff. För att inte förväxla dessa ord bör man tänka på att substantivet воспоминание beskriver en mental process (att minnas, att komma ihåg), medan напоминание betecknar ett föremål eller en handling som gör att man kommer ihåg något. 2

Verben вдохнуть <vdoxnut > / вдыхать <vdyxat > och вздохнуть <vzdoxnut > / вздыхать <vzdyxat > 2 Verben är bildade av roten -дох-/-дых- och är besläktade med orden дышать <dysjat > andas och дыхание <dyxanie> andning. 3 Det första verbparet, вдохнуть/вдыхать <vdoxnut /vdyxat >, betyder andas in : вдохнуть холодный воздух <vdoxnut xolodnyj vozdux> andas in kall luft. Verben kan även användas bildligt i betydelsen väcka, få någon känna något : вдохнуть жизнь <vdoxnut' zjizn'> väcka liv (i något eller i någon). Det andra verbparet, вздохнуть/вздыхать <vzdoxnut /vzdyxat >, betyder sucka, pusta ut och kan även användas bildligt i betydelsen ta en rast, ta det lugnt (efter att ha arbetat hårt, efter en resa o dyl.). Verbet вздыхать följt av prepositionen o <o> kan också betyda sakna (någon eller något), längta (efter någon eller något). 3. Metod Regler för detektering av felaktigt val av ord som tenderar att förväxlas med varandra kan med fördel genereras automatiskt. Bland tidigare försök att lösa liknande problem med hjälp av maskininlärning kan man nämna experiment som är beskrivna i Golding och Schabes (1996). I våra experiment använder vi systemet µ-tbl som är utvecklat av T. Lager (1999) och som implementerar algoritmen för transformationsbaserad inlärning, en inlärningsmetod introducerad av E. Brill 4. Systemet µ-tbl genererar transformationsregler givet en annoterad träningskorpus och en uppsättning mallar (templates) som visar hur de färdiga reglerna skall vara formulerade. Regelformatet är flexibelt och gör det möjligt att lära in och tillämpa regler som tar hänsyn till olika typer av information som finns i kontexten. En transformationsregel kan till exempel vara formulerad enligt följande mall: tag:a>b <- wd:c@[-1,-2] En regel som är genererad enligt denna mall ersätter taggen A med taggen B om ett av de två närmaste orden till vänster om det ord som ska disambigueras är C. En mall för regler som ska ta hänsyn till två ord i kontexten kan se ut på följande sätt: tag:a>b <- wd:c@[1] & wd:d@[2] Sådana regler letar efter förekomster av ordet C följt av ordet D till höger om det ord som disambigueras. 2 Skillnaden mellan verben вдохнуть och вдыхать består i att de har olika aspekt. Detsamma gäller skillnaden mellan verben i det andra verbparet, вздохнуть och вздыхать. 3 Variationen о/ы och х/ш i roten är allomorfisk. 4 I Brill 1995, Zinovjeva 1999 och Zinovjeva 2000 ges en detaljerad beskrivning av metoden. 3

Systemet µ-tbl har använts bl a för inlärning av regler för ordklasstaggning (Zinovjeva 1999), lexikal disambiguering (Lager 2000, Zinovjeva 2000, Lager och Zinovjeva 2001) och dialogaktstaggning (Lager och Zinovjeva 1999). Experimenten med lexikal disambiguering (Zinovjeva 2000) visar att det finns fördelar med att granska och modifiera regelsekvensen manuellt i efterhand för att förbättra resultatet. Generering av regler för lexikal disambiguering skiljer sig väsentligt från inlärningen av regler för disambiguering på morfologisk och syntaktisk nivå. Frekvensen hos enskilda lexem är oftast relativt låg jämfört med frekvenserna hos morfologiska former och morfosyntaktiska konstruktioner, vilket gör att även en träningskorpus som är tillräckligt stor för andra ändamål (till exempel träning av ordklasstaggare) kan innehålla för få förekomster av det ord som vi vill disambiguera. 5 Vid lexikal disambiguering måste man dessutom ta hänsyn till andra lexem i kontexten som kan uppvisa en stor variation. Denna uppgift ställer höga krav på träningskorpusen avseende dess storlek och representativitet, och även om man använder träningsdata av hög kvalitet är risken stor att en del regler som lärs in automatiskt blir för generella eller för specifika. Vi kan förvänta oss att liknande problem kan uppstå även vid inlärning av regler för detektering av lexikala fel. Därför kommer vi i våra experiment att granska regler som genereras av systemet och införa ändringar som kan förbättra träffsäkerheten och minska risken för falska larm. 4. Träningsdata och testdata Vår träningsdata består av material från den ryska Nationalkorpusen (Русский национальный корпус) som innehåller över 85 miljoner ord. 6 Varje förekomst av exempelorden i träningskorpusen annoteras automatiskt och representeras på följande sätt: wd(position,ord). fel(felaktigt_lemma, KORREKT_LEMMA, POSITION). där POSITION anger ordets position i texten, ORD är den aktuella ordformen, KORREKT_LEMMA är ordets lemma och FELAKTIGT_LEMMA är lemmat av den paronym som ordet kan förväxlas med. Lemmatiseringen är trivial, eftersom alla våra exempelord är entydiga ur morfologisk synvinkel. Systemets uppgift blir att leta efter ledtrådar som tyder på att det felaktiga ordet inte passar in i kontexten. Som testdata använder vi material från samma korpus. För att testa täckningen (andelen fall där systemet lyckas identifiera felaktigt val av ord genom att tillämpa reglerna) annoterar vi testkorpusen på samma sätt som träningsdatan. 7 För att testa precisionen och se om reglerna genererar några falska larm annoterar vi vår testdata på följande sätt: 5 Undantaget är högfrekventa funktionsord som kan vara vanligare än vissa lågfrekventa böjningsformer och morfosyntaktiska konstruktioner. 6 Se www.ruscorpora.ru för mer information och för att söka i korpusen online. 7 Detta sätt att utvärdera regelsekvenserna har en nackdel: vid automatisk annotering av testkorpusen kan vi inte ta hänsyn till de fall där båda paronymerna passar in i kontexten. Vi måste därför vara beredda på att testet inte blir helt rättvis och att täckningen kan se ut att vara sämre än vad den är. För en bättre utvärdring skulle vi behöva en testkorpus där alla förekomster av ord som intresserar oss är annoterade manuellt med hänsyn till de fall där användningen av båda orden ger semantiskt korrekta meningar. Manuell annotering av testkorpusen skulle dock kräva mer tid. 4

wd(position,ord). fel(korrekt_lemma, KORREKT_LEMMA, POSITION). Vi kommer att räkna antalet fall där systemet försöker ersätta det korrekta ordet med dess paronym för att få en uppfattning om antalet falska larm som reglerna kan ge. 5. Generering, korrigering och test av regelsekvenserna 5.1 Adjektiven дождливый och дождевой De flesta regler som systemet har genererat tar hänsyn till substantiv som adjektiven modifierar, vilket är lätt att förklara: valet av adjektiv i detta fall styrs av huvudordet i nominalfrasen. 8 Adjektivet дождливый byts ut mot дождевой om det förekommer bredvid substantiven капли nominativ eller ackusativ pluralis eller genitiv singilaris av капля <kaplja> dropp, воду ackusativ av вода <voda> vatten, облако <oblako> moln, луже dativ eller lokativ av лужа <luzja> pöl : fel:дождливый>дождевой <- wd:капли@[1,-1] fel:дождливый>дождевой <- wd:воду@[1,-1] fel:дождливый>дождевой <- wd:облако@[1,2] fel:дождливый>дождевой <- wd:луже@[1] Adjektivet дождевой byts ut mot дождливый om ord som день <den > dag, ночи genitiv, dativ eller lokativ singularis eller nominativ eller ackusativ pluralis av ночь <notj > natt, вечер <vetjer> kväll, погоде dativ eller lokativ av погода <pogoda> väder förekommer i den närmaste kontexten: fel:дождевой>дождливый <- wd:день@[1,2] fel:дождевой>дождливый <- wd:'ночи'@[1,2] fel:дождевой>дождливый <- wd:'вечер'@[1] fel:дождевой>дождливый <- wd:погоде@[1] Följande regel byter ut adjektivet дождливый mot дождевой om det första ordet till höger är червя genitiv eller ackusativ av червь <tjerv > mask: fel:дождливый>дождевой <- wd:'червя'@[1] Regeln korrigerar felet i uttrycket дождевой червь <dozjdevoj tjerv > daggmask. Till de regler som skapar en risk för falska larm utan att göra någon nytta hör följande regel: fel:дождливый>дождевой <- wd:с@[1,2,-1,-2] 8 Det är intressant att lägga märke till likheterna mellan dessa regler och regler för lexikal disambiguering som är beskrivna i Zinovjeva (2000) och Lager och Zinovjeva (2001). Även vid lexikal disambiguering av adjektiv kan substantiv som modifieras av dessa adjektiv vara användbara som ledtrådar. 5

Denna regel ersätter adjektivet дождливый med дождевой om ett av de två orden till höger eller till vänster är prepositionen c <c> med. Flera regler i vår regelsekvens tycks vara för generella och onödiga, som regeln ovan. Samtidigt kan man se att regelsekvensen i vissa avseenden är för specifik. Adjektivet дождливый ersätts med дождевой om substantivet вода <voda> vatten i nominativ, genitiv, ackusativ eller instrumentalis finns i dess närmaste kontext, medan liknande regler för de andra kasusformerna av detta substantiv saknas. Vi testar regelsekvensen på en testkorpus på 6637 ord som innehåller 107 förekomster av adjektiven дождливый och дождевой. I det första testet annoterar vi dessa adjektiv med felaktiga taggar. 9 Efter tillämpningen av regelsekvensen har adjektiven fått korrekta taggar i 66 fall (61,7%). I det andra testet är adjektiven annoterade med korrekta taggar. Efter tillämpningen av reglerna har antalet korrekta taggar sjunkit från 107 (100%) till 81 (75,7%), vilket innebär att regelsekvensen har genererat 19 falska larm. Vi inför några ändringar i regelsekvensen: regler som inte kan motiveras ur lingvistisk synvinkel tas bort och några nya regler läggs till. 10 När vi testar regelsekvensen på nytt ser vi att täckningen har sjunkit till 51,4%, men alla falska larm har försvunnit. Det är viktigt att se det som döljer sig bakom siffrorna för att inte misstolka dem. Trots att täckningen har blivit lägre efter korrigeringen av regelsekvensen vore det inte rätt att påstå att resultatet har försämrats. Regler som är för generella kan tilldela ord korrekta taggar på felaktiga, slumpmässiga grunder. Genom att ta bort dem förhindrar vi en del falska larm. Den förlorade täckningen kan sedan kompenseras med nya regler av högre kvalitet - regler som kan motiveras ur syntaktisk, semantisk eller pragmatisk synvinkel. När vi granskar testkorpusen efter tillämpningen av den modifierade regelsekvensen ser vi bland annat följande fraser med adjektivet дождливый där systemet inte har lyckats upptäcka att det andra adjektivet, дождевой, inte passar in i kontexten: дождливые осенние сумерки <dozjdlivye osennie sumerki> regnig höstkväll серый, дождливый денек <seryj, dozjdlivyj denjok> en grå, regnig höstdag один из тех дождливых, нудных выходных <odin iz tex dozjdlivyx, nudnyx vyxodnyx> en av de regniga, trista helgerna I själva verket ger orden сумерки <sumerki>, денек <denjok> dag och выходных genitiv av выходные <vyxodnye> helg en god indikation om att användningen av adjektivet дождевой skulle vara felaktig i dessa fall. Man skulle kunna förbättra regelsekvensen och öka täckningen genom att lägga till nya regler som hittar förekomster av dessa substantiv i kontexten. 5.2 Adjektiven человеческий och человечный Även i detta fall har systemet hittat ett antal substantiv som adjektiven modifierar. Följande regler byter ut adjektivet человечный mot человеческий om orden жизнь <zjizn > liv, деятельности genitiv av деятельность <dejatel nost > verksamhet, организма genitiv 9 Se avsnitt 4. 10 Vi korrigerar regelsekvensen utan att titta på testkorpusen. 6

av организм <organism> kropp, organism, разум <razum> förnuft, intelligens, жертв genitiv pluralis av жертва <zjertva> offer, голос <golos> röst förekommer i den närmaste kontexten: fel:'человечный'>'человеческий' <- wd:жизнь@[1,2,-1,-2] fel:'человечный'>'человеческий' <- wd:деятельности@[1,-1] fel:'человечный'>'человеческий' <- wd:организма@[1,2,-1,-2] fel:'человечный'>'человеческий' <- wd:разум@[1,2,-1,-2] fel:'человечный'>'человеческий' <- wd:жертв@[1] fel:'человечный'>'человеческий' <- wd:голос@[1] Regler som byter ut adjektivet человеческий mot человечный är ganska få, vilket måste bero på att adjektivet человеческий har högre frekvens. En sådan regel letar upp förekomster av adverbet более <bolee> mer, som modifierar adjektivet: fel:'человеческий'>'человечный' <- wd:более@[-1,-2] En del regler i vår regelsekvens kan inte motiveras ur vare sig syntaktisk eller semantisk synvinklel. Ett exempel är följande regel: fel:'человечный'>'человеческий' <- wd:и@[1,2,-1,-2] Denna regel föreslår att byta ut adjektivet человечный mot человеческий om ett av de två orden till höger eller till vänster är konjunktionen и <i> och. Att systemet har genererat denna regel beror tydligen på att человеческий är mer frekvent än человечный. I själva verket finns det dock inga skäl för att markera förekomster av adjektivet человечный nära konjunktionen и <i> som ett misstänkt fel. Regler som denna kan orsaka falska larm utan att göra någon nytta. När vi testar reglerna på en korpus som innehåller 251699 ord och sammanlagt 4157 förekomster av orden человечный och человеческий ser vi att 3159 av orden (76%) har fått korrekta taggar. Reglerna ger 90 falska larm. När vi korrigerar regelsekvensen manuellt sjunker antalet falska larm till 43. Samtidigt sjunker täckningen till 44,1% (1835 korrekta taggar). När vi tittar närmare på testkorpusen ser vi dock att vi skulle kunna förbättra täckningen genom att utöka regelsekvensen med bl a regler som ersätter adjektivet человечный med человеческий om ordet память <pamjat > minne och vissa ord som betecknar kroppsdelar finns i dess närmaste kontext. Dessutom skulle man kunna lägga till regler som detekterar felaktig användning av adjektivet человеческий som modifierare i nominalfraser där huvudordet betecknar en person. Sådana regler skulle kunna genereras med hjälp av ett lexikon som liknar WordNet. 11 Vid genereringen och utvärderingen av regler får man naturligtvis inte glömma att båda adjektiven kan passa in i vissa kontexter. 12 5.3 Verben вдохнуть/вдыхать och вздохнуть/вздыхать Många av de regler som byter ut вздохнуть/вздыхать mot вдохнуть/вдыхать letar upp verbets objekt, medan flera av de regler som ersätter verben вдохнуть/вдыхать med вздохнуть/ 11 Se diskussionen om användning av semantiska lexikon vid lexikal disambiguering i Zinovjeva (2000). 12 Se avsnitt 2. 7

вздыхать använder adverbialet som en ledtråd. 13 Följande regler hittar substantiven запах <zapax> lukt, воздух <vozdux> luft och кислорода genitiv av кислород <kislorod> syre i kontexten och ersätter вздохнуть/вздыхать med вдохнуть/вдыхать: fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- wd:запах@[1,2] fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- wd:воздух@[1,2,3,-1,-2,-3] fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- wd:кислорода@[1,2] Verbparet вдохнуть/вдыхать ersätts med вздохнуть/вздыхать om det första ordet till vänster är сокрушенно <sokrusjonno> frustrerat : fel: вдохнуть/вдыхать>вздохнуть/вздыхать <- wd:сокрушенно@[-1] Till de regler som kan orsaka falska larm hör följande regel: fel: вдохнуть/вдыхать> вздохнуть/вздыхать <- wd:я@[1,2,-1,-2] Denna regel föreslår att ersätta verbparet вдохнуть/вдыхать med вздохнуть/вздыхать om ett av de två orden till höger eller till vänster är pronomenet я <ja> jag. Vi testar regelsekvensen på en testkorpus som innehåller 43932 ord och 1044 förekomster av verben вдохнуть/вдыхать och вздохнуть/вздыхать. Efter tillämpningen av reglerna får 944 av verben (90,4%) korrekta taggar. Reglerna ger dock 54 falska larm (5,2%). Efter korrigeringen av regelsekvensen förbättras precisionen: andelen falska larm sjunker till 0,6%. Täckningen sjunker avsevärt: nu är det bara 550 förekomster av verben (52,7%) som blir korrekt taggade efter tillämpningen av reglerna. När vi tittar på testkorpusen ser vi att resultatet kan förbättras om man lägger till ytterligare några regler, bland annat en regel som ersätter вдохнуть/вдыхать med вздохнуть/вздыхать framför ordet тоскливо <tosklivo> sorgset i uttrycket вздохнуть тоскливо <vzdoxnut tosklivo> sucka sorgset och вздохнуть/вздыхать med вдохнуть/вдыхать framför prepositionsuttrycket через нос <tjerez nos> genom näsan. I testkorpusen ser vi även meningar där båda orden skulle kunna vara korrekta. 5.4 Substantiven воспоминание och напоминание Många av de regler som systemet har genererat tar hänsyn till modifierare som utgörs av adjektiv eller substantiv i genitiv. Följande regel ersätter substantivet воспоминание med напоминание om det första ordet till vänster är adjektivet письменное <pis mennoe> skriftlig : fel:воспоминание>напоминание <- wd:письменное@[-1] En regel byter ut substantivet напоминание mot воспоминание om ett av de två orden till höger är детства - genitiv av детство <detstvo> barndom : 14 13 Även dessa regler kan jämföras med regler för lexikal disambiguering av verb som är beskrivna i Zinovjeva (2000). 8

fel:напоминание>воспоминание <- wd:детства@[1,2] Till regler som är för generella och kan orsaka falska larm hör följande regel, som ersätter substantivet напоминание med воспоминание om ett av orden i den närmaste kontexten är только <tol ko> bara : fel:напоминание>воспоминание <- wd:только@[1,2,-1,-2] Vår testdata innehåller 32930 ord och 647 förekomster av substantiven напоминание och воспоминание. Efter tillämpningen av reglerna ser vi att 545 av dem (84,2%) har fått korrekta taggar. Regler genererar även ett antal falska larm: efter att ha tillämpat regelsekvensen på vår testdata där alla substantiven har korrekta taggar ser vi att antalet korrekta taggar har sjunkit till 581 (89,8%). Genom att ta bort några regler lyckas vi minska antalet falska larm: 599 (92,6%) av förekomsterna av båda substantiven får korrekta taggar. Täckningen sjunker till 51,5%. Vi kan dock förbättra täckningen även i detta fall; till exempel kan regelsekvensen utökas med regler som ersätter воспоминание med напоминание om substantivet modifieras med adjektivet неоднократные <neodnokratnye> upprepade. Även vid genereringen och utvärderingen av regler för detektering av felaktig användning av dessa substantiv bör man vara medveten om att båda substantiven kan förekomma i vissa kontexter. 6. Sammanfattning och diskussion Experimenten visar att automatisk inlärning av regler för detektering av felaktigt val av paronymer kan vara användbar. Sådana regler kan integreras i ett system för språkgranskning som markerar felaktigt valda paronymer och ger användaren information om användning av dessa paronymer med konkreta exempel och korrigeringsförslag. De problem som finns beror framför allt på att det ofta är svårt att samla in representativ träningsdata och testdata som innehåller tillräckligt många förekomster av orden i fråga. 15 När en av paronymerna är mer frekvent än den andra kan detta leda till att systemet skapar en regelsekvens där många regler är för generella och tenderar att ersätta det mindre frekventa ordet med det ord som är mer frekvent. Användning av sådana regelsekvenser i ett språkgranskningssystem skulle i princip leda till att mindre frekventa ord ibland skulle markeras som misstänkta fel bara av den anledning att de är lågfrekventa. I vårt fall är det dock mycket viktigt att tänka på precisionen, eftersom falska larm kan vara irriterande och ibland missvisande. Både täckningen och precisionen kan förbättras med hjälp av manuell korrigering av reglerna. Otillräcklig mängd testdata kan dock göra det svårare att utvärdera färdiga regelsekvenser. För att få en bättre uppfattning om reglernas kvalitet skulle man kunna utvärdera dem genom att tillämpa dem på texter och meningar skrivna av inlärare. Ett problem är att många av de ord som 14 Uttrycket *напоминание детства <napominanie detstva> låter inte korrekt. Däremot skulle frasen напоминание о детстве <napominanie o detstve> barndomsminne med prepositionen o <o> och substantivet детство i lokativ vara acceptabel. 15 Notera att den korpus som vi använder, den ryska Nationalkorpusen, innehåller över 85 miljoner ord (se avsnitt 4). 9

intresserar oss inte är tillräckligt frekventa för att man ska kunna räkna med att en korpus som består av inlärartexter kommer att innehålla ett stort antal förekomster av dessa ord. Ett sätt att lösa problemet är att låta en grupp studenter göra ett ordkunskapsprov där de måste välja mellan olika ord som kan förväxlas med varandra och skriva egna meningar med dessa ord. Metoden har dock även vissa nackdelar. Den konstgjorda situationen kan påverka en del studenter som kan bli särskilt uppmärksamma och göra färre fel än vad de oftast brukar göra. Lemmatisering av träningskorpusen och inlärning av regler som tar hänsyn till lemman och inte bara strängar i kontexten skulle kunna hjälpa att undvika genereringen av regler som är för specifika. Ett semantiskt lexikon som liknar WordNet kan vara en användbar resurs vid genereringen av regler för vissa ord. Erfarenheter av lexikal disambiguering kan delvis användas för att förbättra metoder för detektering av felaktigt val av paronymer. Referenser Beltjikov, Julij och Maria Panjusjeva, 2004. Slovar paronimov russkogo jazyka. Izdatel stvo AST, Izdatel stvo Astrel, Moskva 2004. Golding, Andrew R. och Yves Schabes, 1996. Combining Trigram-Based and Feature-Based Methods for Context Sensitive Spelling Correction. In Proceedings of the 34 th Annual Meeting of the Association for Computational Linguistics, Santa Cruz, CA 1996 Lager T., 1999. The µ-tbl System: Logic Programming Tools for Transformation-Based Learning. In Proceedings of The Third International Workshop on Computational Natural Language Processing (CoNLL'99), Bergen, 1999. Lager T., 2000. A Logic Programming Approach to Word Expert Engineering. In Proceedings of the International Conference on Artificial and Computational Intelligence for Automation, Decision and Control in Engineering and Industrial Applications (ACIDCA'2000), March 22-24 2000, Monastir, Tunisia. Lager T., Zinovjeva N., 1999. Training a Dialogue Act Tagger with the µ-tbl System. Paper presented at The Third Swedish Symposium on Multimodal Communication, Natural Language Processing Laboratory (NLPLAB) at Linköping University. Lager T. and Zinovjeva N.,2001. Sense and Deduction: The Power of Peewees Applied to the SENSEVAL-2 Swedish Lexical Sample Task. In Proceedings of SENSEVAL-2 Zinovjeva N., 1999. Automatisk inlärning av regler för annotering av rysk text. C-uppsats. Institutionen för slaviska språk, Uppsala universitet Zinovjeva N., 2000. Learning sense disambiguation rules for machine translation. Examensarbete, 20 p. Institutionen för lingvistik, Uppsala universitet. 10