Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer

Storlek: px
Starta visningen från sidan:

Download "Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer"

Transkript

1 Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer Natalia Zinovjeva Språkgranskningsverktyg, HT Inledning Ord som liknar varandra uttalsmässigt eller betydelsemässigt utan att vara synonymer tenderar ibland att förväxlas med varandra och utgör ett särskilt problem för inlärare av främmande språk. Det rör sig ofta om paronymer, ord som är besläktade med varandra, uppvisar fonetiska likheter och tillhör samma ordklass, men har olika betydelser. De förtjänar särskild uppmärksamhet eftersom felaktigt val av sådana ord inte kan upptäckas med hjälp av stavnings- och grammatikkontroll. I denna rapport beskrivs ett försök att automatiskt generera regler för identifiering av sådana fel i rysk text. Rapporten är disponerad enligt följande. I nästa avsnitt presenteras paronympar som vi använder som exempelord i våra experiment. Vi förklarar deras betydelser och ger exempel på korrekt användning av dessa ord. Avsnitt 3 beskriver vår metod. Avsnitt 4 ger en kortfattad beskrivning av träningskorpusen och testmaterialet. I avsnitt 5 beskrivs själva experimenten. I avsnitt 6 sammanfattar vi resultaten av experimenten och diskuterar möjligheterna till att utveckla och förbättra metoden. 2. Exempelorden I våra experiment försöker vi automatiskt generera regler som skall detektera felaktig användning av följande paronymiska ordpar 1 : Adjektiven дождливый <dozjdlivyj> och дождевой <dozjdevoj> Båda adjektiven är besläktade med substantivet дождь <dozjd > regn. Det första adjektivet, дождливый, betyder regnig och modifierar i regel substantiv som betecknar tidsperioder, till exempel дождливый день <dozjdlivyj den > regnig dag, дождливый сентябрь <dozjdlivyj sentjabr > regnig september, дождливое лето <dozjdlivoe leto> regnig sommar, samt substantivet погода <pogoda> väder i uttrycket дождливая погода <dozjdlivaja pogoda> regnväder, regnigt väder. Det andra adjektivet, дождевой, modifierar ord som betecknar vatten, moln och nederbörd (дождевая вода <dozjdevaja voda> regnvatten, дождевые капли <dozjdevye kapli> regndroppar, дождевая лужа <dozjdevaja luzja> pöl av regnvatten, дождевое облако 1 Se Beltjikov och Panjusjeva (2004). 1

2 <dozjdevoe oblako> regnmoln ) samt klädesplagg och föremål som skyddar mot regn (till exempel, дождевой плащ <dozjdevoj plasjtj> regnkappa ). Adjektiven человеческий <tjelovetjeskij> och человечный <tjelovetjnyj> Båda adjektiven är besläktade med substantivet человек <tjelovek>, människa. Det första adjektivet, человеческий <tjelovetjeskij>, kan översättas till svenska som mänskilg, människans, mänsklighetens : человеческая голова <tjelovetjeskaja golova> en människas huvud, человеческий голос <tjelovetjeskij golos> en människas röst, человеческая жизнь <tjelovetjeskaja zjizn > människans liv, человеческий язык <tjelovetjeskij jazyk> männsikans språk. Ordet kan även användas i betydelsen human, godhjärtad, snäll : человеческое отношение <tjelovetjeskoe otnosjenie> human attityd. Det andra adjektivet, человечный, kan endast betyda human, godhjärtad; som visar humana känslor; som är snäll mot sina medmänniskor. Användningen av båda adjektiven kan vara korrekt i vissa sammanhang. Uttrycken человеческое отношение <tjelovetjeskoe otnosjenie> och человечное отношение <tjelovetjnoe otnosjenie> human attityd, human inställning är synonyma. Båda adjektiven kan modifiera substantivet общество <obsjtjestvo> samhälle, civilisation, men de resulterande uttrycken, человеческое общество <tjelovetjeskoe obsjtjestvo> mänskligheten, mänskligt samhälle och человечное общество <tjelovetjnoe obsjtjestvo> humant samhälle har olika betydelser. I många andra kontexter kan man dock endast använda ett av adjektiven. Till exempel kan adjektivet человечный inte modifiera substantiv som betecknar kropp och kroppsdelar, som ноги <nogi> ben, fötter : att säga *человечные ноги <tjelovetjnye nogi> skulle vara ungefär detsamma som att beskriva ben eller fötter som humana. Adjektivet человеческий brukar i regel inte modifiera substantiv som betecknar personer samt vissa andra ord: суд <sud> domstol, приговор <prigovor> dom, рассказ <rasskaz> berättelse. Användningen av ordet человечный är mer korrekt och naturlig i dessa fall. Substantiven воспоминание <vospominanie> och напоминание <napominanie> Orden är besläktade med verbet помнить <pomnit > minnas. Det första substantivet, воспоминание <vospominanie>, betyder minne, det att minnas, det att komma ihåg och används till exempel i uttrycken воспоминание о детстве <vospominanie o detstve> minne av barndomen och воспоминание о путешествии <vospominanie o putesjestvii> minne av resan. I pluralis kan detta substantiv användas i betydelsen memoarer : воспоминания писателя <vospominanija pisatelja> författarens memoarer. Det andra substantivet, напоминание <napominanie>, betyder påminnelse, något som väcker minnen : напоминание о встрече <napominanie o vstretje> påminnelse om en träff. För att inte förväxla dessa ord bör man tänka på att substantivet воспоминание beskriver en mental process (att minnas, att komma ihåg), medan напоминание betecknar ett föremål eller en handling som gör att man kommer ihåg något. 2

3 Verben вдохнуть <vdoxnut > / вдыхать <vdyxat > och вздохнуть <vzdoxnut > / вздыхать <vzdyxat > 2 Verben är bildade av roten -дох-/-дых- och är besläktade med orden дышать <dysjat > andas och дыхание <dyxanie> andning. 3 Det första verbparet, вдохнуть/вдыхать <vdoxnut /vdyxat >, betyder andas in : вдохнуть холодный воздух <vdoxnut xolodnyj vozdux> andas in kall luft. Verben kan även användas bildligt i betydelsen väcka, få någon känna något : вдохнуть жизнь <vdoxnut' zjizn'> väcka liv (i något eller i någon). Det andra verbparet, вздохнуть/вздыхать <vzdoxnut /vzdyxat >, betyder sucka, pusta ut och kan även användas bildligt i betydelsen ta en rast, ta det lugnt (efter att ha arbetat hårt, efter en resa o dyl.). Verbet вздыхать följt av prepositionen o <o> kan också betyda sakna (någon eller något), längta (efter någon eller något). 3. Metod Regler för detektering av felaktigt val av ord som tenderar att förväxlas med varandra kan med fördel genereras automatiskt. Bland tidigare försök att lösa liknande problem med hjälp av maskininlärning kan man nämna experiment som är beskrivna i Golding och Schabes (1996). I våra experiment använder vi systemet µ-tbl som är utvecklat av T. Lager (1999) och som implementerar algoritmen för transformationsbaserad inlärning, en inlärningsmetod introducerad av E. Brill 4. Systemet µ-tbl genererar transformationsregler givet en annoterad träningskorpus och en uppsättning mallar (templates) som visar hur de färdiga reglerna skall vara formulerade. Regelformatet är flexibelt och gör det möjligt att lära in och tillämpa regler som tar hänsyn till olika typer av information som finns i kontexten. En transformationsregel kan till exempel vara formulerad enligt följande mall: tag:a>b <- wd:c@[-1,-2] En regel som är genererad enligt denna mall ersätter taggen A med taggen B om ett av de två närmaste orden till vänster om det ord som ska disambigueras är C. En mall för regler som ska ta hänsyn till två ord i kontexten kan se ut på följande sätt: tag:a>b <- wd:c@[1] & wd:d@[2] Sådana regler letar efter förekomster av ordet C följt av ordet D till höger om det ord som disambigueras. 2 Skillnaden mellan verben вдохнуть och вдыхать består i att de har olika aspekt. Detsamma gäller skillnaden mellan verben i det andra verbparet, вздохнуть och вздыхать. 3 Variationen о/ы och х/ш i roten är allomorfisk. 4 I Brill 1995, Zinovjeva 1999 och Zinovjeva 2000 ges en detaljerad beskrivning av metoden. 3

4 Systemet µ-tbl har använts bl a för inlärning av regler för ordklasstaggning (Zinovjeva 1999), lexikal disambiguering (Lager 2000, Zinovjeva 2000, Lager och Zinovjeva 2001) och dialogaktstaggning (Lager och Zinovjeva 1999). Experimenten med lexikal disambiguering (Zinovjeva 2000) visar att det finns fördelar med att granska och modifiera regelsekvensen manuellt i efterhand för att förbättra resultatet. Generering av regler för lexikal disambiguering skiljer sig väsentligt från inlärningen av regler för disambiguering på morfologisk och syntaktisk nivå. Frekvensen hos enskilda lexem är oftast relativt låg jämfört med frekvenserna hos morfologiska former och morfosyntaktiska konstruktioner, vilket gör att även en träningskorpus som är tillräckligt stor för andra ändamål (till exempel träning av ordklasstaggare) kan innehålla för få förekomster av det ord som vi vill disambiguera. 5 Vid lexikal disambiguering måste man dessutom ta hänsyn till andra lexem i kontexten som kan uppvisa en stor variation. Denna uppgift ställer höga krav på träningskorpusen avseende dess storlek och representativitet, och även om man använder träningsdata av hög kvalitet är risken stor att en del regler som lärs in automatiskt blir för generella eller för specifika. Vi kan förvänta oss att liknande problem kan uppstå även vid inlärning av regler för detektering av lexikala fel. Därför kommer vi i våra experiment att granska regler som genereras av systemet och införa ändringar som kan förbättra träffsäkerheten och minska risken för falska larm. 4. Träningsdata och testdata Vår träningsdata består av material från den ryska Nationalkorpusen (Русский национальный корпус) som innehåller över 85 miljoner ord. 6 Varje förekomst av exempelorden i träningskorpusen annoteras automatiskt och representeras på följande sätt: wd(position,ord). fel(felaktigt_lemma, KORREKT_LEMMA, POSITION). där POSITION anger ordets position i texten, ORD är den aktuella ordformen, KORREKT_LEMMA är ordets lemma och FELAKTIGT_LEMMA är lemmat av den paronym som ordet kan förväxlas med. Lemmatiseringen är trivial, eftersom alla våra exempelord är entydiga ur morfologisk synvinkel. Systemets uppgift blir att leta efter ledtrådar som tyder på att det felaktiga ordet inte passar in i kontexten. Som testdata använder vi material från samma korpus. För att testa täckningen (andelen fall där systemet lyckas identifiera felaktigt val av ord genom att tillämpa reglerna) annoterar vi testkorpusen på samma sätt som träningsdatan. 7 För att testa precisionen och se om reglerna genererar några falska larm annoterar vi vår testdata på följande sätt: 5 Undantaget är högfrekventa funktionsord som kan vara vanligare än vissa lågfrekventa böjningsformer och morfosyntaktiska konstruktioner. 6 Se för mer information och för att söka i korpusen online. 7 Detta sätt att utvärdera regelsekvenserna har en nackdel: vid automatisk annotering av testkorpusen kan vi inte ta hänsyn till de fall där båda paronymerna passar in i kontexten. Vi måste därför vara beredda på att testet inte blir helt rättvis och att täckningen kan se ut att vara sämre än vad den är. För en bättre utvärdring skulle vi behöva en testkorpus där alla förekomster av ord som intresserar oss är annoterade manuellt med hänsyn till de fall där användningen av båda orden ger semantiskt korrekta meningar. Manuell annotering av testkorpusen skulle dock kräva mer tid. 4

5 wd(position,ord). fel(korrekt_lemma, KORREKT_LEMMA, POSITION). Vi kommer att räkna antalet fall där systemet försöker ersätta det korrekta ordet med dess paronym för att få en uppfattning om antalet falska larm som reglerna kan ge. 5. Generering, korrigering och test av regelsekvenserna 5.1 Adjektiven дождливый och дождевой De flesta regler som systemet har genererat tar hänsyn till substantiv som adjektiven modifierar, vilket är lätt att förklara: valet av adjektiv i detta fall styrs av huvudordet i nominalfrasen. 8 Adjektivet дождливый byts ut mot дождевой om det förekommer bredvid substantiven капли nominativ eller ackusativ pluralis eller genitiv singilaris av капля <kaplja> dropp, воду ackusativ av вода <voda> vatten, облако <oblako> moln, луже dativ eller lokativ av лужа <luzja> pöl : fel:дождливый>дождевой <- wd:капли@[1,-1] fel:дождливый>дождевой <- wd:воду@[1,-1] fel:дождливый>дождевой <- wd:облако@[1,2] fel:дождливый>дождевой <- wd:луже@[1] Adjektivet дождевой byts ut mot дождливый om ord som день <den > dag, ночи genitiv, dativ eller lokativ singularis eller nominativ eller ackusativ pluralis av ночь <notj > natt, вечер <vetjer> kväll, погоде dativ eller lokativ av погода <pogoda> väder förekommer i den närmaste kontexten: fel:дождевой>дождливый <- wd:день@[1,2] fel:дождевой>дождливый <- wd:'ночи'@[1,2] fel:дождевой>дождливый <- wd:'вечер'@[1] fel:дождевой>дождливый <- wd:погоде@[1] Följande regel byter ut adjektivet дождливый mot дождевой om det första ordet till höger är червя genitiv eller ackusativ av червь <tjerv > mask: fel:дождливый>дождевой <- wd:'червя'@[1] Regeln korrigerar felet i uttrycket дождевой червь <dozjdevoj tjerv > daggmask. Till de regler som skapar en risk för falska larm utan att göra någon nytta hör följande regel: fel:дождливый>дождевой <- wd:с@[1,2,-1,-2] 8 Det är intressant att lägga märke till likheterna mellan dessa regler och regler för lexikal disambiguering som är beskrivna i Zinovjeva (2000) och Lager och Zinovjeva (2001). Även vid lexikal disambiguering av adjektiv kan substantiv som modifieras av dessa adjektiv vara användbara som ledtrådar. 5

6 Denna regel ersätter adjektivet дождливый med дождевой om ett av de två orden till höger eller till vänster är prepositionen c <c> med. Flera regler i vår regelsekvens tycks vara för generella och onödiga, som regeln ovan. Samtidigt kan man se att regelsekvensen i vissa avseenden är för specifik. Adjektivet дождливый ersätts med дождевой om substantivet вода <voda> vatten i nominativ, genitiv, ackusativ eller instrumentalis finns i dess närmaste kontext, medan liknande regler för de andra kasusformerna av detta substantiv saknas. Vi testar regelsekvensen på en testkorpus på 6637 ord som innehåller 107 förekomster av adjektiven дождливый och дождевой. I det första testet annoterar vi dessa adjektiv med felaktiga taggar. 9 Efter tillämpningen av regelsekvensen har adjektiven fått korrekta taggar i 66 fall (61,7%). I det andra testet är adjektiven annoterade med korrekta taggar. Efter tillämpningen av reglerna har antalet korrekta taggar sjunkit från 107 (100%) till 81 (75,7%), vilket innebär att regelsekvensen har genererat 19 falska larm. Vi inför några ändringar i regelsekvensen: regler som inte kan motiveras ur lingvistisk synvinkel tas bort och några nya regler läggs till. 10 När vi testar regelsekvensen på nytt ser vi att täckningen har sjunkit till 51,4%, men alla falska larm har försvunnit. Det är viktigt att se det som döljer sig bakom siffrorna för att inte misstolka dem. Trots att täckningen har blivit lägre efter korrigeringen av regelsekvensen vore det inte rätt att påstå att resultatet har försämrats. Regler som är för generella kan tilldela ord korrekta taggar på felaktiga, slumpmässiga grunder. Genom att ta bort dem förhindrar vi en del falska larm. Den förlorade täckningen kan sedan kompenseras med nya regler av högre kvalitet - regler som kan motiveras ur syntaktisk, semantisk eller pragmatisk synvinkel. När vi granskar testkorpusen efter tillämpningen av den modifierade regelsekvensen ser vi bland annat följande fraser med adjektivet дождливый där systemet inte har lyckats upptäcka att det andra adjektivet, дождевой, inte passar in i kontexten: дождливые осенние сумерки <dozjdlivye osennie sumerki> regnig höstkväll серый, дождливый денек <seryj, dozjdlivyj denjok> en grå, regnig höstdag один из тех дождливых, нудных выходных <odin iz tex dozjdlivyx, nudnyx vyxodnyx> en av de regniga, trista helgerna I själva verket ger orden сумерки <sumerki>, денек <denjok> dag och выходных genitiv av выходные <vyxodnye> helg en god indikation om att användningen av adjektivet дождевой skulle vara felaktig i dessa fall. Man skulle kunna förbättra regelsekvensen och öka täckningen genom att lägga till nya regler som hittar förekomster av dessa substantiv i kontexten. 5.2 Adjektiven человеческий och человечный Även i detta fall har systemet hittat ett antal substantiv som adjektiven modifierar. Följande regler byter ut adjektivet человечный mot человеческий om orden жизнь <zjizn > liv, деятельности genitiv av деятельность <dejatel nost > verksamhet, организма genitiv 9 Se avsnitt Vi korrigerar regelsekvensen utan att titta på testkorpusen. 6

7 av организм <organism> kropp, organism, разум <razum> förnuft, intelligens, жертв genitiv pluralis av жертва <zjertva> offer, голос <golos> röst förekommer i den närmaste kontexten: fel:'человечный'>'человеческий' <- wd:жизнь@[1,2,-1,-2] fel:'человечный'>'человеческий' <- wd:деятельности@[1,-1] fel:'человечный'>'человеческий' <- wd:организма@[1,2,-1,-2] fel:'человечный'>'человеческий' <- wd:разум@[1,2,-1,-2] fel:'человечный'>'человеческий' <- wd:жертв@[1] fel:'человечный'>'человеческий' <- wd:голос@[1] Regler som byter ut adjektivet человеческий mot человечный är ganska få, vilket måste bero på att adjektivet человеческий har högre frekvens. En sådan regel letar upp förekomster av adverbet более <bolee> mer, som modifierar adjektivet: fel:'человеческий'>'человечный' <- wd:более@[-1,-2] En del regler i vår regelsekvens kan inte motiveras ur vare sig syntaktisk eller semantisk synvinklel. Ett exempel är följande regel: fel:'человечный'>'человеческий' <- wd:и@[1,2,-1,-2] Denna regel föreslår att byta ut adjektivet человечный mot человеческий om ett av de två orden till höger eller till vänster är konjunktionen и <i> och. Att systemet har genererat denna regel beror tydligen på att человеческий är mer frekvent än человечный. I själva verket finns det dock inga skäl för att markera förekomster av adjektivet человечный nära konjunktionen и <i> som ett misstänkt fel. Regler som denna kan orsaka falska larm utan att göra någon nytta. När vi testar reglerna på en korpus som innehåller ord och sammanlagt 4157 förekomster av orden человечный och человеческий ser vi att 3159 av orden (76%) har fått korrekta taggar. Reglerna ger 90 falska larm. När vi korrigerar regelsekvensen manuellt sjunker antalet falska larm till 43. Samtidigt sjunker täckningen till 44,1% (1835 korrekta taggar). När vi tittar närmare på testkorpusen ser vi dock att vi skulle kunna förbättra täckningen genom att utöka regelsekvensen med bl a regler som ersätter adjektivet человечный med человеческий om ordet память <pamjat > minne och vissa ord som betecknar kroppsdelar finns i dess närmaste kontext. Dessutom skulle man kunna lägga till regler som detekterar felaktig användning av adjektivet человеческий som modifierare i nominalfraser där huvudordet betecknar en person. Sådana regler skulle kunna genereras med hjälp av ett lexikon som liknar WordNet. 11 Vid genereringen och utvärderingen av regler får man naturligtvis inte glömma att båda adjektiven kan passa in i vissa kontexter Verben вдохнуть/вдыхать och вздохнуть/вздыхать Många av de regler som byter ut вздохнуть/вздыхать mot вдохнуть/вдыхать letar upp verbets objekt, medan flera av de regler som ersätter verben вдохнуть/вдыхать med вздохнуть/ 11 Se diskussionen om användning av semantiska lexikon vid lexikal disambiguering i Zinovjeva (2000). 12 Se avsnitt 2. 7

8 вздыхать använder adverbialet som en ledtråd. 13 Följande regler hittar substantiven запах <zapax> lukt, воздух <vozdux> luft och кислорода genitiv av кислород <kislorod> syre i kontexten och ersätter вздохнуть/вздыхать med вдохнуть/вдыхать: fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- wd:запах@[1,2] fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- wd:воздух@[1,2,3,-1,-2,-3] fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- wd:кислорода@[1,2] Verbparet вдохнуть/вдыхать ersätts med вздохнуть/вздыхать om det första ordet till vänster är сокрушенно <sokrusjonno> frustrerat : fel: вдохнуть/вдыхать>вздохнуть/вздыхать <- wd:сокрушенно@[-1] Till de regler som kan orsaka falska larm hör följande regel: fel: вдохнуть/вдыхать> вздохнуть/вздыхать <- wd:я@[1,2,-1,-2] Denna regel föreslår att ersätta verbparet вдохнуть/вдыхать med вздохнуть/вздыхать om ett av de två orden till höger eller till vänster är pronomenet я <ja> jag. Vi testar regelsekvensen på en testkorpus som innehåller ord och 1044 förekomster av verben вдохнуть/вдыхать och вздохнуть/вздыхать. Efter tillämpningen av reglerna får 944 av verben (90,4%) korrekta taggar. Reglerna ger dock 54 falska larm (5,2%). Efter korrigeringen av regelsekvensen förbättras precisionen: andelen falska larm sjunker till 0,6%. Täckningen sjunker avsevärt: nu är det bara 550 förekomster av verben (52,7%) som blir korrekt taggade efter tillämpningen av reglerna. När vi tittar på testkorpusen ser vi att resultatet kan förbättras om man lägger till ytterligare några regler, bland annat en regel som ersätter вдохнуть/вдыхать med вздохнуть/вздыхать framför ordet тоскливо <tosklivo> sorgset i uttrycket вздохнуть тоскливо <vzdoxnut tosklivo> sucka sorgset och вздохнуть/вздыхать med вдохнуть/вдыхать framför prepositionsuttrycket через нос <tjerez nos> genom näsan. I testkorpusen ser vi även meningar där båda orden skulle kunna vara korrekta. 5.4 Substantiven воспоминание och напоминание Många av de regler som systemet har genererat tar hänsyn till modifierare som utgörs av adjektiv eller substantiv i genitiv. Följande regel ersätter substantivet воспоминание med напоминание om det första ordet till vänster är adjektivet письменное <pis mennoe> skriftlig : fel:воспоминание>напоминание <- wd:письменное@[-1] En regel byter ut substantivet напоминание mot воспоминание om ett av de två orden till höger är детства - genitiv av детство <detstvo> barndom : Även dessa regler kan jämföras med regler för lexikal disambiguering av verb som är beskrivna i Zinovjeva (2000). 8

9 fel:напоминание>воспоминание <- Till regler som är för generella och kan orsaka falska larm hör följande regel, som ersätter substantivet напоминание med воспоминание om ett av orden i den närmaste kontexten är только <tol ko> bara : fel:напоминание>воспоминание <- wd:только@[1,2,-1,-2] Vår testdata innehåller ord och 647 förekomster av substantiven напоминание och воспоминание. Efter tillämpningen av reglerna ser vi att 545 av dem (84,2%) har fått korrekta taggar. Regler genererar även ett antal falska larm: efter att ha tillämpat regelsekvensen på vår testdata där alla substantiven har korrekta taggar ser vi att antalet korrekta taggar har sjunkit till 581 (89,8%). Genom att ta bort några regler lyckas vi minska antalet falska larm: 599 (92,6%) av förekomsterna av båda substantiven får korrekta taggar. Täckningen sjunker till 51,5%. Vi kan dock förbättra täckningen även i detta fall; till exempel kan regelsekvensen utökas med regler som ersätter воспоминание med напоминание om substantivet modifieras med adjektivet неоднократные <neodnokratnye> upprepade. Även vid genereringen och utvärderingen av regler för detektering av felaktig användning av dessa substantiv bör man vara medveten om att båda substantiven kan förekomma i vissa kontexter. 6. Sammanfattning och diskussion Experimenten visar att automatisk inlärning av regler för detektering av felaktigt val av paronymer kan vara användbar. Sådana regler kan integreras i ett system för språkgranskning som markerar felaktigt valda paronymer och ger användaren information om användning av dessa paronymer med konkreta exempel och korrigeringsförslag. De problem som finns beror framför allt på att det ofta är svårt att samla in representativ träningsdata och testdata som innehåller tillräckligt många förekomster av orden i fråga. 15 När en av paronymerna är mer frekvent än den andra kan detta leda till att systemet skapar en regelsekvens där många regler är för generella och tenderar att ersätta det mindre frekventa ordet med det ord som är mer frekvent. Användning av sådana regelsekvenser i ett språkgranskningssystem skulle i princip leda till att mindre frekventa ord ibland skulle markeras som misstänkta fel bara av den anledning att de är lågfrekventa. I vårt fall är det dock mycket viktigt att tänka på precisionen, eftersom falska larm kan vara irriterande och ibland missvisande. Både täckningen och precisionen kan förbättras med hjälp av manuell korrigering av reglerna. Otillräcklig mängd testdata kan dock göra det svårare att utvärdera färdiga regelsekvenser. För att få en bättre uppfattning om reglernas kvalitet skulle man kunna utvärdera dem genom att tillämpa dem på texter och meningar skrivna av inlärare. Ett problem är att många av de ord som 14 Uttrycket *напоминание детства <napominanie detstva> låter inte korrekt. Däremot skulle frasen напоминание о детстве <napominanie o detstve> barndomsminne med prepositionen o <o> och substantivet детство i lokativ vara acceptabel. 15 Notera att den korpus som vi använder, den ryska Nationalkorpusen, innehåller över 85 miljoner ord (se avsnitt 4). 9

10 intresserar oss inte är tillräckligt frekventa för att man ska kunna räkna med att en korpus som består av inlärartexter kommer att innehålla ett stort antal förekomster av dessa ord. Ett sätt att lösa problemet är att låta en grupp studenter göra ett ordkunskapsprov där de måste välja mellan olika ord som kan förväxlas med varandra och skriva egna meningar med dessa ord. Metoden har dock även vissa nackdelar. Den konstgjorda situationen kan påverka en del studenter som kan bli särskilt uppmärksamma och göra färre fel än vad de oftast brukar göra. Lemmatisering av träningskorpusen och inlärning av regler som tar hänsyn till lemman och inte bara strängar i kontexten skulle kunna hjälpa att undvika genereringen av regler som är för specifika. Ett semantiskt lexikon som liknar WordNet kan vara en användbar resurs vid genereringen av regler för vissa ord. Erfarenheter av lexikal disambiguering kan delvis användas för att förbättra metoder för detektering av felaktigt val av paronymer. Referenser Beltjikov, Julij och Maria Panjusjeva, Slovar paronimov russkogo jazyka. Izdatel stvo AST, Izdatel stvo Astrel, Moskva Golding, Andrew R. och Yves Schabes, Combining Trigram-Based and Feature-Based Methods for Context Sensitive Spelling Correction. In Proceedings of the 34 th Annual Meeting of the Association for Computational Linguistics, Santa Cruz, CA 1996 Lager T., The µ-tbl System: Logic Programming Tools for Transformation-Based Learning. In Proceedings of The Third International Workshop on Computational Natural Language Processing (CoNLL'99), Bergen, Lager T., A Logic Programming Approach to Word Expert Engineering. In Proceedings of the International Conference on Artificial and Computational Intelligence for Automation, Decision and Control in Engineering and Industrial Applications (ACIDCA'2000), March , Monastir, Tunisia. Lager T., Zinovjeva N., Training a Dialogue Act Tagger with the µ-tbl System. Paper presented at The Third Swedish Symposium on Multimodal Communication, Natural Language Processing Laboratory (NLPLAB) at Linköping University. Lager T. and Zinovjeva N.,2001. Sense and Deduction: The Power of Peewees Applied to the SENSEVAL-2 Swedish Lexical Sample Task. In Proceedings of SENSEVAL-2 Zinovjeva N., Automatisk inlärning av regler för annotering av rysk text. C-uppsats. Institutionen för slaviska språk, Uppsala universitet Zinovjeva N., Learning sense disambiguation rules for machine translation. Examensarbete, 20 p. Institutionen för lingvistik, Uppsala universitet. 10

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001 Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Maskinöversättning och språkgranskning. F6: Grammatikkontroll Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Obesvarade frågor från F1

Obesvarade frågor från F1 Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll

Läs mer

Obesvarade frågor från F4

Obesvarade frågor från F4 Obesvarade frågor från F4 Antal ord i sista upplaga av SAOL 90 000 el 120 000? Varför har barnförbjuden tagits bort och barnförbjuda införts? Formellt singularis, reellt pluralis Mången fotbollsspelare

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet

Läs mer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Svensk minigrammatik

Svensk minigrammatik Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Projektförslag. Datalingvistisk projektkurs VT mars 2007 Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett

Läs mer

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi. Háskóli Íslands Svenska lektoratet Höstterminen Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is Studiebrev 12 Nu är det dags att börja repetera inför provet! I detta studiebrev kommer

Läs mer

Mälardalens högskola

Mälardalens högskola Teknisk rapportskrivning - en kortfattad handledning (Version 1.2) Mälardalens högskola Institutionen för datateknik (IDt) Thomas Larsson 10 september 1998 Västerås Sammanfattning En mycket viktig del

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Lingvistiska grundbegrepp

Lingvistiska grundbegrepp 729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga

Läs mer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas

Läs mer

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

Betydelse och betydelse

Betydelse och betydelse Betydelse och betydelse Ordbetydelsedisambiguering i praktiken Stian Rødven Eide stian@fripost.org Självständigt arbete i lingvistik, 15 hp Göteborgs universitet Institutionen för filosofi, lingvistik

Läs mer

SUBSTANTIV = namn på saker, personer, känslor

SUBSTANTIV = namn på saker, personer, känslor KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

Neurolingvistik - Grammatik

Neurolingvistik - Grammatik Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Semantik och pragmatik

Semantik och pragmatik Semantik och pragmatik OH-serie 3 http://stp.lingfil.uu.se/~matsd/uv/uv12/semp/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2012 Lexikal semantik/begrepp (förra gången) Vaghet kontra

Läs mer

Svensk grammatik Ordklasser!

Svensk grammatik Ordklasser! Svensk grammatik Ordklasser! Grammatik är läran om ett språk, hur detta språk är uppbyggt och hur det fungerar i tal/skrift. Alla ord betyder något och kan delas in i olika ordklasser. Det finns 9 olika

Läs mer

Svårigheter med kurslitteraturen

Svårigheter med kurslitteraturen Svårigheter med kurslitteraturen Forskningsanknuten kurs Litteraturen är skriven i syfte att presentera forskningsresultat och ofta argumentera för vissa lösningar; undantag: uppfriskningslitteraturen

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning

Läs mer

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning... LINKÖPINGS UNIVERSITET Innehåll 1. Inledning... 2 2. Terminologi... 3 3. Allmänt om Word2Vec... 3 4. Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora

Läs mer

Satslära introduktion

Satslära introduktion Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

Kort presentation av Korp, Sveriges nationalkorpus

Kort presentation av Korp, Sveriges nationalkorpus Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Artighetsmarkörer? Om förstås och andra självklarhetsadverb

Artighetsmarkörer? Om förstås och andra självklarhetsadverb Artighetsmarkörer? Om förstås och andra självklarhetsadverb Peter Andersson, D-student i svenska Att behandla utvecklingen av några speciella ord i svenskan kan tyckas trivialt och möjligen uppfattas det

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng

Läs mer

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp 729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

ORDKLASSERNA I. Ett sätt att sortera våra ord

ORDKLASSERNA I. Ett sätt att sortera våra ord ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV

Läs mer

Grundläggande syntaktiska funktioner och roller

Grundläggande syntaktiska funktioner och roller UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Ordklasser och satsdelar

Ordklasser och satsdelar Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera

Läs mer

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför. Ordklasser SUBSTANTIV 1. Substantiv kan delas in i följande grupper: egennamn (Nilsson, Kalle, Märsta, SAAB) växter (gräs, träd, buske) personer (häxa, flicka, svensk) djur (lejon, hund, spindel) föremål,

Läs mer

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se)

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se) Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se) Övningar för aktualisering av grundläggande svensk morfologi Gör övningarna i

Läs mer

Ordförråd och Ordbildning

Ordförråd och Ordbildning Ordförråd och Ordbildning Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Språkstruktur! Fonologi - fonemens kombinationer till morfem! fonem - minsta betydelseskiljande

Läs mer

Semantik och pragmatik

Semantik och pragmatik Semantik och pragmatik Lingvistik 1 vt06 Uppsala universitet 1 Nyckelord idag Semantik Fras- och satssemantik Semantiska roller Kompositionalitetsprincipen Metaforer och idiom Pragmatik Språklig kontext

Läs mer

Vad kan statistik avslöja om svenska sammansättningar?

Vad kan statistik avslöja om svenska sammansättningar? Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar

Läs mer

Arbetsplan i Thailändska

Arbetsplan i Thailändska Arbetsplan i Thailändska Mål att sträva mot: Grundläggande färdigheter i att lära sig läsa, prata och skriva Thailändska. Är stolt att vara Thai, är inte självisk, inte utnyttja andra människor. Konstruktiva

Läs mer

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1 Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper

Läs mer

Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser

Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser en för Förskoleklassen Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser Skriva från höger till vänster Skriva alla bokstäver åtskilda Skriva sitt namn utantill Namn

Läs mer

LINKOPINGS UNIVERSITET, KOGNITIONSVETENSKAP 1. Analys av primacy- och recencyeffekter för falska minnen

LINKOPINGS UNIVERSITET, KOGNITIONSVETENSKAP 1. Analys av primacy- och recencyeffekter för falska minnen LINKOPINGS UNIVERSITET, KOGNITIONSVETENSKAP 1 Analys av primacy- och recencyeffekter för falska minnen 3-30-2010 Sammanfattning Vår frågeställning är hur viktiga är de första och sista orden som presenteras

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska

Läs mer

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form. SALDO Beskrivningen av SALDO finner du på adressen http://spraakbanken.gu.se/saldo För att söka i SALDO går du till den här adressen: http://spraakbanken.gu.se/ws/saldo-ws/fl/html En ruta kommer upp och

Läs mer

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol) Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Grammatifix Svensk grammatikkontroll i MS Word

Grammatifix Svensk grammatikkontroll i MS Word 2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2

Läs mer

2D1418, Språkteknologi

2D1418, Språkteknologi 2D1418, Språkteknologi Uppsatsuppgift: Wordnets uppbyggnad Johnny Bigert, d95-jbi@nada.kth.se 19 oktober 2001 Bakgrund När man bygger system för stavningskontroll och grammatikkontroll behöver man stora

Läs mer

FUZZY LOGIC. Christopher Palm chrpa087

FUZZY LOGIC. Christopher Palm chrpa087 FUZZY LOGIC 900223-1554 Innehållsförteckning INLEDNING...2 HUR DET FUNGERAR...3 Crisp Sets och Fuzzy Sets...3 Operatorer...5 IF THEN regler...7 FUZZY INFERENCE...7 Fuzzification...8 Regelsättning...8

Läs mer

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson Ämnesområden Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson martin.fredriksson@lnu.se 1 Ämnesområden ÖVERSIKT 2 Översikt Dagens föreläsning Fokus Innehåll Relevans Presentation Ämnesområden

Läs mer

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Arv Fundamental objekt-orienterad teknik arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Programmeringsmetodik -Java 165 Grafisk respresentation: Arv

Läs mer

Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli?

Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli? Kungl. Tekniska Högskolan NADA Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli? ht:02 Kurs: Språkteknologi Kurskod: 2D1418 Författare: Sanna Huhta e-post:

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,

Läs mer

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)

Läs mer

Gul utanpå ORDLISTA PATRIK LUNDBERG ARBETSMATERIAL FÖR LÄSAREN

Gul utanpå ORDLISTA PATRIK LUNDBERG ARBETSMATERIAL FÖR LÄSAREN ARBETSMATERIAL FÖR LÄSAREN PATRIK LUNDBERG ORDLISTA Förord håll (sida 5, rad 1) riktningar Kapitel 4 lättnad (sida 14, rad 10) en känsla av att saker blivit bättre Kapitel 6 biologiska föräldrar (sida

Läs mer

Word sense disambiguation med Svenskt OrdNät

Word sense disambiguation med Svenskt OrdNät MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN 1404-0891 Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer