Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer"

Transkript

1 Inlärning av regler för detektering av lexikala fel i rysk text med tonvikt på paronymer Natalia Zinovjeva Språkgranskningsverktyg, HT Inledning Ord som liknar varandra uttalsmässigt eller betydelsemässigt utan att vara synonymer tenderar ibland att förväxlas med varandra och utgör ett särskilt problem för inlärare av främmande språk. Det rör sig ofta om paronymer, ord som är besläktade med varandra, uppvisar fonetiska likheter och tillhör samma ordklass, men har olika betydelser. De förtjänar särskild uppmärksamhet eftersom felaktigt val av sådana ord inte kan upptäckas med hjälp av stavnings- och grammatikkontroll. I denna rapport beskrivs ett försök att automatiskt generera regler för identifiering av sådana fel i rysk text. Rapporten är disponerad enligt följande. I nästa avsnitt presenteras paronympar som vi använder som exempelord i våra experiment. Vi förklarar deras betydelser och ger exempel på korrekt användning av dessa ord. Avsnitt 3 beskriver vår metod. Avsnitt 4 ger en kortfattad beskrivning av träningskorpusen och testmaterialet. I avsnitt 5 beskrivs själva experimenten. I avsnitt 6 sammanfattar vi resultaten av experimenten och diskuterar möjligheterna till att utveckla och förbättra metoden. 2. Exempelorden I våra experiment försöker vi automatiskt generera regler som skall detektera felaktig användning av följande paronymiska ordpar 1 : Adjektiven дождливый <dozjdlivyj> och дождевой <dozjdevoj> Båda adjektiven är besläktade med substantivet дождь <dozjd > regn. Det första adjektivet, дождливый, betyder regnig och modifierar i regel substantiv som betecknar tidsperioder, till exempel дождливый день <dozjdlivyj den > regnig dag, дождливый сентябрь <dozjdlivyj sentjabr > regnig september, дождливое лето <dozjdlivoe leto> regnig sommar, samt substantivet погода <pogoda> väder i uttrycket дождливая погода <dozjdlivaja pogoda> regnväder, regnigt väder. Det andra adjektivet, дождевой, modifierar ord som betecknar vatten, moln och nederbörd (дождевая вода <dozjdevaja voda> regnvatten, дождевые капли <dozjdevye kapli> regndroppar, дождевая лужа <dozjdevaja luzja> pöl av regnvatten, дождевое облако 1 Se Beltjikov och Panjusjeva (2004). 1

2 <dozjdevoe oblako> regnmoln ) samt klädesplagg och föremål som skyddar mot regn (till exempel, дождевой плащ <dozjdevoj plasjtj> regnkappa ). Adjektiven человеческий <tjelovetjeskij> och человечный <tjelovetjnyj> Båda adjektiven är besläktade med substantivet человек <tjelovek>, människa. Det första adjektivet, человеческий <tjelovetjeskij>, kan översättas till svenska som mänskilg, människans, mänsklighetens : человеческая голова <tjelovetjeskaja golova> en människas huvud, человеческий голос <tjelovetjeskij golos> en människas röst, человеческая жизнь <tjelovetjeskaja zjizn > människans liv, человеческий язык <tjelovetjeskij jazyk> männsikans språk. Ordet kan även användas i betydelsen human, godhjärtad, snäll : человеческое отношение <tjelovetjeskoe otnosjenie> human attityd. Det andra adjektivet, человечный, kan endast betyda human, godhjärtad; som visar humana känslor; som är snäll mot sina medmänniskor. Användningen av båda adjektiven kan vara korrekt i vissa sammanhang. Uttrycken человеческое отношение <tjelovetjeskoe otnosjenie> och человечное отношение <tjelovetjnoe otnosjenie> human attityd, human inställning är synonyma. Båda adjektiven kan modifiera substantivet общество <obsjtjestvo> samhälle, civilisation, men de resulterande uttrycken, человеческое общество <tjelovetjeskoe obsjtjestvo> mänskligheten, mänskligt samhälle och человечное общество <tjelovetjnoe obsjtjestvo> humant samhälle har olika betydelser. I många andra kontexter kan man dock endast använda ett av adjektiven. Till exempel kan adjektivet человечный inte modifiera substantiv som betecknar kropp och kroppsdelar, som ноги <nogi> ben, fötter : att säga *человечные ноги <tjelovetjnye nogi> skulle vara ungefär detsamma som att beskriva ben eller fötter som humana. Adjektivet человеческий brukar i regel inte modifiera substantiv som betecknar personer samt vissa andra ord: суд <sud> domstol, приговор <prigovor> dom, рассказ <rasskaz> berättelse. Användningen av ordet человечный är mer korrekt och naturlig i dessa fall. Substantiven воспоминание <vospominanie> och напоминание <napominanie> Orden är besläktade med verbet помнить <pomnit > minnas. Det första substantivet, воспоминание <vospominanie>, betyder minne, det att minnas, det att komma ihåg och används till exempel i uttrycken воспоминание о детстве <vospominanie o detstve> minne av barndomen och воспоминание о путешествии <vospominanie o putesjestvii> minne av resan. I pluralis kan detta substantiv användas i betydelsen memoarer : воспоминания писателя <vospominanija pisatelja> författarens memoarer. Det andra substantivet, напоминание <napominanie>, betyder påminnelse, något som väcker minnen : напоминание о встрече <napominanie o vstretje> påminnelse om en träff. För att inte förväxla dessa ord bör man tänka på att substantivet воспоминание beskriver en mental process (att minnas, att komma ihåg), medan напоминание betecknar ett föremål eller en handling som gör att man kommer ihåg något. 2

3 Verben вдохнуть <vdoxnut > / вдыхать <vdyxat > och вздохнуть <vzdoxnut > / вздыхать <vzdyxat > 2 Verben är bildade av roten -дох-/-дых- och är besläktade med orden дышать <dysjat > andas och дыхание <dyxanie> andning. 3 Det första verbparet, вдохнуть/вдыхать <vdoxnut /vdyxat >, betyder andas in : вдохнуть холодный воздух <vdoxnut xolodnyj vozdux> andas in kall luft. Verben kan även användas bildligt i betydelsen väcka, få någon känna något : вдохнуть жизнь <vdoxnut' zjizn'> väcka liv (i något eller i någon). Det andra verbparet, вздохнуть/вздыхать <vzdoxnut /vzdyxat >, betyder sucka, pusta ut och kan även användas bildligt i betydelsen ta en rast, ta det lugnt (efter att ha arbetat hårt, efter en resa o dyl.). Verbet вздыхать följt av prepositionen o <o> kan också betyda sakna (någon eller något), längta (efter någon eller något). 3. Metod Regler för detektering av felaktigt val av ord som tenderar att förväxlas med varandra kan med fördel genereras automatiskt. Bland tidigare försök att lösa liknande problem med hjälp av maskininlärning kan man nämna experiment som är beskrivna i Golding och Schabes (1996). I våra experiment använder vi systemet µ-tbl som är utvecklat av T. Lager (1999) och som implementerar algoritmen för transformationsbaserad inlärning, en inlärningsmetod introducerad av E. Brill 4. Systemet µ-tbl genererar transformationsregler givet en annoterad träningskorpus och en uppsättning mallar (templates) som visar hur de färdiga reglerna skall vara formulerade. Regelformatet är flexibelt och gör det möjligt att lära in och tillämpa regler som tar hänsyn till olika typer av information som finns i kontexten. En transformationsregel kan till exempel vara formulerad enligt följande mall: tag:a>b <- En regel som är genererad enligt denna mall ersätter taggen A med taggen B om ett av de två närmaste orden till vänster om det ord som ska disambigueras är C. En mall för regler som ska ta hänsyn till två ord i kontexten kan se ut på följande sätt: tag:a>b <- & Sådana regler letar efter förekomster av ordet C följt av ordet D till höger om det ord som disambigueras. 2 Skillnaden mellan verben вдохнуть och вдыхать består i att de har olika aspekt. Detsamma gäller skillnaden mellan verben i det andra verbparet, вздохнуть och вздыхать. 3 Variationen о/ы och х/ш i roten är allomorfisk. 4 I Brill 1995, Zinovjeva 1999 och Zinovjeva 2000 ges en detaljerad beskrivning av metoden. 3

4 Systemet µ-tbl har använts bl a för inlärning av regler för ordklasstaggning (Zinovjeva 1999), lexikal disambiguering (Lager 2000, Zinovjeva 2000, Lager och Zinovjeva 2001) och dialogaktstaggning (Lager och Zinovjeva 1999). Experimenten med lexikal disambiguering (Zinovjeva 2000) visar att det finns fördelar med att granska och modifiera regelsekvensen manuellt i efterhand för att förbättra resultatet. Generering av regler för lexikal disambiguering skiljer sig väsentligt från inlärningen av regler för disambiguering på morfologisk och syntaktisk nivå. Frekvensen hos enskilda lexem är oftast relativt låg jämfört med frekvenserna hos morfologiska former och morfosyntaktiska konstruktioner, vilket gör att även en träningskorpus som är tillräckligt stor för andra ändamål (till exempel träning av ordklasstaggare) kan innehålla för få förekomster av det ord som vi vill disambiguera. 5 Vid lexikal disambiguering måste man dessutom ta hänsyn till andra lexem i kontexten som kan uppvisa en stor variation. Denna uppgift ställer höga krav på träningskorpusen avseende dess storlek och representativitet, och även om man använder träningsdata av hög kvalitet är risken stor att en del regler som lärs in automatiskt blir för generella eller för specifika. Vi kan förvänta oss att liknande problem kan uppstå även vid inlärning av regler för detektering av lexikala fel. Därför kommer vi i våra experiment att granska regler som genereras av systemet och införa ändringar som kan förbättra träffsäkerheten och minska risken för falska larm. 4. Träningsdata och testdata Vår träningsdata består av material från den ryska Nationalkorpusen (Русский национальный корпус) som innehåller över 85 miljoner ord. 6 Varje förekomst av exempelorden i träningskorpusen annoteras automatiskt och representeras på följande sätt: wd(position,ord). fel(felaktigt_lemma, KORREKT_LEMMA, POSITION). där POSITION anger ordets position i texten, ORD är den aktuella ordformen, KORREKT_LEMMA är ordets lemma och FELAKTIGT_LEMMA är lemmat av den paronym som ordet kan förväxlas med. Lemmatiseringen är trivial, eftersom alla våra exempelord är entydiga ur morfologisk synvinkel. Systemets uppgift blir att leta efter ledtrådar som tyder på att det felaktiga ordet inte passar in i kontexten. Som testdata använder vi material från samma korpus. För att testa täckningen (andelen fall där systemet lyckas identifiera felaktigt val av ord genom att tillämpa reglerna) annoterar vi testkorpusen på samma sätt som träningsdatan. 7 För att testa precisionen och se om reglerna genererar några falska larm annoterar vi vår testdata på följande sätt: 5 Undantaget är högfrekventa funktionsord som kan vara vanligare än vissa lågfrekventa böjningsformer och morfosyntaktiska konstruktioner. 6 Se för mer information och för att söka i korpusen online. 7 Detta sätt att utvärdera regelsekvenserna har en nackdel: vid automatisk annotering av testkorpusen kan vi inte ta hänsyn till de fall där båda paronymerna passar in i kontexten. Vi måste därför vara beredda på att testet inte blir helt rättvis och att täckningen kan se ut att vara sämre än vad den är. För en bättre utvärdring skulle vi behöva en testkorpus där alla förekomster av ord som intresserar oss är annoterade manuellt med hänsyn till de fall där användningen av båda orden ger semantiskt korrekta meningar. Manuell annotering av testkorpusen skulle dock kräva mer tid. 4

5 wd(position,ord). fel(korrekt_lemma, KORREKT_LEMMA, POSITION). Vi kommer att räkna antalet fall där systemet försöker ersätta det korrekta ordet med dess paronym för att få en uppfattning om antalet falska larm som reglerna kan ge. 5. Generering, korrigering och test av regelsekvenserna 5.1 Adjektiven дождливый och дождевой De flesta regler som systemet har genererat tar hänsyn till substantiv som adjektiven modifierar, vilket är lätt att förklara: valet av adjektiv i detta fall styrs av huvudordet i nominalfrasen. 8 Adjektivet дождливый byts ut mot дождевой om det förekommer bredvid substantiven капли nominativ eller ackusativ pluralis eller genitiv singilaris av капля <kaplja> dropp, воду ackusativ av вода <voda> vatten, облако <oblako> moln, луже dativ eller lokativ av лужа <luzja> pöl : fel:дождливый>дождевой <- fel:дождливый>дождевой <- fel:дождливый>дождевой <- fel:дождливый>дождевой <- Adjektivet дождевой byts ut mot дождливый om ord som день <den > dag, ночи genitiv, dativ eller lokativ singularis eller nominativ eller ackusativ pluralis av ночь <notj > natt, вечер <vetjer> kväll, погоде dativ eller lokativ av погода <pogoda> väder förekommer i den närmaste kontexten: fel:дождевой>дождливый <- fel:дождевой>дождливый <- fel:дождевой>дождливый <- fel:дождевой>дождливый <- Följande regel byter ut adjektivet дождливый mot дождевой om det första ordet till höger är червя genitiv eller ackusativ av червь <tjerv > mask: fel:дождливый>дождевой <- Regeln korrigerar felet i uttrycket дождевой червь <dozjdevoj tjerv > daggmask. Till de regler som skapar en risk för falska larm utan att göra någon nytta hör följande regel: fel:дождливый>дождевой <- 8 Det är intressant att lägga märke till likheterna mellan dessa regler och regler för lexikal disambiguering som är beskrivna i Zinovjeva (2000) och Lager och Zinovjeva (2001). Även vid lexikal disambiguering av adjektiv kan substantiv som modifieras av dessa adjektiv vara användbara som ledtrådar. 5

6 Denna regel ersätter adjektivet дождливый med дождевой om ett av de två orden till höger eller till vänster är prepositionen c <c> med. Flera regler i vår regelsekvens tycks vara för generella och onödiga, som regeln ovan. Samtidigt kan man se att regelsekvensen i vissa avseenden är för specifik. Adjektivet дождливый ersätts med дождевой om substantivet вода <voda> vatten i nominativ, genitiv, ackusativ eller instrumentalis finns i dess närmaste kontext, medan liknande regler för de andra kasusformerna av detta substantiv saknas. Vi testar regelsekvensen på en testkorpus på 6637 ord som innehåller 107 förekomster av adjektiven дождливый och дождевой. I det första testet annoterar vi dessa adjektiv med felaktiga taggar. 9 Efter tillämpningen av regelsekvensen har adjektiven fått korrekta taggar i 66 fall (61,7%). I det andra testet är adjektiven annoterade med korrekta taggar. Efter tillämpningen av reglerna har antalet korrekta taggar sjunkit från 107 (100%) till 81 (75,7%), vilket innebär att regelsekvensen har genererat 19 falska larm. Vi inför några ändringar i regelsekvensen: regler som inte kan motiveras ur lingvistisk synvinkel tas bort och några nya regler läggs till. 10 När vi testar regelsekvensen på nytt ser vi att täckningen har sjunkit till 51,4%, men alla falska larm har försvunnit. Det är viktigt att se det som döljer sig bakom siffrorna för att inte misstolka dem. Trots att täckningen har blivit lägre efter korrigeringen av regelsekvensen vore det inte rätt att påstå att resultatet har försämrats. Regler som är för generella kan tilldela ord korrekta taggar på felaktiga, slumpmässiga grunder. Genom att ta bort dem förhindrar vi en del falska larm. Den förlorade täckningen kan sedan kompenseras med nya regler av högre kvalitet - regler som kan motiveras ur syntaktisk, semantisk eller pragmatisk synvinkel. När vi granskar testkorpusen efter tillämpningen av den modifierade regelsekvensen ser vi bland annat följande fraser med adjektivet дождливый där systemet inte har lyckats upptäcka att det andra adjektivet, дождевой, inte passar in i kontexten: дождливые осенние сумерки <dozjdlivye osennie sumerki> regnig höstkväll серый, дождливый денек <seryj, dozjdlivyj denjok> en grå, regnig höstdag один из тех дождливых, нудных выходных <odin iz tex dozjdlivyx, nudnyx vyxodnyx> en av de regniga, trista helgerna I själva verket ger orden сумерки <sumerki>, денек <denjok> dag och выходных genitiv av выходные <vyxodnye> helg en god indikation om att användningen av adjektivet дождевой skulle vara felaktig i dessa fall. Man skulle kunna förbättra regelsekvensen och öka täckningen genom att lägga till nya regler som hittar förekomster av dessa substantiv i kontexten. 5.2 Adjektiven человеческий och человечный Även i detta fall har systemet hittat ett antal substantiv som adjektiven modifierar. Följande regler byter ut adjektivet человечный mot человеческий om orden жизнь <zjizn > liv, деятельности genitiv av деятельность <dejatel nost > verksamhet, организма genitiv 9 Se avsnitt Vi korrigerar regelsekvensen utan att titta på testkorpusen. 6

7 av организм <organism> kropp, organism, разум <razum> förnuft, intelligens, жертв genitiv pluralis av жертва <zjertva> offer, голос <golos> röst förekommer i den närmaste kontexten: fel:'человечный'>'человеческий' <- fel:'человечный'>'человеческий' <- fel:'человечный'>'человеческий' <- fel:'человечный'>'человеческий' <- fel:'человечный'>'человеческий' <- fel:'человечный'>'человеческий' <- Regler som byter ut adjektivet человеческий mot человечный är ganska få, vilket måste bero på att adjektivet человеческий har högre frekvens. En sådan regel letar upp förekomster av adverbet более <bolee> mer, som modifierar adjektivet: fel:'человеческий'>'человечный' <- En del regler i vår regelsekvens kan inte motiveras ur vare sig syntaktisk eller semantisk synvinklel. Ett exempel är följande regel: fel:'человечный'>'человеческий' <- Denna regel föreslår att byta ut adjektivet человечный mot человеческий om ett av de två orden till höger eller till vänster är konjunktionen и <i> och. Att systemet har genererat denna regel beror tydligen på att человеческий är mer frekvent än человечный. I själva verket finns det dock inga skäl för att markera förekomster av adjektivet человечный nära konjunktionen и <i> som ett misstänkt fel. Regler som denna kan orsaka falska larm utan att göra någon nytta. När vi testar reglerna på en korpus som innehåller ord och sammanlagt 4157 förekomster av orden человечный och человеческий ser vi att 3159 av orden (76%) har fått korrekta taggar. Reglerna ger 90 falska larm. När vi korrigerar regelsekvensen manuellt sjunker antalet falska larm till 43. Samtidigt sjunker täckningen till 44,1% (1835 korrekta taggar). När vi tittar närmare på testkorpusen ser vi dock att vi skulle kunna förbättra täckningen genom att utöka regelsekvensen med bl a regler som ersätter adjektivet человечный med человеческий om ordet память <pamjat > minne och vissa ord som betecknar kroppsdelar finns i dess närmaste kontext. Dessutom skulle man kunna lägga till regler som detekterar felaktig användning av adjektivet человеческий som modifierare i nominalfraser där huvudordet betecknar en person. Sådana regler skulle kunna genereras med hjälp av ett lexikon som liknar WordNet. 11 Vid genereringen och utvärderingen av regler får man naturligtvis inte glömma att båda adjektiven kan passa in i vissa kontexter Verben вдохнуть/вдыхать och вздохнуть/вздыхать Många av de regler som byter ut вздохнуть/вздыхать mot вдохнуть/вдыхать letar upp verbets objekt, medan flera av de regler som ersätter verben вдохнуть/вдыхать med вздохнуть/ 11 Se diskussionen om användning av semantiska lexikon vid lexikal disambiguering i Zinovjeva (2000). 12 Se avsnitt 2. 7

8 вздыхать använder adverbialet som en ledtråd. 13 Följande regler hittar substantiven запах <zapax> lukt, воздух <vozdux> luft och кислорода genitiv av кислород <kislorod> syre i kontexten och ersätter вздохнуть/вздыхать med вдохнуть/вдыхать: fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- fel: вздохнуть/вздыхать>вдохнуть/вдыхать <- Verbparet вдохнуть/вдыхать ersätts med вздохнуть/вздыхать om det första ordet till vänster är сокрушенно <sokrusjonno> frustrerat : fel: вдохнуть/вдыхать>вздохнуть/вздыхать <- Till de regler som kan orsaka falska larm hör följande regel: fel: вдохнуть/вдыхать> вздохнуть/вздыхать <- Denna regel föreslår att ersätta verbparet вдохнуть/вдыхать med вздохнуть/вздыхать om ett av de två orden till höger eller till vänster är pronomenet я <ja> jag. Vi testar regelsekvensen på en testkorpus som innehåller ord och 1044 förekomster av verben вдохнуть/вдыхать och вздохнуть/вздыхать. Efter tillämpningen av reglerna får 944 av verben (90,4%) korrekta taggar. Reglerna ger dock 54 falska larm (5,2%). Efter korrigeringen av regelsekvensen förbättras precisionen: andelen falska larm sjunker till 0,6%. Täckningen sjunker avsevärt: nu är det bara 550 förekomster av verben (52,7%) som blir korrekt taggade efter tillämpningen av reglerna. När vi tittar på testkorpusen ser vi att resultatet kan förbättras om man lägger till ytterligare några regler, bland annat en regel som ersätter вдохнуть/вдыхать med вздохнуть/вздыхать framför ordet тоскливо <tosklivo> sorgset i uttrycket вздохнуть тоскливо <vzdoxnut tosklivo> sucka sorgset och вздохнуть/вздыхать med вдохнуть/вдыхать framför prepositionsuttrycket через нос <tjerez nos> genom näsan. I testkorpusen ser vi även meningar där båda orden skulle kunna vara korrekta. 5.4 Substantiven воспоминание och напоминание Många av de regler som systemet har genererat tar hänsyn till modifierare som utgörs av adjektiv eller substantiv i genitiv. Följande regel ersätter substantivet воспоминание med напоминание om det första ordet till vänster är adjektivet письменное <pis mennoe> skriftlig : fel:воспоминание>напоминание <- En regel byter ut substantivet напоминание mot воспоминание om ett av de två orden till höger är детства - genitiv av детство <detstvo> barndom : Även dessa regler kan jämföras med regler för lexikal disambiguering av verb som är beskrivna i Zinovjeva (2000). 8

9 fel:напоминание>воспоминание <- Till regler som är för generella och kan orsaka falska larm hör följande regel, som ersätter substantivet напоминание med воспоминание om ett av orden i den närmaste kontexten är только <tol ko> bara : fel:напоминание>воспоминание <- Vår testdata innehåller ord och 647 förekomster av substantiven напоминание och воспоминание. Efter tillämpningen av reglerna ser vi att 545 av dem (84,2%) har fått korrekta taggar. Regler genererar även ett antal falska larm: efter att ha tillämpat regelsekvensen på vår testdata där alla substantiven har korrekta taggar ser vi att antalet korrekta taggar har sjunkit till 581 (89,8%). Genom att ta bort några regler lyckas vi minska antalet falska larm: 599 (92,6%) av förekomsterna av båda substantiven får korrekta taggar. Täckningen sjunker till 51,5%. Vi kan dock förbättra täckningen även i detta fall; till exempel kan regelsekvensen utökas med regler som ersätter воспоминание med напоминание om substantivet modifieras med adjektivet неоднократные <neodnokratnye> upprepade. Även vid genereringen och utvärderingen av regler för detektering av felaktig användning av dessa substantiv bör man vara medveten om att båda substantiven kan förekomma i vissa kontexter. 6. Sammanfattning och diskussion Experimenten visar att automatisk inlärning av regler för detektering av felaktigt val av paronymer kan vara användbar. Sådana regler kan integreras i ett system för språkgranskning som markerar felaktigt valda paronymer och ger användaren information om användning av dessa paronymer med konkreta exempel och korrigeringsförslag. De problem som finns beror framför allt på att det ofta är svårt att samla in representativ träningsdata och testdata som innehåller tillräckligt många förekomster av orden i fråga. 15 När en av paronymerna är mer frekvent än den andra kan detta leda till att systemet skapar en regelsekvens där många regler är för generella och tenderar att ersätta det mindre frekventa ordet med det ord som är mer frekvent. Användning av sådana regelsekvenser i ett språkgranskningssystem skulle i princip leda till att mindre frekventa ord ibland skulle markeras som misstänkta fel bara av den anledning att de är lågfrekventa. I vårt fall är det dock mycket viktigt att tänka på precisionen, eftersom falska larm kan vara irriterande och ibland missvisande. Både täckningen och precisionen kan förbättras med hjälp av manuell korrigering av reglerna. Otillräcklig mängd testdata kan dock göra det svårare att utvärdera färdiga regelsekvenser. För att få en bättre uppfattning om reglernas kvalitet skulle man kunna utvärdera dem genom att tillämpa dem på texter och meningar skrivna av inlärare. Ett problem är att många av de ord som 14 Uttrycket *напоминание детства <napominanie detstva> låter inte korrekt. Däremot skulle frasen напоминание о детстве <napominanie o detstve> barndomsminne med prepositionen o <o> och substantivet детство i lokativ vara acceptabel. 15 Notera att den korpus som vi använder, den ryska Nationalkorpusen, innehåller över 85 miljoner ord (se avsnitt 4). 9

10 intresserar oss inte är tillräckligt frekventa för att man ska kunna räkna med att en korpus som består av inlärartexter kommer att innehålla ett stort antal förekomster av dessa ord. Ett sätt att lösa problemet är att låta en grupp studenter göra ett ordkunskapsprov där de måste välja mellan olika ord som kan förväxlas med varandra och skriva egna meningar med dessa ord. Metoden har dock även vissa nackdelar. Den konstgjorda situationen kan påverka en del studenter som kan bli särskilt uppmärksamma och göra färre fel än vad de oftast brukar göra. Lemmatisering av träningskorpusen och inlärning av regler som tar hänsyn till lemman och inte bara strängar i kontexten skulle kunna hjälpa att undvika genereringen av regler som är för specifika. Ett semantiskt lexikon som liknar WordNet kan vara en användbar resurs vid genereringen av regler för vissa ord. Erfarenheter av lexikal disambiguering kan delvis användas för att förbättra metoder för detektering av felaktigt val av paronymer. Referenser Beltjikov, Julij och Maria Panjusjeva, Slovar paronimov russkogo jazyka. Izdatel stvo AST, Izdatel stvo Astrel, Moskva Golding, Andrew R. och Yves Schabes, Combining Trigram-Based and Feature-Based Methods for Context Sensitive Spelling Correction. In Proceedings of the 34 th Annual Meeting of the Association for Computational Linguistics, Santa Cruz, CA 1996 Lager T., The µ-tbl System: Logic Programming Tools for Transformation-Based Learning. In Proceedings of The Third International Workshop on Computational Natural Language Processing (CoNLL'99), Bergen, Lager T., A Logic Programming Approach to Word Expert Engineering. In Proceedings of the International Conference on Artificial and Computational Intelligence for Automation, Decision and Control in Engineering and Industrial Applications (ACIDCA'2000), March , Monastir, Tunisia. Lager T., Zinovjeva N., Training a Dialogue Act Tagger with the µ-tbl System. Paper presented at The Third Swedish Symposium on Multimodal Communication, Natural Language Processing Laboratory (NLPLAB) at Linköping University. Lager T. and Zinovjeva N.,2001. Sense and Deduction: The Power of Peewees Applied to the SENSEVAL-2 Swedish Lexical Sample Task. In Proceedings of SENSEVAL-2 Zinovjeva N., Automatisk inlärning av regler för annotering av rysk text. C-uppsats. Institutionen för slaviska språk, Uppsala universitet Zinovjeva N., Learning sense disambiguation rules for machine translation. Examensarbete, 20 p. Institutionen för lingvistik, Uppsala universitet. 10

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Svensk minigrammatik

Svensk minigrammatik Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet

Läs mer

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi. Háskóli Íslands Svenska lektoratet Höstterminen Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is Studiebrev 12 Nu är det dags att börja repetera inför provet! I detta studiebrev kommer

Läs mer

Artighetsmarkörer? Om förstås och andra självklarhetsadverb

Artighetsmarkörer? Om förstås och andra självklarhetsadverb Artighetsmarkörer? Om förstås och andra självklarhetsadverb Peter Andersson, D-student i svenska Att behandla utvecklingen av några speciella ord i svenskan kan tyckas trivialt och möjligen uppfattas det

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Svensk grammatik Ordklasser!

Svensk grammatik Ordklasser! Svensk grammatik Ordklasser! Grammatik är läran om ett språk, hur detta språk är uppbyggt och hur det fungerar i tal/skrift. Alla ord betyder något och kan delas in i olika ordklasser. Det finns 9 olika

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

Betydelse och betydelse

Betydelse och betydelse Betydelse och betydelse Ordbetydelsedisambiguering i praktiken Stian Rødven Eide stian@fripost.org Självständigt arbete i lingvistik, 15 hp Göteborgs universitet Institutionen för filosofi, lingvistik

Läs mer

Satslära introduktion

Satslära introduktion Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp 729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer

Läs mer

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng

Läs mer

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Karin Cavallin karin.cavallin@gu.se Institutionen för filosofi, lingvistik och vetenskapsteori Göteborgs universitet

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se)

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se) Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se) Övningar för aktualisering av grundläggande svensk morfologi Gör övningarna i

Läs mer

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar

Läs mer

Vad kan statistik avslöja om svenska sammansättningar?

Vad kan statistik avslöja om svenska sammansättningar? Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar

Läs mer

Arbetsplan i Thailändska

Arbetsplan i Thailändska Arbetsplan i Thailändska Mål att sträva mot: Grundläggande färdigheter i att lära sig läsa, prata och skriva Thailändska. Är stolt att vara Thai, är inte självisk, inte utnyttja andra människor. Konstruktiva

Läs mer

Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli?

Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli? Kungl. Tekniska Högskolan NADA Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli? ht:02 Kurs: Språkteknologi Kurskod: 2D1418 Författare: Sanna Huhta e-post:

Läs mer

Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser

Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser en för Förskoleklassen Alla bokstäver bildligt och uttalsmässigt Förstå alla ord vid bokstävernas berättelser Skriva från höger till vänster Skriva alla bokstäver åtskilda Skriva sitt namn utantill Namn

Läs mer

Word sense disambiguation med Svenskt OrdNät

Word sense disambiguation med Svenskt OrdNät MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN 1404-0891 Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON

Läs mer

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac Eva Ansell Ulrika Nilsson MICROSOFT WORD 2008 för Mac 1. Introduktion till Word 2008 för MAc A. Docendo-pedagogiken...6 B. Hämta övningsfiler...7 C. Starta programmet...8 D. Avsluta programmet...8 E. Programfönstret...9

Läs mer

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning? Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins

Läs mer

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 1.Äntligen ADVERB 27. om PREPOSITION 2. lyftes VERB 28. överseende PARTICIP 3. där ADVERB 29. att INFINITIVMÄRKE 4.

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

ClaroDictionary med tal. ClaroDictionary utan tal

ClaroDictionary med tal. ClaroDictionary utan tal ClaroDictionary med tal ClaroDictionary utan tal Manual Artikelnummer 10400 och 10401 1 Innehåll Välkommen till ClaroDictionary...3 ClaroDictionary Översikt...4 ClaroDictionarys verktygsknappar...4 Knappen

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Magisteruppsats i Språkteknologi, 30hp Institutionen för lingvistik och lologi Uppsala Universitet Camilla Liljhammar, camlilj@stp.lingl.uu.se

Läs mer

Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se

Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Grundläggande Textanalys VT 2014 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift

Läs mer

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.

Läs mer

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. o Ofta fogas

Läs mer

Lokal pedagogisk planering för tyska år 9

Lokal pedagogisk planering för tyska år 9 Barn- och utbildningsnämnden 1 (5) Barn- och utbildningsförvaltningen Skogstorpsskolan Cecilia Härsing, lärare i tyska Lokal pedagogisk planering för tyska år 9 Syfte Undervisningen i tyska år 9 utformas

Läs mer

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007) Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket

Läs mer

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk Beteckning: Institutionen för humaniora och samhällsvetenskap Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk Emma Selin December 2009 Examensarbete med didaktisk

Läs mer

Om ämnet Engelska. Bakgrund och motiv

Om ämnet Engelska. Bakgrund och motiv Om ämnet Engelska Bakgrund och motiv Ämnet engelska har gemensam uppbyggnad och struktur med ämnena moderna språk och svenskt teckenspråk för hörande. Dessa ämnen är strukturerade i ett system av språkfärdighetsnivåer,

Läs mer

Ordbok arabiska - svenska

Ordbok arabiska - svenska 1 Ordbok arabiska - svenska Denna ordboks webbadress är: http://www.swedishmekteb.se/arabiska/index.html 2 Chapter 1 Inledning 1.1 Om ordboken Sedan hösten 2009 pågår Swedish Mektebs studiecirkel i arabiska

Läs mer

Träningshäfte ordklasser (Venus)

Träningshäfte ordklasser (Venus) Träningshäfte ordklasser (Venus) Substantiv 1. Stryk under substantiven bland följande ord (8 st) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte

Läs mer

Pragmatisk och narrativ utveckling

Pragmatisk och narrativ utveckling Pragmatisk och narrativ utveckling Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Pragmatik! Pragma! handling! hur vi använder språket! hur vi handlar genom språket! Pragmatik!

Läs mer

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...

Läs mer

Därför finns det också massor musar och bara 3 katten

Därför finns det också massor musar och bara 3 katten GÖTEBORGS UNIVERSITET Institutionen för svenska språket Svenska som andraspråk Därför finns det också massor musar och bara 3 katten En studie om grammatiska svårigheter och dess orsaker hos andraspråksinlärare

Läs mer

Valet är ditt ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN

Valet är ditt ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN ARBETSMATERIAL FÖR LÄSAREN CHRISTINA WAHLDÉN ORDLISTA kuverten (sida 5, rad 5), omslag av papper som man stoppar brev i röstkort (sida 5, rad 8), ett papper som visar att man får rösta parti (sida 5, rad

Läs mer

Vanliga frågor för VoiceXpress

Vanliga frågor för VoiceXpress Vanliga frågor för VoiceXpress 1) Hur stort ordförråd (vokabulär) innehåller VoiceXpress? VoiceXpress innehåller ett mycket omfattande ordförråd, och svaret på frågan varierar en aning beroende på hur

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

ANDREAS REJBRAND 2006-12-25 Svenska http://www.rejbrand.se. Vanliga och allvarliga språkfel

ANDREAS REJBRAND 2006-12-25 Svenska http://www.rejbrand.se. Vanliga och allvarliga språkfel ANDREAS REJBRAND 2006-12-25 Svenska http://www.rejbrand.se Vanliga och allvarliga språkfel Dödssynd 1 Särskrivningar Ett av de allra mest frekvent förekommande språkfelen i svenskan idag är otvivelaktigt

Läs mer

ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN

ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN TOLK- OCH ÖVERSÄTTARINSTITUTET STOCKHOLMS UNIVERSITET ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN Yvonne Lindqvist Stockholm 2004 1 Innehållsförteckning 1. Analysmodell

Läs mer

B. Vad skulle man göra för att vara bättre förberedd inför en lektion i det här ämnet?

B. Vad skulle man göra för att vara bättre förberedd inför en lektion i det här ämnet? Studieteknik STUDIEHANDLEDNING Syftet med dessa övningar är att eleverna själva ska fördjupa sig i olika aspekter som kan förbättra deras egen inlärning. arna görs med fördel i grupp eller parvis, och

Läs mer

BARNS TIDIGA SPRÅKUTVECKLING

BARNS TIDIGA SPRÅKUTVECKLING BARNS TIDIGA SPRÅKUTVECKLING SPRÅKUTVECKLING OCH SPRÅKSTÖRNING UNDER SKOLTIDEN 4 APRIL, 2014 1 SVENSKA DYSLEXIFÖRENINGEN, SPECIALPEDAGOGISKA SKOLMYNDIGHETEN Ulla Sundberg Institutionen för lingvistik Stockholms

Läs mer

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

2. Utgångspunkter och angreppssätt för automatisk språkgranskning Översikt och läsanvisning 2. Utgångspunkter och angreppssätt för automatisk språkgranskning Detta kapitel beskriver utgångspunkter och angreppssätt för automatisk språkgranskning för svenska. I kapitlet

Läs mer

WEBBLÄTTLÄST SLUTRAPPORT

WEBBLÄTTLÄST SLUTRAPPORT Arne Jönsson 2012-07-23 WEBBLÄTTLÄST SLUTRAPPORT 1. Inledning Inom projektet WebbLättLäst har vi utvecklat teknik för att automatiskt rangordna svenska webbsidor efter hur läsbara de är. Detta gör att

Läs mer

Klassificering av homonymer Inlämningsuppgift språkteknologi

Klassificering av homonymer Inlämningsuppgift språkteknologi Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera

Läs mer

Grammatik, det fixar väl datorn?

Grammatik, det fixar väl datorn? Grammatik, det fixar väl datorn? rickard.domeij@sprakradet.se Innehåll Fixar den det? Hur? Då slipper man alltså själv? Ska man stänga av skiten då? Men hur fan ska man då göra? :/ 1 Babelfish Ska är vi

Läs mer

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till? 1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till? Att lära sig via metaforer innebär att man drar nytta av kunskap som användaren redan har,

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide FOR BETTER UNDERSTANDING Kom igång med WordFinder Snabbguide Installationsanvisning 1 Sätt i programskivan i datorn. Installationsprogrammet startar automatiskt. En gemensam startbild för WordFinder Professional,

Läs mer

FTEA12:2 Filosofisk metod. Att värdera argumentation I

FTEA12:2 Filosofisk metod. Att värdera argumentation I FTEA12:2 Filosofisk metod Att värdera argumentation I Dagens upplägg 1. Några generella saker att tänka på vid utvärdering av argument. 2. Grundläggande språkfilosofi. 3. Specifika problem vid utvärdering:

Läs mer

Tidiga tecken på läs- och skrivsvårigheter

Tidiga tecken på läs- och skrivsvårigheter Tidiga tecken på läs- och skrivsvårigheter Stefan Samuelsson Institutionen för beteendevetenskap Linköpings universitet Lesesenteret Universitetet i Stavanger Disposition Hur tidigt kan man upptäcka läs-

Läs mer

Att analysera andraspråkstexter

Att analysera andraspråkstexter Handledare: Britta Herder Examinator: Sofia Ask G3 GO1183 15 hp 2011-01-30 G2 G3 Avancerad nivå Att analysera andraspråkstexter En undersökning av två analysmetoder: processbarhetsteorin och performansanalysen

Läs mer

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ DATORER Så klarar man språkkontrollen RICKARD DOMEIJ Är datorns språkkontroll skribentens bästa vän? Eller kommer den mest med löjliga förslag? I april gav Svenska språknämnden ut Datorn granskar språket,

Läs mer

Institutionen för lingvistik och filologi HT 2009

Institutionen för lingvistik och filologi HT 2009 Instruktioner: Du har 15 minuter på dig per prov. Varje fråga har enbart ett rätt svar. För godkänt krävs minst 6 rätta svar/prov. Facit finns i slutet av dokumentet. Miniprov för Dag 1, 1 september 2009:

Läs mer

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi. UPPSALA UNIVERSITET Institutionen för lingvistik och filologi SPRIND, HT 2006, Tillfälle 6 SPRÅKPSYKOLOGI SPRÅKPSYKOLOGISKA GRUNDBEGREPP (kap 1 + 2) I språkpsykologin finner man begrepp från - språkvetenskap

Läs mer

Att stödja barn genom fokusering

Att stödja barn genom fokusering Att stödja barn genom fokusering Några riktlinjer för lyssnare Översättning: Barbro Holmström Och skulle det vara ok att..? Hur säger ditt barn nej? Vad är fokusering? Fokusering hjälper ett barn att ha

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

TDDD02 Föreläsning 6 HT-2013

TDDD02 Föreläsning 6 HT-2013 TDDD02 Föreläsning 6 HT-2013 QA: Frågebesvarande system Lars Ahrenberg Litteratur: Brill m.fl. An Analysis of the AskMSR QA system Översikt Definition och exempel Utvärdering Standardkomponenter i QA-system

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Språkliga basresurser i

Språkliga basresurser i Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 3 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall

Läs mer

Återkoppling att få gruppen att arbeta. Ann-Marie Falk Irene Karlsson-Elfgren Örjan Östman

Återkoppling att få gruppen att arbeta. Ann-Marie Falk Irene Karlsson-Elfgren Örjan Östman Återkoppling att få gruppen att arbeta Ann-Marie Falk Irene Karlsson-Elfgren Örjan Östman Grupparbete inom kursen Aktiva studenter i grupparbeten våren 2007 Inledning I denna rapport beskriver vi återkoppling

Läs mer

Bestäm vilket av, eller vilken kombination av övertygande tillvägagångssätt (känsla, logik, förtroende) som du avser att använda i din presentation.

Bestäm vilket av, eller vilken kombination av övertygande tillvägagångssätt (känsla, logik, förtroende) som du avser att använda i din presentation. Mål Få en enkel överblick över vad du behöver tänka på före och under din presentation. Fungera som praktiska verktyg. Fungera som en tydlig sammanfattning av de absolut viktigaste punkterna. Före presentationen

Läs mer

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med: Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med: UPPNÅENDEMÅL ENGELSKA, ÅR 5 TIPS År 2 Eleven skall Tala - kunna delta i enkla samtal om vardagliga och välbekanta ämnen, - kunna i enkel

Läs mer

Minnesfunktioner hos barn med språk- och lässvårigheter

Minnesfunktioner hos barn med språk- och lässvårigheter Minnesfunktioner hos barn med språk- och lässvårigheter Nationella BUP-kongressen 2015-04-21 Martina Hedenius Institutionen för neurovetenskap/logopedi Uppsala universitet Språk och läsförmåga varierar

Läs mer

ORDKLASSERNA I SVENSKA SPRÅKET

ORDKLASSERNA I SVENSKA SPRÅKET ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan

Läs mer

Vad innebär för dig att vara lycklig? Hur var det när du var lycklig, beskriv situationen? Hur kändes det när du var lycklig, sätt ord på det?

Vad innebär för dig att vara lycklig? Hur var det när du var lycklig, beskriv situationen? Hur kändes det när du var lycklig, sätt ord på det? Vad innebär för dig att vara lycklig? Hur var det när du var lycklig, beskriv situationen? Hur kändes det när du var lycklig, sätt ord på det? Finns det grader av lycka? ICF s 11 färdigheter Etik och

Läs mer

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling Uppsala universitet Institutionen för nordiska språk C-uppsats 15 hp Svenska som andraspråk C VT 2013 Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling Anna Arvidson

Läs mer

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2. Förord Grammatikövningar för Sfi består av två delar, del 1 2, för kurserna B C resp C D och liknande utbildningar. Det är ett övningsmaterial som tränar svensk basgrammatik. Utgångspunkten för uppläggningen

Läs mer

Online MT output (EN-SE) Kriterier på bra översättning

Online MT output (EN-SE) Kriterier på bra översättning Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering

Läs mer

Tips för uppsatsskribenter. Examensarbete C 10p, D10p och D20p

Tips för uppsatsskribenter. Examensarbete C 10p, D10p och D20p Institutionen för informationsvetenskap 2007 Data- och systemvetenskap Tips för uppsatsskribenter Examensarbete C 10p, D10p och D20p Av: Anne Håkansson Innehåll 1. PROMEMORIA...3 2. RAPPORT...3 3. TIPS

Läs mer

Målplanering för relationer Exempel 3:1

Målplanering för relationer Exempel 3:1 Målplanering för relationer Exempel 3:1 Våra relationer mår bra av en fungerande arbetsfördelning hemma. Ställer upp för maka/make och barn. Sköter allt hemarbete trots mera smärta. Täta konflikter. Känner

Läs mer

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång FriendlyReader Språkteknologi för sammanfattningar och ökad läsbarhet Mål:! Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information

Läs mer

Att undersöka språkmöten med datorn

Att undersöka språkmöten med datorn Att undersöka språkmöten med datorn Lars Borin Vad är språkmöten och hur märker man av dem? Det som jag i rubriken syftar på med termen språkmöten studeras i språkvetenskapen under några olika rubriker;

Läs mer

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid Stockholms universitet Institutionen för lingvistik Språkteori grammatik VT 1994 Robert Eklund MORFEMANAYS Vi kan dela in ord i mindre enheter, segmentera orden. Här följer en liten kortfattad beskrivning

Läs mer

Hur vet man att sitt bidrag har kommit med? Valet mellan reflexivt och personligt pronomen i bloggar.

Hur vet man att sitt bidrag har kommit med? Valet mellan reflexivt och personligt pronomen i bloggar. Kandidatuppsats Hur vet man att sitt bidrag har kommit med? Valet mellan reflexivt och personligt pronomen i bloggar. Författare: Johanna Novaković Eklund Handledare: Jan Einarsson Examinator: Maria Lindgren

Läs mer

Kodväxling mellan svenska och engelska hos tvåspråkiga barn

Kodväxling mellan svenska och engelska hos tvåspråkiga barn Institutionen för nordiska språk Margaretha Skeffington Margaretha.Skeffington.1282@student.uu.se C-uppsats, 7,5 hp SVAS C Kodväxling mellan svenska och engelska hos tvåspråkiga barn Handledare: Shidrokh

Läs mer

BILAGA E till Programvaruprojekt ÅTERSTÅENDE PROBLEM MultiPC v1.0. Innehållsförteckning

BILAGA E till Programvaruprojekt ÅTERSTÅENDE PROBLEM MultiPC v1.0. Innehållsförteckning ÅTERSTÅENDE PROBLEM MultiPC v1.0 Rev 7 1(7) BILAGA E till Programvaruprojekt ÅTERSTÅENDE PROBLEM MultiPC v1.0 Här listas problem som kan behöva hanteras i kommande inkrement. De prioriteras alltså ner

Läs mer