Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007
Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett befintligt system hanterar stavfel i texter skrivna av skolelever Användarstudie Att utvärdera ett befintligt program/system utifrån ett användarperspektiv, dvs. utifrån de behov och krav en användare har. Exempel: Att låta användare lösa olika uppgifter i ett befintligt skrivsystem Projektförslag VT 2007 1
Möjliga projekt (forts) Implementation Att bygga ett enkelt system eller del av ett system, eller implementera en algoritm som hanterar en viss typ av data. Exempel: Stavningskontroll för barnspråk Språkträningsprogram Översätta chatt-/mejlspråk till vanlig svenska Projektförslag VT 2007 2
Utvärdering Stavfel i skolelevers texter Att utvärdera hur ett program för stavningskontroll (t.ex. Word, StavaRätt, Granska) hanterar vanliga stavfel i texter skrivna av skolelever. Uppgiften består i att utifrån en samling skoltexter generera och kategorisera stavfel, testa texterna med stavningskontrollen och analysera resultaten. Analysen ska svara på frågor som: Vilka sorters fel klarar systemet av/inte av? Varnar systemet för fel som inte är fel? Litteratur: Nauclér, K. (1980). Perspectives on misspellings. A phonetic, phonological and psycholinguistic study. Liber Läromedel, Lund. Kukich, K. (1992) Techniques for automatically correcting words in text. ACM Computing Surveys, 24(4): 377-439. Projektförslag VT 2007 3
Användarstudie Att lösa uppgifter i ett skrivsystem Att utvärdera hur användare löser olika slags uppgifter i ett system (t.ex. Word, Grimm, T9 för SMS). Först måste målgruppen definieras (barn, vuxna, annat modersmål). En grupp ska väljas ut, helst så representativ som möjligt, även om det är svårt att få det helt bra. Uppgifterna måste också definieras. Exempel på uppgifter kan vara att rätta stavfel i en befintlig text, skicka ett SMS med ett givet innehåll, etc. Mätmetoderna ska också definieras vilka egenskaper vill ni (kan ni) mäta? Exempel är: hur lång tid tar det? hur många raderingar och/eller förflyttningar görs i texten? Slutligen ska resultaten analyseras. Projektförslag VT 2007 4
Implementation Stavningskontroll för barnspråk Att implementera en eller flera algoritmer för stavningskontroll, speciellt för att rätta vanliga fel i texter skrivna av skolbarn. Uppgiften består i att utifrån en samling skoltexter generera och kategorisera stavfel, undersöka existerande stavningsalgoritmer och implementera egen algoritm som hanterar de stavfel vanligt förekommande i skoltexter. Algoritmen testas sedan mot en testkorpus och analyseras utifrån hur täckande (recall) och precisa (precision) resultaten blev. Många implementerade stavningsalgoritmer beskrivs och kan hämtas direkt på Internet. Läs gärna litteraturen och leta sedan. Projektförslag VT 2007 5
Stavningskontroll (forts) Litteratur: Nauclér, K. (1980). Perspectives on misspellings. A phonetic, phonological and psycholinguistic study. Liber Läromedel, Lund. Kukich, K. (1992) Techniques for automatically correcting words in text. ACM Computing Surveys, 24(4): 377-439. Gladh, U. och Karlsson, M. (2002) TANGO TANdemstrukturerade stavningsalgoritmer med taggning av Grammatik och stavning samt Ontologi. Examensarbete i datalingvistik, Göteborgs universitet. Projektförslag VT 2007 6
Implementation CALL / språkträning Att implementera ett program för att lära sig ett språk. Ett förslag är att göra meningar med hål, och låta användaren välja ord från en lista och böja med korrekt morfologi. Meningarna specificeras som en korpus, och hålen ska väljas ut slumpmässigt bland de möjliga platser som finns. Vill man automatisera uppgiften helt och hållet kan man utgå från en stor korpus, och välja ordförslag efter vilka ord som inte kan förekomma på samma plats i den kontexten. Det finns mängder med information om CALL på nätet. En möjlig utgångspunkt är Wikiboken ATALL (http://en.wikibooks.org/wiki/atall), som ger massor av exempel på hur språkträningsmoduler kan se ut. Projektförslag VT 2007 7
Implementation Chattomvandlare Att implementera ett program som översätter chattspråk/mejlspråk till vanlig svenska. Först måste en korpus med chatt-/mejl-/mejllista-texter samlas in och analyseras. Vilka är de vanliga förkortningarna, smileys, talspråksuttrycken, slanguttrycken? Sedan ska en applikation tillverkas: Ett förslag är att göra ett program som läser in en text (t.ex. en HTML-sida) och taggar alla specialuttryck som förkortningar i HTML, tillsammans med en förklaring. Ett annat förslag är att översätta texten till mer utförlig standardsvenska. Projektförslag VT 2007 8
Chattomvandlare (forts) Litteratur: Hård af Segerstad, Y. och Sofkova Hashemi, S. (2005). Skrivandet, nya media och skrivstöd hos grundskoleelever. Tidskrift för lärarutbildning och forskning, Inst. för svenska och samhällsvetenskapliga ämnen, Umeå universitet. Hård af Segerstad, Y. (2002). Use and Adaptations of Written Language to the Conditions of Computer-Mediated Communication. Doctoral dissertation. Gothenburg Monographs in Linguistics 22. Department of Linguistics, Göteborg University. Projektförslag VT 2007 9