Grammatifix Svensk grammatikkontroll i MS Word

2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word

Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2 Lexikal analys 4 2.1.3 Tvetydighetshantering 5 2.1.4 Tilldelning av taggarna @ERR och @OK 5 2.1.5 Feldetekteringsregler 5 2.2 Problem vid hantering av tvetydigheter 6 3 Feltyper i Grammatifix 7 4 Användargränssnitt 7 5 Skillnader mellan Word 2000 och Word 2003 9 6 Prestandautvärdering 9 7 Andra grammatikgranskare 10 8 Sammanfattning 11 9 Referenser 11 2

1 Inledning Denna uppsats är skriven som en del av examinationen på kursen 2D1418, Språkteknologi. Uppsatsen redogör för en undersökning utförd på grammatikkontrollfunktionen i ordbehandlingsprogrammet Word 2000. Undersökningen har haft som syfte att svara på frågor såsom vilken teknik nämnda grammatikkontrollfunktion bygger på, vilka fel den kan finna och vilken prestanda den har. Vidare kommer uppsatsen att redogöra på vilket sätt Word 2000 talar om för användaren att ett grammatiskt fel har upptäckts och på vilket sätt den föreslår rättelser av detta fel. Uppsatsen avslutas sedan med en redogörelse av alternativa grammatikgranskare. 2 Grammatifix Grammatikkontrollen i ordbehandlingsprogrammet Word 2000 implementeras av programmodulen Grammatifix. Det bör därför nu påpekas att en undersökning av Word 2000:s grammatikkontrollfunktion i egentlig mening är en undersökning av grammatikkontrollapplikationen Grammatifix. Grammatifix är en fristående kommersiell produkt, utvecklad av det finska programvaruutvecklingsföretaget Lingsoft. Lingsoft har producerat en rad språkrelaterade applikationer för flera nordiska språk, men även tyska. Utvecklingen av Grammatifix initierades 1997 och pågick fram till 1999. Feldetekteringen koncentrerades kring nominalfraser och verbkedjor, men som senare kommer att redovisas, ingick också andra typer av fel. För att inte generera alltför många falsklarm, vilket annars skulle underminera förtroendet för programmet, var kriteriet att man för ett givet fel skulle ha minst en 67-procentig träffsäkerhet för att det skulle tas med i den slutliga produkten. Detta kan tyckas vara lågt, men det skall tydligt påpekas att det i sammanhanget är ett fullt acceptabelt värde. Tidigare forskning 1 hade visat att användare av grammatikkontrollsapplikationer föredrog en låg falsklarmsfrekvens framför en bred täckning av många olika grammatiska fel, vilket motiverade en fokusering på en mindre feldelmängd. Det skall även tilläggas att det för närvarande inte heller är möjligt att konstruera en grammatikgranskare med full täckning av ett språk. 2.1 Detektering av grammatiska fel i Grammatifix För att upptäcka grammatiska fel använder sig Grammatifix av ett CG-baserat feldetekteringssystem, fortsättningsvis kallat feldetekteraren. CG 2 (Constraint Grammar) är ett system för hantering av tvetydigheter kring ett ords betydelse i en given text, och för utförande av så kallad grund syntaktisk analys. Feldetekteraren består av fem stycken olika komponenter. Dessa komponenter implementerar de fem sekventiella steg som feldetekteraren går igenom vid en sökning efter grammatiska fel i en text. De fem stegen kan listas enligt följande: 1 Bernth, A. 1997. EasyEnglish: A Tool for Improving Document Quality. The Proceedings of the Fifth Conference on Applied Language Processing, Washington, 159-165. 2 Karlsson, Fred, et al. 1995. Constraint Grammar. A Language-Independant System for Parsing Unrestricted Text. Berlin and New York: Mouton de Gruyter. 3

1. Förbehandling 2. Lexikal analys 3. Hantering av tvetydigheter 4. Tilldelning av taggarna @ERR och @OK till varje ord. 5. Feldetekteringsregler 2.1.1 Förbehandling I förbehandlingssteget identifieras ord, förkortningar, skiljetecken och flerordsuttryck i den givna texten. Med ett flerordsuttryck menas ord som tillsammans kan anses utgöra en lexikal enhet. Exempel på detta är ett uttryck som till hands. Detta tolkas då inte som de två orden till och hands utan istället som enheten till_hands, tillhörande ordklassen adverb. Detta får till följd att man kan undvika de falsklarm som hade kunnat uppstå om man istället hade tolkat hands som ett substantiv i genitivform. Det hela förtydligas med följande exempelfras: funnits till hands dygnet om Hade hands tolkats som ett substantiv i genitivform hade ett falsklarm genererats eftersom frasen då i det fallet är grammatiskt inkorrekt. Om man istället tolkar enheten till_hands som ett adverb hanteras frasen på ett korrekt sätt och inget felmeddelande genereras. 2.1.2 Lexikal analys Den lexikala analysen utförs av den så kallade SWETWOL 3 -analysatorn. SWETWOLanalysatorn genomför en morfologisk analys och ordklassmärkning av den förbehandlade texten. Analysatorn tilldelar ett ord alla de ordklassmärkningar som den kan finna för det givna ordet. Till exempel ordklassmärks frasen uppsatsens intressanta ämnet på följande vis av SWETWOL-analysatorn: "<uppsatsens>" "uppsats" N UTR DEF SG GEN "<intressanta>" "intressant" A UTR/NEU DEF SG NOM "intressant" A UTR/NEU DEF/INDEF PL NOM "<ämnet>" "ämne" N NEU DEF SG NOM Som synes märks ordet intressanta upp på två olika sätt. Nästa steg blir nu att välja ut en ordklassmärkning för varje ord bland de föreslagna ordklassmärkningarna. Detta sker med hjälp av den så kallade tvetydighetshanteraren. 3 Karlsson, Fred, 1992 SWETWOL: A Comprehensive Morphological Analyser for Swedish, Nordic Journal of Linguistics 15, 1-45. 4

2.1.3 Tvetydighetshantering I detta steg väljer tvetydighetshanteraren ut den korrekta ordklassmärkningen för ett ord, givet den aktuella kontexten. Vår exempelfras från lexikalanalyssteget får nu följande ordklassmärkningar: "<uppsatsens>" "uppsats" N UTR DEF SG GEN "<intressanta>" "intressant" A UTR/NEU DEF SG NOM "<ämnet>" "ämne" N NEU DEF SG NOM Att ta bort tvetydigheter från en text som innehåller grammatiska fel är inte helt trivialt. Ett grammatiskt fel kan störa borttagandet av tvetydigheter, vilket kan leda till att fel tvetydighet tas bort eller att tvetydigheten finns kvar i texten trots att den behandlats. Ett exempel på detta kommer att belysas i stycket 2.2. I exemplet ovan rådde dock inget tvivel om vad som skulle selekteras ut. Följaktligen valdes ordklassmärkningen "intressant" A UTR/NEU DEF/INDEF PL NOM bort av tvetydighetshanteraren. 2.1.4 Tilldelning av taggarna @ERR och @OK I traditionell CG brukar man i detta skede utföra en så kallad morfosyntaktisk mappning. Huvudsyftet med detta är att lägga till den syntaktiska tvetydigheten till varje ord. Detta kan vara sådant som subjekt, verbfunktion, adverbial etc. I Grammatifix går man dock till väga på ett betydligt enklare sätt. Man lägger bara till taggarna @ERR och @OK till varje ord och går sedan vidare till det femte och sista steget, feldetekteringsregler. 2.1.5 Feldetekteringsregler Den sista komponenten i Grammatifix utgörs av en uppsättning regler för urval av taggarna @ERR eller @OK. I Word 2000 innehåller Grammatifix 659 feldetekteringsregler. Det första som sker är att samtliga feldetekteringsregler appliceras på den givna texten för att upptäcka eventuella grammatiska fel. Om ingen sådan regel uppfylls väljs taggen @OK för alla ord. Annars väljs @ERR. Låt oss återigen studera vår exempelfras uppsatsens intressanta ämnet. För att detektera ett grammatiskt fel såsom det i exemplet, kan man i Grammatifix skriva en feldetekteringsregel på följande sätt: (@w =s! (@ERR) (0 N-DEF) (-2 GEN) (-1 A-DEF)) Regeln skall uttydas som: För ett ord (@w) tilldela (=s!) feltaggen (@ERR) om ordet själv (0) är ett substantiv i bestämd form (N-DEF), och om det andra ordet till vänster (-2) är ett 5

genitiv (GEN) och om det första ordet till vänster (-1) är ett adjektiv i bestämd form (A- DEF). Vi får alltså slutligen följande ordklassmärkning för exempelfrasen: "<uppsatsens>" "uppsats" N UTR DEF SG GEN @OK "<intressanta>" "intressant" A UTR/NEU DEF SG NOM @OK "<ämnet>" "ämne" N NEU DEF SG NOM @ERR Ett felmeddelande genereras nu bestående av en felmeddelandetitel, en kort förklaring och ett åtgärdsförslag. 2.2 Problem vi hantering av tvetydigheter Som nämndes i 2.1.3 kan grammatiska fel i en text medföra felaktigheter i hanteringen av tvetydigheter. Detta påverkar i sin tur feldetekteringen på ett negativt sätt. För att råda bot på detta har man i det sista steget, feldetekteringsregler, infört vissa specialregler för att hantera kvarvarande tvetydighet eller felaktigt dito. Som ett exempel på det senare fallet kan man studera meningen Detta är ett uppsats. SWETWOL-analysatorn ordklassmärker frasen på följande sätt: "<detta>" "denna" <DEM> <MD> DET NEU DEF SG NOM (@DN>) "denna" <DEM> PRON NEU DEF SG NOM "<är>" "vara" <COP> V ACT PRES "<ett>" "ett" <NUM/ART> <ID> DET NEU INDEF SG NOM (@DN>) "ett" <NUM> PRON NEU INDEF SG NOM "<uppsats>" "uppsats" N UTR INDEF SG NOM Tvetydighetshanteraren borde nu välja att tolka "ett" som <NUM/ART> <ID> DET NEU INDEF SG NOM (@DN>). Det gör den dock inte. Eftersom det förekommer ett kongruensfel i meningen tolkar tvetydighetshanteraren det som att "ett" är ett pronomen istället. För att kunna hantera detta har man i Grammatifix infört en specialregel, en så kallad ordspecifik regel. ("<ett>" =s! (@ERR) (1C N-UTR)) Regeln skall utläsas som: För ett ord på formen Ett/ett, välj taggen @ERR om nästa ord till höger är ett otvetydigt substantiv i utrumform (1C N-UTR). 6

Ordspecifika regler kan också formuleras på sådant sätt att de täcker en mängd ordformer istället för en specifik ordform. Till exempel innefattar regeln (@w =s! (@ERR)(0 POSS-UTR)...) alla utrumformer av possessiva determinerare. Ordet sin är en sådan. I meningen Han har sin företag att tänka på lämnar tvetydighetshanteraren kvar de tre ordklassmärkningarna DET, PRON och ABBR (förkortning) för sin. Med nämnda ordspecifika regel blir dock detta inte något problem vi feldetekteringen. 3 Feltyper i Grammatifix Som tidigare nämnts är det mycket svårt, för att inte säga nästintill omöjligt, att skapa en grammatikgranskare som kan upptäck alla typer av grammatiska fel som kan finnas i en text. Till följd av detta koncentrerades utvecklingsarbetet av Grammatifix till en mindre mängd feltyper. Valet av feltyper föll till störst del på kongruensfel i nominalfraser och verbkedjor. Anledningen till detta val var de goda resultat som CG-formalismen hade uppvisat för just kongruensfel. Dessutom är svenskan ett språk som innehåller mycket kongruens och beroenden mellan ord, vilket var ytterligare ett skäl till att fokusera på denna typ av grammatiska fel. Totalt sett kan Grammatifix hantera 43 olika feltyper. 26 av dessa feltyper utgör fel av syntaktisk karaktär där huvuddelen är just kongruensfel i nominalfraser och verbkedjor. De återstående feltyperna utgörs av fel relaterade till nummer- och datumformat, punkttecken, mellanslag och ord som är mindre bra att använda ur stilhänseende. 4 Användargränssnitt Stor vikt har lagt på gränssnittet mot slutanvändaren av produkten. Det viktigaste när man implementerar ett grammatikgranskningsverktyg anses ofta vara att programmet hittar de grammatiska fel det är avsett att finna och att programmet samtidigt inte genererar allt för många falsklarm. Samtidigt får man inte glömma bort att granskningsverktyget skall fungera som en hjälp för användaren och att det därför måste vara tydligt vad som misstänks vara fel i ett felmarkerat textavsnitt. Det är därför viktigt att misstänkta fel kan preciseras och förklaras på ett enkelt och tydligt sätt. I Grammatifix genereras de över 650 definierade felen bara till följd av specifika ordsekvenser, det vill säga, en ordfrekvens frambringar endast ett fel. Vidare mappas varje regel mot endast ett felhanteringsschema. Dock kan flera regler mappas mot samma felhanteringsschema. Ett felhanteringsschema innehåller information till användaren om felet och hur detta kan lösas. Det består av tre delar, en felrubrik, en text med feldiagnos och ett eller flera rättningsförslag. Feldiagnosen beskriver det misstänkta felet med vanlig svenska. I denna text inkluderas också de ord som gett upphov till larmet, för att tydliggöra problemet. Se exempel nedan. Texten i feldiagnosen innehåller många grammatiska termer, då dessa tydligast beskriver felen och det trots allt handlar om just grammatiska fel. 7

Ex. Detta är ett uppsats. Kontrollera ordformen ett. Om en böjlig determinerare, t.ex. obestämd artikel, bestämmer ett substantiv med n-genus, t.ex. uppsats, bör också determineraren ha n-genus. Rättningsförslag ges i de fall då det är lämpligt och möjligt. Till de olika felen finns ett rättnigsförslagsschema. De flesta reglerna går ut på att byta ut felaktiga morfologiska taggar för ett ord och ersätta dem med bättre passande taggar, så att exempelvis kongruens uppstår mellan orden ett och uppsats. I andra fall ges förslag att ta bort ord ur meningar eller så genereras ord som bör infogas. I vissa fall föreslår programmet även att ord i meningen flyttas om. Se exempel nedan. Programmet försöker, då den upptäckt fel, att koncentrera felet till endast ett ord eller en komponent. Då programmet inte lyckas avgöra vilket ord som är den egentliga orsaken till felet markeras alla orden som är inblandade i felet. Av denna anledning ges också flera rättningsförslag. Se exempel nedan. Typ av ändring Grammatiskt felaktig mening Föreslagen ändring En föreslagen ändring Detta är ett uppsats. ett en Två föreslagna ändringar I protest mot de statliga monopolet började han klappa händerna. de statliga monopolet det statliga monopolet de statliga monopolen Borttagning Jag vill inte att ha läxa. vill att vill Generering av saknat ord Omflyttning av ord Jag kommer skriva den här uppsatsen på rekordtid. Det här är en uppsats så bra att den bör inte kunna skrivas bättre. kommer skriva kommer att skriva bör inte inte bör Rent grafiskt understryks misstänkta ord och meningar i Word med grön färg. När det gäller vilka ord som skall understrykas så försöker Grammatifix, enligt ovan, bestämma exakt vilket ord eller vilken komponent som är orsak till det misstänkta grammatiska felet och stryka under detta. Man hoppas att användaren på detta sätt snabbt förstår vari felet består och kan rätta till detta, utan att behöva läsa igenom feldiagnosen och rättningsförslaget. 8

5 Skillnader mellan Word 2000 och Word 2003 Grammatikkontrollen för svenska i Word har inte utvecklats särskilt mycket mellan versionerna 2000 och 2003. Det är Grammatifix som används för grammatikkontroll i båda dessa svenska versioner. De ändringar som står att finna ligger främst på den icke-lingvistiska sidan, så som att en del buggar tagits bort och att minnesluckor täppts igen. Alltså inte mycket som en vanlig användare märker. Dock kan falsklarm kallas för en form av buggar, varför ett antal falsklarm har avlägsnats i den senare versionen. Nedan följer ett antal exempel på meningar som enligt Lingsoft inte markeras som felaktiga i Word 2000, men i Word 2003. Ex. Borde har vunnit. En tids tungt arbete. En flera timmar lång debatt. 6 Prestandautvärdering Den utvärdering av Grammatifix som redogörs för i detta avsnitt är utförd av Lingsoft. Att utvecklaren själv genomför en utvärdering kan naturligtvis påverka resultatet av densamma. Det finns heller ingen standard för hur ett prestandautvärderingstest skall gå till eller vad som faktiskt är att räkna som ett grammatiskt fel, varför man som utvärderare ges ganska stora möjligheter att forma testet på ett fördelaktigt sätt. Undersökningen verkar dock vara objektiv och förefaller inte vara påverkad av att utvecklaren själv stått för testandet. I det här fallet har Lingsoft använt löpande tidningstext ur Göteborgs-Posten för utvärderingen. Man har alltså inte använt text som systemet tidigare testats eller utvecklats med. 9

När man talar om utvärdering av grammatikgranskare använder man ofta värdena täckning och precision. Precisionen avser relationen mellan alarm som genereras av riktiga fel och det totala antalet alarm. Precisionen används alltså för att ge en indikation på hur stor andel falsklarm systemet genererar, eller snarare hur väl det undviker dessa. Täckning avser andelen upptäckta fel i förhållande till det totala antalet fel i texten och ger alltså ett värde på hur bra granskaren är på att upptäcka fel i en text. Precisionstestet genomfördes på lite drygt en miljon ord. Resultatet blev att Grammatifix slog larm 534 gånger, varav 160 bedömdes som falska alarm. Det ger en precision på 70 %. Ett resultat som är relativt svårtolkat, då det saknas motsvarande tester för andra granskare och för andra typer av texter. Tidningstext är till exempel en typ av text som innehåller förhållandevis lite grammatiska fel och är inte att jämföra med text skriven av en gymnasieelev. För täckningstestet användes en korpus med knappt 88 000 ord. Texten förbereddes genom att två lingvister läste igenom texten och markerade alla grammatiska fel de kunde upptäcka. Dessa fel ansågs sedan vara de enda fel som förekom i korpusen. Tillsammans markerade lingvisterna 135 fraser eller ord som grammatiskt felaktiga. Då man lät Grammatifix undersöka texten fann programmet 47 fel, vilket motsvarar en täckningsgrad på 35 %. Tar man endast hänsyn till de grammatiska fel programmet är avsett att finna blev täckningsgraden 85 %. Det betyder alltså att programmet alltså endast skulle kunna hitta 55 fel utav de totala 135. 7 Andra grammatikgranskare Grammatifix är inte det enda grammatikgranskningsprogrammet för svenska. Två andra är Scarrie och Granska. Scarrie är utvecklat på Uppsala universitet och ingår i ett samarbete tillsammans med institutioner i Danmark och Norge. Projektet innefattar alltså inte bara svenska utan även danska och bokmål. En testversion av programmet finns att testa på Internet, http://stp.ling.uu.se/~ljo/scarrie-pub/scarrie_sv.html. Granska är utvecklat på KTH i Stockholm, på institutionen för numerisk analys och datalogi. Det beskrivs som ett experimentellt program för datorstödd språkgranskning 4. Granska kombinerar probabilistiska och regelbaserade metoder för att upptäcka grammatiska felaktigheter. I likhet med Grammatifix kan Granska upptäcka misstänkta grammatiska fel i en text och ge rättningsförslag till dessa. Granska omfattar omkring 180 olika granskningsregler, 60 hjälpregler och 110 undantagsregler. Granska utnyttjar, till skillnad från Grammatifix, statistiska metoder vid taggning av ord i en text. Detta underlättar när flertydiga ord skall taggas. Det innebär att man nu taggar lite drygt 95 % av alla ord på ett korrekt sätt. En webbversion av programmet finns att testa på http://skrutten.nada.kth.se/scrut/svesve. I artikeln Developing a Grammar Checker For Swedish (Arppe, -99) redogörs för en relativt naiv jämförelse mellan Grammatifix och Granska. Olika feltyper definierades och exempelmeningar med dessa genererades. Meningarna testades sedan i de båda applikationerna. Om en applikation markerade meningen som felaktig ansågs applikationen 4 1998 Granska ett program för svensk språkgranskning, URL (http://www.nada.kth.se/theory/projects/granska/popular.html), Hämtat den 23 september 2004. 10

behärska feltypen. Undersökningen visade att applikationerna var ganska likvärdiga, i meningen att de kunde upptäcka samma typer av fel, när det gäller syntaktiska fel och formateringsfel. Granska föreföll dock ha mer kontroll över stilistiska feltyper. En iakttagelse är att Granska förefaller generera fler falsklarm än Grammatifix. Detta är troligen en följd av att man på Lingsoft lagt mycket stor vikt vid att minimera antalet falsklarm i Grammatifix. Man vill inte tappa trovärdighet hos användaren genom att allt för ofta slå larm trots att det inte förekommer ett grammatiskt fel. I sin strävan efter detta missar man sannolikt ett antal fel vilka Granska i sin tur upptäcker 5. 8 Sammanfattning Som nämnts tidigare är en granskning av grammatikkontrollfunktionen i MS Word i egentlig mening en granskning av programmodulen Grammatifix, utvecklat av det finländska företaget Lingsoft. Grammatikkontrollen bygger på CG-konceptet där man hanterar ords tvetydigheter i en given text. Grammatikkontrollen är indelad i fem specifika steg, vilka beskrivits ovan. I det sista steget detekteras eventuella grammatiska fel med hjälp av ett stort antal specifika felregler. I Grammatifix finns det funktionalitet för hantering av fel gentemot användaren, vilket bland annat inkluderar rättelseförslag. Vid utvecklingen av Grammatifix har tillverkaren prioriterat låg falsklarmsfrekvens framför hög täckningsgrad. I programmet finns definierat 43 olika feltyper, där det största antalet behandlar kongruensfel i nominalfraser och verbkedjor. På grund av det svenska språkets uppbyggnad lämpar sig denna strategi väl. 5 Hagdahl K-H, 2003, Checking the Checker Grammatifix, URL (http://www.d.kth.se/~d95-kha/thesis/appendix_d_study_of_other_products.pdf), Hämtat den 9 oktober 2004. 11

9 Referenser Birn, Juhani, 1999, Detecting Grammar Errors with Lingsoft s Swedish Grammar Checker. Proceedings of Nodalida-99. Trondheim. Arppe, Antti, 1999, Developing a Grammar Checker for Swedish. Proceedings of Nodalida- 99. Trondheim. Grammatifix Fyrtio olika feltyper, URL (http://www.lingsoft.fi/grammatifix/features/) Hämtat den 29 september 2004. Hagdahl K-H, 2003, Checking the Checker Grammatifix, URL (http://www.d.kth.se/~d95-kha/thesis/appendix_d_study_of_other_products.pdf), Hämtat den 9 oktober 2004. Otto-Ville Ronkainen, Lingsoft AB, 2004, Personlig kontakt via e-post. (2004-09-21, 2004-09-20) 1998, Granska ett program för svensk språkgranskning, URL (http://www.nada.kth.se/theory/projects/granska/popular.html), Hämtat den 23 september 2004. Carlberg, Johan, et. al., 2002, A Swedish Grammar Checker, URL (http://www.nada.kth.se/theory/projects/granska/rapporter/compling2002.pdf), Hämtat den 23 september 2004. 12