Missplel ett generellt verktyg för generering av stavfel

Transkript

1 Missplel ett generellt verktyg för generering av stavfel Linus Ericson TRITA-NA-E04045

2 NADA Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science Stockholm Royal Institute of Technology SE Stockholm, Sweden Missplel ett generellt verktyg för generering av stavfel Linus Ericson TRITA-NA-E04045 Examensarbete i datalogi om 20 poäng vid Programmet för datateknik, Kungliga Tekniska Högskolan år 2004 Handledare på Nada var Johnny Bigert Examinator var Stefan Arnborg

3 Sammanfattning För att automatiskt kunna utvärdera språkgranskningsverktyg såsom rättstavningsprogram och grammatikgranskningsprogram krävs tillgång till stavfel med annoteringar som anger vilket eller vilka ord som avsågs då ett felstavat ord skrevs. Ett datorprogram kan inte användas för att annotera en text med stavfel i eftersom detta program då skulle behöva utföra samma arbete som ett felfritt språkgranskningsprogram skulle göra. Att för hand klassificera stavfel är fullt möjligt men kräver mycket tid och monotont arbete, och det är svårt att garantera att några fel inte missas. Missplel är ett program som enligt förutbestämda regler inför till synes mänskliga stavfel i texter. Eftersom programmet självt inför felen kan det hålla reda på de förändringar som görs och därmed automatiskt annotera de stavfel som införs. Missplel är oberoende av språk och vilken ordklasstaggare som används och kan införa performans- och kompetensfel i form av både vanliga stavfel och grammatiska fel. I en utvärdering av programmet fick ett antal personer gissa om några meningar innehöll fel gjorda av ett antal gymnasieelever eller om felen var tillverkade av Missplel. I denna utvärdering var 62% av gissningarna korrekta, men när programmets inställningar anpassades för att istället efterlikna felen som en enda gymnasieelev gjort i en uppsats lyckades bara 52% av deltagarna i utvärderingen identifiera vilken uppsats Missplel infört felen i.

4 Missplel A generic tool for introduction of spelling errors Abstract To be able to automatically evaluate spelling checkers and grammar checking systems each spelling error used in the evaluation must be annotated with the correctly spelled version of the misspelled word. Without these annotations an evaluation system has no possibility to determine whether a correction made by a spell checker is correct or not. A computer program cannot be used to annotate a text containing human-made spelling errors since doing this requires the knowledge of a perfect spelling checker program. Classifying spelling mistakes by hand is feasible but monotonous and time-consuming. Missplel generates and introduces human-like spelling errors into texts according to predetermined rules. Since Missplel itself introduces the errors, it can easily keep track of all changes made to a text and automatically annotate the spelling errors. Independent of language and part-of-speech tag set, the program can introduce performance and competence errors on both spelling and grammatical level. In an evaluation of the performance of Missplel where a number of people guessed whether some sentences were misspelled by Missplel or by humans 62% of the guesses were correct. When adjusting the settings of the program to resemble the errors of an essay written by an upper-secondary school student only 52% of the people participating in the survey were able to correctly identify in which version of the essay Missplel had created the errors.

5 Innehåll 1 Inledning Bakgrund Fördelar och nackdelar med genererade fel Problemdefinition Syfte Målgrupp Notation Om Stava och Granska Teori Historia Generering av fel Rättningavfel Felklassificering Ortografiska, morfologiska, syntaktiska och semantiska fel Performans-ochkompetensfel Detektionavfriståendefelstavadeord N-gramsbaserademetoder Uppslagningiordlista Korrektion av fristående felstavade ord Generering av rättningsförslag Rangordning av rättningsförslag Multiplafel Kontextberoendekorrektionavstavfel Mångtydigastavfel Särskrivningar Semantiskgranskning Modellbeskrivning Analys Moduler Damerau SplitCompound SyntaxError... 16

6 3.2.4 SoundError Metodbeskrivning Verktyg Ordlista Regelkonstruktion Resultat Utvärderingmedwebbenkät Utformning Felkorpus Feltillverkning Enkätsvaren Del 1 Enskilda meningar Del2 Etttextstycke Övrigstatistik Test av Stava och Granska Slutsatser Utvärdering Förmångaspråkintresserade Väntaderesultat Oväntaderesultat Utvärdering av Stava och Granska Uppnåddes målen? Förbättringar Performansfel på syntaktisk nivå Separata förväxlingsmatriser Större regelsamling Referenser 29 A Ordförklaringar 31 B Exempel på felbeskrivningar 32 C 20 frågor 34 D Ett textstycke 36

7 Figurer 3.1 Regelskaparverktygetsgränssnitt Åldersfördelningenhosdesvarande Tabeller 4.1 Andelen korrekta gissningar för personer med olika färdigheter Andelen korrekta gissningar för olika åldersgrupper Fördelning av korrekta och felaktiga gissningar Antalet korrekta och felaktiga rättningsförlag från WebbGranska.. 25

8 Kapitel 1 Inledning 1.1 Bakgrund Detta examensarbete går ut på att skapa ett program som kan tillverka så mänskliga stavfel som möjligt. Med mänskliga stavfel avses att en människa inte ska kunna märka någon skillnad mellan stavfel gjorda av människor och stavfel tillverkade av datorprogrammet. Termen stavfel används ibland som samlingsnamn för alla typer av språkfel när en distinktion mellan felstavade ord och andra språkfel inte är nödvändig. Nyttan med att generera stavfel kan till en början vara svår att se. Stavfelen som Missplel genererar kommer bland annat att användas vid automatisk utvärdering av olika ordklasstaggare inom språkgranskningsprojektet Granska som pågått på Nada sedan Så även om det kan tyckas destruktivt att tillverka stavfel så är syftet med programmet i slutändan att skapa bättre språkgranskningsprogram. Anledningen till att använda generarade istället för riktiga stavfel är bland annat att tillgången till genererade fel är obegränsad och att det är lättare att handskas med egentillverkade fel Fördelar och nackdelar med genererade fel Det finns både fördelar och nackdelar med att använda genererade stavfel istället för riktiga stavfel som människor gjort av misstag. Det största problemet med genererade stavfel är att de är mer förutsägbara än mänskliga fel. Ett datorprogram kan bara skapa de typer av fel som det är programmerat för medan människor ständigt gör nya typer av fel. Fördelarna med genererade stavfel är emellertid många. Det är till exempel möjligt att bestämma vilka typer av fel som ska införas i en text, något som inte går att bestämma hos en mänsklig skribent. Om till exempel en modul för rättning av särskrivningar i ett språkgranskningsprogram ska utvärderas kan det underlätta att utvärdera modulen på texter som bara innehåller särskrivningar istället för en blandning av olika typer av fel. 1

9 Möjligheten till automatisering är en av de största fördelarna med att använda genererade stavfel vid utvärdering av språkgranskningsprogram. För att kunna avgöra om en rättning som ett rättstavningsprogram gjort är korrekt krävs det att det går att ta reda på vilket ord som avsågs då det felstavade ordet skrevs. Sådan information existerar normalt inte eftersom det kräver att skribenten själv annoterar (beskriver) stavfelen i texten. Eftersom Missplel inför stavfel i en redan befintlig text är det inga problem att låta programmet hålla reda på de förändringar som görs. Annoteringen sker då automatiskt och hela utvärderingsförloppet av rättstavningsprogrammet kan automatiseras. Detta är värdefullt eftersom det sparar in mycket manuellt, enformigt arbete. Förutom problemet med att mänskliga stavfel måste annoteras av en människa kan det även vara ett problem att få tag på texter i digital form som inte tidigare har kontrollerats av något språkgranskningsprogram. Givetvis är det möjligt att exempelvis skriva av handskrivna skoluppsatser för att få tag på mänskliga stavfel, men även detta kräver mycket manuellt arbete. Överföring av handskrivna texter till digital form med hjälp av teckenigenkänning (eng. Optical Character Recognition, OCR) inför en ny felkälla som inte speglar mänskligt beteende. Den vanligaste typen av fel som OCR-program gör är substitutionsfel, det vill säga att en bokstav tolkas som en annan. Till exempel kan Q och O eller S och 5 blandas ihop, vilket resulterar i stavfel som är ovanliga bland människor. 1.2 Problemdefinition Detta examensarbete går ut på att studera verkliga stavfel, konstruera ett datorprogram som kan generera så mänskliga stavfel som möjligt samt att utvärdera hur språkgranskningsverktygen Stava och Granska hanterar de genererade felen. Stavfelen (t.ex. exempel insättning, borttagning, transposition och ersättning) ska införas på både ord- och teckennivå och annoteras i XML-format. För att programmet ska vara så generellt som möjligt ska det vara oberoende av språk och ordklasstaggsuppsättning. 1.3 Syfte Syftet med detta examensarbete är att skapa ett datorprogram som kan underlätta en automatisk utvärdering av olika typer av språkgranskningsprogram genom att automatiskt införa och annotera fel i annars rättstavade texter. Programmet är främst tänkt att införa fel i texter skrivna i naturliga (mänskliga) språk. Funktionaliteten hos programmet ska kunna byggas upp av regler som beskriver de önskade stavfelens utseenden. Tillsammans med AutoEval, ett generellt utvärderingsverktyg, kan Missplel göra automatiska tester och utvärderingar av till exempel olika språkgranskningsprogram såsom rättstavningsprogram och ordklasstaggare. 2

10 1.4 Målgrupp Denna rapport riktar sig främst till KTH-studenter eller personer med motsvarande kunskaper. Vissa kunskaper om ordklasser och grammatik krävs, men inte mer än vad som lärs ut på högstadiet och gymnasiet. 1.5 Notation I denna rapport används kursiv fetstil för att markera felstavade ord. Rättningsförslag markeras med fetstil. Namn på program och programmoduler anges med lutande text, och utdrag ur textfiler (till exempel programkod eller felstavningsregler) skrivs med icke-proportionerligt teckensnitt. 1.6 Om Stava och Granska Uppdragsgivare för detta examensarbete var institutionen för numerisk analys och datalogi, Nada, vid Kungliga tekniska högskolan, KTH, i Stockholm. Nadaprojekten Stava och framför allt Granska kan förhoppningsvis dra nytta av de möjligheter Missplel ger till automatisering av införandet av stavfel. Stava 1 är ett program för stavningskontroll av svenska ord och är utvecklat av Viggo Kann och Joachim Hollman vid Nada. I grunden består Stava av en ordlista i form av ett bloomfilter, en grafotaktisk tabell som beskriver vilka bokstavsfyrgram som finns representerade i språket samt regler för hur ändelser och sammansättningar av ord får se ut. I ett par artiklar ( En metod för svensk rättstavning baserad på bloomfilter av Hollman och Kann[6] (1992) och Detection of Spelling Errors in Swedish Not Using a Word List En Clair av Domeij, Hollman & Kann[4] (1994)) beskrivs mer detaljerat hur Stava fungerar. Granska 2 är ett språkgranskningsprogram som påbörjades Liksom Stava utvecklas detta program vid Nada. Några viktiga komponenter i Granska är ordklasstaggaren, den statistiska informationen om sekvenser av ordklasstaggar samt det avancerade regelspråk 3 som används för att bygga upp Granskas funktionalitet. Granska använder Stava för rättning av enskilda ord

11 Kapitel 2 Teori 2.1 Historia Generering av fel Program som avsiktligt inför stavfel är ganska ovanliga. Agirre m.fl.[1] skapade 1998 ett program för att skapa enbokstavsstavfel enligt Dameraus fyra regler (se avsnitt 2.4 nedan). På ett liknande sätt fungerade enligt Kukich[9] (1992) ett program från 1981 skrivet av Jonathan Grudin. Missplel kan bland annat införa samma typer av fel som dessa båda program. I avsnitt beskrivs den modul till Missplel som utför detta. Det EU-sponsrade projektet TEMAA 1 har bland annat skapat programmet Err- Gen[2] som inför stavfel med hjälp av reguljära uttryck. I avsnitt beskrivs en modul till Missplel vid namn SoundError som med hjälp av reguljära uttryck inför samma typer av fel. Då generering av stavfel är en ovanlig företeelse finns det inte mycket litteratur i ämnet. Den litteratur som studerades under detta examensarbete har därför nästan uteslutande handlat om rättandet av stavfel. Generering och rättning av fel har dock mycket gemensamt och ofta kan liknande metoder användas vid generering som normalt görs vid rättning av fel. Därför beskrivs i detta kapitel olika metoder som används och har använts vid rättning av stavfel Rättning av fel Redan på tidigt 1960 tal började program för att upptäcka och rätta stavfel att utvecklas (Damerau[3]). Till en början var programmen och metoderna för att rätta felen enkla, men i takt med att datorerna blivit mer kraftfulla har även nya tekniker för att upptäcka och rätta stavfel uppfunnits. Moderna system rättar inte bara stavfel utan även många typer av grammatiska fel. Så här beskriver Pollock och Zamora[15] möjligheterna till korrektion av kontextberoende (grammatiska) fel 1984: 1 TEMAA, 4

12 What is envisaged here is the correction of isolated misspellings. If context were to be taken into account, more elaborate strategies would be needed. Although absence of context gives rise to ambiguous corrections, this would be equally true of manual correction and one cannot reasonably expect a computer program to be superior to human beings in this respect. Avsnitt 2.3 handlar om detektion av stavfel och avsnitt 2.4 beskriver olika tekniker för att rätta stavfel i fristående ord. Kontextberoende detektion och korrektion av stavfel och grammatiska fel beskrivs i avsnitt 2.5. I avsnitt 2.6 beskrivs semantiska fel vilka inte kan upptäckas ens vid en kontextberoende kontroll av en text eftersom felen uppkommer i betydelsen av orden. Missplel är inte gjort för att kunna tillverka semantiska fel. 2.2 Felklassificering Detta avsnitt beskriver ett par olika sätt att klassificera stavfel på. Uppdelningen av fel i performans- och kompetensfel är oftast en subjektiv bedömning eftersom den beskriver orsaken till stavfelen, medan uppdelningen i ortografiska, morfologiska, syntaktiska och semantiska fel är mer objektiv eftersom den beskriver stavfelens utseende Ortografiska, morfologiska, syntaktiska och semantiska fel Indelningen av språkfel i ortografiska, morfologiska, syntaktiska och semantiska fel beskriver på vilken nivå ett språkfel uppträder, det vill säga om felet endast påverkar det felstavade ordet, hela meningen eller betydelsen av det som skrivs. Ännu högre nivåer kan till exempel vara hur ett resonemang framställs och ett fel på denna nivå skulle kunna vara dålig argumentation. Fel som uppkommer inom ett ord och som inte påverkar grammatiken i meningen kallas för ortografiska fel. Vanliga ortografiska fel är insättning, borttagning eller utbyte av en enskild bokstav i ett ord. Morfologiska fel kan beskrivas som böjningsfel. Felen uppkommer på ortografisk nivå, men klassificeras ibland för sig eftersom felen följer en viss syntax inom orden. Ordet storaste är ett exempel på ett morfologiskt fel (Eeg-Olofsson[5] 2001). Syntaktiska fel fungerar ungefär som ortografiska fel fast på satsnivå istället för på ordnivå. Omkastning av två ord eller ofrivillig upprepning av ett ord är exempel på vanliga fel som påverkar meningens syntax. Ett apelsin är ett exempel på ett kongruensfel som också är en typ av syntaktiskt fel. Semantiska fel är fel där syntaxen i sammanhanget är korrekt men där betydelsen av det som står ändå blir felaktig. Därför går det ofta inte att hitta ett eller ett par ord i en mening som skyldiga till ett semantiskt fel utan hela meningen eller satsen får ses som semantiskt inkorrekt. Avigsidan 2 bjuder på många roliga exempel: 2 Avigsidan, 5

13 Exempel 2.1. Väl korkade bar de ner flaskorna i källaren Performans- och kompetensfel Klassificeringen av stavfel i performans- eller kompetensfel beskriver orsaken till att felen uppkommit. Performansfel är den typ av fel som vanligtvis kallas slarvfel, vilket betyder att skribenten egentligen vet hur ordet ska stavas men ändå råkar skriva fel. Sådana fel uppkommer oftast på ortografisk nivå, t.ex. genom omkastning av ett par eller flera bokstäver i ett ord. Performansfel förekommer dock även på högre nivåer av fel. Ett exempel på ett sådant fel är att ofrivilligt upprepa ordet inte som i exempel 2.2. Exempel 2.2. Jag tycker inte att det är inte roligt att skotta snö. Kompetensfel är fel där skribenten stavar fel på grund av bristande kunskap om hur ordet ska stavas. Ett vanligt förekommande sådant fel är användningen av det icke-befintliga ordet spar istället för imperativformen spara eller istället för presensformen sparar som i exempel 2.3. Exempel 2.3. Köp två apelsiner till priset av en. Du spar 3 kronor! Det är egentligen omöjligt att avgöra om ett fel är ett performansfel eller ett kompetensfel såvida man inte kan fråga skribenten. Det går ju inte att genom att att bara titta på ett felstavat ord avgöra om skribenten egentligen visste hur ordet skulle stavas eller ej. Om samma fel förekommer flera gånger i en text är det dock förmodligen ett kompetensfel eftersom sannolikheten är liten att en skribent råkar göra samma slarvfel flera gånger. 2.3 Detektion av fristående felstavade ord Vid detektion av fristående felstavade ord tas ingen hänsyn till ordens omgivning varje ord kontrolleras individuellt. De två vanligaste metoderna för att upptäcka stavfel på detta sätt är med hjälp av ordlista eller metoder baserade på n-gram N-gramsbaserade metoder Ett n-gram är en bokstavsföljd som innehåller n tecken. N-gramsbaserade rättstavningsmetoder bygger på att vissa följder av bokstäver inte förekommer alls eller är mycket ovanliga i rättstavade ord. Till exempel är trigrammen zqp och dgf ovanliga i svensk text. En så kallad grafotaktisk tabell byggs i förväg upp över språket. Den grafotaktiska tabellen är en n-dimensionell matris som innehåller information om vilka n-gram som förekommer i det aktuella språket. När ett ord kontrolleras antas alla n-gram som inte finns med i den grafotaktiska tabellen vara delar av felstavade ord. Oftast används bi- och trigram för att göra denna typ av stavningskontroll, men i Stava 6

14 används en modell baserad på 4-gram. I en svensk ordlista med ord fanns endast 7% av alla möjliga 4-gram representerade (Hollman och Kann[6]). På grund av att n-gramsbaserade metoder hittar ovanliga bokstavskombinationer passar dessa bra för att hitta stavfel införda av OCR-program Uppslagning i ordlista Den enklaste och mest intuitiva metoden för att kontrollera om ett ord är korrekt stavat eller ejär att slå upp det i en ordlista. Ordlistan kan givetvis representeras på flera olika sätt. Användning av en hashtabell istället för en sorterad lista av ord snabbar upp uppslagning av ord men tar samtidigt bort möjligheterna för att göra andra typer av sökningar i ordlistan (t.ex. användning av UNIX-kommandot grep). I Stava används ett Bloomfilter för att representera ordlistan (Domeijm.fl.[4]). I ett Bloomfilter appliceras flera olika hashfunktioner på samma binära hashtabell (varje post i tabellen innehåller endast ett binärt värde), och ett ord accepteras endast om samtliga hashfunktioner anser att det sökta ordet finns representerat i ordlistan. Bloomfilter har liksom vanliga hashtabeller där varje post representeras av ett binärt värde problemet att uppslagning av ett icke-existerande ord med en liten sannolikhet tros vara existerande. Detta medför att det är omöjligt att återskapa ordlistan genom att generera alla möjliga bokstavskombinationer och kontrollera om de finns med i ordlistan. Hashtabeller och Bloomfilter gör det också omöjligt att ta bort ett ord ur ordlistan. Andra metoder för uppslagning i ordlista är ändliga automater, tries och binära sökträd (Kukich[9] 1992). Eftersom det i svenskan går att skapa i princip ett oändligt antal sammansatta ord är det inte möjligt att spara alla i en ordlista. Om inte bara de vanligaste sammansatta orden sparas i ordlistan krävs en funktion för att kontrollera stavningen på ordens delar individuellt. Ett liknande problem uppstår med olika böjningsformer av ord. Om inte alla böjningsformer av alla ord finns med i ordlistan krävs funktioner för att överföra alla böjningsformer av ett ord till en gemensam grundform, ett så kallat lemma. Lemmat används sedan vid uppslagningen i ordlistan. Ordlistans storlek Ett svårt val vid detektion av fristående felstavade ord är valet av storleken på ordlistan. Med en liten ordlista markeras många rättstavade ord som felstavade på grund av att de inte finns med i ordlistan (falska varningar), men i en stor ordlista förekommer många ovanliga ord som sammanfaller med felstavningar av vanliga ord. Ska till exempel det ovanliga ordet nar (tvärslå) finnas med i en ordlista när det är så likt betydligt mer vanliga ord, t.ex. har, ner, när och var? Peterson[12] (1986) avrådde från att använda en stor ordlista eftersom andelen oupptäckta fel som uppkommer på grund av att de felstavade orden resulterar i andra existerande ord uppskattades vara 2% med en liten ordlista men hela 16% med en stor ordlista innehållande ord. Peterson tog dock inte hänsyn till att 7

15 andelen falska varningar minskar när storleken på ordlistan ökas, något som måste räknas som en stor fördel. I en studie genomförd av Mitton[11] (1987) resulterade 40 procent av de felstavade orden i andra existerande ord. Alla dessa stavfel skulle passera oupptäckta av ett rättstavningsprogram som inte tar hänsyn till ordens kontext. Enligt Kukich[9] (1992) rapporterade Damerau och Mays år 1989 däremot att 1348 falska varningar avfärdades och endast 23 oupptäckta stavfel infördes när deras ordlista ökades från till ord. Avvägningen mellan att använda en liten ordlista där många rättstavade ord markeras som felstavade eller att använda en stor ordlista där många felstavade ord sammanfaller med ovanliga ord i ordlistan och därmed godkänns är svår men viktig att göra för att ett språkgranskningsprogram ska bli praktiskt att arbeta med. I avsnitt 2.5 ser vi dock att problemen med en stor ordlista till stor del försvinner när hänsyn tas till ordens kontext. 2.4 Korrektion av fristående felstavade ord Vid korrigering av stavfel ska fel inte bara upptäckas, rättningsförslag ska också genereras. Förhoppningsvis finns det ord som skribenten avsåg att skriva med bland rättstavningsförslagen. Helst ska det bara finnas ett enda rättningsförslag eftersom felet då kan rättas helt automatiskt förutsatt att förslaget är korrekt. Enligt Damerau[3] (1964) tillhörde 80% av stavfelen i ett undersökt datorsystem någon av fyra följande klasser av enbokstavsfel: Substitution (ett felaktigt tecken) Borttagning (ett utelämnat tecken) Insättning (ett extra tecken) Transposition (omkastning av två intilliggande bokstäver) I det system Damerau studerade härstammade stavfelen från datorutrustningen (pappersband och hålkort), från överföringen av data till hålkort samt från mänskliga misstag. Peterson[12] (1986) uppmätte att hela 94,7% av ett antal undersökta stavfel hörde till någon av de fyra klasserna ovan. Anledningen till att Damerau uppmätte en lägre andel beror förmodligen på att överföringsfel och fel i utrustningen ökade sannolikheten för att mer än ett fel per ord skulle uppstå. Sådana fel togs det ingen hänsyn till i dessa undersökningar. Rättandet av felstavade ord består vanligen av tre separata delar: 1. Detektion av stavfel (Avsnitt 2.3) 2. Generering av rättningsförslag (Avsnitt 2.4.1) 3. Rangordning av rättningsförslag (Avsnitt 2.4.2) 8

16 Metoderna för att hitta de felstavade orden (punkt 1) beskrevs i avsnitt 2.3. Nedan följer en beskrivning av hur generering av rättningsförslag (punkt 2) och rangordning av rättningsförslag (punkt 3) kan gå till Generering av rättningsförslag Det finns många olika metoder för att generera rättstavningsförslag till felstavade ord. De flesta metoder fungerar dock enligt någon eller några av de principer som beskrivs nedan. Minsta avståndet Det minsta avståndet (eng. Minimum Edit Distance) mellan två ord mäter hur mycket två ord skiljer sig från varandra. Detta avstånd beskrivs oftast med det minsta antal av Dameraus fyra operationer som krävs för att transformera det ena ordet till det andra. En vanlig metod för att rätta stavfel är att generera alla möjliga ord med ett visst avstånd (oftast avståndet ett) från ett givet felstavat ord. För ett alfabet med a bokstäver bildas på detta sätt (a 1) n substitutioner, n borttagningar, a (n +1)insättningar och n 1 transpositioner med avstånd ett från ett ord med n bokstäver. Det svenska alfabetet har 29 bokstäver och skulle därför bilda 59n +28 olika kombinationer. De bokstavskombinationer som bildar giltiga ord presenteras sedan som rättningsförslag till det felstavade ordet. Likhetsnycklar Tanken bakom likhetsnycklar (eng. similarity keys) är att överföra textsträngar till nyckelvärden, och att textsträngar som liknar varandra ska ha samma nyckelvärde. När en textsträng som inte finns med i ordlistan upptäcks räcker det med att låta ord med samma nyckelvärde presenteras som rättningsförslag. Det är givetvis viktigt att funktionen som överför textsträngarna till nycklar fungerar bra. SOUNDEX är en sådan funktion som uppfanns redan 1918 av Odell och Russel för att approximera uttalet av efternamn. Metoden bygger alltså på fonetisk likhet, och är anpassad för engelskt uttal. Nyckeln i denna metod består av ordets första bokstav följd av ett antal siffror. Siffrorna skapas från ordets resterande bokstäver enligt följande regler: A, E, I, O, U, H, W, Y 0 B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D, T 3 L 4 M, N 5 R 6 9

17 När bokstäverna översatts till siffror plockas alla nollor bort och två eller flera repeterade siffror ersätts med en. Till exempel genererar de ofta ihopblandande engelska orden their och there båda nyckeln T6. Metoden är dock på intet sätt perfekt. Exempelvis uttalas orden weight och wait likadant på engelska men de genererar olika nycklar (W23 respektive W3 ). SOUNDEX beskrivs utförligt av Vosse[16] (1994). Philips[13] publicerade 1990 algoritmen Metaphone som liksom SOUNDEX är gjord för att representera uttal. Metaphone ger generellt ett bättre resultat än SOUNDEX men kräver mer beräkningskraft. År 2000 förbättrade Philips algoritmen ytterligare och skapade Double Metaphone[14]. Pollock och Zamora[15] (1984) använde likhetsnycklar för att rätta enteckensstavfel med programmet SPEEDCOP. Deras metod använde en ordlista sorterad efter nyckelvärde, och när ett felstavat ord påträffades valdes de ord i ordlistan med en nyckel inom ett visst avstånd från det felstavade ordets nyckel ut som kandidatord. Regelbaserade metoder Regelbaserade metoder bygger på heuristiska algoritmer där olika regler används för att försöka transformera felstavade ord till rättstavade. Alla godkända ord som genereras då reglerna appliceras på ett felstavat ord kan anses vara rättningsförslag. En fördel med regelbaserade metoder är att det är lätt att lägga till nya regler för att förbättra funktionaliteten hos rättstavningsprogrammet. Nackdelen är att ingenting är gratis det måste finnas en regel för precis varje typ av fel som programmet ska kunna rätta. Många statistiska (probabilistiska) metoder klarar att rätta flera olika typer av fel men det är å andra sidan svårt att förbättra dessa metoder genom att lägga till ny kunskap. Probabilistiska metoder Vid användning av probabilistiska metoder utnyttjas statistisk information om språket. Övergångssannolikheter, som också kallas bigramsfrekvenser, beskriver sannolikheten för en övergång från en bokstav till en annan (till exempel sannolikheten för att ett g följs av ett t) och är språkberoende. Sådan statistisk information kan till exempel användas för att identifiera vilket språk en text är skriven på. Ihopblandningssannolikheter beskriver sannolikheten för att en bokstav av misstag byts ut mot en annan. Denna typ av sannolikhet är beroende av källan, det vill säga det dokument som granskas och den person som skrivit dokumentet. Bayes metod som beskrivs av bland andra Jurafsky och Martin[8] (2000) är en probabilistisk metod för rättning av stavfel. Denna metod går ut på att finna det ord med den största sannolikheten ŵ för alla ord w i en ordlista V vid en observation av teckensträngen O det vill säga hitta det mest sannolika ordet i ordlistan för en viss textsträng (ekvation 2.1). 10

18 ŵ =argmaxp (w O) (2.1) w V Sannolikheten P (w O), det vill säga sannolikheten för att ordet w avsågs då ordet O skrevs, är dock svår att uppskatta. Med hjälp av Bayes regel kan ekvation 2.1 istället formuleras som ekvation 2.2, där alla sannolikheter går att approximera. ŵ =argmax w V P (O w)p (w) P (O) (2.2) Eftersom P (O) är lika för alla w kan denna term ignoreras. Sannolikheten P (w) kan enkelt beräknas genom att räkna antalet förekomster i en stor korpus (textmassa). Det svåraste att uppskatta är P (O w), det vill säga sannolikheten att ett ord w felaktigt stavas som O. Detta är givetvis oerhört svårt att räkna ut exakt, men med hjälp av till exempel Dameraus fyra regler som nämndes i början av avsnitt 2.4 och en förväxlingsmatris (en matris som beskriver alla möjliga ihopblandningssannolikheter, se avsnitt 3.2.1) går det att approximera sannolikheten för felstavningar om man antar att ett ord innehåller maximalt ett stavfel Rangordning av rättningsförslag Ofta är rangordningen av rättningsförslagen en separat del av ett rättstavningsprogram och inte integrerad med genereringen av förslagen. Ett undantag från detta är dock metoden som presenterades av Pollock och Zamora[15] (1984). Deras system beskrevs kortfattat i avsnittet om likhetsnycklar i avsnitt Ett enkelt sätt att rangordna rättningsförslag på är att beräkna det minsta avståndet mellan det felstavade ordet och de olika rättningsförslagen. Detta ger givetvis en väldigt grov rangordning eftersom alla ord med samma avstånd från det felstavade ordet får samma rang och den inbördes ordningen mellan dessa ord förblir slumpmässig. Agirre m.fl.[1] (1998) testade flera metoder för rangordning av rättningsförslagen från UNIX-verktyget ispell och lyckades uppnå en precision på 80% med endast i snitt 1,02 rättningsförslag per felstavat ord. En precision på 80% betyder att det korrekta rättstavningsförslaget finns med bland förslagen i 80% av fallen. Vid rättning med hjälp av regelbaserade metoder som beskrevs i avsnitt kan rättningsförslagen rangordnas genom att till exempel ge varje regel ett värde baserat på hur vanligt förekommande den specifika typen av fel som regeln rättar är. Ju vanligare typen av fel är desto lägre värde får regeln. Värdena för alla regler som används för att transformera ett felstavat ord till ett kandidatord summeras och bildar kandidatordets rang. Då kandidatorden sorteras efter rang kommer det kandidatord som bildats med hjälp av de vanligast förekommande rättningsreglerna att få den lägsta summan och därmed rangordnas högst. Denna metod kräver dock både regler som utför rättningarna samt god statistik över hur vanliga olika feltyper är. 11

19 2.4.3 Multipla fel Andelen felstavade ord som innehåller mer än ett fel varierar kraftigt mellan olika undersökningar. Det går dock att konstatera att även om en text innehåller få stavfel är risken relativt stor att ord med multipla stavfel existerar. Pollock och Zamora[15] (1984) analyserade stavfel från vetenskapliga texter innehållande totalt omkring ord. Detta betyder att ungefär 0,2% av orden innehöll stavfel. Deras resultat visar att mellan fem och nio procent av stavfelen innehöll mer än ett fel (enligt Dameraus regler). Texterna i denna undersökning var hämtade ur vetenskapliga textdatabaser och har därför förmodligen granskats av någon människa och kanske ett datorprogram innan de lades in i databasen. En undersökning gjord av Mitton[11] (1987) visar att hela 31 procent av de felstavade orden inte gick att rätta genom en applicering av någon av Dameraus regler. Denna analys baserades dock på tiominutersuppsatser skrivna av 15 år gamla elever i Cambridges skolor Uppsatserna av dessa elever hade inte tidigare rättats och innehöll i snitt 2,5% felstavade ord. På grund av tidsbegränsningen är det dessutom troligt att många elever inte hann läsa igenom vad de skrivit. 2.5 Kontextberoende korrektion av stavfel I avsnitt beskrevs att ord ibland felstavas som något annat existerande ord. Detta problem går ofta att lösa genom att titta på orden runt omkring, till exempel genom att kontrollera att ordens ordklasser följer vissa mönster. Om en följd ords ordklasser inte följer något känt mönster antas ett eller flera av orden vara felstavade trots att alla ord finns med i ordlistan. Vilka ordklassmönster som ska vara tillåtna bestäms antingen via regler eller med hjälp av statistik från en stor mängd meningar som saknar språkfel Mångtydiga stavfel Ibland går det inte att avgöra hur ett ord ska rättas på grund av att flera rättningsförslag passar lika bra om ingen hänsyn tas till kontexten. Ett bra exempel på detta är då någon på engelska råkar skriva det icke-existerande ordet ater. Det finns då ingen möjlighet att avgöra om skribenten menade att skriva after, later, ate, water eller alter som alla har avståndet ett från det felstavade ordet. Möjligheten finns naturligtvis att något helt annat ord avsågs, men dessa är de mest sannolika alternativen. Vet vi däremot att det enda ord som passar in i sammanhanget är ett verb i infinitvform är sannolikheten stor att ordet alter är en korrekt rättning av ater Särskrivningar I svensk text utgör särskrivningar en stor andel av skrivfelen. Särskrivningar är inte alls ett lika stort problem i engelskan som i svenskan eftersom ord som ska skrivas ihop på svenska ofta särskrivs i engelskan (t.ex. fotbollsspelare eng. football 12

20 player). I svenskan är särskrivning oftast ett kompetensfel medan det i engelskan i större utsträckning utgör ett performansfel. Till och med språkliberalen Fredrik Lindström[10] (2000) som annars ställer sig positiv till de flesta förändringarna i språket anser att särskrivningar är av ondo. Orsakerna till varför människor särskriver ord kan vara många, men den vanligast nämnda orsaken är dock påverkan från engelskan. När någon översätter en engelsk text till svenska är det lätt att översätta varje ord för sig utan att tänka på att många ord ska skrivas ihop på svenska. Språkgranskningsprogram, som ofta har amerikanskt ursprung, har inte klarat att göra stavningskontroll på sammansatta ord, något som har tvingat användarna att skriva isär sina ord för att de ska accepteras av stavningskontrollen (Öhrman[17] 1998). En annan förklaring som ofta nämns är den gestalttext 3 som alla människor utsätts för. Gestalttext är formgiven text där utseendet är viktigt, t.ex. i logotyper i löpsedlar. Det kan därför bli lätt att tro att Marabous mjölkchoklad stavas Mjölk choklad eftersom det faktiskt står så på förpackningen. Exempel 2.4. Emil vägrade äta upp sina grön saker. Felet i exempel 2.4 är svårt att rätta eftersom både grönsaker och gröna saker är grammatiskt godtagbara rättningar. För att kunna rätta denna typ av fel krävs semantisk kunskap om texten. 2.6 Semantisk granskning Semantiska fel är fel där ett textstyckes syntax är korrekt men betydelsen ändå blir felaktig. Denna typ av fel uppkommer i både tal och skrift och leder ofta till syftningsfel: Exempel 2.5. Flyg billigare än tåget! En människa kan ha svårt att över huvud taget upptäcka vissa syftningsfel. Detta beror på att människor är toleranta mot fel och ibland omedvetet tolkar en text på det sätt skribenten menar istället för så som det verkligen står i texten. Wordnet 4 är ett projekt vars syfte är att bygga upp en databas över betydelsen hos engelska ord. Detta kan vara till nytta när ett program ska försöka förstå innebörden av en text. Att sedan få programmet att förstå att en skribent menar något annat än det han eller hon skriver och dessutom kanske kunna rätta till det är givetvis ännu svårare WordNet, wn/ 13

21 Kapitel 3 Modellbeskrivning 3.1 Analys Enligt problemformuleringen i avsnitt 1.2 ska Missplel vara oberoende av språk och ordklasstaggare. Det ska också vara möjligt att bygga ut och förbättra programmets funktionalitet utan att ändra i programmets källkod. För att dessa krav ska kunna uppfyllas står det klart att det krävs någon form av regelbaserat system som inför stavfel eftersom det är lätt att lägga till nya regler och därmed ny funktionalitet i ett sådant system. Heuristiska metoder, som beskrevs i avsnittet om regelbaserade metoder (2.4.1), passar utmärkt även till att införa stavfel. De heuristiker som används kan baseras på olika metoder och modeller vilket ger programmet möjlighet att införa flera olika typer av språkfel. Användandet av en enskild metod för införandet av stavfel leder annars lätt till att bara någon enstaka typ av fel kan införas. Antalet regler och kvaliteten på dessa blir givetvis avgörande för hur bra programmet blir på att införa stavfel. Eftersom Missplel är tänkt att göra det möjligt att införa samma typer av skrivfel som en människa gör vid en dator krävs det att både kompetensfel och performansfel kan införas. 3.2 Moduler Alla inställningar som beskriver Missplels beteende anges i en XML-fil samt i ett antal regelfiler. För att köra programmet behöver endast en inställningsfil anges, vilket görs med väljaren -f på kommandoraden. Det finns dock möjlighet att göra de flesta inställningarna direkt på kommandoraden vid körningen av programmet och därmed åsidosätta värdena i inställningsfilen. Indata till Missplel är en textfil där varje rad innehåller ett ord följt av dess ordklasstagg. Detta är den enda information som krävs, eventuell annan information på raderna i indatafilen kan kopieras till utdatafilen om man vill. Utdata från programmet skrivs till en fil. Formatet på utdata kan bestämmas i inställningsfilen med 14

22 hjälp av den syntax som tillhandahålls av formateringsbiblioteket format i Boost. Förutom ord och ordklasstagg går det även att skriva ut till exempel lemma och felbeskrivning i utdatafilen. De fel som introduceras i texten annoteras även i en XML-fil. Den information om felen som tillhandahålls är beroende av typen av fel och vilken programmodul som skapat felen, men den felbeskrivning som är gemensam för alla feltyper är: Ordets position i indata Ordets position i utdata Det gamla ordet Det nya ordet Den gamla ordklasstaggen Den nya ordklasstaggen I bilaga B finns ett exempel på hur en felbeskrivningsfil kan se ut. För att kunna införa alla typer av fel, det vill säga ortografiska, morfologiska och syntaktiska fel på performans- och kompetensnivå skapades fyra olika moduler som använder olika heuristiker för att införa olika typer av stavfel. I inställningsfilen finns en sektion för varje modul som beskriver hur de olika modulerna ska arbeta. Standarvärdena i inställningsfilen är satta till att försöka efterlikna mänskliga stavfel. Böcker såsom Gymnasistsvenska av Hultman och Westman[7] samt resultaten från många av de övriga verken i litteraturlistan har hjälpt till vid valet av standardvärdena på inställningarna Damerau Modulen Damerau arbetar på ortografisk nivå och är främst till för att införa performansfel. Som namnet antyder applicerar denna modul Dameraus fyra regler för enbokstavsfel (substitution, insättning, borttagning och transposition) på orden. Det är möjligt att bestämma sannolikheterna för de olika feltyperna individuellt. Förväxlingsmatris Beteendet hos modulen Damerau bestäms med hjälp av en förväxlingsmatris (eng. confusion matrix). Detta gör det lätt att anpassa beteendet på modulen för olika språk och tangentbordsuppsättningar. Matrisen beskriver sannolikheten för att en bokstav ska blandas ihop med en annan. Position (x, y) i matrisen anger alltså sannolikheten för att alfabetets bokstav nummer x ska blandas ihop med bokstav nummer y. Förväxlingsmatrisen används både vid insättning och vid substitution av bokstäver. 15

23 3.2.2 SplitCompound Modulen SplitCompound inför särskrivningar i texten. Grundheuristiken i denna modul är att det är troligt att långa ord särskrivs oftare än korta och att det är mer troligt att ett ord särskrivs om delarna bildar kända ord. I inställningsfilen går det att ange om okända ord ska särskrivas eller ej. Många sammansatta svenska ord finns sannolikt inte med i ordlistan, så oftast är det nog önskvärt att särskriva okända ord. På grund av att många korta ord sällan särskrivs finns en möjlighet att ange en minsta längd på orden som ska särskrivas samt en minsta längd på en enskild del av det särskrivna ordet. Sätts dessa gränser för lågt riskerar ord som till exempel avgå att särskrivas som av gå, ett fel som är ovanligt hos mänskliga skribenter. För att avgöra om och var ett ord ska särskrivas används ett poängsystem. Alla möjliga tudelningar av ett ord poängsätts, och den delning som får flest poäng används för att dela ordet förutsatt att poängsumman överskrider ett tröskelvärde. Alla delpoäng samt tröskelvärdet anges i inställningsfilen. De faktorer som används vid poängberäkningen är: 1. Ordets längd. 2. Om första delen av ordet finns med i ordlistan. 3. Om andra delen av ordet finns med i ordlistan. 4. Om ordklasstaggarna för de båda delarna av ordet är tillåtna. 5. Om första delen av ordet har precis samma ordklass som hela ordet. 6. Om andra delen av ordet har precis samma ordklass som hela ordet. Det kan vara av intresse att inte särskriva vissa typer av ord som exempelvis egennamn (Svens son) eller räkneord (fem ton). I inställningsfilen finns därför en lista med reguljära uttryck, och de ordklasstaggar som matchar något av dessa reguljära uttryck erhåller ett antal poäng för att ordklasstaggarna är tillåtna (punkt 4ovan) SyntaxError Den regelbaserade modulen SyntaxError arbetar på den morfologiska och den syntaktiska nivån vid införandet av stavfel. Reglerna, som anges i ett valfritt antal XML-filer, appliceras på ordens ordklasstaggar eller på orden själva. Användaren av programmet får själv välja i vilka XML-filer de olika reglerna ska finnas, men om reglerna sorteras in i olika kategorier går det lätt att kontrollera vilka typer av fel som ska införas i texterna eftersom det går att bestämma vilka filer som ska användas vid körningen av Missplel. 16

24 <rule ex="sluta skrika - sluta skrik"> <match>vb\.imp(.*) vb\.inf.*</match> <to>vb.imp@1 vb.imp@1</to> <order>12</order> </rule> Regeln ovan inför ett fel som är vanligt i talspråk att byta ut infinitivformen (grundformen) mot imperativformen (uppmaningsformen) av ett verb om det kommer efter ett annat verb i imperativform. Attributet ex är endast en kommentar, men bör för att ge en bra översikt över reglerna innehålla ett exempel på vad regeln gör. Innehållet i elementet match är ett reguljärt uttryck som ska matcha ordens ordklasstaggar. De reguljära uttrycken fungerar som i programmeringsspråket Perl, men med några undantag: Ett ordavgränsningstecken som anges i inställningsfilen används för att skilja ordklasstaggarna från varandra i match-taggen. (till exempel ett mellanslagstecken) Om ett i inställningsfilen definierat tecken (till exempel ) omger en teckensekvens matchas sekvensen mot ett ord istället för mot ordets tagg ( hej matchar ordet hej och inte ordklasstaggen hej). Bakåtreferenser i match-taggen används som i vanliga reguljära uttryck, men bakåtreferenser från to-taggen till match-taggen använder ett tecken definierat i inställningsfilen. I elementet to beskrivs vad ordklasstaggarna (eller orden) ska transformeras till om de matchas av match-elementet. Elementet order anger hur orden ska ordnas i utdata. Hade en omkastning av orden önskats i exemplet ovan (skrik sluta) skulle innehållet i order-taggen ha varit 21. För att ta bort ett ord kan motsvarande siffra i order-taggen utelämnas. Insättning av nya ord görs genom att rada upp de nya orden i slutet av to-taggen och sedan i order-taggen som vanligt ange i vilken ordning de ska förekomma i utdata. I exemplet nedan ges exempel på hur order-taggen ska skrivas för att både ta bort och lägga till ord. <rule ex="ett två tre fyra - tre fem fyra"> <match> ett två tre fyra </match> <to> ett två tre fyra fem </to> <order>354</order> </rule> I avsnitt beskrivs ett program som underlättar konstruktionen av reglerna till SyntaxError. 17

25 3.2.4 SoundError Modulen SoundError är liksom modulen Damerau till för att införa stavfel på ortografisk nivå. SoundError är dock främst till för att införa kompetensfel medan modulen Damerau är inriktad på de mer slumpmässiga performansfelen. SoundError kan dessutom införa fel som kan klassas till den morfologiska nivån. De fel som ska införas definieras med hjälp av reguljära uttryck tillsammans med ett tal som anger hur vanligt det aktuella felet ska vara jämfört med övriga fel. När denna modul ska införa ett stavfel på ett ord kontrolleras först vilka regler som kan appliceras på ordet. Av dessa regler slumpas en fram med den sannolikhet som dess vikt anger i förhållande till de övriga vikterna. Till skillnad från modulen Syntax- Error appliceras reglerna i denna modul endast på orden, inte på deras ordklass. Bakåtreferenserna fungerar dock på samma sätt som i modulen SyntaxError. an([^n].*) ann@1 1 före innan 1 Eftersom ett ord är ett reguljärt uttryck av sig självt går det utmärkt att lägga in regler som matchar hela ord. I exemplet ovan byts förekomster av ordet före ut mot innan. Regeln ovanför stavar ord som börjar med an med två n istället för ett. Till exempel kommer ange att felstavas som annge. 3.3 Metodbeskrivning Verktyg Missplel är skrivet i programmeringsspråket C++. Konfigurationsfiler och regler anges i XML-format, och inläsningen av XML-filer sköts av Xerces 1 som är en del av Apache-projektet. Stödet för reguljära uttryck som används mycket i Missplel samt många andra användbara funktioner kommer från Boost-biblioteket 2. Boost är ett fritt paket innehållande främst template-baserade bibliotek för C++. För att minska ned på storleken av den ordlista som används i Missplel används zlib 3, ett bibliotek för läsning och skrivning filer komprimerade med algoritmen gzip. Ett par program använder Qt 4 för att skapa sina grafiska gränssnitt, men dessa program är bara hjälpprogram och inte nödvändiga för att kunna använda Missplel Ordlista Missplel använder sig av en ordlista innehållande ord, ordklasstagg och lemma vid skapandet av stavfelen. Att läsa in ordlistan från en textfil varje gång Missplel körs skulle ta alldeles för lång tid. Programmet createwordlist gör detta en gång för alla och skapar en binärfil som kan läsas in direkt i minnet i Missplel. 1 Xerces, 2 Boost, 3 zlib, 4 Qt, 18

26 De flesta sökningar som Missplel gör i ordlistan går ut på att utifrån ett ord hitta ordklass och lemma eller att utifrån ett lemma hitta ord och ordklass. Missplel kräver därför två versioner av ordlistan en sorterad efter ord och en sorterad efter lemma. Createwordlist skapar automatiskt båda versionerna av ordlistan och placerar dem i samma fil Regelkonstruktion För att underlätta skapandet av regler till modulen SyntaxError finns ett enkelt program med grafiskt gränssnitt som hjälper till vid regelskrivandet. Figur 3.1 visar hur detta gränssnitt ser ut. Tillverkandet av en regel för införande av ett stavfel sker i fem steg: Figur 3.1. Regelskaparverktygets gränssnitt Steg 1. Skapande av matchningsregel (match-elementet) En matchningsregel skapas genom att ett antal ord skrivs in i textinmatningsfälten överst i fönstret. De inmatade ordens ordklasser fylls i automatiskt i kombinationsrutorna under orden. Om ett ord kan ha flera ordklasser får användaren själv välja rätt ordklass i kombinationsrutan. Om ett ord omges av apostroftecken kommer ordet i sig användas i matchningsregeln istället för ordets ordklass. När fälten är ifyllda klickar man på knappen Match för att regeln ska fyllas i grupperingsrutan Rule. 19

27 Steg 2. Skapande av transformationsregel (to-elementet) En transformationsregel skapas på samma sätt som en matchningsregel. För att fylla i regeln i grupperingsrutan Rule klickar man på knappen To. Steg 3. Redigering av regler Vid redigeringen av reglerna väljs ordens ordning med hjälp av inmatningsfältet Order i grupperingsrutan Rule. Det går också bra att redigera matchnings- och transformationsreglerna för att exempelvis generalisera dem. Reglerna i figur 3.1 kan till exempel generaliseras till följande: Match jj.kom(.*) än pn(.*)sub To jj.kom@1 än pn@2obj Order 123 Steg 4. Testning Testningen av regeln sker genom att en ordföljd skrivs in i inmatningsfälten i programfönstrets övre del, till exempel längre än han som i figur 3.1. Efter att ordens ordklasstaggar ändrats till de önskade klickar man på knappen Apply för att utföra transformationen. Om allt gått rätt till visas den transformerade texten ( längre än honom ) med tillhörande ordklasstaggar i grupperingsrutan Result. Steg 5. Utskrift För att skriva ut regeln klickar man på knappen Print Rule. Regeln skrivs då ut på terminalen: <rule ex="längre än han - längre än honom"> <match>jj\.kom(.*) än pn(.*)sub</match> <to>jj.kom@1 än pn@2obj</to> <order>123</order> </rule> Denna regel klistras sedan in i en regelfil för att användas av Missplel. 20

Visa mer