Missplel ett generellt verktyg för generering av stavfel
|
|
- Monica Håkansson
- för 6 år sedan
- Visningar:
Transkript
1 Missplel ett generellt verktyg för generering av stavfel Linus Ericson TRITA-NA-E04045
2 NADA Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science Stockholm Royal Institute of Technology SE Stockholm, Sweden Missplel ett generellt verktyg för generering av stavfel Linus Ericson TRITA-NA-E04045 Examensarbete i datalogi om 20 poäng vid Programmet för datateknik, Kungliga Tekniska Högskolan år 2004 Handledare på Nada var Johnny Bigert Examinator var Stefan Arnborg
3 Sammanfattning För att automatiskt kunna utvärdera språkgranskningsverktyg såsom rättstavningsprogram och grammatikgranskningsprogram krävs tillgång till stavfel med annoteringar som anger vilket eller vilka ord som avsågs då ett felstavat ord skrevs. Ett datorprogram kan inte användas för att annotera en text med stavfel i eftersom detta program då skulle behöva utföra samma arbete som ett felfritt språkgranskningsprogram skulle göra. Att för hand klassificera stavfel är fullt möjligt men kräver mycket tid och monotont arbete, och det är svårt att garantera att några fel inte missas. Missplel är ett program som enligt förutbestämda regler inför till synes mänskliga stavfel i texter. Eftersom programmet självt inför felen kan det hålla reda på de förändringar som görs och därmed automatiskt annotera de stavfel som införs. Missplel är oberoende av språk och vilken ordklasstaggare som används och kan införa performans- och kompetensfel i form av både vanliga stavfel och grammatiska fel. I en utvärdering av programmet fick ett antal personer gissa om några meningar innehöll fel gjorda av ett antal gymnasieelever eller om felen var tillverkade av Missplel. I denna utvärdering var 62% av gissningarna korrekta, men när programmets inställningar anpassades för att istället efterlikna felen som en enda gymnasieelev gjort i en uppsats lyckades bara 52% av deltagarna i utvärderingen identifiera vilken uppsats Missplel infört felen i.
4 Missplel A generic tool for introduction of spelling errors Abstract To be able to automatically evaluate spelling checkers and grammar checking systems each spelling error used in the evaluation must be annotated with the correctly spelled version of the misspelled word. Without these annotations an evaluation system has no possibility to determine whether a correction made by a spell checker is correct or not. A computer program cannot be used to annotate a text containing human-made spelling errors since doing this requires the knowledge of a perfect spelling checker program. Classifying spelling mistakes by hand is feasible but monotonous and time-consuming. Missplel generates and introduces human-like spelling errors into texts according to predetermined rules. Since Missplel itself introduces the errors, it can easily keep track of all changes made to a text and automatically annotate the spelling errors. Independent of language and part-of-speech tag set, the program can introduce performance and competence errors on both spelling and grammatical level. In an evaluation of the performance of Missplel where a number of people guessed whether some sentences were misspelled by Missplel or by humans 62% of the guesses were correct. When adjusting the settings of the program to resemble the errors of an essay written by an upper-secondary school student only 52% of the people participating in the survey were able to correctly identify in which version of the essay Missplel had created the errors.
5 Innehåll 1 Inledning Bakgrund Fördelar och nackdelar med genererade fel Problemdefinition Syfte Målgrupp Notation Om Stava och Granska Teori Historia Generering av fel Rättningavfel Felklassificering Ortografiska, morfologiska, syntaktiska och semantiska fel Performans-ochkompetensfel Detektionavfriståendefelstavadeord N-gramsbaserademetoder Uppslagningiordlista Korrektion av fristående felstavade ord Generering av rättningsförslag Rangordning av rättningsförslag Multiplafel Kontextberoendekorrektionavstavfel Mångtydigastavfel Särskrivningar Semantiskgranskning Modellbeskrivning Analys Moduler Damerau SplitCompound SyntaxError... 16
6 3.2.4 SoundError Metodbeskrivning Verktyg Ordlista Regelkonstruktion Resultat Utvärderingmedwebbenkät Utformning Felkorpus Feltillverkning Enkätsvaren Del 1 Enskilda meningar Del2 Etttextstycke Övrigstatistik Test av Stava och Granska Slutsatser Utvärdering Förmångaspråkintresserade Väntaderesultat Oväntaderesultat Utvärdering av Stava och Granska Uppnåddes målen? Förbättringar Performansfel på syntaktisk nivå Separata förväxlingsmatriser Större regelsamling Referenser 29 A Ordförklaringar 31 B Exempel på felbeskrivningar 32 C 20 frågor 34 D Ett textstycke 36
7 Figurer 3.1 Regelskaparverktygetsgränssnitt Åldersfördelningenhosdesvarande Tabeller 4.1 Andelen korrekta gissningar för personer med olika färdigheter Andelen korrekta gissningar för olika åldersgrupper Fördelning av korrekta och felaktiga gissningar Antalet korrekta och felaktiga rättningsförlag från WebbGranska.. 25
8 Kapitel 1 Inledning 1.1 Bakgrund Detta examensarbete går ut på att skapa ett program som kan tillverka så mänskliga stavfel som möjligt. Med mänskliga stavfel avses att en människa inte ska kunna märka någon skillnad mellan stavfel gjorda av människor och stavfel tillverkade av datorprogrammet. Termen stavfel används ibland som samlingsnamn för alla typer av språkfel när en distinktion mellan felstavade ord och andra språkfel inte är nödvändig. Nyttan med att generera stavfel kan till en början vara svår att se. Stavfelen som Missplel genererar kommer bland annat att användas vid automatisk utvärdering av olika ordklasstaggare inom språkgranskningsprojektet Granska som pågått på Nada sedan Så även om det kan tyckas destruktivt att tillverka stavfel så är syftet med programmet i slutändan att skapa bättre språkgranskningsprogram. Anledningen till att använda generarade istället för riktiga stavfel är bland annat att tillgången till genererade fel är obegränsad och att det är lättare att handskas med egentillverkade fel Fördelar och nackdelar med genererade fel Det finns både fördelar och nackdelar med att använda genererade stavfel istället för riktiga stavfel som människor gjort av misstag. Det största problemet med genererade stavfel är att de är mer förutsägbara än mänskliga fel. Ett datorprogram kan bara skapa de typer av fel som det är programmerat för medan människor ständigt gör nya typer av fel. Fördelarna med genererade stavfel är emellertid många. Det är till exempel möjligt att bestämma vilka typer av fel som ska införas i en text, något som inte går att bestämma hos en mänsklig skribent. Om till exempel en modul för rättning av särskrivningar i ett språkgranskningsprogram ska utvärderas kan det underlätta att utvärdera modulen på texter som bara innehåller särskrivningar istället för en blandning av olika typer av fel. 1
9 Möjligheten till automatisering är en av de största fördelarna med att använda genererade stavfel vid utvärdering av språkgranskningsprogram. För att kunna avgöra om en rättning som ett rättstavningsprogram gjort är korrekt krävs det att det går att ta reda på vilket ord som avsågs då det felstavade ordet skrevs. Sådan information existerar normalt inte eftersom det kräver att skribenten själv annoterar (beskriver) stavfelen i texten. Eftersom Missplel inför stavfel i en redan befintlig text är det inga problem att låta programmet hålla reda på de förändringar som görs. Annoteringen sker då automatiskt och hela utvärderingsförloppet av rättstavningsprogrammet kan automatiseras. Detta är värdefullt eftersom det sparar in mycket manuellt, enformigt arbete. Förutom problemet med att mänskliga stavfel måste annoteras av en människa kan det även vara ett problem att få tag på texter i digital form som inte tidigare har kontrollerats av något språkgranskningsprogram. Givetvis är det möjligt att exempelvis skriva av handskrivna skoluppsatser för att få tag på mänskliga stavfel, men även detta kräver mycket manuellt arbete. Överföring av handskrivna texter till digital form med hjälp av teckenigenkänning (eng. Optical Character Recognition, OCR) inför en ny felkälla som inte speglar mänskligt beteende. Den vanligaste typen av fel som OCR-program gör är substitutionsfel, det vill säga att en bokstav tolkas som en annan. Till exempel kan Q och O eller S och 5 blandas ihop, vilket resulterar i stavfel som är ovanliga bland människor. 1.2 Problemdefinition Detta examensarbete går ut på att studera verkliga stavfel, konstruera ett datorprogram som kan generera så mänskliga stavfel som möjligt samt att utvärdera hur språkgranskningsverktygen Stava och Granska hanterar de genererade felen. Stavfelen (t.ex. exempel insättning, borttagning, transposition och ersättning) ska införas på både ord- och teckennivå och annoteras i XML-format. För att programmet ska vara så generellt som möjligt ska det vara oberoende av språk och ordklasstaggsuppsättning. 1.3 Syfte Syftet med detta examensarbete är att skapa ett datorprogram som kan underlätta en automatisk utvärdering av olika typer av språkgranskningsprogram genom att automatiskt införa och annotera fel i annars rättstavade texter. Programmet är främst tänkt att införa fel i texter skrivna i naturliga (mänskliga) språk. Funktionaliteten hos programmet ska kunna byggas upp av regler som beskriver de önskade stavfelens utseenden. Tillsammans med AutoEval, ett generellt utvärderingsverktyg, kan Missplel göra automatiska tester och utvärderingar av till exempel olika språkgranskningsprogram såsom rättstavningsprogram och ordklasstaggare. 2
10 1.4 Målgrupp Denna rapport riktar sig främst till KTH-studenter eller personer med motsvarande kunskaper. Vissa kunskaper om ordklasser och grammatik krävs, men inte mer än vad som lärs ut på högstadiet och gymnasiet. 1.5 Notation I denna rapport används kursiv fetstil för att markera felstavade ord. Rättningsförslag markeras med fetstil. Namn på program och programmoduler anges med lutande text, och utdrag ur textfiler (till exempel programkod eller felstavningsregler) skrivs med icke-proportionerligt teckensnitt. 1.6 Om Stava och Granska Uppdragsgivare för detta examensarbete var institutionen för numerisk analys och datalogi, Nada, vid Kungliga tekniska högskolan, KTH, i Stockholm. Nadaprojekten Stava och framför allt Granska kan förhoppningsvis dra nytta av de möjligheter Missplel ger till automatisering av införandet av stavfel. Stava 1 är ett program för stavningskontroll av svenska ord och är utvecklat av Viggo Kann och Joachim Hollman vid Nada. I grunden består Stava av en ordlista i form av ett bloomfilter, en grafotaktisk tabell som beskriver vilka bokstavsfyrgram som finns representerade i språket samt regler för hur ändelser och sammansättningar av ord får se ut. I ett par artiklar ( En metod för svensk rättstavning baserad på bloomfilter av Hollman och Kann[6] (1992) och Detection of Spelling Errors in Swedish Not Using a Word List En Clair av Domeij, Hollman & Kann[4] (1994)) beskrivs mer detaljerat hur Stava fungerar. Granska 2 är ett språkgranskningsprogram som påbörjades Liksom Stava utvecklas detta program vid Nada. Några viktiga komponenter i Granska är ordklasstaggaren, den statistiska informationen om sekvenser av ordklasstaggar samt det avancerade regelspråk 3 som används för att bygga upp Granskas funktionalitet. Granska använder Stava för rättning av enskilda ord
11 Kapitel 2 Teori 2.1 Historia Generering av fel Program som avsiktligt inför stavfel är ganska ovanliga. Agirre m.fl.[1] skapade 1998 ett program för att skapa enbokstavsstavfel enligt Dameraus fyra regler (se avsnitt 2.4 nedan). På ett liknande sätt fungerade enligt Kukich[9] (1992) ett program från 1981 skrivet av Jonathan Grudin. Missplel kan bland annat införa samma typer av fel som dessa båda program. I avsnitt beskrivs den modul till Missplel som utför detta. Det EU-sponsrade projektet TEMAA 1 har bland annat skapat programmet Err- Gen[2] som inför stavfel med hjälp av reguljära uttryck. I avsnitt beskrivs en modul till Missplel vid namn SoundError som med hjälp av reguljära uttryck inför samma typer av fel. Då generering av stavfel är en ovanlig företeelse finns det inte mycket litteratur i ämnet. Den litteratur som studerades under detta examensarbete har därför nästan uteslutande handlat om rättandet av stavfel. Generering och rättning av fel har dock mycket gemensamt och ofta kan liknande metoder användas vid generering som normalt görs vid rättning av fel. Därför beskrivs i detta kapitel olika metoder som används och har använts vid rättning av stavfel Rättning av fel Redan på tidigt 1960 tal började program för att upptäcka och rätta stavfel att utvecklas (Damerau[3]). Till en början var programmen och metoderna för att rätta felen enkla, men i takt med att datorerna blivit mer kraftfulla har även nya tekniker för att upptäcka och rätta stavfel uppfunnits. Moderna system rättar inte bara stavfel utan även många typer av grammatiska fel. Så här beskriver Pollock och Zamora[15] möjligheterna till korrektion av kontextberoende (grammatiska) fel 1984: 1 TEMAA, 4
12 What is envisaged here is the correction of isolated misspellings. If context were to be taken into account, more elaborate strategies would be needed. Although absence of context gives rise to ambiguous corrections, this would be equally true of manual correction and one cannot reasonably expect a computer program to be superior to human beings in this respect. Avsnitt 2.3 handlar om detektion av stavfel och avsnitt 2.4 beskriver olika tekniker för att rätta stavfel i fristående ord. Kontextberoende detektion och korrektion av stavfel och grammatiska fel beskrivs i avsnitt 2.5. I avsnitt 2.6 beskrivs semantiska fel vilka inte kan upptäckas ens vid en kontextberoende kontroll av en text eftersom felen uppkommer i betydelsen av orden. Missplel är inte gjort för att kunna tillverka semantiska fel. 2.2 Felklassificering Detta avsnitt beskriver ett par olika sätt att klassificera stavfel på. Uppdelningen av fel i performans- och kompetensfel är oftast en subjektiv bedömning eftersom den beskriver orsaken till stavfelen, medan uppdelningen i ortografiska, morfologiska, syntaktiska och semantiska fel är mer objektiv eftersom den beskriver stavfelens utseende Ortografiska, morfologiska, syntaktiska och semantiska fel Indelningen av språkfel i ortografiska, morfologiska, syntaktiska och semantiska fel beskriver på vilken nivå ett språkfel uppträder, det vill säga om felet endast påverkar det felstavade ordet, hela meningen eller betydelsen av det som skrivs. Ännu högre nivåer kan till exempel vara hur ett resonemang framställs och ett fel på denna nivå skulle kunna vara dålig argumentation. Fel som uppkommer inom ett ord och som inte påverkar grammatiken i meningen kallas för ortografiska fel. Vanliga ortografiska fel är insättning, borttagning eller utbyte av en enskild bokstav i ett ord. Morfologiska fel kan beskrivas som böjningsfel. Felen uppkommer på ortografisk nivå, men klassificeras ibland för sig eftersom felen följer en viss syntax inom orden. Ordet storaste är ett exempel på ett morfologiskt fel (Eeg-Olofsson[5] 2001). Syntaktiska fel fungerar ungefär som ortografiska fel fast på satsnivå istället för på ordnivå. Omkastning av två ord eller ofrivillig upprepning av ett ord är exempel på vanliga fel som påverkar meningens syntax. Ett apelsin är ett exempel på ett kongruensfel som också är en typ av syntaktiskt fel. Semantiska fel är fel där syntaxen i sammanhanget är korrekt men där betydelsen av det som står ändå blir felaktig. Därför går det ofta inte att hitta ett eller ett par ord i en mening som skyldiga till ett semantiskt fel utan hela meningen eller satsen får ses som semantiskt inkorrekt. Avigsidan 2 bjuder på många roliga exempel: 2 Avigsidan, 5
13 Exempel 2.1. Väl korkade bar de ner flaskorna i källaren Performans- och kompetensfel Klassificeringen av stavfel i performans- eller kompetensfel beskriver orsaken till att felen uppkommit. Performansfel är den typ av fel som vanligtvis kallas slarvfel, vilket betyder att skribenten egentligen vet hur ordet ska stavas men ändå råkar skriva fel. Sådana fel uppkommer oftast på ortografisk nivå, t.ex. genom omkastning av ett par eller flera bokstäver i ett ord. Performansfel förekommer dock även på högre nivåer av fel. Ett exempel på ett sådant fel är att ofrivilligt upprepa ordet inte som i exempel 2.2. Exempel 2.2. Jag tycker inte att det är inte roligt att skotta snö. Kompetensfel är fel där skribenten stavar fel på grund av bristande kunskap om hur ordet ska stavas. Ett vanligt förekommande sådant fel är användningen av det icke-befintliga ordet spar istället för imperativformen spara eller istället för presensformen sparar som i exempel 2.3. Exempel 2.3. Köp två apelsiner till priset av en. Du spar 3 kronor! Det är egentligen omöjligt att avgöra om ett fel är ett performansfel eller ett kompetensfel såvida man inte kan fråga skribenten. Det går ju inte att genom att att bara titta på ett felstavat ord avgöra om skribenten egentligen visste hur ordet skulle stavas eller ej. Om samma fel förekommer flera gånger i en text är det dock förmodligen ett kompetensfel eftersom sannolikheten är liten att en skribent råkar göra samma slarvfel flera gånger. 2.3 Detektion av fristående felstavade ord Vid detektion av fristående felstavade ord tas ingen hänsyn till ordens omgivning varje ord kontrolleras individuellt. De två vanligaste metoderna för att upptäcka stavfel på detta sätt är med hjälp av ordlista eller metoder baserade på n-gram N-gramsbaserade metoder Ett n-gram är en bokstavsföljd som innehåller n tecken. N-gramsbaserade rättstavningsmetoder bygger på att vissa följder av bokstäver inte förekommer alls eller är mycket ovanliga i rättstavade ord. Till exempel är trigrammen zqp och dgf ovanliga i svensk text. En så kallad grafotaktisk tabell byggs i förväg upp över språket. Den grafotaktiska tabellen är en n-dimensionell matris som innehåller information om vilka n-gram som förekommer i det aktuella språket. När ett ord kontrolleras antas alla n-gram som inte finns med i den grafotaktiska tabellen vara delar av felstavade ord. Oftast används bi- och trigram för att göra denna typ av stavningskontroll, men i Stava 6
14 används en modell baserad på 4-gram. I en svensk ordlista med ord fanns endast 7% av alla möjliga 4-gram representerade (Hollman och Kann[6]). På grund av att n-gramsbaserade metoder hittar ovanliga bokstavskombinationer passar dessa bra för att hitta stavfel införda av OCR-program Uppslagning i ordlista Den enklaste och mest intuitiva metoden för att kontrollera om ett ord är korrekt stavat eller ejär att slå upp det i en ordlista. Ordlistan kan givetvis representeras på flera olika sätt. Användning av en hashtabell istället för en sorterad lista av ord snabbar upp uppslagning av ord men tar samtidigt bort möjligheterna för att göra andra typer av sökningar i ordlistan (t.ex. användning av UNIX-kommandot grep). I Stava används ett Bloomfilter för att representera ordlistan (Domeijm.fl.[4]). I ett Bloomfilter appliceras flera olika hashfunktioner på samma binära hashtabell (varje post i tabellen innehåller endast ett binärt värde), och ett ord accepteras endast om samtliga hashfunktioner anser att det sökta ordet finns representerat i ordlistan. Bloomfilter har liksom vanliga hashtabeller där varje post representeras av ett binärt värde problemet att uppslagning av ett icke-existerande ord med en liten sannolikhet tros vara existerande. Detta medför att det är omöjligt att återskapa ordlistan genom att generera alla möjliga bokstavskombinationer och kontrollera om de finns med i ordlistan. Hashtabeller och Bloomfilter gör det också omöjligt att ta bort ett ord ur ordlistan. Andra metoder för uppslagning i ordlista är ändliga automater, tries och binära sökträd (Kukich[9] 1992). Eftersom det i svenskan går att skapa i princip ett oändligt antal sammansatta ord är det inte möjligt att spara alla i en ordlista. Om inte bara de vanligaste sammansatta orden sparas i ordlistan krävs en funktion för att kontrollera stavningen på ordens delar individuellt. Ett liknande problem uppstår med olika böjningsformer av ord. Om inte alla böjningsformer av alla ord finns med i ordlistan krävs funktioner för att överföra alla böjningsformer av ett ord till en gemensam grundform, ett så kallat lemma. Lemmat används sedan vid uppslagningen i ordlistan. Ordlistans storlek Ett svårt val vid detektion av fristående felstavade ord är valet av storleken på ordlistan. Med en liten ordlista markeras många rättstavade ord som felstavade på grund av att de inte finns med i ordlistan (falska varningar), men i en stor ordlista förekommer många ovanliga ord som sammanfaller med felstavningar av vanliga ord. Ska till exempel det ovanliga ordet nar (tvärslå) finnas med i en ordlista när det är så likt betydligt mer vanliga ord, t.ex. har, ner, när och var? Peterson[12] (1986) avrådde från att använda en stor ordlista eftersom andelen oupptäckta fel som uppkommer på grund av att de felstavade orden resulterar i andra existerande ord uppskattades vara 2% med en liten ordlista men hela 16% med en stor ordlista innehållande ord. Peterson tog dock inte hänsyn till att 7
15 andelen falska varningar minskar när storleken på ordlistan ökas, något som måste räknas som en stor fördel. I en studie genomförd av Mitton[11] (1987) resulterade 40 procent av de felstavade orden i andra existerande ord. Alla dessa stavfel skulle passera oupptäckta av ett rättstavningsprogram som inte tar hänsyn till ordens kontext. Enligt Kukich[9] (1992) rapporterade Damerau och Mays år 1989 däremot att 1348 falska varningar avfärdades och endast 23 oupptäckta stavfel infördes när deras ordlista ökades från till ord. Avvägningen mellan att använda en liten ordlista där många rättstavade ord markeras som felstavade eller att använda en stor ordlista där många felstavade ord sammanfaller med ovanliga ord i ordlistan och därmed godkänns är svår men viktig att göra för att ett språkgranskningsprogram ska bli praktiskt att arbeta med. I avsnitt 2.5 ser vi dock att problemen med en stor ordlista till stor del försvinner när hänsyn tas till ordens kontext. 2.4 Korrektion av fristående felstavade ord Vid korrigering av stavfel ska fel inte bara upptäckas, rättningsförslag ska också genereras. Förhoppningsvis finns det ord som skribenten avsåg att skriva med bland rättstavningsförslagen. Helst ska det bara finnas ett enda rättningsförslag eftersom felet då kan rättas helt automatiskt förutsatt att förslaget är korrekt. Enligt Damerau[3] (1964) tillhörde 80% av stavfelen i ett undersökt datorsystem någon av fyra följande klasser av enbokstavsfel: Substitution (ett felaktigt tecken) Borttagning (ett utelämnat tecken) Insättning (ett extra tecken) Transposition (omkastning av två intilliggande bokstäver) I det system Damerau studerade härstammade stavfelen från datorutrustningen (pappersband och hålkort), från överföringen av data till hålkort samt från mänskliga misstag. Peterson[12] (1986) uppmätte att hela 94,7% av ett antal undersökta stavfel hörde till någon av de fyra klasserna ovan. Anledningen till att Damerau uppmätte en lägre andel beror förmodligen på att överföringsfel och fel i utrustningen ökade sannolikheten för att mer än ett fel per ord skulle uppstå. Sådana fel togs det ingen hänsyn till i dessa undersökningar. Rättandet av felstavade ord består vanligen av tre separata delar: 1. Detektion av stavfel (Avsnitt 2.3) 2. Generering av rättningsförslag (Avsnitt 2.4.1) 3. Rangordning av rättningsförslag (Avsnitt 2.4.2) 8
16 Metoderna för att hitta de felstavade orden (punkt 1) beskrevs i avsnitt 2.3. Nedan följer en beskrivning av hur generering av rättningsförslag (punkt 2) och rangordning av rättningsförslag (punkt 3) kan gå till Generering av rättningsförslag Det finns många olika metoder för att generera rättstavningsförslag till felstavade ord. De flesta metoder fungerar dock enligt någon eller några av de principer som beskrivs nedan. Minsta avståndet Det minsta avståndet (eng. Minimum Edit Distance) mellan två ord mäter hur mycket två ord skiljer sig från varandra. Detta avstånd beskrivs oftast med det minsta antal av Dameraus fyra operationer som krävs för att transformera det ena ordet till det andra. En vanlig metod för att rätta stavfel är att generera alla möjliga ord med ett visst avstånd (oftast avståndet ett) från ett givet felstavat ord. För ett alfabet med a bokstäver bildas på detta sätt (a 1) n substitutioner, n borttagningar, a (n +1)insättningar och n 1 transpositioner med avstånd ett från ett ord med n bokstäver. Det svenska alfabetet har 29 bokstäver och skulle därför bilda 59n +28 olika kombinationer. De bokstavskombinationer som bildar giltiga ord presenteras sedan som rättningsförslag till det felstavade ordet. Likhetsnycklar Tanken bakom likhetsnycklar (eng. similarity keys) är att överföra textsträngar till nyckelvärden, och att textsträngar som liknar varandra ska ha samma nyckelvärde. När en textsträng som inte finns med i ordlistan upptäcks räcker det med att låta ord med samma nyckelvärde presenteras som rättningsförslag. Det är givetvis viktigt att funktionen som överför textsträngarna till nycklar fungerar bra. SOUNDEX är en sådan funktion som uppfanns redan 1918 av Odell och Russel för att approximera uttalet av efternamn. Metoden bygger alltså på fonetisk likhet, och är anpassad för engelskt uttal. Nyckeln i denna metod består av ordets första bokstav följd av ett antal siffror. Siffrorna skapas från ordets resterande bokstäver enligt följande regler: A, E, I, O, U, H, W, Y 0 B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D, T 3 L 4 M, N 5 R 6 9
17 När bokstäverna översatts till siffror plockas alla nollor bort och två eller flera repeterade siffror ersätts med en. Till exempel genererar de ofta ihopblandande engelska orden their och there båda nyckeln T6. Metoden är dock på intet sätt perfekt. Exempelvis uttalas orden weight och wait likadant på engelska men de genererar olika nycklar (W23 respektive W3 ). SOUNDEX beskrivs utförligt av Vosse[16] (1994). Philips[13] publicerade 1990 algoritmen Metaphone som liksom SOUNDEX är gjord för att representera uttal. Metaphone ger generellt ett bättre resultat än SOUNDEX men kräver mer beräkningskraft. År 2000 förbättrade Philips algoritmen ytterligare och skapade Double Metaphone[14]. Pollock och Zamora[15] (1984) använde likhetsnycklar för att rätta enteckensstavfel med programmet SPEEDCOP. Deras metod använde en ordlista sorterad efter nyckelvärde, och när ett felstavat ord påträffades valdes de ord i ordlistan med en nyckel inom ett visst avstånd från det felstavade ordets nyckel ut som kandidatord. Regelbaserade metoder Regelbaserade metoder bygger på heuristiska algoritmer där olika regler används för att försöka transformera felstavade ord till rättstavade. Alla godkända ord som genereras då reglerna appliceras på ett felstavat ord kan anses vara rättningsförslag. En fördel med regelbaserade metoder är att det är lätt att lägga till nya regler för att förbättra funktionaliteten hos rättstavningsprogrammet. Nackdelen är att ingenting är gratis det måste finnas en regel för precis varje typ av fel som programmet ska kunna rätta. Många statistiska (probabilistiska) metoder klarar att rätta flera olika typer av fel men det är å andra sidan svårt att förbättra dessa metoder genom att lägga till ny kunskap. Probabilistiska metoder Vid användning av probabilistiska metoder utnyttjas statistisk information om språket. Övergångssannolikheter, som också kallas bigramsfrekvenser, beskriver sannolikheten för en övergång från en bokstav till en annan (till exempel sannolikheten för att ett g följs av ett t) och är språkberoende. Sådan statistisk information kan till exempel användas för att identifiera vilket språk en text är skriven på. Ihopblandningssannolikheter beskriver sannolikheten för att en bokstav av misstag byts ut mot en annan. Denna typ av sannolikhet är beroende av källan, det vill säga det dokument som granskas och den person som skrivit dokumentet. Bayes metod som beskrivs av bland andra Jurafsky och Martin[8] (2000) är en probabilistisk metod för rättning av stavfel. Denna metod går ut på att finna det ord med den största sannolikheten ŵ för alla ord w i en ordlista V vid en observation av teckensträngen O det vill säga hitta det mest sannolika ordet i ordlistan för en viss textsträng (ekvation 2.1). 10
18 ŵ =argmaxp (w O) (2.1) w V Sannolikheten P (w O), det vill säga sannolikheten för att ordet w avsågs då ordet O skrevs, är dock svår att uppskatta. Med hjälp av Bayes regel kan ekvation 2.1 istället formuleras som ekvation 2.2, där alla sannolikheter går att approximera. ŵ =argmax w V P (O w)p (w) P (O) (2.2) Eftersom P (O) är lika för alla w kan denna term ignoreras. Sannolikheten P (w) kan enkelt beräknas genom att räkna antalet förekomster i en stor korpus (textmassa). Det svåraste att uppskatta är P (O w), det vill säga sannolikheten att ett ord w felaktigt stavas som O. Detta är givetvis oerhört svårt att räkna ut exakt, men med hjälp av till exempel Dameraus fyra regler som nämndes i början av avsnitt 2.4 och en förväxlingsmatris (en matris som beskriver alla möjliga ihopblandningssannolikheter, se avsnitt 3.2.1) går det att approximera sannolikheten för felstavningar om man antar att ett ord innehåller maximalt ett stavfel Rangordning av rättningsförslag Ofta är rangordningen av rättningsförslagen en separat del av ett rättstavningsprogram och inte integrerad med genereringen av förslagen. Ett undantag från detta är dock metoden som presenterades av Pollock och Zamora[15] (1984). Deras system beskrevs kortfattat i avsnittet om likhetsnycklar i avsnitt Ett enkelt sätt att rangordna rättningsförslag på är att beräkna det minsta avståndet mellan det felstavade ordet och de olika rättningsförslagen. Detta ger givetvis en väldigt grov rangordning eftersom alla ord med samma avstånd från det felstavade ordet får samma rang och den inbördes ordningen mellan dessa ord förblir slumpmässig. Agirre m.fl.[1] (1998) testade flera metoder för rangordning av rättningsförslagen från UNIX-verktyget ispell och lyckades uppnå en precision på 80% med endast i snitt 1,02 rättningsförslag per felstavat ord. En precision på 80% betyder att det korrekta rättstavningsförslaget finns med bland förslagen i 80% av fallen. Vid rättning med hjälp av regelbaserade metoder som beskrevs i avsnitt kan rättningsförslagen rangordnas genom att till exempel ge varje regel ett värde baserat på hur vanligt förekommande den specifika typen av fel som regeln rättar är. Ju vanligare typen av fel är desto lägre värde får regeln. Värdena för alla regler som används för att transformera ett felstavat ord till ett kandidatord summeras och bildar kandidatordets rang. Då kandidatorden sorteras efter rang kommer det kandidatord som bildats med hjälp av de vanligast förekommande rättningsreglerna att få den lägsta summan och därmed rangordnas högst. Denna metod kräver dock både regler som utför rättningarna samt god statistik över hur vanliga olika feltyper är. 11
19 2.4.3 Multipla fel Andelen felstavade ord som innehåller mer än ett fel varierar kraftigt mellan olika undersökningar. Det går dock att konstatera att även om en text innehåller få stavfel är risken relativt stor att ord med multipla stavfel existerar. Pollock och Zamora[15] (1984) analyserade stavfel från vetenskapliga texter innehållande totalt omkring ord. Detta betyder att ungefär 0,2% av orden innehöll stavfel. Deras resultat visar att mellan fem och nio procent av stavfelen innehöll mer än ett fel (enligt Dameraus regler). Texterna i denna undersökning var hämtade ur vetenskapliga textdatabaser och har därför förmodligen granskats av någon människa och kanske ett datorprogram innan de lades in i databasen. En undersökning gjord av Mitton[11] (1987) visar att hela 31 procent av de felstavade orden inte gick att rätta genom en applicering av någon av Dameraus regler. Denna analys baserades dock på tiominutersuppsatser skrivna av 15 år gamla elever i Cambridges skolor Uppsatserna av dessa elever hade inte tidigare rättats och innehöll i snitt 2,5% felstavade ord. På grund av tidsbegränsningen är det dessutom troligt att många elever inte hann läsa igenom vad de skrivit. 2.5 Kontextberoende korrektion av stavfel I avsnitt beskrevs att ord ibland felstavas som något annat existerande ord. Detta problem går ofta att lösa genom att titta på orden runt omkring, till exempel genom att kontrollera att ordens ordklasser följer vissa mönster. Om en följd ords ordklasser inte följer något känt mönster antas ett eller flera av orden vara felstavade trots att alla ord finns med i ordlistan. Vilka ordklassmönster som ska vara tillåtna bestäms antingen via regler eller med hjälp av statistik från en stor mängd meningar som saknar språkfel Mångtydiga stavfel Ibland går det inte att avgöra hur ett ord ska rättas på grund av att flera rättningsförslag passar lika bra om ingen hänsyn tas till kontexten. Ett bra exempel på detta är då någon på engelska råkar skriva det icke-existerande ordet ater. Det finns då ingen möjlighet att avgöra om skribenten menade att skriva after, later, ate, water eller alter som alla har avståndet ett från det felstavade ordet. Möjligheten finns naturligtvis att något helt annat ord avsågs, men dessa är de mest sannolika alternativen. Vet vi däremot att det enda ord som passar in i sammanhanget är ett verb i infinitvform är sannolikheten stor att ordet alter är en korrekt rättning av ater Särskrivningar I svensk text utgör särskrivningar en stor andel av skrivfelen. Särskrivningar är inte alls ett lika stort problem i engelskan som i svenskan eftersom ord som ska skrivas ihop på svenska ofta särskrivs i engelskan (t.ex. fotbollsspelare eng. football 12
20 player). I svenskan är särskrivning oftast ett kompetensfel medan det i engelskan i större utsträckning utgör ett performansfel. Till och med språkliberalen Fredrik Lindström[10] (2000) som annars ställer sig positiv till de flesta förändringarna i språket anser att särskrivningar är av ondo. Orsakerna till varför människor särskriver ord kan vara många, men den vanligast nämnda orsaken är dock påverkan från engelskan. När någon översätter en engelsk text till svenska är det lätt att översätta varje ord för sig utan att tänka på att många ord ska skrivas ihop på svenska. Språkgranskningsprogram, som ofta har amerikanskt ursprung, har inte klarat att göra stavningskontroll på sammansatta ord, något som har tvingat användarna att skriva isär sina ord för att de ska accepteras av stavningskontrollen (Öhrman[17] 1998). En annan förklaring som ofta nämns är den gestalttext 3 som alla människor utsätts för. Gestalttext är formgiven text där utseendet är viktigt, t.ex. i logotyper i löpsedlar. Det kan därför bli lätt att tro att Marabous mjölkchoklad stavas Mjölk choklad eftersom det faktiskt står så på förpackningen. Exempel 2.4. Emil vägrade äta upp sina grön saker. Felet i exempel 2.4 är svårt att rätta eftersom både grönsaker och gröna saker är grammatiskt godtagbara rättningar. För att kunna rätta denna typ av fel krävs semantisk kunskap om texten. 2.6 Semantisk granskning Semantiska fel är fel där ett textstyckes syntax är korrekt men betydelsen ändå blir felaktig. Denna typ av fel uppkommer i både tal och skrift och leder ofta till syftningsfel: Exempel 2.5. Flyg billigare än tåget! En människa kan ha svårt att över huvud taget upptäcka vissa syftningsfel. Detta beror på att människor är toleranta mot fel och ibland omedvetet tolkar en text på det sätt skribenten menar istället för så som det verkligen står i texten. Wordnet 4 är ett projekt vars syfte är att bygga upp en databas över betydelsen hos engelska ord. Detta kan vara till nytta när ett program ska försöka förstå innebörden av en text. Att sedan få programmet att förstå att en skribent menar något annat än det han eller hon skriver och dessutom kanske kunna rätta till det är givetvis ännu svårare WordNet, wn/ 13
21 Kapitel 3 Modellbeskrivning 3.1 Analys Enligt problemformuleringen i avsnitt 1.2 ska Missplel vara oberoende av språk och ordklasstaggare. Det ska också vara möjligt att bygga ut och förbättra programmets funktionalitet utan att ändra i programmets källkod. För att dessa krav ska kunna uppfyllas står det klart att det krävs någon form av regelbaserat system som inför stavfel eftersom det är lätt att lägga till nya regler och därmed ny funktionalitet i ett sådant system. Heuristiska metoder, som beskrevs i avsnittet om regelbaserade metoder (2.4.1), passar utmärkt även till att införa stavfel. De heuristiker som används kan baseras på olika metoder och modeller vilket ger programmet möjlighet att införa flera olika typer av språkfel. Användandet av en enskild metod för införandet av stavfel leder annars lätt till att bara någon enstaka typ av fel kan införas. Antalet regler och kvaliteten på dessa blir givetvis avgörande för hur bra programmet blir på att införa stavfel. Eftersom Missplel är tänkt att göra det möjligt att införa samma typer av skrivfel som en människa gör vid en dator krävs det att både kompetensfel och performansfel kan införas. 3.2 Moduler Alla inställningar som beskriver Missplels beteende anges i en XML-fil samt i ett antal regelfiler. För att köra programmet behöver endast en inställningsfil anges, vilket görs med väljaren -f på kommandoraden. Det finns dock möjlighet att göra de flesta inställningarna direkt på kommandoraden vid körningen av programmet och därmed åsidosätta värdena i inställningsfilen. Indata till Missplel är en textfil där varje rad innehåller ett ord följt av dess ordklasstagg. Detta är den enda information som krävs, eventuell annan information på raderna i indatafilen kan kopieras till utdatafilen om man vill. Utdata från programmet skrivs till en fil. Formatet på utdata kan bestämmas i inställningsfilen med 14
22 hjälp av den syntax som tillhandahålls av formateringsbiblioteket format i Boost. Förutom ord och ordklasstagg går det även att skriva ut till exempel lemma och felbeskrivning i utdatafilen. De fel som introduceras i texten annoteras även i en XML-fil. Den information om felen som tillhandahålls är beroende av typen av fel och vilken programmodul som skapat felen, men den felbeskrivning som är gemensam för alla feltyper är: Ordets position i indata Ordets position i utdata Det gamla ordet Det nya ordet Den gamla ordklasstaggen Den nya ordklasstaggen I bilaga B finns ett exempel på hur en felbeskrivningsfil kan se ut. För att kunna införa alla typer av fel, det vill säga ortografiska, morfologiska och syntaktiska fel på performans- och kompetensnivå skapades fyra olika moduler som använder olika heuristiker för att införa olika typer av stavfel. I inställningsfilen finns en sektion för varje modul som beskriver hur de olika modulerna ska arbeta. Standarvärdena i inställningsfilen är satta till att försöka efterlikna mänskliga stavfel. Böcker såsom Gymnasistsvenska av Hultman och Westman[7] samt resultaten från många av de övriga verken i litteraturlistan har hjälpt till vid valet av standardvärdena på inställningarna Damerau Modulen Damerau arbetar på ortografisk nivå och är främst till för att införa performansfel. Som namnet antyder applicerar denna modul Dameraus fyra regler för enbokstavsfel (substitution, insättning, borttagning och transposition) på orden. Det är möjligt att bestämma sannolikheterna för de olika feltyperna individuellt. Förväxlingsmatris Beteendet hos modulen Damerau bestäms med hjälp av en förväxlingsmatris (eng. confusion matrix). Detta gör det lätt att anpassa beteendet på modulen för olika språk och tangentbordsuppsättningar. Matrisen beskriver sannolikheten för att en bokstav ska blandas ihop med en annan. Position (x, y) i matrisen anger alltså sannolikheten för att alfabetets bokstav nummer x ska blandas ihop med bokstav nummer y. Förväxlingsmatrisen används både vid insättning och vid substitution av bokstäver. 15
23 3.2.2 SplitCompound Modulen SplitCompound inför särskrivningar i texten. Grundheuristiken i denna modul är att det är troligt att långa ord särskrivs oftare än korta och att det är mer troligt att ett ord särskrivs om delarna bildar kända ord. I inställningsfilen går det att ange om okända ord ska särskrivas eller ej. Många sammansatta svenska ord finns sannolikt inte med i ordlistan, så oftast är det nog önskvärt att särskriva okända ord. På grund av att många korta ord sällan särskrivs finns en möjlighet att ange en minsta längd på orden som ska särskrivas samt en minsta längd på en enskild del av det särskrivna ordet. Sätts dessa gränser för lågt riskerar ord som till exempel avgå att särskrivas som av gå, ett fel som är ovanligt hos mänskliga skribenter. För att avgöra om och var ett ord ska särskrivas används ett poängsystem. Alla möjliga tudelningar av ett ord poängsätts, och den delning som får flest poäng används för att dela ordet förutsatt att poängsumman överskrider ett tröskelvärde. Alla delpoäng samt tröskelvärdet anges i inställningsfilen. De faktorer som används vid poängberäkningen är: 1. Ordets längd. 2. Om första delen av ordet finns med i ordlistan. 3. Om andra delen av ordet finns med i ordlistan. 4. Om ordklasstaggarna för de båda delarna av ordet är tillåtna. 5. Om första delen av ordet har precis samma ordklass som hela ordet. 6. Om andra delen av ordet har precis samma ordklass som hela ordet. Det kan vara av intresse att inte särskriva vissa typer av ord som exempelvis egennamn (Svens son) eller räkneord (fem ton). I inställningsfilen finns därför en lista med reguljära uttryck, och de ordklasstaggar som matchar något av dessa reguljära uttryck erhåller ett antal poäng för att ordklasstaggarna är tillåtna (punkt 4ovan) SyntaxError Den regelbaserade modulen SyntaxError arbetar på den morfologiska och den syntaktiska nivån vid införandet av stavfel. Reglerna, som anges i ett valfritt antal XML-filer, appliceras på ordens ordklasstaggar eller på orden själva. Användaren av programmet får själv välja i vilka XML-filer de olika reglerna ska finnas, men om reglerna sorteras in i olika kategorier går det lätt att kontrollera vilka typer av fel som ska införas i texterna eftersom det går att bestämma vilka filer som ska användas vid körningen av Missplel. 16
24 <rule ex="sluta skrika - sluta skrik"> <match>vb\.imp(.*) vb\.inf.*</match> <to>vb.imp@1 vb.imp@1</to> <order>12</order> </rule> Regeln ovan inför ett fel som är vanligt i talspråk att byta ut infinitivformen (grundformen) mot imperativformen (uppmaningsformen) av ett verb om det kommer efter ett annat verb i imperativform. Attributet ex är endast en kommentar, men bör för att ge en bra översikt över reglerna innehålla ett exempel på vad regeln gör. Innehållet i elementet match är ett reguljärt uttryck som ska matcha ordens ordklasstaggar. De reguljära uttrycken fungerar som i programmeringsspråket Perl, men med några undantag: Ett ordavgränsningstecken som anges i inställningsfilen används för att skilja ordklasstaggarna från varandra i match-taggen. (till exempel ett mellanslagstecken) Om ett i inställningsfilen definierat tecken (till exempel ) omger en teckensekvens matchas sekvensen mot ett ord istället för mot ordets tagg ( hej matchar ordet hej och inte ordklasstaggen hej). Bakåtreferenser i match-taggen används som i vanliga reguljära uttryck, men bakåtreferenser från to-taggen till match-taggen använder ett tecken definierat i inställningsfilen. I elementet to beskrivs vad ordklasstaggarna (eller orden) ska transformeras till om de matchas av match-elementet. Elementet order anger hur orden ska ordnas i utdata. Hade en omkastning av orden önskats i exemplet ovan (skrik sluta) skulle innehållet i order-taggen ha varit 21. För att ta bort ett ord kan motsvarande siffra i order-taggen utelämnas. Insättning av nya ord görs genom att rada upp de nya orden i slutet av to-taggen och sedan i order-taggen som vanligt ange i vilken ordning de ska förekomma i utdata. I exemplet nedan ges exempel på hur order-taggen ska skrivas för att både ta bort och lägga till ord. <rule ex="ett två tre fyra - tre fem fyra"> <match> ett två tre fyra </match> <to> ett två tre fyra fem </to> <order>354</order> </rule> I avsnitt beskrivs ett program som underlättar konstruktionen av reglerna till SyntaxError. 17
25 3.2.4 SoundError Modulen SoundError är liksom modulen Damerau till för att införa stavfel på ortografisk nivå. SoundError är dock främst till för att införa kompetensfel medan modulen Damerau är inriktad på de mer slumpmässiga performansfelen. SoundError kan dessutom införa fel som kan klassas till den morfologiska nivån. De fel som ska införas definieras med hjälp av reguljära uttryck tillsammans med ett tal som anger hur vanligt det aktuella felet ska vara jämfört med övriga fel. När denna modul ska införa ett stavfel på ett ord kontrolleras först vilka regler som kan appliceras på ordet. Av dessa regler slumpas en fram med den sannolikhet som dess vikt anger i förhållande till de övriga vikterna. Till skillnad från modulen Syntax- Error appliceras reglerna i denna modul endast på orden, inte på deras ordklass. Bakåtreferenserna fungerar dock på samma sätt som i modulen SyntaxError. an([^n].*) ann@1 1 före innan 1 Eftersom ett ord är ett reguljärt uttryck av sig självt går det utmärkt att lägga in regler som matchar hela ord. I exemplet ovan byts förekomster av ordet före ut mot innan. Regeln ovanför stavar ord som börjar med an med två n istället för ett. Till exempel kommer ange att felstavas som annge. 3.3 Metodbeskrivning Verktyg Missplel är skrivet i programmeringsspråket C++. Konfigurationsfiler och regler anges i XML-format, och inläsningen av XML-filer sköts av Xerces 1 som är en del av Apache-projektet. Stödet för reguljära uttryck som används mycket i Missplel samt många andra användbara funktioner kommer från Boost-biblioteket 2. Boost är ett fritt paket innehållande främst template-baserade bibliotek för C++. För att minska ned på storleken av den ordlista som används i Missplel används zlib 3, ett bibliotek för läsning och skrivning filer komprimerade med algoritmen gzip. Ett par program använder Qt 4 för att skapa sina grafiska gränssnitt, men dessa program är bara hjälpprogram och inte nödvändiga för att kunna använda Missplel Ordlista Missplel använder sig av en ordlista innehållande ord, ordklasstagg och lemma vid skapandet av stavfelen. Att läsa in ordlistan från en textfil varje gång Missplel körs skulle ta alldeles för lång tid. Programmet createwordlist gör detta en gång för alla och skapar en binärfil som kan läsas in direkt i minnet i Missplel. 1 Xerces, 2 Boost, 3 zlib, 4 Qt, 18
26 De flesta sökningar som Missplel gör i ordlistan går ut på att utifrån ett ord hitta ordklass och lemma eller att utifrån ett lemma hitta ord och ordklass. Missplel kräver därför två versioner av ordlistan en sorterad efter ord och en sorterad efter lemma. Createwordlist skapar automatiskt båda versionerna av ordlistan och placerar dem i samma fil Regelkonstruktion För att underlätta skapandet av regler till modulen SyntaxError finns ett enkelt program med grafiskt gränssnitt som hjälper till vid regelskrivandet. Figur 3.1 visar hur detta gränssnitt ser ut. Tillverkandet av en regel för införande av ett stavfel sker i fem steg: Figur 3.1. Regelskaparverktygets gränssnitt Steg 1. Skapande av matchningsregel (match-elementet) En matchningsregel skapas genom att ett antal ord skrivs in i textinmatningsfälten överst i fönstret. De inmatade ordens ordklasser fylls i automatiskt i kombinationsrutorna under orden. Om ett ord kan ha flera ordklasser får användaren själv välja rätt ordklass i kombinationsrutan. Om ett ord omges av apostroftecken kommer ordet i sig användas i matchningsregeln istället för ordets ordklass. När fälten är ifyllda klickar man på knappen Match för att regeln ska fyllas i grupperingsrutan Rule. 19
27 Steg 2. Skapande av transformationsregel (to-elementet) En transformationsregel skapas på samma sätt som en matchningsregel. För att fylla i regeln i grupperingsrutan Rule klickar man på knappen To. Steg 3. Redigering av regler Vid redigeringen av reglerna väljs ordens ordning med hjälp av inmatningsfältet Order i grupperingsrutan Rule. Det går också bra att redigera matchnings- och transformationsreglerna för att exempelvis generalisera dem. Reglerna i figur 3.1 kan till exempel generaliseras till följande: Match jj.kom(.*) än pn(.*)sub To jj.kom@1 än pn@2obj Order 123 Steg 4. Testning Testningen av regeln sker genom att en ordföljd skrivs in i inmatningsfälten i programfönstrets övre del, till exempel längre än han som i figur 3.1. Efter att ordens ordklasstaggar ändrats till de önskade klickar man på knappen Apply för att utföra transformationen. Om allt gått rätt till visas den transformerade texten ( längre än honom ) med tillhörande ordklasstaggar i grupperingsrutan Result. Steg 5. Utskrift För att skriva ut regeln klickar man på knappen Print Rule. Regeln skrivs då ut på terminalen: <rule ex="längre än han - längre än honom"> <match>jj\.kom(.*) än pn(.*)sub</match> <to>jj.kom@1 än pn@2obj</to> <order>123</order> </rule> Denna regel klistras sedan in i en regelfil för att användas av Missplel. 20
Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se
Grundläggande Textanalys VT 2014 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Lathund för SpellRight
Lathund för SpellRight för PC SpellRight är ett avancerat rättstavningsprogram för personer med svenska som modersmål, som skriver på engelska som sitt andraspråk. Programmet rättar grava stavfel, lättförväxlade
Lathund för Stava Rex
Lathund för Stava Rex för PC Stava Rex är ett avancerat svenskt rättstavningsprogram som kan rätta grava stavfel, lättförväxlade ord samt enklare grammatikfel. Stava Rex klarar av att rätta text i de vanligaste
Gränssnitt för FakeGranska. Lars Mattsson
Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Så här fungerar Stava Rex
Så här fungerar Stava Rex Stava Rex är ett program som rättar stavfel och grammatikfel i svensk text. Stava Rex kan rätta grava stavfel och hjälper till att skilja på lättförväxlade ord. Stava Rex kan
Kungl. Tekniska högskolan NADA Grundformer med Stava
Kungl. Tekniska högskolan NADA Grundformer med Stava Språkteknologi 2D1418 Höstterminen 2004 Författare: Andreas Pettersson az@kth.se 1. Bakgrund Om man automatiskt ska plocka ut de informationsbärande
Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Word- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide
FOR BETTER UNDERSTANDING Kom igång med WordFinder Snabbguide Installationsanvisning 1 Sätt i programskivan i datorn. Installationsprogrammet startar automatiskt. En gemensam startbild för WordFinder Professional,
Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual
ClaroStava svenska PC med tal Ett rättstavningsprogram artnr 12315 Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual ClaroStava delas upp på två knappar. Kontroll:
Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson
Grundläggande Textanalys VT 2015 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Referatuppgiften 10 minuters muntlig presentation av vetenskaplig artikel med 5 minuters efterföljande diskussion
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Språkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Feligenkänning Felkorrigering Produktivt bildade ord Kort om labben 2 Vad förväntas av det ideala stavningskontrollprogrammet?
Språkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Feligenkänning Felkorrigering Produktivt bildade ord Kort om labben 2 Vad förväntas av det ideala stavningskontrollprogrammet?
Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier
Skrivstöd Christian Hardmeier (efter Joakim Nivre) 205-- Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Stavning fungerar som bildningsmarkör Standardiserad stavning
Maskinöversättning och språkgranskning, ht 2006
Maskinöversättning och språkgranskning, ht 2006 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om språkgranskning Allmänt om stavningskontroll Stavningskontroll:
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger
Användarstudie utav GRIM på SFI (Svenska För Invandrare)
Användarstudie utav GRIM på SFI (Svenska För Invandrare) Per-Olof Gatter ing01@kth.se 1 ...Abstract This document is made as an assignment in the course Speech and Gramming checker tools. It is an continuation
Dependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Filbindningar. Mike McBride Översättare: Stefan Asserhäll
Mike McBride Översättare: Stefan Asserhäll 2 Innehåll 1 Filbindningar 4 1.1 Inledning........................................... 4 1.2 Hur det här modulen används.............................. 4 1.2.1
Statistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Emacs. Eric Elfving Institutionen för datavetenskap (IDA) 22 augusti 2016
Emacs Eric Elfving Institutionen för datavetenskap (IDA) 22 augusti 2016 Historia 2/21 Utvecklas konstant, från 70-talet Är en generellt texteditor (INTE ordbehandlare) som fokuserar på texten, inte utseendet
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Grim. Några förslag på hur du kan använda Grim. Version 0.8
Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
språkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kursöversikt Allmänt om språkgranskning Allmänt om stavningskontroll Stavningskontroll:
Ersätta text, specialtecken och formatering
11 Ersätta text, specialtecken och formatering Möjligheten att söka igenom dokumentet och byta ut tecken, ord, textstycken, formatering, specialtecken (t.ex. sidbrytning) och annat är faktiskt mycket mer
Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad
Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort
Använda Stava Rex i Word 2010
Använda Stava Rex i Word 2010 1. Skriva i Word Öppna Word och skriv av följande mening med fel och allt: 2. Stäng av Words rättstavningsfunktion Om stavningskontrollen i Word är aktiverad kommer de ord
Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)
Emacs Eric Elfving Institutionen för Datavetenskap (IDA) Emacs Utveckas konstant, från 70-talet Är en texteditor (inte ordbehandlare) och fokuserar på texten, inte utseendet. Ingår i GNU-projektet Har
Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?
Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins
5HVLVWHQVWDEHOO 'DWD3DUWQHU. Er partner inom data
5HVLVWHQVWDEHOO Tack för att du valde programmet 5HVLVWHQVWDEHOO! Vi hoppas att programmet ska vara till stor hjälp i ditt arbete. Har du synpunkter på programmet är du mycket välkommen att höra av dig
1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)
UMEÅ UNIVERSITY Department of Mathematics and Mathematical Statistics Pre-exam in mathematics Linear algebra 2012-02-07 1. Compute the following matrix: (2 p 3 1 2 3 2 2 7 ( 4 3 5 2 2. Compute the determinant
Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Titel Mall för Examensarbeten (Arial 28/30 point size, bold)
Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP
Convertus - kursplaneöversättning
Utbildningsavdelningen 2017-10-25 Convertus - kursplaneöversättning Innehåll Om Convertus kursplaneöversättning... 2 Så fungerar det... 2 Tre olika användarroller... 2 Arbetsgång... 3 Filnamn... 3 1. Beställa
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Guider för specialprogrammen
Guider för specialprogrammen Talsyntes: Voxit Budgie 2.3 OCR-behandling: ScanSoft OmniPage Rättstavningsprogram: Stava Rex Spell Right Läslinjal: Screen Ruler Om du vill vara säker på att kunna använda
Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS
Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS Examensarbete Stockholm, Sverige 2009 Majoritetsgranskaren ett sätt att förbättra grammatikgranskare
Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock
Inledning Vad är ett datorprogram, egentligen? Olika språk Problemlösning och algoritmer 1 (14) Varför använda en dator? Genom att variera de program som styr datorn kan den användas för olika uppgifter.
Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs
Stava Rex för Google Docs Manual för Stava Rex för Google Docs Stava Rex för Google Docs i korthet.... 2 Allmänt om tillägg... 2 Om lärplattor och tillägg... 3 Kontroll av text... 3 De vanligaste meddelandena....
Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står skrivna: Oändligt
DAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Identifiering av ordvitsar med Granska
Identifiering av ordvitsar med Granska jonord@kth.se Inledning För att försöka identifiera ordvitsar med Granska användes ett litet urval av ordvitsar hämtade från olika ställen. Målet med identifiering
ClaroDictionary med tal. ClaroDictionary utan tal
ClaroDictionary med tal ClaroDictionary utan tal Manual Artikelnummer 10400 och 10401 1 Innehåll Välkommen till ClaroDictionary...3 ClaroDictionary Översikt...4 ClaroDictionarys verktygsknappar...4 Knappen
TextIT Hjälp. Om du vill ha all text uppläst trycker du på knappen spela
TextIT Hjälp I textfältet kan du skriva din egen text eller kopiera in text ifrån andra källor som t.ex. Word, PDF, Internetsidor etc. Du kan sedan välja något av följande för att få texten uppläst. Ljudning!
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska
Använda SpellRight 2 i Word 2010
Använda SpellRight 2 i Word 2010 1. Skriva i Word 1. Öppna Word och skriv av följande mening med fel och allt: 2. Stäng av Words rättstavningsfunktion Om stavningskontrollen i Word är aktiverad kommer
Statistisk Maskinöversättning eller:
729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...
Dags att skriva uppsats?
Dags att skriva uppsats? Grundkurs i Word 2010 SDM Studentdatorutbildning vid Malmö högskola Att skriva i Word! 1 Börja skriva/skapa ditt dokument- något att tänka på 1 Spara ditt dokument 1 Bra att veta
när du arbetar med uppsatser och andra långa texter
Tricks i Word när du arbetar med uppsatser och andra långa texter Åsa Kronkvist Högskolan Kristianstad Våren 2007 Innehåll Dags att skriva uppsats?... 3 Att tänka på innan du börjar... 3 Spara klokt...
SQLs delar. Idag. Att utplåna en databas. Skapa en databas
Idag SQLs delar Hur skapar vi och underhåller en databas? Hur skapar man tabeller? Hur får man in data i tabellerna? Hur ändrar man innehållet i en tabell? Index? Vad är det och varför behövs de? Behöver
Kom igång med SpellRight
Kom igång med SpellRight SpellRight är ett program som rättar engelska stavfel. Programmet är i första hand avsett för personer som har svenska som modersmål och skriver på engelska som andraspråk. Starta
Block 2 Algebra och Diskret Matematik A. Följder, strängar och tal. Referenser. Inledning. 1. Följder
Block 2 Algebra och Diskret Matematik A BLOCK INNEHÅLL Referenser Inledning 1. Följder 2. Rekursiva definitioner 3. Sigmanotation för summor 4. Strängar 5. Tal 6. Övningsuppgifter Referenser Följder, strängar
FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se
FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation
Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg
Datavetenskap Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg Oppositionsrapport, C-nivå 2006:12 1 Sammanfattat omdöme av examensarbetet Examensarbetet är intressant eftersom
Cristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Programmering i C++ En manual för kursen Datavetenskaplig introduktionskurs 5p
Programmering i C++ En manual för kursen Datavetenskaplig introduktionskurs 5p Skriven av Michael Andersson Introduktion Programmering I högnivåspråk fokuserar på själv problemet (algoritmen) istället
ClaroStava ett rättstavningsprogram
ClaroStava ett rättstavningsprogram ClaroStava är ett rättstavningsprogram som integreras med ClaroRead Plus/Pro. Efter installation av program startar du ClaroRead och du använder dig av ClaroReads funktioner.
Om uppsatsmallen vid GIH
Om uppsatsmallen vid GIH Här kan du läsa om och se exempel på hur din uppsats vid GIH ska se ut. Uppsatsmallen (.dotxfil) som du kan spara ner och skriva i finns på www.gih.se/uppsats. Huvudrubrik, dvs
Programmeringsolympiaden 2018
Programmeringsolympiaden 2018 TÄVLINGSREGLER FÖR SKOLKVALET Tävlingen äger rum på av skolan bestämt datum under fyra timmar. Ingen förlängning ges för lunch eller raster. Eleven ska i förväg komma överens
Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG
Innehåll SPRÅKGRANSKNINGSVERKTYG F1:INTRODUKTION Ola Knutsson KTH CSC, knutsson@csc.kth.se Språkgranskningsverktyg Språk vs. skrivet språk Språkriktighet och grammatikalitet, vad är en bra text? Felanalysens
Utveckling av ett grafiskt användargränssnitt
Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat
Handicom. Symbol for Windows. Encyklopedi. Version 3.4
Handicom Symbol for Windows Encyklopedi Version 3.4 Handicom, Nederländerna/Frölunda Data AB 2009 Innehåll Installation och licenser...2 1. Inledning...4 1.1 Vad är Encyklopedi?...4 2. Encyklopedis huvudmeny...5
IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter
IT-körkort för språklärare Modul 9: Rätta skrivuppgifter Innehåll I. Rätta uppgifter i Word... 3 Markera fel med färger snabbt och enkelt... 3 Använd Words rättningsverktyg skriv kommentarer... 4 Gör ändringar
Eclipse. Avsikt. Nu ska ett fönster liknande figuren till höger synas.
Eclipse Avsikt Att bekanta dig med Eclipse programmeringsmiljö, dvs att med hjälp av Eclipse 1. skapa ett nytt projekt 2. skriva in källkod (sparas som.java-fil) 3. kompilera (översätta) koden till byte-kod
Word-guide Introduktion
Word-guide Introduktion På det kognitionsvetenskapliga programmet kommer du läsa kurser inom flera olika vetenskapsområden och för varje vetenskapsområde finns ett speciellt sätt att utforma rapporter.
Vanliga frågor för VoiceXpress
Vanliga frågor för VoiceXpress 1) Hur stort ordförråd (vokabulär) innehåller VoiceXpress? VoiceXpress innehåller ett mycket omfattande ordförråd, och svaret på frågan varierar en aning beroende på hur
Läs detta innan du fortsätter, eller skriv ut det, klicka runt lite och läs samtidigt.
Bruksanvisning Installera CubeBiz... 2 Välj språk... 2 När du vill köra testversionen i 15 dagar... 3 När du köper en CubeBiz-licens... 3 Registrera en giltig licensnyckel... 3 Starta ett nytt projekt...
Lathund för SpellRight
SKOLSTÖD/ Uppdragsavdelningen Utbildningsförvaltningen 2009-10-12 Lathund för SpellRight SpellRight är ett engelskt stavningsprogram som är tillverkat med tanke på personer med läs- och skrivsvårigheter
Introduktion till programmering och Python Grundkurs i programmering med Python
Introduktion till programmering och Python Hösten 2009 Dagens lektion Vad är programmering? Vad är en dator? Filer Att tala med datorer En första titt på Python 2 Vad är programmering? 3 VAD ÄR PROGRAMMERING?
Copema Supertoto, manual
Copema Supertoto, manual Innehåll Sidan Bättre vinstchanser 2 Starta programmet 3 Create system, exempel 1 4 exempel 2 7 exempel 3 10 Ladda upp systemet 12 Rätta systemet 12 Odds 14 Print 15 Supertoto
Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson
GRAMMATIKKONTROLL I GRANSKA Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder för grammatikkontroll Granska Granskas regelspråk Att skriva regler i Granska Inför laborationen
Kapitel 4 Arkivmenyn Innehåll
Kapitel 4 Arkivmenyn Innehåll ARKIVMENYN...2 Byt aktuell användare...2 Utskrift till skärm eller skrivare...3 SQL verktyget...4 Ny SQL...4 Hämta SQL...5 Spara SQL...5 Kör SQL...5 Visa som...5 Avsluta...5
Personlig anpassning av Microsoft Word 2013. Vers. 20131001
Personlig anpassning av Microsoft Word 2013 Vers. 20131001 Innehållsförteckning: Menyer... 3 Ta bort menyflikarnas ikoner... 3 Anpassning av snabbåtkomstfältet... 4 Tangentbordskommandon... 5 Kortkommandon
Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
PubMed (Medline) Fritextsökning
PubMed (Medline) PubMed är den största medicinska databasen och innehåller idag omkring 19 miljoner referenser till tidskriftsartiklar i ca 5 000 internationella tidskrifter. I vissa fall får man fram
Projektförslag. Datalingvistisk projektkurs VT mars 2007
Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett
Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker
Sid 1 Laborationer i kursmomentet Datoranvändning E1 http://www.etek.chalmers.se/~hallgren/eda/ : Mer om FrameMaker 1996, 1997 Magnus Bondesson 1998 och 99-09-22 Thomas Hallgren 1 Introduktion I Laboration
emopluppen Användning av "Ant" Niklas Backlund Version: 1.4 ( 2002/04/26 07:27:52 UTC)
emopluppen Användning av "Ant" Version: 1.4 ( 2002/04/26 07:27:52 UTC) Niklas Backlund Sammanfattning Det här dokumentet handlar om programmet Ant, som är en byggmiljö för programutvecklingsprojekt. Dess
Att använda Stava Rex i Word 2007
Att använda Stava Rex i Word 2007 1. Skriva i Word Skriv av följande mening med fel och allt: Stänga av Words rättstavningsfunktion Om stavningskontrollen i Word är aktiverad kommer de ord som Word uppfattar
Lathund Excel 2010. Nytt utseende. Skapa Nytt. Flikar
Lathund Excel 2010 Nytt utseende Programfönstret i Office 2010 har ett nytt utseende. Likt Office 2003 är Arkiv tillbaka. Under Arkiv hittar du de aktiviteter som i 2007 s version finns under Offic knappen
Tentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Konstruktion av datorspråk
Konstruktion av datorspråk Fö2: Funderingar kring hur man kan bedöma programspråk samt några fler detaljer i Ruby Peter Dalenius peter.dalenius@liu.se Institutionen för datavetenskap Linköpings universitet
Lathund Claro Read Plus
Lathund Claro Read Plus Innehållsförteckning LathundWord Read Plus V 5...1 Innehållsförteckning...1 Starta... 2 Knappbeskrivning... 2 Börja läsa... 2 Börja skriva... 2 Knapp 8 Inställningar... 3 Knapp
Analys av BI-system och utveckling av BIapplikationer
Computer Science Fredrik Nilsson, Jonas Wånggren Daniel Strömberg Analys av BI-system och utveckling av BIapplikationer Opposition Report, C/D-level 2005:xx 1 Sammanfattat omdöme av examensarbetet Vi tycker
Grafisk visualisering av en spårbarhetslösning
Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell
Personlig anpassning av Microsoft Word 2007. Vers. 20101001
Personlig anpassning av Microsoft Word 2007 Vers. 20101001 Innehållsförteckning: Menyer... 3 Ta bort menyflikarnas ikoner... 3 Anpassning av snabbåtkomstfältet... 4 Tangentbordskommandon... 4 Kortkommandon
Lathund för studenter
Uppdaterad 2005-09-07 Lathund för studenter vid inläggning av uppsatser i Xerxes Xerxes: http://theses.lub.lu.se/undergrad/ INLÄGGNING AV UPPSATS I XERXES 1. Inloggning Gå in i Publicera i Xerxes i menyn
Kursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
Calligra. En allmän inledning. Raphael Langerhorst Jost Schenck Översättare: Stefan Asserhäll
En allmän inledning Raphael Langerhorst Jost Schenck Översättare: Stefan Asserhäll 2 Innehåll 1 Inledning 5 1.1 Komponenter i Calligra.................................. 5 1.2 Översikt över funktioner i
Handbok Artikulate. Andreas Cord-Landwehr Ondrila Gupta Översättare: Stefan Asserhäll
Andreas Cord-Landwehr Ondrila Gupta Översättare: Stefan Asserhäll 2 Innehåll 1 Inledning 5 1.1 Inlärningsmetodiken.................................... 5 1.2 De första stegen i Artikulate................................
Idag. Hur skapar vi och underhåller en databas? DD1370 (Föreläsning 4) Databasteknik och informationssystem 7,5 hp Hösten / 20
Idag Hur skapar vi och underhåller en databas? DD1370 (Föreläsning 4) Databasteknik och informationssystem 7,5 hp Hösten 2009 1 / 20 Idag Hur skapar vi och underhåller en databas? Hur skapar man tabeller?
Transaktionsfil och transaktionsfilstöd
PERIODISK INRAPPORTERING VIA WEBB Transaktionsfil och transaktionsfilstöd RAPPORTERING 30 november 2016 INNEHÅLL Sammanfattning 3 Transaktionsfil i systemet 4 Stöd för att skapa en transaktionsfil 4 Versionshantering
KTH STH TENTAMEN. HI1024:TEN2 - Praktisk tentamen Tid: 8-13, den 18 februari 2012
KTH STH TENTAMEN HI1024:TEN2 - Praktisk tentamen Tid: 8-13, den 18 februari 2012 Gamla kurskoder: HI1900, 6E2950, etc. Examinator: Johnny Panrike Rättande lärare: Nicklas Brandefelt, Johnny Panrike och
Lathund för Stava Rex
SKOLSTÖD/ Uppdragsavdelningen Utbildningsförvaltningen 2009-10-12 Lathund för Stava Rex Stava Rex är ett program som är framtaget för att stödja personer med läs- och skrivsvårigheter. Du kan rätta texter