Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS

Storlek: px
Starta visningen från sidan:

Download "Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS"

Transkript

1 Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS Examensarbete Stockholm, Sverige 2009

2 Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS Examensarbete i datalogi om 30 högskolepoäng vid Programmet för datateknik Kungliga Tekniska Högskolan år 2009 Handledare på CSC var Ola Knutsson Examinator var Stefan Arnborg TRITA-CSC-E 2009:094 ISRN-KTH/CSC/E--09/094--SE ISSN Kungliga tekniska högskolan Skolan för datavetenskap och kommunikation KTH CSC Stockholm URL:

3 Referat Nya grammatikgranskare utvecklas kontinuerligt inom språkteknologiområdet. De olika grammatikgranskarna är inte lika bra på olika typer av fel, till exempel kan vissa vara specialiserade på särskrivningar men hittar väldigt få böjningsfel av verb. De tre grammatikgranskarna som har använts i det här examensarbetet heter SnålGranska, ProbGranska och Granska. De har utvecklats av Språkteknologigruppen på Skolan för Datavetenskap och Kommunikation (CSC), Kungliga Tekniska Högskolan. Syftet med det här examensarbetet är undersöka hur grammatikgranskarnas skilda styrkor och svagheter kan hanteras. Examensarbetet undersöker hur flera grammatikgranskare kan användas tillsammans för att språkkontrollera en text, och på så sätt skapa en Majoritetsgranskare. Ett problem är hur resultatet ska värderas när en text språkkontrolleras av flera grammatikgranskare. Majoritetsgranskaren väger samman resultatet av språkkontrollen, med avseende på särskrivningar och kongruensfel, för de tre grammatikgranskarna genom viktad röstning. För att få fram ett så bra resultat som möjligt har optimala vikter tagits fram genom Hill Climbing, där resultatet på träningstexten har analyserats med avseende på f-värdet, det vill säga en sammanvägning av hur många äkta fel grammatikgranskarna hittar och hur många falska fel de rapporterar. Rapporten visar att det är möjligt att få ett bättre resultat för språkkontroll av svensk text genom att använda en Majoritetsgranskare, jämfört med att använda grammatikgranskarna var för sig.

4 Abstract The Majority Checker - a way to improve grammar checkers by combining them Automatic grammar checkers are developed continuously in the field of Natural Language Processing (NLP). The different grammar checkers are specialized in different types of grammar errors. One of them may for example be very good at detecting split compounds, while finding very few verb form errors. The three grammar checkers that has been used in this master thesis are SnålGranska, ProbGranska and Granska, and have been developed by the Language Technology group (Språkteknologigruppen) at the School of Computer Science and Communications, Royal Institute of Technology, Sweden. The aim of this thesis is to research how grammar checker s different strengths and weaknesses can be taken advantage of. The report studies how several grammar checkers may be used together to check a Swedish written text, and by doing so form a Majority Checker. The Majority Checker merges the result from the grammar check regarding split compounds and concord errors, by weighted voting for the three grammar checkers. To acquire the best result optimal weights have been calculated through use of the Hill Climbing algorithm, where the result from the training text have been analyzed with regard to the f-measure, which is the weighted mean of precision and recall. This thesis shows that it is possible to gain a better result from grammar checking of Swedish written text by using a Majority Checker, compared to using the grammar checkers individually.

5 Innehåll 1 Introduktion Bakgrund, motivation Mål Begränsningar Grammatikkontroll Aktuell forskning Att mäta grammatikgranskares resultat med precision, täckning och f-värde Precision Täckning f-värde Grammatikgranskare som används Granska SnålGranska ProbGranska Utvärderingsmetoder, verktyg och korpusar Utvärderingsmetoder Träningsdata Utvärderingsdata Optimering av Majoritetsgranskaren Korpusar Parole SUC Övriga verktyg AutoEval Missplel Design av Majoritetsgranskaren Text med grammatikfel Språkkontroll med Granska, SnålGranska och ProbGranska Att använda grammatikgranskarna

6 4.2.2 Analysera grammatikfelen Justering av felrapportering Problem med grammatikgranskarna Skapa Majoritetsgranskaren Utvärdering Vikter och gränsvärde för Majoritetsgranskaren Särskrivningar Kongruensfel Slutsats Sammanfattning Framtida arbete Litteraturförteckning 31 A Format för text med grammatikfel 33 B ProbGranska XML exempel 35 C Granska XML exempel 37 D SnålGranska exempel 41

7 Kapitel 1 Introduktion Inom språkteknologiområdet utvecklas kontinuerligt nya grammatikgranskare, dels förbättringar av gamla metoder och dels de som bygger på helt nya metoder. Utvecklingen verkar på sistone gå mot att flera mindre grammatikgranskare utvecklas som är mycket bra på en specifik feltyp. Dessa grammatikgranskare ger mycket bra täckning (andelen fel i texten som hittas) och precision (andelen av de utpekade felen som är verkliga grammatikfel) för sin specialiserade feltyp. Dock missar de ofta många andra grammatikfel och har därför låg total täckning. Det här examensarbetet undersöker om det är möjligt att kombinera resultatet från tre grammatikgranskare för svensk text utvecklade av Språkteknologigruppen vid CSC, Kungliga Tekniska Högskolan, och undersöker hur täckningen och precisionen påverkas när de kombineras. 1.1 Bakgrund, motivation Många grammatikgranskare konstrueras för att vara speciellt bra på att hitta fel av en viss typ, som till exempel särskrivningar. Bättre resultat kan uppnås om flera olika grammatikgranskares positiva sidor kan tas och användas tillsammans i en Majoritetsgranskare, som då kunde utnyttja de olika grammatikgranskarnas styrkor till att konstruera en kombinerad grammatikgranskare med högre täckning och precision än de har var för sig. Språkteknologigruppen på CSC, KTH, har utvecklat flera grammatikgranskare de senaste åren. De är uppbyggda på olika sätt och är inte lika effektiva på att hitta olika typer av fel. Granska är den största av grammatikgranskarna och bygger på manuellt konstruerade regler för grammatikkontroll. Granska är bland annat bra på att hitta kongruensfel [11]. SnålGranska tränas på text som är uppmärkt med artificiella fel, och vilka fel SnålGranska hittar beror därför till stor del på träningsdatan [17]. 1

8 KAPITEL 1. INTRODUKTION ProbGranska bygger på sannolikhet för ordföljder analyserat från stora textmängder och kan därför hitta fel som det till exempel är svårt att konstruera regler för [6]. Den här rapporten undersöker hur det är möjligt att kombinera de olika grammatikgranskarna till en Majoritetsgranskare för att få högre precision och täckning. 1.2 Mål Det finns flera olika saker som måste tas hänsyn till med en eventuell Majoritetsgranskare. Målet är att undersöka om precisionen och täckningen kan ökas genom att använda flera grammatikgranskare tillsammans i en Majoritetsgranskare, jämfört med att använda dem var för sig. Då uppkommer problem med hur ihopvägningen mellan grammatikgranskarnas resultat ska göras för att få bästa resultat. De olika grammatikgranskarnas resultat kan vägas ihop på många olika sätt. En variant är att rapportera alla fel som någon av grammatikgranskarna hittar som ett fel, men då riskeras att många falska alarm, vilket ger låg precision, medan täckningen däremot borde bli hög [11]. En högre precision skulle kunna uppnås genom att bara rapportera fel som minst två av grammatikgranskarna har hittat. Det kan dock resultera i låg täckning då grammatikgranskarna kanske inte hittar samma typer av fel. För att minska andelen falska alarm utan att få för låg täckning kan en vägning av grammatikgranskarnas styrkor och svagheter spela in när man beslutar om ett fel rapporteras eller inte. Om en av grammatikgranskarna har mycket hög precision för en feltyp så skulle till exempel fel rapporterade av den grammatikgranskaren alltid rapporteras av Majoritetsgranskaren, medan misstänkta fel från andra grammatikgranskare endast rapporteras om även en annan grammatikgranskare hittat felet. Ett problem med att anpassa hopvägningen starkt till grammatikgranskarna är att det blir svårt att lägga till en ny grammatikgranskare. Dels måste man ta reda på hur bra den nya grammatikgranskaren är för olika feltyper, och dels måste man anpassa vikterna för de övriga grammatikgranskarna för att få ett bra slutresultat. En avvägning mellan slutresultat och hur starkt man knyter grammatikgranskarna till en speciell variant av Majoritetsgranskaren måste därför göras. Målen för den här rapporten kan summeras som: Att utreda hur flera grammatikgranskare kan sammanfogas till en Majoritetsgranskare. Metoder för att sammanfoga flera grammatikgranskare måste undersökas. Vilka problem uppstår och vad kan göras för att minimera dem? Hänsyn ska tas till avvägningen mellan resultat och lättheten att lägga till fler grammatikgranskare till Majoritetsgranskaren. Att mäta och jämföra Majoritetsgranskarens precision och täckning med de enskilda grammatikgranskarna, för att undersöka om Majoritetsgranskaren ger en förbättring. 2

9 1.3. BEGRÄNSNINGAR 1.3 Begränsningar Feltyper Hänsyn kommer endast tas till feltyper av typen särskrivningar och kongruensfel. Det beror på att utvärdering och konstruktion av test- och utvärderingsdata kommer ta för lång tid i anspråk om hänsyn ska tas till alla feltyper som granskarna stöder. En särskrivning innebär att ett ord har delats upp till två eller fler ord. Ett exempel är de särskrivna orden kött bulle och tennis boll, som var för sig resulterar i två nya substantiv. Kongruensfel innebär ett syftningsfel, till exempel ett hög berg och havet är djup. Rättningsförslag Granska ger rättningsförslag för alla grammatikfel de hittar, men det gör varken ProbGranska eller SnålGranska. Därför kommer ingen hänsyn tas till rättningsförslagens kvalité. Användare Speciell hänsyn kommer ej tas till användare eller gränssnittet för Majoritetsgranskaren, det enda som undersöks är den resulterande täckningen och precisionen. 3

10

11 Kapitel 2 Grammatikkontroll En grammatikgranskare är ett program som språkkontrollerar text, det vill säga går igenom text och letar efter stavfel eller grammatiska felaktigheter. När fel misstänks rapporteras de av programmet, så att användaren kan försöka korrigera sin text. För att mäta en grammatikgranskares resultat används ofta begreppen precision, täckning och f-värde, som beskrivs närmare i sektion 2.2. Grammatikgranskare är ofta specialiserade på en viss feltyp. Det innebär att grammatikgranskaren är bra på att hitta en viss typ av fel, medan den ofta är sämre på att hitta andra typer av fel. 2.1 Aktuell forskning Grammatikkontroll kan delas in i två kategorier; generella och specialiserade. Generella grammatikgranskare hittar många typer av fel och är oftast gjorde för att i sig själva vara en komplett språkkontroll. Två exempel är Granska [11] och Microsoft Words grammatikkontroll [2]. Specialiserade grammatikgranskare hittar däremot inte alla typer av grammatikfel, utan är specialiserade på en eller ett par feltyper. SnålGranska [17] är ett exempel på en specialiserad grammatikgranskare. Liksom inom alla områden görs nya framsteg inom språkteknologi som gör att nya grammatikgranskare utvecklas. Många av dem är specialiserade grammatikgranskare som är bra på en eller ett par feltyper. Det finns även sammankomster dedikerade till olika typer av grammatikfel, till exempel håller SIGSEM (the Special Interest Group on Computational Semantics) en återkommande workshop om prepositioner, vilket beror på att det ofta är svårt att använda samma metod för alla typer av fel, och att det därför är lättare att göra en metod bra för en feltyp. De senaste åren har bland annat rapporter om prepositions- och verbfel publicerats [13, 7]. En annan anledning till att bygga små, specialiserade grammmatikgranskare är att spara tid. Flera av de specialiserade grammatikgranskarna är byggda med maskininlärning. Maskininlärning definieras som att ett datorprogram lär sig att utföra en viss uppgift med bättre resultat efter att ha lärt från erfarenhet [14]. Det 5

12 KAPITEL 2. GRAMMATIKKONTROLL innebär att datorn själv, efter att ha fått instruktioner om vad den ska ta hänsyn till, tränar grammatikgranskaren så att den blir bättre på att hitta fel i en text. Det går fort att träna en grammatikgranskare genom maskininlärning avsett på manuellt arbete om stora mängder lämplig träningstext finns behöver oftast lite arbete läggas ner på instruktioner i början för att grammatikgranskaren ska lära sig hitta en viss sorts fel. Om grammatikgranskaren däremot bygger på manuellt utarbetade grammatikregler kan mycket arbete behöva läggas ner på att konstruera reglerna. En viktig del av grammatikgranskning är ordklasstaggning. Det innebär att varje ord märks upp med relevant information; till exempel ordklass (verb, substantiv) och annan information som pluralform (bok/böcker). Informationen används sedan av grammatikgranskarna för att hitta fel. Ett exempel är särskrivningar, där substantiv ofta ska stå ihop (hund koppel, sol glasögon) medan kombinationen adjektiv och substantiv inte ska stå ihop (rött koppel, snygga glasögon). Ett problem med ordklasstaggning är att det inte finns ett unikt korrekt sätt att tagga text, eftersom meningar ofta kan tolkas på olika sätt. I svensk text ligger andelen korrekt taggning oftast mellan 94-96% [16]. Felaktigheterna eller inkonsekvensen leder i sin tur till att tillämpningar som använder ordklasstaggad text blir lidande. Forskning har gjorts för att förbättra ordklasstaggning [8, 9], vilket i sin tur kan leda till bättre grammatikgranskare. Eftersom många specialiserade grammatikgranskare utvecklas uppstår ett behov av att sammanfoga deras resultat till en bred grammatikgranskare, om man vill att en text ska grammatikgranskas för alla typer av fel, utan att behöva använda alla grammatikgranskarna manuellt efter varandra. 2.2 Att mäta grammatikgranskares resultat med precision, täckning och f-värde En grammatikgranskares effektivitet kan mätas genom precisionen och täckningen för grammatikgranskaren. De kan även vägas samman till ett f-värde Precision Precisionen är andelen av de rapporterade felen som är faktiska fel, se formel 2.1. Precision är ett värde som ligger mellan 0 och 1, där värdet 1 betyder att alla de rapporterade felen var faktiska fel. Ett korrekt ord som rapporteras som ett fel kallas för ett falskt alarm. En precision på 0 betyder att alla de rapporterade felen var falska alarm. P recision = Antal korrekt rapporterade fel T otala antalet rapporterade f el (2.1) 6

13 2.2. ATT MÄTA GRAMMATIKGRANSKARES RESULTAT MED PRECISION, TÄCKNING OCH F -VÄRDE Täckning Täckningen är andelen fel i texten som hittas med avseende på den totala mängden fel i texten och räknas ut enligt formel 2.2. Täckningen är ett värde mellan 0 och 1. Värdet 1 betyder att alla fel i texten hittades och rapporterades av grammatikgranskaren, medan värdet 0 betyder att inget av felen i texten rapporterades av grammatikgranskaren. Tabell 2.1 visar några exempel på precisionen och täckningen för en grammatikgranskares fiktiva data. T äckning = Antal korrekt rapporterade fel T otala antalet existerande f el (2.2) Ex1 Ex2 Ex3 Ex4 Ex5 Antal fel i texten Rapporterade fel av grammatikgranskaren Korrekt rapporterade fel Falska alarm Precision 0,75 0,45 0, Täckning 0,60 0,90 0, Tabell 2.1. Exempel på precision och täckning för fiktiv grammatikgranskad text f-värde Precision och täckning kan även vägas samman till ett f-värde som räknas ut enligt formel 2.3. f-värdet beskriver ett slutgiltigt värde för grammatikgranskarens resultat beroende på hur hög täckningen och precisionen är. f värde = ( 1 + β 2 ) (P recision T äckning) (β 2 P recision + T äckning) (2.3) β i ekvationen för f-värdet beskriver vikten för precision jämfört med täckning. När β = 1 så värderas precisionen och täckningen lika högt. Om β = 0, 5 så värderas precisionen dubbelt så högt som täckningen och när β = 2 värderas täckningen dubbelt så högt som precisionen. I tabell 2.2 visas vad f-värdet blir vid några olika β. Det innebär att när β = 2 så kommer f-värdet bara bli högt om täckningen är hög, då precisionen inte räknas lika mycket. β = 1 β = 0, 5 β = 2 Precision 0,9 0,9 0,9 Täckning 0,2 0,2 0,2 f-värde 0,33 0,53 0,24 Tabell 2.2. Exempel på f-värde vid olika värden av β. 7

14 KAPITEL 2. GRAMMATIKKONTROLL 2.3 Grammatikgranskare som används I den här rapporten kommer tre grammatikgranskare utvecklade av CSC, KTH undersökas. Nedan följer en beskrivning över skillnaderna mellan dem. En översikt kan ses i tabell 2.3. Granskningsmetod Granska ProbGranska SnålGranska Manuellt Sannolikhetsanalys Maskininlärning konstruerade regler Feltyper Många Många Kongruensfel, särskrivningar och ordföljd Rättningsförslag Ja Nej Nej Krävt manuellt arbete Stort Litet Litet Resurser Lexikon, ordklasstaggare Stora mängder felfri ordklasstaggad text Stora mängder felfri text samt sätt att generera grammatikfel, eller stora mängder text med uppmärkta fel Tabell 2.3. En översikt över skillnaderna mellan grammatikgranskarna Granska, ProbGranska och SnålGranska. De tre grammatikgranskarna Granska, SnålGranska och ProbGranska skiljer sig mycket åt, och bygger på helt olika tekniker för språkkontroll. Det är önskvärt för en Majoritetsgranskare, eftersom grammatikgranskarna då hittar fel på olika grunder. Chansen att en grammatikgranskare hittar fel som de andra har missat är större än om de byggde på samma tekniker Granska Granska bygger på manuellt framtagna regler för svensk grammatik [11, 12]. Reglerna har dels tagits fram enligt de grammatiska regler som finns för svensk grammatik, och dels efter en undersökning av vilka grammatikfel svensk exempeltext har innehållit. Granska är en stor och väl utvecklad grammatikgranskare som kan hitta många typer av grammatikfel. Granska bygger på tillgång till ett lexikon och en ordklasstaggare. Felstavade ord som inte finns i lexikonet hittas av Stava (som är en del av Granska). Grammatikfel som tempusfel i verb, eller felaktigt böjda ord 8

15 2.3. GRAMMATIKGRANSKARE SOM ANVÄNDS hittas även de av Granska. Granska är speciellt bra på att finna särskrivningar av sammansatta ord, om man jämför med andra svenska stavningskontroller. Granska föreslår även rättningsförslag för många rapporterade fel SnålGranska SnålGranska utvecklades av Sjöbergh och Knutsson 2005 [17]. En av SnålGranskas fördelar är att den behöver mycket lite manuellt arbete innan den kan användas eftersom den bygger på maskininlärning. Det är i motsats till Granska där många timmar manuellt arbete har krävts för att skapa lämpliga regler för svensk text. SnålGranska kräver inte heller många andra resurser. SnålGranska utgår från vanlig, ej ordklasstaggad felfri träningstext. Fel infogas i texten, helst med hjälp av automatisk generering av fel. Därefter får alla felaktiga ord i texten taggen FEL, medan korrekta ord får taggen OK. Därefter annoteras texten av en ordklasstaggare. Sedan används texten som träningsdata för SnålGranska, som genom maskininlärning kommer lära sig känna igen de fel som representerats i träningsdatat. Reglerna som genereras under träningen kan efteråt korrigeras vid behov. Om en automatisk metod för att generera fel i korrekt text används behövs väldigt lite manuellt arbete för att träna SnålGranska, även på helt nya språk (så länge en ordklasstaggare finns tillgänglig). Ett exempel på automatisk generering av fel kan ses i kapitel Vilka fel SnålGranska hittar beror mycket på träningsdatat, det vill säga vilka fel som har genererats till träningen. SnålGranska hittar inte lika många typer av fel som Granska, men går snabbare att konfigurera. SnålGranska har byggts för att hitta särskrivningar, kongruensfel och ordföljdsfel ProbGranska ProbGranska bygger som namnet antyder på sannolikhetsanalyser av stora mängder svensk text och beskrivs av Bigert [6]. Det är svårt att hitta alla typer av fel i regelbaserade system som Granska, för hur bra regler man än gör kommer vissa meningar anses vara korrekt uppbyggda även om de är felaktiga. Ett exempel är felstavade ord som resulterar i ett nytt korrekt ord (exempelvis katten - kotten, hus - hes). Det kallas kontextkänsliga stavfel och det är det ProbGranska fokuserar på. ProbGranska bygger varken på regler eller på kända fel som de tidigare beskrivna grammatikgranskarna. Istället har ProbGranska tränats på stora mängder ordklasstaggad felfri svensk text. För alla trigram i texten, det vill säga tre ord som följer på varandra, undersöks deras ordklasstaggar. Ju fler gånger likadana trigram uppkommer i träningstexterna desto högre sannolikhet att vara korrekta anses sådana trigram ha. När trigram som aldrig eller mycket sällan påträffats i träningsdatat hittas under en språkkontroll kan ett fel rapporteras. Ett problem med ProbGranska är att många fullkomligt korrekta ordklasstaggningstrigram förekommer mycket sällan i träningsdatat, och därför riskerar att 9

16 KAPITEL 2. GRAMMATIKKONTROLL inkorrekt rapporteras som fel. ProbGranska har därför även transformationsregler som är utvecklade för att ta bort falska alarm för sällsynta trigram som ändå kan vara korrekta. 10

17 Kapitel 3 Utvärderingsmetoder, verktyg och korpusar En grammatikgranskare måste utvärderas på ett lämpligt sätt, och för det behövs olika verktyg och korpusar som beskrivs i det här kapitlet. De används bland annat till att konstruera träningsdata med artificiella grammatikfel i för Majoritetsgranskaren. 3.1 Utvärderingsmetoder För att utvärdera grammatikgranskare så mäter man oftast deras precision och täckning. Precision och täckning kan vägas samman till ett värde som kallas f- värde, vilket beskrivs närmare i sektion 2.2. Precisionen och täckningen är kopplade till varandra och det är mycket svårt att både ha hög täckning och precision för en grammatikgranskare [11]. Ju högre täckning en grammatikgranskare har, desto fler fel kommer att rapporteras. Några av dem kommer vara falska alarm, vilket i sin tur sänker precisionen. Om grammatikgranskaren endast rapporterar fel den är helt säker på kommer hög precision uppnås, men en lägre täckning eftersom flera riktiga fel inte kommer rapporteras. Det är f-värdet som undersöks i utvärderingen av Majoritetsgranskaren, för att få ett mått på hur bra Majoritetsgranskaren presterat Träningsdata När grammatikkontroll utvecklas behöver ofta justeringar göras tills grammatikgranskaren hittar relevant feltyp med en så hög täckning som möjligt med hänsyn till precisionen. Till det behövs text med grammatikfel att träna på. Den här rapporten kommer att undersöka fel av typerna särskrivningar och kongruensfel. Några exempel på feltyperna finns i tabell 3.1. Fel av de typerna kommer att introduceras i annars felfri text som sedan kommer språkgranskas av Majoritetsgranskaren. Beroende på resultatet kommer Majoritetsgranskarens inställningar att konfigureras så att en bra avvägning mellan de olika grammatikgranskarna uppnås. 11

18 KAPITEL 3. UTVÄRDERINGSMETODER, VERKTYG OCH KORPUSAR Felaktig mening Korrekt Feltyp Huset har en öppet fönster. ett kongruensfel Klassen är mållösa. mållös kongruensfel Tavlan är vackert. vacker kongruensfel En sov säck. sovsäck särskrivning Ett jätte högt hus. jättehögt särskrivning Tabell 3.1. Exempel på kongruensfel och särskrivningar Utvärderingsdata Inom språkteknologiområdet är det viktigt att göra skillnad på träningsdata och utvärderingsdata. Om en grammatikgranskare konfigureras att bli mycket bra på en liten träningsdata finns det en stor sannolikhet för att grammatikgranskaren på liknande eller samma data kommer få mycket bra resultat. Däremot kommer grammatikgranskaren att få mycket sämre resultat på en helt ny text. Det är därför viktigt att ha helt åtskilda träningstexter och utvärderingstexter för att få ett trovärdigare resultat, och i det här examensarbetet används helt skilda texter för träning och utvärdering Optimering av Majoritetsgranskaren Majoritetsgranskaren beslutar om en felrapportering från en av de tre grammatikgranskarna ska rapporteras genom röstning. Beroende på viktningen av felrapporteringarna rapporterar Majoritetsgranskaren olika fel, och den kommer därför få olika resultat för olika vikter. För att optimera vikterna och därmed resultatet används Hill Climbing-algoritmen. Hill Climbing [15] är en algoritm som testar att ändra de startvärden som finns, för att sedan analysera utdata. Om utdatat är bättre efter ändringen behålls den, annars förkastas den. Processen upprepas tills ingen förbättring sker. Eftersom Hill Climbing endast ändrar på ett värde i taget och inte sparar ändringen om den inte medför någon förbättring finns det en risk att den fastnar i ett lokalt maximum [15]. Ett sätt att lösa problemet är att starta om algoritmen med olika startvärden, och köra den flera gånger. Algoritmen beskrivs i algoritm Korpusar En korpus är en stor samling av skriven text, eller nedskrivet talspråk. Korpusar innehåller ofta ytterligare information än bara texten, så som ordklasstaggar för varje ord. 12

19 3.2. KORPUSAR Algoritm 3.1 Hill Climbing Ensure: Maximera funktionen BeräknaResultat. gamlav ärden[] slumpa startvärden mellan 0 och 1 n 0 while n maxv arv do ändring slumpvärde mellan 0 och 1 nyav ärden[] gamlav ärden[] i, j två slumpmässiga index nyav ärden[i] nyav ärden[i] + ändring nyav ärden[j] nyav ärden[j] ändring if BeräknaResultat(nyaV ärden) > BeräknaResult(nyaV ärden) then gamlav ärden[] nyav ärden[] end if n n + 1 end while return gamlav ärden[] Parole Parole [3] är en stor svensk korpus med ungefär 20 miljoner ord. Texten har automatiskt blivit annoterad med ordklasstaggar. Korpusen består till större delen av tidningsartiklar, men innehåller även text ur romaner och andra källor. Fördelningen mellan de olika källorna kan ses i tabell 3.2. Text från olika källor är blandad i korpusen och går inte att urskilja. Textkategori Texter Tid Textomfång Romaner Bonniers Grafiska Industier ,4 milj. löpord Dagstidningar Dagens Nyheter ,6 milj. löpord Svenska Dagbladet Göteborgs-Posten Arbetet Tidskrifter Forskning och Framsteg ,4 milj. löpord Övrigt Webb-texter milj. löpord Tabell 3.2. Fördelning av textkategorier i Parole-korpusen SUC SUC står för Stockholm-Umeå Corpus [4] och är en balanserad svensk korpus på 1 miljon ord, vilket innebär att den innehåller an avvägd mängd text från många olika kategorier, bland annat tidningar, skönlitteratur och vetenskapliga artiklar. Den nyaste versionen av SUC [1] är 2.0 och släptes i slutet av Den är manuellt annoterad med ordklasstaggar och innehåller mer utförlig information än Parole. 13

20 KAPITEL 3. UTVÄRDERINGSMETODER, VERKTYG OCH KORPUSAR Texten i SUC har även blivit korrekturläst, även med avseende på annotering av ordklasstaggar, och borde därför innehålla färre fel än Parole. 3.3 Övriga verktyg Nedan följer en beskrivning över verktyg som är relevanta för rapporten. Endast Missplel används i examensarbetet AutoEval AutoEval [5] är ett program som utvecklats för att möjliggöra automatisk utvärdering. Inom språkteknologi behöver stora mängder resultat utvärderas. När text har gått igenom en grammatikgranskare ska ofta täckningen och precisionen mätas och beräknas för olika grammatikfel. Eftersom liknande beräkningar görs vid många olika tillfällen har program som underlättar utvärderingen utvecklats, som AutoEval. AutoEval innehåller ett skriptspråk så att evalueringsuppdrag kan beskrivas, för att automatiskt räkna ut sådant som täckning och precision för en grammatikgranskad text. AutoEval presenterar även resultatet automatiskt Missplel Det kan vara svårt att få tag i text som är uppmärkt med grammatikfel. Om man utgår från text med autentiska fel måste felen upptäckas och märkas, och resurser med redan uppmärkta fel är mycket sällsynta. De flesta textkorpusar innehåller text som redan är korrekturläst och bör därför innehålla väldigt få fel. Missplel [5] utnyttjar det genom att automatiskt generera fel i felfri text, och kan till exempel generera särskrivningar av sammansatta ord. Missplel behöver tillgång till ett lexikon med information om ordklasstagg och lemma för varje ord, där lemma är grundformen för ett ord. 14

21 Kapitel 4 Design av Majoritetsgranskaren För att undersöka hur en Majoritetsgranskare kan tas fram krävs flera steg som kan ses i figur 4.1. Först måste text med fel i skapas och annoteras för att sedan språkkontrolleras av de individuella grammatikgranskarna. Resultatet analyseras sedan och grammatikgranskarna sätts samman till en Majoritetsgranskare efter att ha undersökt vilken röstningsmetod som leder till högst f-värde. Slutligen måste Majoritetsgranskarens prestation utvärderas och jämföras med de enskilda grammatikgranskarna. 4.1 Text med grammatikfel För att utvärdera grammatikgranskarna behövdes text uppmärkt med grammatikfel. Dels användes text från korpusen Parole där felfrekvensen är låg, och text tagen därifrån behandlas därför som om den är felfri. Parole valdes eftersom den är mer lättåtkomlig än SUC. Paroletexten ordklasstaggades med Granskas taggare, för att anpassa texten för Missplel. Efter det genererades särskrivningar med hjälp av Missplel, vilket sedan användes för att konfigurera Majoritetsgranskaren. Missplel genererar inte perfekta särskrivningar, och därför användes inte texter genererade av Missplel vid den slutgiltiga utvärderingen. Exempel på felaktiga särskrivningar som Missplel genererat kan ses i tabell 4.1. Ord konstrade tittade hushållspengar Särskrivning av Missplel konst rade titt ade hus hålls pen gar Tabell 4.1. Exempel på felaktigt genererade särskrivningar från Missplel. För att utvärdera Majoritetsgranskaren med avseende på särskrivningar användes en text med verkliga särskrivningar från Jonas Sjöbergh [17]. Den text med kongruensfel som har använts kommer även den från Jonas Sjöbergh och innehåller kongruensfel av hög kvalité. 15

22 KAPITEL 4. DESIGN AV MAJORITETSGRANSKAREN Parole Missplel Övrig text Samla in text med grammatikfel. Text med grammatikfel. Granska texterna för att se vilka fel granskarna hittar. Granskare SnålGranska ProbGranska Granska Slutgiltig utvärdering Utvärdering av Majoritetsgranskarens resultat jämfört mot de enskilda granskarna. Konstruera Majoritetsgranskaren. Analysera granskarnas felrapporteringar. Analys Analysera granskarnas resultat för att bestämma hur Majoritetsgranskaren byggs upp. Figur 4.1. En översikt över steg för att skapa Majoritetsgranskaren. Ett utdrag från en text med grammatikfel kan ses i bilaga A. 4.2 Språkkontroll med Granska, SnålGranska och ProbGranska Texten som skickas till de enskilda grammatikgranskarna innehåller grammatikfel, och syftet är att ta reda på hur väl grammatikfelen upptäcks av grammatikgranskarna. När texten med infogade grammatikfel läses in delas den upp i hanterbara delar på drygt 2000 ord. Delarna gås därefter igenom för analys var för sig Att använda grammatikgranskarna Både Granska, SnålGranska och ProbGranska finns fritt tillgängliga för användning på KTHs webbservrar, och text språkkontrolleras genom att den skickas dit i en HTTP-förfrågan. Efter att texten språkkontrollerats sparas den till fil med information om ordet är korrekt eller ett grammatikfel och om de olika grammatikgranskarna har rapporterat ett fel. 16

23 4.2. SPRÅKKONTROLL MED GRANSKA, SNÅLGRANSKA OCH PROBGRANSKA Granska och ProbGranska För att använda Granska och ProbGranska finns en hjälpklass skriven i Java som heter GranskaConnection som har utvecklats av Martin Hassel [10]. Text kan språkkontrolleras direkt genom GranskaConnection. Det går att använda Granska och SnålGranska med vilket programmeringsspråk som helst, men det här examensarbetet har använt Java med GranskaConnection. SnålGranska SnålGranska behöver ordklasstaggad text för att hitta grammatikfel och texten måste därför först skickas till Granskas taggare, som finns tillgänglig över internet. SnålGranska kräver ett lite annorlunda taggformat jämfört med Granskas taggar, som innebär formateringsskillnader och knappt någon förändrad innebörd av taggarna. En egen implementation i Java för att skicka text för språkkontroll till SnålGranska har därför tagits fram Analysera grammatikfelen Grammatikgranskarna har skilda sätt att rapportera fel. SnålGranska har ett lättläst utdataformat som består av varje ord efterföljt av antingen ett OK om SnålGranska inte hittade något fel, och annars SPLIT för särskrivningar, se bilaga D. Granska och ProbGranska använder sig av XML för att rapportera vad de hittade, exempel kan ses i bilaga C och B. I ProbGranskas XML hittas ett format som är likt SnålGranska. Texten är uppdelad per mening, där varje ord är efterföljt av ett ok om ProbGranska inte fann något fel, och annars err. Granskas XML är mer avancerad och rapporterar för varje fel den finner endast de ord som är fel, följt av referenser till vilka meningar de hör och vilka ord i den meningen som är felaktiga. Granska kan rapportera ett fel som olika typer, till exempel särskrivningar, böjningsfel och kongruensfel. Den här rapporten tar inte hänsyn till vilken typ av fel Granska rapporterar, då en särskrivning ofta genererar andra typer av fel Justering av felrapportering Det finns två större problem vid analys av felrapporteringen. Det första är att grammatikgranskarna ofta endast rapporterar delar av det faktiska felet, till exempel bara första ordet av en särskrivning. Det andra är att de ofta rapporterar extra fel i närheten av det faktiska grammatikfelet, vilket beror på flera saker. Vid en särskrivning uppstår ofta kongruensfel. Meningen Gerd ställde äpplet på ett avlastnings bord. med särskrivningen avlastnings bord innehåller nu även kongruensfelet ett avlastnings. Det går därför att argumentera att fel rapporterade i direkt anslutning till faktiska fel inte bör rapporteras som falska alarm, eftersom de kan vara berättigade även om de inte är uppmärkta som fel i textdatat. 17

24 KAPITEL 4. DESIGN AV MAJORITETSGRANSKAREN Majoritetsgranskaren tar därför hänsyn till falska alarm rapporterade i direkt anslutning till faktiska fel, och de registreras aldrig som falska alarm. För att inte ta bort berättigade falska alarm görs endast denna hänsyn om det faktiska felet har rapporterats av grammatikgranskaren. Om grammatikgranskarna bara rapporterar en del av ett fel behandlas det som om de hade hittat hela felet. Därför kommer hela särskrivningen eller kongruensfelet att korrekt rapporteras av en grammatikgranskare även om grammatikgranskaren endast rapporterade en del av felet. Algoritmen för justering av felrapporteringen finns beskriven i algoritm 4.1. Algoritm 4.1 Justering av felrapportering Require: En array ordlista[1..n], som innehåller information om ett ord är korrekt eller ett grammatikfel, och vad grammatikgranskaren rapporterat. for i = 1... n do if ordlista[i] är korrekt rapporterat som ett fel then j i 1 while ordlista[j] är rapporterat som ett falsk alarm do Ta bort rapportering j j 1 end while j i + 1 while ordlista[j] är rapporterat som ett falsk alarm do Ta bort rapportering j j + 1 end while j i 1 while ordlista[j] är ett fel som inte har rapporterats do Rapportera ordlista[j] j j 1 end while j i + 1 while ordlista[j] är ett fel som inte har rapporterats do Rapportera ordlista[j] j j + 1 end while end if end for Den grammatikgranskare som drar störst fördel av felrapportsjusteringen är ProbGranska, vilket kan ses i tabell 4.2. Som beskrivs i sektion så bygger ProbGranska på analys av trigram, och därför rapporteras ett trigram när ett fel misstänks. Det gör att ProbGranska ofta ligger lite fel och rapporterar många falska alarm i anslutning till faktiska fel. 18

25 4.2. SPRÅKKONTROLL MED GRANSKA, SNÅLGRANSKA OCH PROBGRANSKA Utan justering SnålGranska ProbGranska Granska Korrekt rapporterade fel Falska alarm Precision 0,9037 0,4611 0,6153 Täckning 0,3021 0,1629 0,4877 f-värde 0,4528 0,2407 0,5441 Med justering SnålGranska ProbGranska Granska Korrekt rapporterade fel Falska alarm Precision 0,9517 0,7182 0,8338 Täckning 0,3362 0,1979 0,6269 f-värde 0,4969 0,3103 0,7157 Skillnad SnålGranska ProbGranska Granska Korrekt rapporterade fel Falska alarm Precision +0, , ,2185 Täckning +0, , ,1392 f-värde +0, , ,1716 Tabell 4.2. De här tabellerna beskriver effekten av justeringen av felrapporteringen från grammatikgranskarna. De bygger på en text med särksrivningar som har språkkontrollerats av SnålGranska, ProbGranska och Granska. Resultatet presenteras i den översta tabellen utan felrapporteringsjustering, i den mellerasta med felrapporteringsjustering och den understa visar skillnaden mellan de två Problem med grammatikgranskarna Det finns en del problem som har uppkommit under användning av grammatikgranskarna. Ett problem är att GranskaConnection inte alltid returnerar korrekt XML. Till exempel innehåller XML:en &-tecken och inte den motsvarande escapesekvensen &. Den returnerade XML:en har därför undersökts och rättats till innan den tolkas. Granskas ordklasstaggare behandlar vissa ord som en sammanhängande fras. Det leder till att vissa ord i texten faller bort innan de kommer till SnålGranska och ProbGranska. Några exempel är så pass, till och med och i sin tid. De orden hoppas över i analysen av grammatikgranskarnas språkkontroll. 19

26 KAPITEL 4. DESIGN AV MAJORITETSGRANSKAREN Granskas ordklasstaggare klipper av vissa ord. Det leder till att problem kan uppkomma senare när de språkkontrollerade orden jämförs med texten innan som beskriver vilka ord som är korrekta och vilka som är grammatikfel. Exempel är VLIW:ar och 1:a. De fall som upptäckts specialbehandlas så att falska alarm ej rapporteras. Granskaservern returnerar ibland ett tomt XML-dokument, eller ett XMLdokument som innehåller felaktig XML. I de flesta fall kommer Granskaservern efter några försök returnera korrekt språkkontrollerad text. Det är inte känt varför det här felet uppstår. 4.3 Skapa Majoritetsgranskaren Majoritetsgranskaren bestämmer om den ska rapportera ett ord beroende på vad SnålGranska, ProbGranska och Granska rapporterar. Det finns flera olika sätt att bestämma när ett ord bör rapporteras. Den här rapporten har undersökt metoden viktad röstning. Viktad röstning innebär att de tre grammatikgranskarna har en vikt, som beskriver hur tungt deras röst väger. Om den sammanlagda vikten från de tre grammatikgranskarna går över en viss gräns rapporteras felet, annars inte. Skillnaden mellan viktad röstning och vanlig majoritetsröstning är att grammatikgranskarna har olika vikter som beror på hur trovärdiga deras felrapporteringar är. Vid vanlig majoritetsröstning räcker det med att ett visst antal av grammatikgranskarna hittar ett fel, för att Majoritetsgranskaren ska rapportera felet. Eftersom de tre grammatikgranskarna är olika bra, se sektion 2.3, så används viktad röstning. Det kan vara så att en av grammatikgranskarna har mycket hög precision och därför borde dess rapporteringar väga högt och alltid rapporteras. Om de andra grammatikgranskarna har mycket lägre precision vill man dock inte använda majoritetsröstning eftersom deras fel också rapporteras direkt. Vanlig majoriteströstning är en variant av viktad röstning, så om det ger bäst resultat kommer det synas i utvärderingen. En översikt över hur viktad röstning fungerar i Majoritetsgranskaren kan ses i figur 4.2. För att ta reda på vilka vikter som ger bäst resultat används Hill Climbingalgoritmen som finns beskriven i sektion De tre grammatikgranskarnas vikter samt gränsvärdet för att ett fel rapporteras optimeras genom flera körningar av algoritmen. Algoritmen har körts på en ord lång text, som innehåller särskrivningar genererade av Missplel och som har språkkontrollerats av de tre grammatikgranskarna. Algoritmen testar olika startvärden på vikterna som sedan optimeras och beskrivs i algoritm 4.2. Träningstexten innehåller endast särskrivningar eftersom endast en liten text med kongruensfel fanns tillgänglig, vilken behövdes till den slutgiltiga utvärderingen. 20

27 4.3. SKAPA MAJORITETSGRANSKAREN Text som ska grammatikgranskas. Gränsvärde för att majoritetsgranskaren rapporterar ett fel. Granskare SnålGranska ProbGranska Granska Majoritetsgranskaren Summera vikterna för de grammatikgranskare som rapporterade ett fel. Om vikterna är större än gränsvärdet rapporterar majoritetsgranskaren felet, annars inte. Vikter för SnålGranska, ProbGranska och Granskas fel rapporteringar. Text grammatikgranskad av majoritetsgranskaren. Figur 4.2. Hur Majoritetsgranskaren fungerar med viktad röstning. Algoritm 4.2 Optimering av vikter och gränsvärde för Majoritetsgranskaren loop Slumpa startvärden för vikter och gränsvärde for i = 0..maximalaF örsök do nyttresultat Majoritetsgranska med värden och gränsvärde if nyttresultat är bättre än resultatet med de gamla värdena then Spara de nya värdena end if end for end loop 21

28

29 Kapitel 5 Utvärdering För att utvärdera Majoritetsgranskaren används en speciell utvärderingstext, som beskrivs i sektion 4.1. Den variant av viktad röstning som framkom genom Hill Climbing i sektion 4.3 utvärderas tillsammans med några andra referensvikter. f- värdet för Majoritetsgranskarens resultat jämförs sedan med de individuella grammatikgranskarnas resultat för utvärderingstexten. 5.1 Vikter och gränsvärde för Majoritetsgranskaren För att komma fram till de bästa vikterna och gränsvärdet för Majoritetsgranskaren användes Hill Climbing som beskrivs i sektion 4.3. De värden som optimerade f- värdet för träningstexten beskrivs i tabell 5.1. Framtagna värden Tolkade värden SnålGranskas vikt 1,61 1 ProbGranskas vikt -0,03 0 Granskas vikt 0,21 1 Gränsvärde 0,06 1 Tabell 5.1. De vikter och gränsvärde som användes för Majoritetsgranskaren. De värden som togs fram från Hill Climbing kan tolkas så att vikterna till höger kan användas istället för samma resultat. Ett fel rapporteras av Majoritetsgranskaren om den sammanlagda vikten från de grammatikgranskare som rapporterade felet är större än gränsvärdet. Vikterna betyder att de fel som rapporteras av SnålGranska och Granska alltid rapporteras av Majoritetsgranskaren, eftersom deras vikter är större än gränsvärdet. Däremot behöver de fel som ProbGranska rapporterar även rapporteras av SnålGranska eller Granska innan Majoritetsgranskaren rapporterar felet. Skillnaden mellan SnålGranskas och Granskas vikt betyder ingenting för slutresultatet, utan är en följd av slumpningen vid framtagandet av vikterna. Att Prob- Granska har en negativ vikt är också en slump; Majoritetsgranskaren skulle ge 23

30 KAPITEL 5. UTVÄRDERING samma resultat om vikten var till exempel 0,05. I tabell 5.1 finns förslag på alternativa, mer lättolkade vikter, som ger samma resultat i Majoritetsgranskaren. 5.2 Särskrivningar Utvärderingstexten med särskrivningar innehöll 313 meningar med 5129 ord, varav totalt 812 särskrivna ord. Tabell 5.2 innehåller resultat från Majoritetsgranskaren respektive de enskilda grammatikgranskarna. Som kan ses i tabellen så är Majoritetsgranskarens f-värde högre än de enskilda grammatikgranskarnas. Som en jämförelse finns värden för majoritetsröstning också med i tabellen. f-värde Precision Täckning SnålGranska 0,8107 0,9757 0,6933 ProbGranska 0,3114 0,6535 0,2044 Granska 0,7223 0,8591 0,6232 Majoritetsgranskaren 0,8625 0,8796 0,8461 Vikt SnålGranska: 1,61 Vikt ProbGranska: -0,03 Vikt Granska: 0,21 Gränsvärde: 0,06 Rapporterar alltid 0,8357 0,7982 0,8768 Minst en granskare måste hitta felet. Majoritetsröstning 0,6918 0,9886 0,5320 Minst två granskare måste hitta felet. Majoritetsröstning 0,2016 1,0 0,1121 Alla granskare måste hitta felet. Tabell 5.2. Resultat från Majoritetsgranskaren och de enskilda grammatikgranskarna vid språkkontroll av en utvärderingstext med särskrivningar. 5.3 Kongruensfel Utvärderingstexten innehöll 221 meningar med 4344 ord, varav 210 kongruensfel. Tabell 5.3 beskriver resultatet från utvärderingen. Kongruensfel är svåra att utvärdera då de ofta genererar nya fel i närheten av det ursprungliga kongruensfelet. De felen kan antingen ses som fel i sig själva, eller som korrekta ord eftersom de inte längre kommer vara felaktiga om kongruensfelet rättas till. Utvärderingstexten var delvis uppmärkt med fel som genererats av kongruensfelet. I den här utvärderingen behandlades de dock som korrekta ord. 24

31 5.3. KONGRUENSFEL f-värde Precision Täckning SnålGranska 0,4027 0,6818 0,2857 ProbGranska 0,0915 0,1757 0,0619 Granska 0,4672 0,4776 0,4571 Majoritetsgranskaren 0,5011 0,4653 0,5429 Vikt SnålGranska: 1,61 Vikt ProbGranska: -0,03 Vikt Granska: 0,21 Gränsvärde: 0,06 Majoritetsröstning 0,4710 0,3961 0,5810 Minst en granskare måste hitta felet. Majoritetsröstning 0,3485 0,8519 0,2190 Minst två granskare måste hitta felet. Majoritetsröstning 0,0095 1,0 0,0048 Alla granskare måste hitta felet. Tabell 5.3. Resultat från Majoritetsgranskaren och de enskilda grammatikgranskarna vid språkkontroll av en utvärderingstext med kongruensfel. 25

32

33 Kapitel 6 Slutsats Det här kapitlet beskriver hur bra Majoritetsgranskaren fungerade och om målen för rapporten uppfylls. Det finns även en sektion om framtida arbete som kan göras för att förbättra Majoritetsgranskaren. 6.1 Sammanfattning Ett sätt att sammanfoga flera grammatikgranskare till en Majoritetsgranskare är genom röstningmetoder. Det finns bland annat majoritetsröstning och viktad röstning, där majoritetsröstning är en variant av viktad röstning. Ett problem som uppstår vid sammanvägningen av grammatikgranskarna är att det är svårt att få en bra avvägning mellan precision och täckning. Som kan ses i tabell 5.2 och 5.3 fås hög täckning när alla fel grammatikgranskarna rapporterar även rapporteras av Majoritetsgranskaren. Eftersom falska alarm inte påverkar täckningen negativt är den bästa metoden för att maximera täckningen majoritetsröstning, där det räcker med att en grammatikgranskare hittar felet. För att få så hög precision som möjligt så rapporteras endast de fel alla grammatikgranskarna har hittat. Det leder till mycket hög precision, men täckningen blir mycket låg. Om Majoritetsgranskaren optimeras endast med hänsyn till ett av värdena precision eller täckning så leder det till att det ena värdet blir högt, medan det andra värdet blir mycket lågt. Majoritetsgranskaren har därför optimerats på en sammanvägning av precision och täckning, f-värdet. För att få fram bra värden att använda i viktad röstning har Hill Climbing använts. Resultatet bestämmer grammatikgranskarnas vikter och gränsvärdet för Majoritetsgranskaren. Majoritetsgranskaren gav ett bättre resultat än de enskilda grammatikgranskarna för sig på båda de utvärderade feltyperna. Skillnaden mellan Majoritetsgranskaren och SnålGranska, ProbGranska respektive Granska kan ses för särskrivningar i tabell 6.1 och för kongruensfel i tabell 6.2. Majoritetsgranskarens f- värde var i båda fallen högre än de enskilda grammatikgranskarnas f-värde. Det tyder på att det går att få bättre resultat vid språkkontroll med en Majoritets- 27

34 KAPITEL 6. SLUTSATS granskare, jämfört med de ingående enskilda grammatikgranskarna. För att lägga till fler grammatikgranskare till Majoritetsgranskaren behöver endast ett fåtal steg utföras. Dels måste grammatikgranskaren vara tillgänglig för att språkkontrollera text. Efter det behöver träningstexten språkkontrolleras med den nya grammatikgranskaren. Träningstexten och resultatet från alla grammatikgranskarna används sedan med Hill Climbing för att ta fram nya vikter och gränsvärde för Majoritetsgranskaren. Majoritetsgranskarens vikter ledde i det här utförandet till att ProbGranska inte tillförde något, då fel den hittade inte rapporterades om inte en annan grammatikgranskare också hittade dem. Då de andra grammatikgranskarna hade höga vikter rapporterades dock de fel de hittade oavsett om även ProbGranska hittade felet eller inte. Det är fullt möjligt andra vikter hade fåtts vid en mer varierad träningstext med fler typer av grammatikfel, samt fel av bättre kvalité. Om fler grammatikgranskare läggs till Majoritetsgranskaren kan också vikterna påverkas starkt. SnålGranska ProbGranska Granska Genomsnitt f-värde +0, , , ,2477 Precision -0, , , ,0502 Täckning +0, , , ,3698 Tabell 6.1. Skillnaden i f-värde, precision och täckning angående särskrivningar för Majoritetsgranskaren jämfört med de enskilda grammatikgranskarna. SnålGranska ProbGranska Granska Genomsnitt f-värde +0, , , ,1806 Precision -0, ,2896-0, ,0203 Täckning +0, , , ,2747 Tabell 6.2. Skillnaden i f-värde, precision och täckning angående kongruensfel för Majoritetsgranskaren jämfört med de enskilda grammatikgranskarna. 6.2 Framtida arbete Det finns många saker kvar att undersöka angående en Majoritetsgranskare. Nedan följer en lista med några av de områden som kan undersökas vidare: Typ av Majoritetsgranskare Kanske finns det en bättre metod än viktad röstning för att bestämma vilka fel en Majoritetsgranskare ska rapportera. Grammatikgranskare är också ofta bra på olika typer av grammatikfel. Vore det möjligt att vikta grammatikgranskarnas röster olika beroende på feltypen, utan att göra det för svårt att lägga till nya grammatikgranskare? Ett problem blir dock hur Majoritetsgranskaren tar reda på vilken typ felet har. 28

Gränssnitt för FakeGranska. Lars Mattsson

Gränssnitt för FakeGranska. Lars Mattsson Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson GRAMMATIKKONTROLL I GRANSKA Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder för grammatikkontroll Granska Granskas regelspråk Att skriva regler i Granska Inför laborationen

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001 Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger

Läs mer

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning? Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins

Läs mer

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Titel Mall för Examensarbeten (Arial 28/30 point size, bold) Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON SPRÅKTEKNOLOGI Datorn som språkgranskare OLA KNUTSSON Datorerna kan inte bara rätta stavfel utan också särskrivningar, böjningsfel, syftningsfel och grammatiska fel. Men fortfarande förslår språkgranskningsprogrammen

Läs mer

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns? Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.

Läs mer

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg Datavetenskap Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg Oppositionsrapport, C-nivå 2006:12 1 Sammanfattat omdöme av examensarbetet Examensarbetet är intressant eftersom

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

extensible Markup Language

extensible Markup Language Datavetenskap Opponenter: Björn Olsson Andreas Svensson Respondenter: Sanaa Al-abuhalje Afrah Al-abuhalje XML extensible Markup Language Oppositionsrapport, C-nivå 2007:06 1 Sammanfattat omdöme av examensarbetet

Läs mer

Utveckling av ett grafiskt användargränssnitt

Utveckling av ett grafiskt användargränssnitt Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Projektförslag. Datalingvistisk projektkurs VT mars 2007 Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

Kungl. Tekniska högskolan NADA Grundformer med Stava

Kungl. Tekniska högskolan NADA Grundformer med Stava Kungl. Tekniska högskolan NADA Grundformer med Stava Språkteknologi 2D1418 Höstterminen 2004 Författare: Andreas Pettersson az@kth.se 1. Bakgrund Om man automatiskt ska plocka ut de informationsbärande

Läs mer

Automatisk textsammanfattning

Automatisk textsammanfattning Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem

Läs mer

INSPIRA. Microsoft. Excel 2007 Grunder

INSPIRA. Microsoft. Excel 2007 Grunder INSPIRA Microsoft Excel 2007 Grunder Del 1 1. Introduktion till Excel 8 2. Hantera en arbetsbok 15 3. Formler och format 38 1 INTRODUKTION TILL EXCEL INTRODUKTION TILL EXCEL Starta programmet 8 Avsluta

Läs mer

Synkronisering av kalenderdata

Synkronisering av kalenderdata Datavetenskap Jonas Lindelöw, Richard Löfberg Sten Hansson Bjerke, Anders Friberg Synkronisering av kalenderdata Oppositionsrapport, C/D-nivå 2006:07 1 Sammanfattat omdöme av examensarbetet Vi tycker att

Läs mer

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE SVENSK STANDARD SS-ISO/IEC 26300:2008 Fastställd/Approved: 2008-06-17 Publicerad/Published: 2008-08-04 Utgåva/Edition: 1 Språk/Language: engelska/english ICS: 35.240.30 Information technology Open Document

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Grammatifix Svensk grammatikkontroll i MS Word

Grammatifix Svensk grammatikkontroll i MS Word 2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2

Läs mer

Användarhandledning Version 1.2

Användarhandledning Version 1.2 Användarhandledning Version 1.2 Innehåll Bakgrund... 2 Börja programmera i Xtat... 3 Allmänna tips... 3 Grunderna... 3 Kommentarer i språket... 4 Variabler... 4 Matematik... 5 Arrayer... 5 på skärmen...

Läs mer

Ökat personligt engagemang En studie om coachande förhållningssätt

Ökat personligt engagemang En studie om coachande förhållningssätt Lärarutbildningen Fakulteten för lärande och samhälle Individ och samhälle Uppsats 7,5 högskolepoäng Ökat personligt engagemang En studie om coachande förhållningssätt Increased personal involvement A

Läs mer

Grammatik, det fixar väl datorn?

Grammatik, det fixar väl datorn? Grammatik, det fixar väl datorn? rickard.domeij@sprakradet.se Innehåll Fixar den det? Hur? Då slipper man alltså själv? Ska man stänga av skiten då? Men hur fan ska man då göra? :/ 1 Babelfish Ska är vi

Läs mer

Project Specification: Analysis of voting algorithms

Project Specification: Analysis of voting algorithms Project Specification: Analysis of voting algorithms Mikael Falgard Jon Nilsson Computer Science Royal Institute of Technology 12 februari 2012 Introduktion Det är av stor betydelse för demokratin hur

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Mälardalens högskola

Mälardalens högskola Teknisk rapportskrivning - en kortfattad handledning (Version 1.2) Mälardalens högskola Institutionen för datateknik (IDt) Thomas Larsson 10 september 1998 Västerås Sammanfattning En mycket viktig del

Läs mer

Obesvarade frågor från F4

Obesvarade frågor från F4 Obesvarade frågor från F4 Antal ord i sista upplaga av SAOL 90 000 el 120 000? Varför har barnförbjuden tagits bort och barnförbjuda införts? Formellt singularis, reellt pluralis Mången fotbollsspelare

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

Mobil streckkodsavläsare

Mobil streckkodsavläsare Avdelningen för datavetenskap Martin Persson Jan Eriksson Mobil streckkodsavläsare Oppositionsrapport, D-nivå 2005:xx 1 Generell utvärdering av projektet Projektet gick ut på att undersöka hur bra olika

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Användarstudie utav GRIM på SFI (Svenska För Invandrare)

Användarstudie utav GRIM på SFI (Svenska För Invandrare) Användarstudie utav GRIM på SFI (Svenska För Invandrare) Per-Olof Gatter ing01@kth.se 1 ...Abstract This document is made as an assignment in the course Speech and Gramming checker tools. It is an continuation

Läs mer

Oppositionsrapport: Experior DSTL. Vincent Thuning, Björn Nordström 4 juni 2012

Oppositionsrapport: Experior DSTL. Vincent Thuning, Björn Nordström 4 juni 2012 Oppositionsrapport: Experior DSTL Vincent Thuning, Björn Nordström 4 juni 2012 1 Innehåll 1 Sammanfattat omdöme av examensarbete 2 2 Synpunkter på uppsatsen knuten till examensarbetet 2 2.1 Titel..................................

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Digitalt lärande och programmering i klassrummet

Digitalt lärande och programmering i klassrummet 4 september 2017 Digitalt lärande och programmering i klassrummet Introduktion till Twine Introduktion Twine är en spelmotor gjord för textbaserade spel och interaktiva berättelser. I Twine kopplas korta

Läs mer

Presentationsgränssnitt för statistik och historik

Presentationsgränssnitt för statistik och historik Datavetenskap Opponent(er): Christer Oscarsson, Jonas Larsson Respondent(er): Malin Brand, Niklas Johansson Presentationsgränssnitt för statistik och historik Oppositionsrapport, C-nivå 2010:xx 1 Sammanfattat

Läs mer

- A Scrum Planning Tool Case Study to Evaluate the The Rich AJAX Platform

- A Scrum Planning Tool Case Study to Evaluate the The Rich AJAX Platform Datavetenskap Opponent(er): Jhonny Carvajal Johan Bjärneryd Respondent(er): Fredrik Häggbom Erik Olsson Haglund Scrumptious - A Scrum Planning Tool Case Study to Evaluate the The Rich AJAX Platform Oppositionsrapport,

Läs mer

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac Eva Ansell Ulrika Nilsson MICROSOFT WORD 2008 för Mac 1. Introduktion till Word 2008 för MAc A. Docendo-pedagogiken...6 B. Hämta övningsfiler...7 C. Starta programmet...8 D. Avsluta programmet...8 E. Programfönstret...9

Läs mer

Data visualization on Android

Data visualization on Android Datavetenskap Opponenter: Tobias Eriksson, Agni Rizk Respondent: Victor Ulhagen Data visualization on Android Oppositionsrapport, C/D-nivå 2010:xx 1 Sammanfattat omdöme av examensarbetet Rapporten är bra

Läs mer

Variator Automatisk synonymvariering av text

Variator Automatisk synonymvariering av text Variator Automatisk synonymvariering av text Magnus Rosell 27 mars 2006 Sammanfattning Detta är en rapport om min individuella uppgift i kursen Språkgranskningsverktyg inom GSLT. Den beskriver ett litet

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

Logging Module into the PRIME Core

Logging Module into the PRIME Core Datavetenskap Opponent: Andreas Lavén Respondenter: Anders Ellvin, Tobias Pulls Implementing a Privacy-Friendly Secure Logging Module into the PRIME Core Oppositionsrapport, E-nivå 2005:xx 1 Sammanfattat

Läs mer

TUTORIAL: SAMLING & KONSOLL

TUTORIAL: SAMLING & KONSOLL TUTORIAL: SAMLING & KONSOLL Denna tutorial är en fortsättning på den tutorial där vi skapade klassen Car och sedan objekt av denna klass. Vi skall nu lära oss att lagra dessa objekt i en samling och även

Läs mer

Workplan Food. Spring term 2016 Year 7. Name:

Workplan Food. Spring term 2016 Year 7. Name: Workplan Food Spring term 2016 Year 7 Name: During the time we work with this workplan you will also be getting some tests in English. You cannot practice for these tests. Compulsory o Read My Canadian

Läs mer

Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter

Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Datavetenskap Opponenter: Daniel Jansson Mikael Jansson Respondenter: Mats Almgren Erik Hansen Coridendro ett verktyg för att grafiskt åskådliggöra incidensen av malignt melanom inom olika släkter Oppositionsrapport,

Läs mer

Utveckling av simulator för ärendehanteringssystem

Utveckling av simulator för ärendehanteringssystem Datavetenskap Opponent(er): Emil Danielsson & Patrik Lundberg Respondent(er): Niclas Hanold & Samiar Saldjoghi Utveckling av simulator för ärendehanteringssystem Oppositionsrapport, C/D-nivå 2005:xx 1

Läs mer

Administrationsverktyg för marinvåg

Administrationsverktyg för marinvåg Computer Science Opponent(s): Ewelina Helmersson & Mollin Widegren Respondent(s): Christer Oscarsson & Jonas Larsson Administrationsverktyg för marinvåg Opposition Report, C-level 2010:VT 1 En generell

Läs mer

Titel: Undertitel: Författarens namn och e-postadress. Framsidans utseende kan variera mellan olika institutioner

Titel: Undertitel: Författarens namn och e-postadress. Framsidans utseende kan variera mellan olika institutioner Linköping Universitet, Campus Norrköping Inst/ Kurs Termin/år Titel: Undertitel: Författarens namn och e-postadress Framsidans utseende kan variera mellan olika institutioner Handledares namn Sammanfattning

Läs mer

http://www.sm.luth.se/~andreas/info/howtosearch/index.html

http://www.sm.luth.se/~andreas/info/howtosearch/index.html & ' ( ( ) * +, ', -. / ' 0! 1 " 2 # 3 / /! 1 $ 4, % 5 # 3, http://www.sm.luth.se/~andreas/info/howtosearch/index.html Andreas Tips och trix till sökningar i Cyberrymnden Här försöker jag att gå igenom

Läs mer

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Arv Fundamental objekt-orienterad teknik arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Programmeringsmetodik -Java 165 Grafisk respresentation: Arv

Läs mer

CDC en jämförelse mellan superskalära processorer. EDT621 Campus Helsingborg av: Marcus Karlsson IDA

CDC en jämförelse mellan superskalära processorer. EDT621 Campus Helsingborg av: Marcus Karlsson IDA CDC6600 - en jämförelse mellan superskalära processorer av: Marcus Karlsson Sammanfattning I denna rapport visas konkret information om hur den första superskalära processorn såg ut och hur den använde

Läs mer

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier Skrivstöd Christian Hardmeier (efter Joakim Nivre) 205-- Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Stavning fungerar som bildningsmarkör Standardiserad stavning

Läs mer

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson Ämnesområden Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson martin.fredriksson@lnu.se 1 Ämnesområden ÖVERSIKT 2 Översikt Dagens föreläsning Fokus Innehåll Relevans Presentation Ämnesområden

Läs mer

CS - Computer science. Datateknik Informationsbehandling Datalogi Datavetenskap (ÅA 2008)

CS - Computer science. Datateknik Informationsbehandling Datalogi Datavetenskap (ÅA 2008) CS - Computer science Datateknik Informationsbehandling Datalogi Datavetenskap (ÅA 2008) Vad datateknik INTE är: Att studera datorer Att studera hur man skriver datorprogram Att studera hur man använder

Läs mer

What Is Hyper-Threading and How Does It Improve Performance

What Is Hyper-Threading and How Does It Improve Performance What Is Hyper-Threading and How Does It Improve Performance Ali Muthanna, Lunds Universitet, IDA2, EDT621 Abstract Hyper-Threading (HT) is Intel s version of simultaneous multi-threading (SMT). Hyper-Threading

Läs mer

IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter

IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter IT-körkort för språklärare Modul 9: Rätta skrivuppgifter Innehåll I. Rätta uppgifter i Word... 3 Markera fel med färger snabbt och enkelt... 3 Använd Words rättningsverktyg skriv kommentarer... 4 Gör ändringar

Läs mer

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg, vt 2009 , vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

Lathund för Stava Rex

Lathund för Stava Rex Lathund för Stava Rex för PC Stava Rex är ett avancerat svenskt rättstavningsprogram som kan rätta grava stavfel, lättförväxlade ord samt enklare grammatikfel. Stava Rex klarar av att rätta text i de vanligaste

Läs mer

F Secure Booster är ett verktyg för att snabba upp och städa upp i din pc eller

F Secure Booster är ett verktyg för att snabba upp och städa upp i din pc eller F Secure Booster är ett verktyg för att snabba upp och städa upp i din pc eller Android enhet. För Android användaren finns möjligheten att öka batteritiden genom att stänga ner resurser som inte används.

Läs mer

Algoritmer och problemlösning

Algoritmer och problemlösning Algoritmer och problemlösning Perspektiv på datateknik/datavetenskap - Breddföreläsning 4 Peter Dalenius petda@idaliuse Institutionen för datavetenskap - Linköpings universitet 2005-11-04 Översikt Introduktion:

Läs mer

Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se

Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Grundläggande Textanalys VT 2014 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift

Läs mer

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG Innehåll SPRÅKGRANSKNINGSVERKTYG F1:INTRODUKTION Ola Knutsson KTH CSC, knutsson@csc.kth.se Språkgranskningsverktyg Språk vs. skrivet språk Språkriktighet och grammatikalitet, vad är en bra text? Felanalysens

Läs mer

C++ Slumptalsfunktioner + switch-satsen

C++ Slumptalsfunktioner + switch-satsen C++ Slumptalsfunktioner + switch-satsen Veckans avsnitt består av ett antal lite udda funktioner man kan ha nytta av när man skriver program. Det är en slumptalsgenerator och lite annat smått och gott.

Läs mer

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs Stava Rex för Google Docs Manual för Stava Rex för Google Docs Stava Rex för Google Docs i korthet.... 2 Allmänt om tillägg... 2 Om lärplattor och tillägg... 3 Kontroll av text... 3 De vanligaste meddelandena....

Läs mer

Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)

Emacs. Eric Elfving Institutionen för Datavetenskap (IDA) Emacs Eric Elfving Institutionen för Datavetenskap (IDA) Emacs Utveckas konstant, från 70-talet Är en texteditor (inte ordbehandlare) och fokuserar på texten, inte utseendet. Ingår i GNU-projektet Har

Läs mer

NOFA 3, Karlstad Prof. E. Nordlander1

NOFA 3, Karlstad Prof. E. Nordlander1 2011-05-11 NOFA 3, Karlstad Prof. E. Nordlander1 2011-05-11 NOFA 3, Karlstad Prof. E. Nordlander2 Känner ni igen den här frågan? Måste vi kunna det här? Men vad är egentligen svaret? Ja Nej, men ni FÅR!

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Analys av BI-system och utveckling av BIapplikationer

Analys av BI-system och utveckling av BIapplikationer Computer Science Fredrik Nilsson, Jonas Wånggren Daniel Strömberg Analys av BI-system och utveckling av BIapplikationer Opposition Report, C/D-level 2005:xx 1 Sammanfattat omdöme av examensarbetet Vi tycker

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

Datastrukturer och algoritmer

Datastrukturer och algoritmer Datastrukturer och algoritmer Föreläsning 5 Algoritmer & Analys av Algoritmer Algoritmer Vad är det? Innehåll Mer formellt om algoritmer beräkningsbarhet Att beskriva algoritmer Analysera algoritmer Exekveringstid,

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Estetisk- Filosofiska Fakulteten Svenska. Susanna Forsberg. En skola för alla. att hjälpa barn med ADHD och Aspergers syndrom. A School for Everyone

Estetisk- Filosofiska Fakulteten Svenska. Susanna Forsberg. En skola för alla. att hjälpa barn med ADHD och Aspergers syndrom. A School for Everyone Estetisk- Filosofiska Fakulteten Svenska Susanna Forsberg En skola för alla att hjälpa barn med ADHD och Aspergers syndrom A School for Everyone helping children with ADHD and Aspergers syndrome. Examensarbete

Läs mer

ENTRÉ DOKUMENTHANTERING...

ENTRÉ DOKUMENTHANTERING... Entré Innehåll ENTRÉ DOKUMENTHANTERING... - 2 - Starta Dokumenthantering... - 3 - Lägga till dokument via frågeguide... - 4 - Frågeguiden... - 5 - Lägga till dokument manuellt... - 7 - Lägg till fil...

Läs mer

Obemannade flygplan. Namn: Hampus Hägg. Datum: 2015-03-02. Klass: TE14B. Gruppmedlemmar: Gustav, Emilia, Henric och Didrik

Obemannade flygplan. Namn: Hampus Hägg. Datum: 2015-03-02. Klass: TE14B. Gruppmedlemmar: Gustav, Emilia, Henric och Didrik Namn: Hampus Hägg Obemannade flygplan Datum: 2015-03-02 Klass: TE14B Gruppmedlemmar: Gustav, Emilia, Henric och Didrik Handledare: David, Björn och Jimmy Abstract In this task I ve been focusing on unmanned

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Isolda Purchase - EDI

Isolda Purchase - EDI Isolda Purchase - EDI Document v 1.0 1 Table of Contents Table of Contents... 2 1 Introduction... 3 1.1 What is EDI?... 4 1.2 Sending and receiving documents... 4 1.3 File format... 4 1.3.1 XML (language

Läs mer

Vad kan statistik avslöja om svenska sammansättningar?

Vad kan statistik avslöja om svenska sammansättningar? Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar

Läs mer

Missplel ett generellt verktyg för generering av stavfel

Missplel ett generellt verktyg för generering av stavfel Missplel ett generellt verktyg för generering av stavfel Linus Ericson TRITA-NA-E04045 NADA Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science 100 44 Stockholm Royal

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1 Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut

Läs mer

Grafisk visualisering av en spårbarhetslösning

Grafisk visualisering av en spårbarhetslösning Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell

Läs mer

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1 Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens

Läs mer

Patientutbildning om diabetes En systematisk litteraturstudie

Patientutbildning om diabetes En systematisk litteraturstudie Institutionen Hälsa och samhälle Sjuksköterskeprogrammet 120 p Vårdvetenskap C 51-60 p Ht 2005 Patientutbildning om diabetes En systematisk litteraturstudie Författare: Jenny Berglund Laila Janérs Handledare:

Läs mer