Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad



Relevanta dokument
Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Grundläggande textanalys, VT2013

Behov av språklig granskning. Granska och automatisk språkgranskning av svensk text. Datorn som språkgranskare

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Innehåll. Två olika sätt att utvärdera. Varför skall man utvärdera språkgranskningssystem? F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Introduktion till språkteknologi. Datorstöd för språkgranskning

Kungliga Tekniska Högskolan Patrik Dallmann

Inkongruens och särskrivna sammansättningar en beskrivning av två typer av fel och möjligheten att granska dem automatiskt

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Inkongruens och särskrivna sammansättningar

Gränssnitt för FakeGranska. Lars Mattsson

Grammatik, det fixar väl datorn?

språkgranskning, ht 2007

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

DATORSTÖDD SPRÅKGRANSKNING OCH

Obesvarade frågor från F4

Föreläsningens innehåll. Granska. 1. Granskas regelspråk 2. Parsning i Granska 3. Språkgranskning i Granska 4. Granska-laborationen

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

En vanlig dag på jobbet

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Bootstrapping för substantivtaggning

Identifiering av ordvitsar med Granska

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS

Automatisk språkgranskning av svensk text

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Språkgranskningsverktyg, vt 2009

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Lathund för Stava Rex

Granskas regelspråk. Ola Knutsson. Uppdaterad IPLab, Nada, KTH

Så här fungerar Stava Rex

Grammatisk teori II Attributvärdesgrammatik

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

språkgranskning, ht 2007

Grundläggande textanalys, VT2013

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

3. Granskas regelspråk

Satsdelar. Carina

Malmö högskola 2012/2013 Teknik och samhälle

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Automatisk utvinning av felaktigt särskrivna sammansättningar

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs

Mobil streckkodsavläsare

Obesvarade frågor från F1

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Skriftspråk i förändring möter förlegade skrivstöd

Kungl. Tekniska högskolan NADA Grundformer med Stava

Ord och fraser. Vi pratar om väder. Uttal. Väder-kommentarer. Grammatik:

Convertus - kursplaneöversättning

Maskinöversättning och språkgranskning, ht 2006

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Lathund för SpellRight

Sample exam questions. Database exam TIG058

Granskas regelspråk. Tentativ version, Ola Knutsson IPLab, Nada, KTH

Introduktion till Datalogi DD1339. Föreläsning 2 22 sept 2014

Spanska höstterminen 2014

Gesäll provet Internetprogrammering I. Författare: Henrik Fridström. Personnummer: Skola: DSV

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Lingvistik I Delmoment: Datorlingvistik

Vanliga frågor för VoiceXpress

Statistisk grammatikgranskning

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Grundläggande textanalys. Joakim Nivre

Arbetsuppgift Skrivning och Grammatik v. 1

METALL/STRÖM DETEKTOR

Vetenskapligt skrivande. Några råd inför det vetenskapliga skrivandet

Allt fler svenskar skriver dagligen texter. Kontrollera språkkontrollen FRAMTIDEN OLA KARLSSON

Lgr 11 Centralt innehåll och förmågor som tränas:

Microsoft Word. Lathund för. Innehåll. Autokorrigering. Autotext. Format

Kardía. fåglar en sol. ett berg en gungställning. ett träd. en bro. gräs. en å. Substantiv. Hanna Hägerland

Användarmanual. SMS Fjärrkontroll för Värmepump / Air Condition. Modell: GARD

Datum: Date: Provkodr: KTR1 Exam code:

Svensk grammatik Ordklasser!

Handbok Nepomuk-WebMiner. Jörg Ehrichs Översättare: Stefan Asserhäll

Inlämningsuppgift: Pronomenidentifierare

Lathund för Stava Rex

TEST POZIOMUJĄCY Z JĘZYKA SZWEDZKIEGO NA POZIOMIE B2. Lycka till!!!

Granskaprojektet: Rapport från arbetet med granskningsregler och kommentarer. *** Rickard Domeij Ola Knutsson IPLab, Nada, KTH

Föreläsning 2. Operativsystem och programmering

GRUNDKURS I C-PROGRAMMERING

SVENSKA Inplaceringstest A

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

!!! Några verb är oregelbundna vara är var!!!

Datum: Date: Provkodr: KTR1 Exam code:

Språkteknologi. Språkteknologi

VIKTIGT!!!! Man får under inga omständigheter starta fästet utan att en TV är monterad!

Skrivprocessen. Skrivprocessen och retoriken. Skrivprocessen Retoriken Förklaringar

Lgr 11 - Centralt innehåll och förmågor som tränas: Lgrs 11 - Centralt innehåll och förmågor som tränas:

Bakgrund. Om boken. Om författaren. Arbetsmaterial LÄSAREN Darias stigar. Författare: Emma- Ida Johansson

Kom igång med SpellRight

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Transkript:

Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort om utvärdering av Granska Demo av Grim Inför laborationen Datorstöd för skrivande Planering Textproduktion Revidering/granskning Problemställning Vad är det vi vill att programmet skall utföra? Detektera felet Lokalisera felet Beskriva felet Skapa rättningsförslag Vilka metoder finns? Regler Statistik och maskininlärning Hybrider Metoden kan bedömas på feldetektionsnivå eller på systemnivå. Granskas uppbyggnad Tokeniseraren Taggaren Lexikon (SUC & SAOL) Statistik (SUC) Regelmatcharen Regler (300 regler) Ordböjningsfunktion Grafiskt gränssnitt Interaktion med användaren

Kvinnan kvinna nn.utr.sin.def.nom hade ha vb.prt.akt.aux köpt köpa vb.sup.akt en en dt.utr.sin.ind ny ny jj.pos.utr.sin.ind.nom hus hus nn.neu.plu.ind.nom bil bil nn.utr.sin.ind.nom Första av allt: Namngivning av regelkategori och regler category regler info("exempelregler") link("www" "namn på länk") regelnamn@regler X() action(scrutinzing) ex2@regler X(wordcl=nn & spec=ind & case=nom), % hus Y(wordcl=nn) % bil ex1@regler X(text="ett"), Y(wordcl=nn & gender=utr) corr(x.form(gender:=y.gender)) ex2@regler X(text="gå"), Y(text="över"), Z(text="nån"), Z2(text="efter"), Z3(text="vatten") mark(z) corr(z.replace("ån")) info("misstänkt fel: det heter nog gå över ån efter vatten") ex3@regler X(wordcl=nn & spec=ind & case=nom), Y(wordcl=nn)

en elakt hund ett liten hus ex4@regler X1(wordcl=dt), X2(wordcl=jj), X3(wordcl=nn & (gender!=x2.gender num! =X2.num spec!=x2.spec) & (gender=x1.gender & num=x1.num & spec=x1.spec)) action (scrutinizing) corr (X2.form(gender:=X3.gender, num:=x3.num, spec:=x3.spec)) Generering av ersättningsförslag Här ligger några trevligt restauranger. Problem: Om varje ord i lexikonet kopplas explicit till alla dess böjningsformer blir lexikonet väldigt stort. Lösning: Basformen trevlig slås upp i lexikonet. Varje basform i lexikonet har en böjningsregel. Med hjälp av böjningsregeln för trevlig hittas den rätta formen trevliga. Anropas med metoden form (x.särdrag:=särdragsvärde) Varning: Granska granskar sig själv! Viktiga metoder för ersättningsförslag insert (Y) tar Y som text, t.ex. Y.text och sätter in det före det angivna objektet, X.insert(Y) join (Y) tar Y som text enligt: X.join(Y.text) och sätter ihop dem till en textsträng (ord) delete tar bort det angivna objektet, enligt: X.delete(). replace(y) tar Y som text, Y.text, och ersätter det angivna objektet med Y, enligt X.replace(Y.text) Särskrivna sammansättningar En ljus hårig sjuk sköterska satt vid en bar disk. Mellan 12 och 16 kollar vi glykolhalt och spolar vatten och olja på din bil. Jag har köpt en ny rygg säck. Han dömdes för miss handel av hovrätten. Särskrivna sammansättningar: några lösningar Utnyttja kongruens/inkongruens: ett cykel ställ Stava: cykelställ är en godkänd sammansättning Satsgränsigenkänning (Ejerheds algoritm) Accepterande regler Taggning av felaktiga konstruktioner Här taggas hylla som nomen: Vi har köpt en bok hylla sa Per. Här taggas hylla som verb: Vi har köpt en bok hylla på IKEA sa Per. Anpassa sig till taggaren? Tillgång till fler tolkningar av ordet + lexikal sannolikhet

Hur man skriver regler för att hitta felaktiga särskrivningar I grova drag för t.ex. språk granskning eller signal detektionsteori: 1. Leta upp två substantiv i obestämd form som står i följd. Korrekta detektioner: I grova drag för t.ex. språk granskning eller signal detektionsteori Falska alarm: Jag kan tänka mig att en massa bedömare har gjort en rad studier i ämnet. 2. Ta bort så många falska alarm som möjligt. Ställ ytterligare krav på matchningen. Viktigaste kravet: det första substantivet får inte tillhöra gruppen substantiv som kan utgöra en måttapposition, t.ex. grupp, antal, rad, massa. 3. Använd Stava språk granskning språkgranskning Stava Felstavat! Rättstavat! Inget alarm Felet signaleras Särskrivningsregel ex5@regler X(wordcl=nn & spec=ind & case=nom & nntype!= set & nntype!=dat), Y(wordcl=nn & spec=ind & spell_ok (smart_concat(x.text, Y.text), X.token)) info("felaktig särskrivning") Uppgift: skriv en regel som upptäcker och åtgärdar formfel som i: Jag har spela grammofon. Jobba gärna i par Fråga! Lösning? Utvärdering av Granska: Fem texttyper undersöktes Sportnyheter 63 568 ord Utrikesnyheter 20 881 ord Myndighetstexter 36 667 ord Populärvetenskap 32 386 ord Gymn.- och högskoleuppsatser 47 517 ord -------------------------------------------------------- 201 019 ord (400 A4)

Felfrekvenser Fel i verbkedjan 21 % Särskrivna sammansättningar 18 % Inkongruens i nominalfraser 17 % Inkongruens i predikativ 4 % Stavfel med gram-sem konsekvens 13 % Jag har hjort läxan Ord saknas 13 % Han kör? grön bil Några resultat vid utvärderingen av Granska Begränsad undersökning I populärvetenskaplig text upptäcktes 9 av 10 fel, 5 av 10 felrapporter var korrekta Gymn.- och högskoletexter upptäcktes 4 av 10 fel, 7 av 10 felrapporter var korrekta Övriga fel 14 % Användaranpassning av Granska Andraspråksinlärare och användare med speciella behov Andra behov av språklig hjälp Om en mening innehåller många fel är den synnerligen svår att analysera Nya krav på gränssnitt och innehåll Grim! http://skrutten.nada.kth.se/grim