Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Relevanta dokument
Obesvarade frågor från F1

Språkgranskningsverktyg. Grammatikkontroll i Word

Grammatifix Svensk grammatikkontroll i MS Word

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

språkgranskning, ht 2007

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Svårigheter med kurslitteraturen

Grammatik för språkteknologer

Obesvarade frågor från F4

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Språkgranskningsverktyg, vt 2008

Parsningens olika nivåer

Grammatik för språkteknologer

Grammatik för språkteknologer

Grundläggande textanalys. Joakim Nivre

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Djupstruktur och ytstruktur

Introduktion till språkteknologi. Datorstöd för språkgranskning

Grammatik för språkteknologer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Svensk minigrammatik

DATORSTÖDD SPRÅKGRANSKNING OCH

Maskinöversättning. F Anna Sågvall Hein

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Grammatisk teori II Attributvärdesgrammatik

NORDISKE STUDIER I LEKSIKOGRAFI

Tekniker för storskalig parsning

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Lingvistik I Delmoment: Datorlingvistik

Några skillnader mellan svenska och engelska

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Språkgranskningsverktyg, vt 2009

Korpuslingvistik vt 2007

Fraser, huvuden och bestämningar

ORDKLASSERNA I. Ett sätt att sortera våra ord

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Grammatik skillnader mellan svenska och engelska

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Kursplaneöversättaren. Lina Stadell

Ord och morfologi. Morfologi

Svenska GRAMMATIK: ÖVNINGAR OCH SVAR

Lingvistiskt uppmärkt text

Grundläggande textanalys, VT2013

Svenska GRAMMATIK

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen).

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Svenska GRAMMATIK ÖVNINGAR OCH SVAR

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Svenskans struktur, 7,5 hp Tentamensexempel 1

Statistisk grammatikgranskning

MÖSG ht 2005 Maskinöversättningssystemet MATS

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lingvistiska grundbegrepp

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Antal filmklipp. Sfi - steg

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Antal filmklipp. Sfi - steg

Parsningens olika nivåer

Grammatik för språkteknologer

Satslära introduktion

13. Tema Fritid 4 10 SFI gruppens fritid Övning 3, Modul 5 Fritid hobby Fritid idrott och spel Nöje och umgänge

1 Vilka ord är substantiv? Läs texten.

Lingvistik I Delmoment: Datorlingvistik

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Några skillnader mellan svenska och engelska

FÖR ÅR 2 9 HILLERSTORPSSKOLAN KULLTORPSSKOLAN

Har du koll på språkgranskningen? 15 februari 2018 Sara Rösare och Anki Mattson

Pre-editering och maskinöversättning. Convertus AB

Lingvistik I Delmoment: Datorlingvistik

Flex Sv2gr Planering T1 Flex: Svenska som andraspråk grundläggande. Planering: del 1 Tider: 16:00-18:00

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

grammatik Ordklasser, nominalfraser, substantiv

Datorlingvistisk grammatik

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

ORDKLASSERNA I SVENSKA SPRÅKET

3.4 Sigmatisk aorist och dess infinitiv i aktivum och medium

Att analysera andraspråkstexter

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Kungliga Tekniska Högskolan Patrik Dallmann

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Transkript:

Maskinöversättning och språkgranskning F6: Grammatikkontroll

Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.

Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial. Texten analyseras och felregler tillämpas på den analyserade texten. Utvärdering sker med avseende på recall och precision Jämförbara felrepertoarer i de svenska grammatikkontrollprogrammen

Grammatikkontroll i Word Grammatikkontrollen i Word bygger på analys med Constraint grammar, CG, och tillämpning av felregler. Analysen sker med lokala regler och resulterar i en taggad - morfologiskt analyserad och disambiguerad - version av texten. Felregler appliceras på den analyserade texten.

Grundversionen av CG Förberedande bearbetning Lexikal analys Morfologisk disambiguering Tilldelning av möjliga syntaktiska funktioner Syntaktisk disambiguering Se vidare Birn 1998, http://www.lingsoft.fi/doc/swecg/intro/

Förberedande bearbetning Tokenisering Ord Förkortningar Skiljetecken Fasta förbindelser som man vill behandla som enheter, t.ex. till hands, så snart som, som fungerar som adverb resp. konjunktion

Lexikal analys Morfologisk analys SWETWOL SVENSK TVÅNIVÅGRAMMATIK (Karlsson 1992) Tillståndsgrammatik (finite state) http://www.nada.kth.se/kurser/kth/2d1418/uppsats er04/lisa_lagerkvist.pdf Morfologisk heuristik t.ex. entreprenöriella

Anpassning av SWECG för grammatikkontroll Förberedande bearbetning Lexikal analys Morfologisk disambiguering Taggning av varje ord: @ERR och @OK Feligenkänningsregler, dvs. regler som arbetar på taggarna och väljer ut felen

Ett exempel Det finns många engelska lånord vilkas diskontinuerliga stavningen inte tycks bereda språkbrukarna några problem. Vad är fel?

Morfologisk analys många mången <ID> DET UTR/NEU INDEF PL NOM mången PRON UTR/NEU INDEF PL NOM engelska engelsk A UTR/NEU DEF SG NOM engelsk A UTR/NEU DEF/INDEF PL NOM engelska N UTR INDEF SG NOM lånord lån-ord N NEU INDEF SG/PL NOM vilkas vilken <WH><CLB><MD> DET UTR/NEU INDEF PL GEN vilken <WH> <CLB> PRON UTR/NEU INDEF PL GEN diskontinuerliga diskontinuerlig A UTR/NEU DEF SG NOM diskontinuerlig A UTR/NEU DEF/INDEF PL NOM stavningen stavning N UTR DEF SG NOM

Disambiguering många mången <ID> DET UTR/NEU INDEF PL NOM engelska engelsk A UTR/NEU DEF/INDEF PL NOM lånord lån-ord N NEU INDEF SG/PL NOM vilkas vilken <WH> <CLB> PRON UTR/NEU INDEF PL GEN diskontinuerliga diskontinuerlig A UTR/NEU DEF SG NOM stavningen stavning N UTR DEF SG NOM

Taggning Varje läsning (analys) tilldelas två taggar: en feltagg och en ok-tagg många mången <ID> DET UTR/NEU INDEF PL NOM @ERR@OK

Tillämpning av feligenkänningsregler många mången <ID> DET UTR/NEU INDEF PL NOM @OK engelska engelsk A UTR/NEU DEF/INDEF PL NOM @OK lånord lån-ord N NEU INDEF SG/PL NOM @OK vilkas vilken <WH> <CLB> PRON UTR/NEU INDEF PL GEN @OK diskontinuerliga diskontinuerlig A UTR/NEU DEF/INDEF PL NOM @OK stavningen stavning N UTR DEF SG NOM @ERR

Ex. på en regel (@w=s!(@err) ;For a word in focus, select the error tag (0 N-DEF) ;if the word itself is a noun in definite form (-2 GEN) ;if the second word to the left is a genitive (-1 A-DEF)) ;if the first word to the left is an adjective in ;definite form ================================= @w the word itself s! select @ERR error tag

Feligenkänningsgrammatiken Totalt 659 regler Till varje regel kopplas ett felmeddelande, som omfattar benämning på felet förklaring rättelse

Ett felmeddelande Benämning: Substantivets bestämdhetsform Förklaring: Kontrollera ordformen (0). Om ett substantiv styrs av en genitiv, t.ex. (-2), bör det stå i obestämd form Rättelse: (0 N DEF)=>(0 N INDEF) ==================================== Förklaring och rättelse i det aktuella exemplet: Förklaring: Kontrollera ordformen stavningen. Om ett substantiv styrs av en genitiv, t.ex. vilkas, bör det stå i obestämd form. Rättelse: stavningen => stavning

En felregel i CG Regeln har fyra delar Domän @w el. <..> /ett speciellt ord/ Operator =s! (select) el. =s0 (remove) Måltavla @ERR el. @OK Kontextvillkor

Ytterligare exempel Ett@ERR högtrycksrygg förskjuts norrut. ( <ett> =s!@err (1N-UTR))

Möjligheter och problem Fel i mycket lokala kontexter kan beskrivas enkelt och väl Grundläggande konflikt mellan disambiguering och feligenkänning, vilket gör formalismen som helhet svår att överblicka Svårt att beskriva fel som spänner över längre kontexter Svårt att fånga alla specifika kontexter för ett visst fel

Ett exempel Femtiofem brunsmutsiga tygbitar kanske inte verkar vara mycket för världen, men när textilfragmenten är drygt 300 år gamla och härrör från drottning Kristinas kläder ser det bruna trasorna genast mycket intressantare ut. Det bruna trasorna ser intressanta ut.

Feltyper, 1 1. 2. 3. 4. 5. 6. Bestämdhetsform hos substantiv:... samhällets utvecklingen(@err)... Bestämdhetsform hos adjektiv:... sin egna(@err) energi... Numeruskongruens: determinerare och substantiv:... de(@err) statliga monopolet... Numeruskongruens: adjektiv och substantiv: Ny(@ERR) upplagor... Genuskongruens: determinerare och substantiv:... vardera(@err) laget... Genuskongruens: adjektiv och substantiv: Effektiv(@ERR) ledarskap...

Feltyper, 2 7. 8. 9. 10. 12. 13. Maskulinform hos adjektiv:... den rödhårige(@err) kvinnan. Predikativkongruens: Den nya apparaturen är inte praktiska(@err) att använda. Supinum utan ''ha'': Där borde nog polisen ryckt(@err) in med detsamma. Dubbelt supinum: Vi hade velat sett(@err).... Dubbelt passiv: Saken har försökts att tystas(@err) ner. S-passiv efter vissa verb: Huset ämnar byggas(@err). Infinitiv utan ''att'': Han kunde inte undvika möta(@err) hennes blick.

Feltyper, forts 14. 15. 16. 17. 18. 19. 20. Infinitiv med ''att'': Sverige började att(@err) klassa... Antalet finita verb: I Ryssland är betalar(@err) nästan ingen någon skatt... Inget finit verb: Det bli(@err) viktigt. Inget verb: Ingenting här.(@err) Placering av adverb i bisats:... att den lär knappast(@err) gå över... Placering av negerat led i bisats:... påstår att lite stryk gör ingen(@err) skada. Ordföljd i indirekt frågesats: Jag undrar vad gör(@err) de de unga männen i Finland.

Feltyper, 4 21. Genuskongruens: pronomen och substantiv.. en(@err) av de tre aggregaten 22. Pronomenets form efter preposition: Jag tänker på de(@err) som kommer sist. 23. Infinitiv efter preposition:... för stödja(@err) myndigheters och företags miljöarbete. 24. Dubbel negation:... om man inte har varken(@err) pengar eller familj... 25. Prepositionsbruk vid tvåledad konjunktion:... vare sig i Lund eller Malmö(@ERR). 26. Konstruktionen ''möjligast'' + adjektiv: Han körde med möjligast(@err) stora snabbhet.

Grammatikkontroll i Scarrie Bygger på en partiell analys av texten enligt en utvidgad frasstrukturgrammatik. Reglerna relaxeras för att släppa igenom fel beträffande särdrag inom fraskonstituenter, t.ex. kongruensfel, och felen noteras. Särskilda felregler för strukturella fel, t.ex. avsaknad av predikatsverb. Analys med en chartparser, UCP-parsern.

Utvärdering Recall hur stor andel av felen i texten har programmet upptäckt? Undergenerering innebär missade fel. Precision - hur många av de upptäckta felen är verkliga fel? Övergenerering innebär falska alarm.

Språkgranskning och MT RBMT Om orden innehåller stav- el. skrivfel, så återfinns de inte i lexikonen. Det innebär att inte heller den grammatiska analysen fungerar Om det är fel i den grammatiska strukturen, så kommer den grammatiska analysen att misslyckas och översättningskvaliteten blir lidande Sålunda bör översättningen föregås av ord- och grammatikkontroll SMT Om orden innehåller stav- el. skrivfel, så får man glesa statistiska data och översättningskvaliteten blir lidande Sålunda bör översättningsprocessen föregås av ordkontroll

Språkgranskning och datorstödd språkinlärning Språkgranskningsverktygen kan användas för datorstödd språkinlärning Ordkontroll för träning av stavning, böjning och ordbildning Grammatikkontroll för träning av grammatisk struktur, Särskilt viktigt är det att diagnosen är anpassad till den aktuella inlärningsnivån Kan Words diagnoser användas i inlärningssammanhang?

Språkgranskning och informationssökning Ordkontroll är nyttig vad gäller sökfrågorna, jfr. Google.