Språkgranskningsverktyg. Grammatikkontroll i Word

Relevanta dokument
Obesvarade frågor från F1

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

språkgranskning, ht 2007

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Grammatifix Svensk grammatikkontroll i MS Word

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Parsningens olika nivåer

Grammatik för språkteknologer

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Svårigheter med kurslitteraturen

Grammatik för språkteknologer

NORDISKE STUDIER I LEKSIKOGRAFI

Obesvarade frågor från F4

Grammatik för språkteknologer

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Grammatik för språkteknologer

Grundläggande textanalys. Joakim Nivre

Några skillnader mellan svenska och engelska

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Grammatik skillnader mellan svenska och engelska

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Introduktion till språkteknologi. Datorstöd för språkgranskning

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Tekniker för storskalig parsning

Fraser, huvuden och bestämningar

Korpuslingvistik vt 2007

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Grammatisk teori II Attributvärdesgrammatik

Några skillnader mellan svenska och engelska

Datorlingvistisk grammatik

Språkgranskningsverktyg, vt 2008

Lingvistiskt uppmärkt text

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Frasstrukturgrammatik

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

ORDKLASSERNA I. Ett sätt att sortera våra ord

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Svensk minigrammatik

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Svenska GRAMMATIK: ÖVNINGAR OCH SVAR

Sidan 1. Mångtydighet. Ordföljd och informationsstruktur. En situation. Fri ordföljd. Finska kasus. Bunden ordföljd

Datorlingvistisk grammatik

Parsningens olika nivåer

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Svenska GRAMMATIK

Ord och morfologi. Morfologi

Svenska GRAMMATIK ÖVNINGAR OCH SVAR

FÖR ÅR 2 9 HILLERSTORPSSKOLAN KULLTORPSSKOLAN

Lingvistiska grundbegrepp

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Olika typer av satser

729G09 Språkvetenskaplig databehandling

1 Vilka ord är substantiv? Läs texten.

Grundläggande textanalys, VT2013

Djupstruktur och ytstruktur

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Satslära introduktion

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Grammatik för språkteknologer

Ordklasser och satsdelar

13. Tema Fritid 4 10 SFI gruppens fritid Övning 3, Modul 5 Fritid hobby Fritid idrott och spel Nöje och umgänge

Lingvistiskt uppmärkt text

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen).

Skriftspråk i förändring möter förlegade skrivstöd

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Svenska utan gränser. Studentlitteratur. Louiza Lindbäck. - på sfi, universitet och företag UNIVERSITÄTSBIBLIOTHEK KIEL - ZENTRALBIBLIOTHEK -

ANDREAS ISSA SVENSKA SPRÅKET

Att analysera andraspråkstexter

Antal filmklipp. Sfi - steg

Statistisk grammatikgranskning

Antal filmklipp. Sfi - steg

DATORSTÖDD SPRÅKGRANSKNING OCH

Grim. Några förslag på hur du kan använda Grim. Version 0.8

ORDKLASSERNA I SVENSKA SPRÅKET

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Språkgranskningsverktyg, vt 2009

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Grundläggande textanalys, VT2013

grammatik Ordklasser, nominalfraser, substantiv

SUBSTANTIV = namn på saker, personer, känslor

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Grundläggande syntaktiska funktioner och roller

Trädrepresentation. Parentesrepresentation

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Transkript:

Språkgranskningsverktyg Grammatikkontroll i Word

Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial. Texten analyseras och felregler tillämpas på den analyserade texten. Utvärdering sker med avseende på recall och precision. Jämförbara felrepertoarer i de svenska grammatikkontrollprogrammen (Granska, Word, Scarrie)

Word: Grammatifix Grammatifix är resultat av ett utvecklingsprojekt som genomfördes 1997-1999 av Lingsoft, Inc., http://www.lingsoft.fi, ett finskt språkteknologiskt företag. Lingsoft har licensierat Grammatifix till Microsoft som grammatikkontrollkomponent i den svenska versionen av Microsoft Office 2000. Grammatifix finns också som en fristående produkt och i en specialversion för kontroll av finlandssvenska.

Huvudgrupper av fel Grammatikfel SWECG Typografiska fel Reguljära uttryck över teckensträngar Stilistiska avvikelser Lexikal taggning

Grammatikkontroll med SWECG Grammatikkontrollen bygger på morfologisk och syntaktisk analys med hjälp av SWECG (Constraint Grammar, CG, for Swedish) Analysen resulterar i en platt struktur en taggad version av texten. På den taggade versionen tillämpas felregler.

Constraint Grammar CG bygger på lokala regler och skiljer sig därigenom från tidigare formella grammatikmodeller som t.ex. frasstrukturgrammatik. I CG finns inga globala meningsregler; reglerna beskriver förhållanden mellan närstående delar av satsen. Den resulterande analysen blir ytligare än den som en frasstruktur genererar; å andra sidan lämnar den inga delar helt oanalyserade. CG, inkl. dess morfologiska komponent TWOL (tvånivåmorfologi), är resultat av datorlingvistisk forskning som utförts vid Institutionen för lingvistik vid Helsingfors universitet. Båda programmen skapades ursprungligen för allmän språkanalys utan särskild inriktning mot grammatikkontroll.

Grundversionen av CG Förberedande bearbetning Lexikal analys Morfologisk disambiguering Morfosyntaktisk mappning Tilldelning av möjliga syntaktiska funktioner Syntaktisk disambiguering Se vidare Birn 1998, http://www.lingsoft.fi/doc/swecg/intro/

Förberedande bearbetning Tokenisering Ord Förkortningar (t.ex. bl.a.) Skiljetecken Fasta förbindelser som man vill behandla som enheter, t.ex. till hands, så snart som, som fungerar som adverb resp. konjunktion

Lexikal analys Morfologisk analys SWETWOL Lexikonbaserad morfologisk analys Segmentering i stammar och affix Alla alternativ presenteras Tillståndsgrammatik (finite state) Morfologisk heuristik t.ex. entreprenöriella Se vidare: Svensk tvånivågrammatik (Karlsson 1992), http://www.nada.kth.se/kurser/kth/2d1418/uppsatser04/lisa_lagerk vist.pdf

Ett exempel Dessa entreprenöriella faktorer hade än så länge dämpat explosionen. Efter tokenisering: *dessa entreprenöriella faktorer hade än_så_länge dämpat explosionen $.

Efter morfologisk analys "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN> "denna" <**c> <DEM> PRON UTR/NEU DEF PL NOM "<entreprenöriella> "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "dämpa" <PCP2> A NEU INDEF SG NOM "<explosionen>" "explosion" N UTR DEF SG NOM <$.> "$." CLB <PUNCT>

Ex. på en disambigueringsregel (informellt uttryckt) For a word, W, ambiguous between V SUPINE and <PCP2> A NEU, select the V reading if, somewhere to the left of W, there is a form of the verb ha, and if, between ha and W, there is no other verb and no clause boundary indicator, and if W is not preceded by a neuter indefinite singular determiner or by a coordinator, and if W is not followed by a neuter indefinite singular noun or by a coordinator.

Syntaktisk analys (efter morfosyntaktisk mappning, tilldelning av möjliga syntaktiska funktioner samt disambiguering) "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN> "<entreprenöriella>" "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM @AN> "<faktorer>" "faktor" N UTR INDEF PL NOM @SUBJ "<hade>" "ha" <AUX> V ACT PAST @+FCV "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV @ADVL "<dämpat>" "dämpa" V ACT SUPINE @-FMV "<explosionen>" "explosion" N UTR DEF SG NOM @OBJ "<$.>" "$." CLB <PUNCT> @

Anpassning av SWECG för grammatikkontroll Förberedande bearbetning Lexikal analys Disambiguering ******************* Taggning av varje ord: @ERR och @OK Feligenkänningsregler, dvs. regler som väljer ut de korrekta taggarna

Ett exempel Det finns många engelska lånord vilkas diskontinuerliga stavningen inte tycks bereda språkbrukarna några problem. Vad är fel? Finns feltypen med i Scarrie-typologin?

Efter morfologisk analys många mången <ID> DET UTR/NEU INDEF PL NOM mången PRON UTR/NEU INDEF PL NOM engelska engelsk A UTR/NEU DEF SG NOM engelsk A UTR/NEU DEF/INDEF PL NOM engelska N UTR INDEF SG NOM lånord lån-ord N NEU INDEF SG/PL NOM vilkas vilken <WH><CLB><MD> DET UTR/NEU INDEF PL GEN vilken <WH> <CLB> PRON UTR/NEU INDEF PL GEN diskontinuerliga diskontinuerlig A UTR/NEU DEF SG NOM diskontinuerlig A UTR/NEU DEF/INDEF PL NOM stavningen stavning N UTR DEF SG NOM

Efter disambiguering många mången <ID> DET UTR/NEU INDEF PL NOM engelska engelsk A UTR/NEU DEF/INDEF PL NOM lånord lån-ord N NEU INDEF SG/PL NOM vilkas vilken <WH> <CLB> PRON UTR/NEU INDEF PL GEN diskontinuerliga diskontinuerlig A UTR/NEU DEF SG NOM stavningen stavning N UTR DEF SG NOM

Taggning och feligenkänning Varje analys tilldelas två taggar: en feltagg och en ok-tagg, t.ex. många mången <ID> DET UTR/NEU INDEF PL NOM @ERR@OK Feligenkänningsreglerna väljer rätt tagg.

Efter feligenkänningsregler många mången <ID> DET UTR/NEU INDEF PL NOM @OK engelska engelsk A UTR/NEU DEF/INDEF PL NOM @OK lånord lån-ord N NEU INDEF SG/PL NOM @OK vilkas vilken <WH> <CLB> PRON UTR/NEU INDEF PL GEN @OK diskontinuerliga diskontinuerlig A UTR/NEU DEF/INDEF PL NOM @OK stavningen stavning N UTR DEF SG NOM @ERR

En felregel i CG Regeln har fyra delar Domän @w el. <..> /ett speciellt ord/ Operator =s! (select) el. =s0 (remove) Måltavla @ERR el. @OK Kontextvillkor

Ex. på regler (@w=s!(@err) ;For a word in focus, select the error tag (0 N-DEF) ;if the word itself is a noun in definite form (-2 GEN) ;if the second word to the left is a genitive (-1 A-DEF)) ;if the first word to the left is an adjective in ;definite form

Feligenkänningsgrammatiken Totalt 659 regler Till varje regel kopplas ett felmeddelande, som omfattar benämning på felet förklaring rättelse

Ett felmeddelande Benämning: Substantivets bestämdhetsform Förklaring: Kontrollera ordformen (0). Om ett substantiv styrs av en genitiv, t.ex. (-2), bör det stå i obestämd form Rättelse: (0 N DEF)=>(0 N INDEF) ==================================== Förklaring och rättelse i det aktuella exemplet: Förklaring: Kontrollera ordformen stavningen. Om ett substantiv styrs av en genitiv, t.ex. vilkas, bör det stå i obestämd form. Rättelse: stavningen => stavning

Ytterligare exempel Ett@ERR högtrycksrygg förskjuts norrut. ( <ett> =s!@err (1C N-UTR))

Kontextvillkor Polaritet Positiv el. negativ Position Target 0 Absolut 1,2.., -1, -2 Obunden *1, *2..,-1*, -2* Länkad (flera villkor..) R+1, R+2, *R. L-1,L-2,..*L Försiktig läsning villkoret är uppfyllt bara om läsningen är entydig Mängd Allt som refereras till i kontextvillkoren måste deklareras som en mängd, t.ex. set set elements (N-NEU (N NEU))

Möjligheter och problem Fel i mycket lokala kontexter kan beskrivas enkelt och väl Grundläggande konflikt mellan disambiguering och feligenkänning, vilket gör formalismen som helhet svår att överblicka Svårt att beskriva fel som spänner över längre kontexter Svårt att fånga alla specifika kontexter för ett visst fel

Ett exempel Det bruna trasorna ser intressanta ut. Femtiofem brunsmutsiga tygbitar kanske inte verkar vara mycket för världen, men när textilfragmenten är drygt 300 år gamla och härrör från drottning Kristinas kläder ser det bruna trasorna genast mycket intressantare ut.

Feltyper 1. Bestämdhetsform hos substantiv:... samhällets utvecklingen(@err)... 2. Bestämdhetsform hos adjektiv:... sin egna(@err) energi... 3. Numeruskongruens: determinerare och substantiv:... de(@err) statliga monopolet... 4. Numeruskongruens: adjektiv och substantiv: Ny(@ERR) upplagor... 5. Genuskongruens: determinerare och substantiv:... vardera(@err) laget... 6. Genuskongruens: adjektiv och substantiv: Effektiv(@ERR) ledarskap...

Feltyper, forts, 7. Maskulinform hos adjektiv:... den rödhårige(@err) kvinnan. 8. Predikativkongruens: Den nya apparaturen är inte praktiska(@err) att använda. 9. Supinum utan ''ha'': Där borde nog polisen ryckt(@err) in med detsamma. 10. Dubbelt supinum: Vi hade velat sett(@err)... 11. Dubbelt passiv: Saken har försökts att tystas(@err) ner. 12. S-passiv efter vissa verb: Huset ämnar byggas(@err). 13. Infinitiv utan ''att'': Han kunde inte undvika möta(@err) hennes blick.

Feltyper, forts 14. Infinitiv med ''att'': Sverige började att(@err) klassa... 15. Antalet finita verb: I Ryssland är betalar(@err) nästan ingen någon skatt... 16. Inget finit verb: Det bli(@err) viktigt. 17. Inget verb: Ingenting här.(@err) 18. Placering av adverb i bisats:... att den lär knappast(@err) gå över... 19. Placering av negerat led i bisats:... påstår att lite stryk gör ingen(@err) skada. 20. Ordföljd i indirekt frågesats: Jag undrar vad gör(@err) de de unga männen i Finland.

Feltyper, forts. 21. Genuskongruens: pronomen och substantiv:... en(@err) av de tre aggregaten 22. Pronomenets form efter preposition: Jag tänker på de(@err) som kommer sist. 23. Infinitiv efter preposition:... för stödja(@err) myndigheters och företags miljöarbete. 24. Dubbel negation:... om man inte har varken(@err) pengar eller familj... 25. Prepositionsbruk vid tvåledad konjunktion:... vare sig i Lund eller Malmö(@ERR). 26. Konstruktionen ''möjligast'' + adjektiv: Han körde med möjligast(@err) stora snabbhet.

Språklig norm Finns det några grammatiska feltyper i SWECG som inte finns med i Scarrietypologin? Vilka? Är det skillnader i den språkliga normen?