Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Relevanta dokument
språkgranskning, ht 2007

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Introduktion till språkteknologi. Datorstöd för språkgranskning

Språkgranskningsverktyg. Grammatikkontroll i Word

Maskinöversättning och språkgranskning, ht 2006

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

språkgranskning, ht 2007

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg, vt 2008

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Obesvarade frågor från F1

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande textanalys, VT2013

Grammatifix Svensk grammatikkontroll i MS Word

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Svårigheter med kurslitteraturen

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Språkgranskningsverktyg, vt 2008

Maskinöversättning och språkgranskning F5 Allmänt om språkgranskning + ordkontroll

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg. Felmodellering

Parsningens olika nivåer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Lingvistik I Delmoment: Datorlingvistik

Grammatik för språkteknologer

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Tekniker för storskalig parsning

Målet är att ge maskiner förmågan att plocka ut information ur

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Fraser, huvuden och bestämningar

Grundläggande textanalys. Joakim Nivre

Lingvistik I Delmoment: Datorlingvistik

Grammatik för språkteknologer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Språkgranskningsverktyg. F1: Introduktion

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Lingvistik I Delmoment: Datorlingvistik

Obesvarade frågor från F4

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Skriftspråk i förändring möter förlegade skrivstöd

Inkongruens och särskrivna sammansättningar en beskrivning av två typer av fel och möjligheten att granska dem automatiskt

Inkongruens och särskrivna sammansättningar

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Djupstruktur och ytstruktur

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

DATORSTÖDD SPRÅKGRANSKNING OCH

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Feltaxonomi. för automatisk språkgranskning av svensk text

Automatisk språkgranskning av svensk text

Grammatisk teori II Attributvärdesgrammatik

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Tekniker för storskalig parsning: Grundbegrepp

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

NORDISKE STUDIER I LEKSIKOGRAFI

Grammatik för språkteknologer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

grammatik Ordklasser, nominalfraser, substantiv

Kungliga Tekniska Högskolan Patrik Dallmann

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Tekniker för storskalig parsning

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Allt fler svenskar skriver dagligen texter. Kontrollera språkkontrollen FRAMTIDEN OLA KARLSSON

Statistisk grammatikgranskning

Hur böjs Astrid Lindgrens hjältar i (i) Empirisk språkforskning i ett nötskal

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Att lära sig skriva i IT-samhället

Lingvistiskt uppmärkt text

Textstil/tonalitet med Acrolinx

Att lära sig skriva i IT-samhället

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Språkteknologi och Open Source

729G09 Språkvetenskaplig databehandling

Grammatik för språkteknologer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Automatisk utvinning av felaktigt särskrivna sammansättningar

Tekniker för storskalig parsning

Lexikon: ordbildning och lexikalisering

Del II Revisionsprocessen och datorstödd språkgranskning en bakgrund

Innehåll. Två olika sätt att utvärdera. Varför skall man utvärdera språkgranskningssystem? F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Lathund för SpellRight

Datum: Date: Provkodr: KTR1 Exam code:

Utveckling av lexikala resurser för ett språkgranskningssystem för svenska

Språkfärdighet 3 hp, ht 07

Datorlingvistisk grammatik

Korpuslingvistik vt 2007

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

SUBSTANTIV = namn på saker, personer, känslor

Kungl. Tekniska högskolan NADA Grundformer med Stava

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs

Maskinöversättning. F Anna Sågvall Hein

Frasstrukturgrammatik

Transkript:

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word Eva Pettersson UU/Convertus evapet@stp.lingfil.uu.se

Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem för andra språk än svenska Språkgranskningssystem för svenska, med fokus på Grammatifix Dagens labb

Varför behövs grammatikkontroll? Andraspråksinlärning Dyslexi Komplexa grammatiska konstruktioner Slarvfel Stilkontroll Stavningskontroll

Varför räcker inte stavningskontroll för stavningskontroll? Isolerade stavfel som resulterar i icke-ord fångas av stavningskontrollen: coh à och Brist på lexikontäckning kan lura skribenten att faktiskt stava fel, exvis särskriva sammansättningar: jätte trött Ord i kontext, dvs stavfel som resulterar i riktiga ord (real word errors): jag er dålig på att stava språk teknologi är kul Bättre korrigeringsförslag: det är sårt att stava Word/PPT 2011 föreslår: särt, sort, surt, svårt, sårat

Vad förväntas av det ideala grammatikkontrollprogrammet? Känna igen och larma för alla grammatiska fel Känna igen och acceptera alla grammatiskt korrekta strukturer Ge ett korrekt ersättningsförslag för alla ogrammatiska strukturer och kontextuellt felaktiga ordformer

Mer realistiska förväntningar Endast larma för riktiga grammatikfel, även om inte alla fel upptäcks Fokusera på typiska och/eller frekventa feltyper Korpusundersökning Anpassning till olika typer av skribenter, exvis dyslektiker eller andraspråksinlärare Fokusera på sådana typer av fel som är lätta att hitta

Grammatikkontrollens delar Feldetektering (detection) Fel i nominalfrasen: *det tidiga 1800-talen Feligenkänning (recognition) Numerusinkongruens: determinerare huvudord Feldiagnos (diagnosis) Substantivet står i plural istf singular alt. Determineraren står i singular istf plural Felkorrigering (correction) det tidiga 1800-talet alt. de tidiga 1800-talen

Feligenkänning av sammansättningar Enklast strategi: ord = ord + ord dator + lingvistik = datorlingvistik Förfinad strategi: ord = förled + ord flicka + klänning = fllickklänning äpple + paj = äppelpaj kvinna + parti = kvinnoparti cigarr + rök = cigarrök

Feligenkänning av sammansättningar (forts) Sammansättningsanalys minskar antalet falska alarm Sammansättningsanalys kan dock öka antalet missade fel! Missade fel i Word97 pga sammansättningsanalys: kotakt kontakt makelera makulera medalg medalj cykelsäll cykelställ särkskilt särskilt

Problem inom grammatikkontroll Hur kan man känna igen så många fel som möjligt utan att få för många falska alarm? Långa och komplexa strukturer: De i paragraf 5 stadgade undantaget Undantag från normalfallet: Strindbergs Röda Rummet Begränsat till meningsnivå: Jag träffade en flicka igår. De var mycket söta. Hur sträng bör man vara? Jag insåg att det här går inte. Hur hanterar man dialektala uttryck? Denna boken är bra.

Strategier för grammatikkontroll Grammatikbaserad grammatikkontroll Fenomenbaserad grammatikkontroll

Grammatikbaserad kontroll Fullständig syntaktisk analys Relaxering Kan hantera strukturer där två av varandra beroende ord inte står intill varandra: Problemet med den kommunala fördelningen från inkomstskatter för säsongsanställda är svår att lösa Svaga punkter: robusthet och effektivitet

Fenomenbaserad kontroll Begränsad analys Robust och effektivt Begränsat till grammatiska felaktigheter mellan ord som står nära varandra, exvis otillåtna ordklasskombinationer: kunnat kommit

Stilkontroll Genomsnittlig ord- och meningslängd Minusord Ålderdomliga Vardagliga/talspråkliga Byråkratiska Vissa syntaktiska konstruktioner Passiv Konsekvenskontroll ska skall, mej mig

Critique Språkgranskningssystem för andra språk än svenska CORRie

Critique Första praktiska grammatikbaserade språkkontrollsystemet (80-talet) IBM Engelska och franska Föregångare till språkkontrollen i den engelska versionen av Microsoft Word

Feltyper i Critique 25 grammatiska feltyper, fördelade på fem kategorier: Numerusinkongruens: many book/he go Fel pronomenform: between you and I Fel verbform: seems to been/had expect Skiljeteckenfel Sammanblandningar av ord: who s whose 85 stilistiska fel

CORRie Utvecklat för holländska Fem generella feltyper Insättning tåget har har redan gått - hus bil Borttagning tåget _ redan gått Substitution the well performance Transposition jag tror att tåget går inte idag Feature mismatch den lilla huset/männen är glad

Grunden till CORRies feltyper Kompetensfel Fonetiska fel: resturang à restaurang Homofonfel: gott à gått Performansfel Insättning språkteknologii Borttagning spåkteknologi Substitution sprokteknologi Transposition spårkteknologi

Språkgranskningssystem för svenska Grammatifix, Lingsoft SCARRIE, Uppsala universitet Modifierad variant: ScaniaChecker Granska, Nada, KTH Skribent, Norstedts Ordbok

Grammatifix Stavfel hanteras separat (Orthografix) Parsning med SWECG (Swedish Constraint Grammar) i fem steg: 1. Förbehandling 2. Morfologisk analys 3. Morfologisk disambiguering 4. Morfosyntaktisk mappning 5. Syntaktisk disambiguering

Steg 1: Förbehandling Tokenisering Cirka 150 fraser Cirka 5 000 förkortningar *dessa entreprenöriella faktorer hade än_så_länge dämpat explosionen $

Steg 2: Morfologisk analys SWETWOL, cirka 75 000 grundformer "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN "denna" <**c> <DEM> PRON UTR/NEU DEF PL NOM "<entreprenöriella>" "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "dämpa" <PCP2> A NEU INDEF SG NOM "<explosionen>" "explosion" N UTR DEF SG NOM "<$.>" "$." CLB <PUNCT>

Morfologisk analys av okända ord För ord som saknas i SWETWOL-lexikonet: Ett 60-tal regler baserade på suffix Okända ord som inte matchas av någon regel antas vara substantiv "<entreprenöriella> "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF SG NOM "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM

Steg 3: Morfologisk disambiguering Cirka 2 100 morfologiska disambigueringsregler "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN "<entreprenöriella> entreprenöriella <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "<explosionen>" "explosion" N UTR DEF SG NOM "<$.>" "$." CLB <PUNCT>

Steg 4: Morfosyntaktisk mappning Normalt i SWECG: syntaktiska funktionstaggar I Grammatifix: Alla ord tilldelas båda taggarna @OK och @ERR "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN @OK @ERR "<entreprenöriella>" "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM @OK @ERR "<faktorer>" "faktor" N UTR INDEF PL NOM @OK @ERR

Steg 5: Syntaktisk disambiguering Feldetekteringsregler väljer om @OK-taggen eller @ERRtaggen ska gälla (@w =s! (@ERR) ; För ett ord (@w) välj (=s!) feltaggen (@ERR) (0 N-DEF) ; om ordet själv (0) är ett substantiv i bestämd form (N-DEF) och (-2 GEN) ; om andra ordet till vänster (-2) är en genitiv (GEN) och (-1 A-DEF)) ; om det första ordet till vänster är ett adjektiv i best.form (A-DEF). unionens snabba utvidgningen Kontrollera ordformen utvidgningen. Om ett substantiv styrs av en genitiv, t.ex. unionens, bör det stå i obestämd form

Feltyper i Grammatifix 43 feltyper fördelade på tre kategorier: Grammatiska fel (26) Främst verbkedjor och kongruens inom nominalfraser Stilbrott på ordnivå (3) Byråkratiska ord: hemställan, vederlag Talspråkliga ord: Ålderdomliga ord: dej, redaktörn särla, tillförne Brott mot skrivkonventioner (14) Parenteser, datumformatering, interpunktion med mera

SCARRie Scandinavian Proof-Reading Tools Svenska, norska och danska Korrekturläsningsverktyg för tidningsskribenter Stavnings- och grammatikkontroll Bygger på stor empirisk felundersökning SCARRie Error Corpora Database (ECD) Cirka 9 000 autentiska fel från SvD och UNT Fel med korrigering utförd av korrekturläsare

SCARRie Error Corpora Database

Feltyper i SCARRie Error Corpora Database Hierarkiska feltypologi i fyra nivåer Cirka 500 feltyper Fem feltyper på översta nivån Stavfel (SE) 43% Interpunktionsfel (PU) 17% Stil, mening och referens (SP) 16% Grammatiska fel (GP) 15% Grafiska fel (GR) 9%

Vanliga grammatiska feltyper Nominalfrasen (41%) Numerusinkongruens mellan framförställt attribut och huvud (GPNPAG01) en upptrappad psykologiska krigföring Verbvalens (17%) Infinitivmärke saknas (GPVVIP01) Vi kommer också jobba med OS-arenan Prepositionsfras (11%) Fel preposition (GPPPPR04) Prognoserna över arbetslöshetens utveckling

Uppbyggnad Stavningskontroll baserad på CORRie Lexikonuppslagning Sammansättningsregler Grammatikkontroll Partiell parsning med Uppsala Chart Parser (UCP) Chart Scanner (ReportChart) letar igenom analysen efter felsärdrag

SCARRies grammatikkontroll Tre typer av regler Accepterande regler en hund NP Relaxerade relger ett hund NP med kongruensfel Lokala felregler för strukturella fel på sats- och meningsnivå

SCARRies grammatikkontroll (forts) Hanterar cirka 30 grammatiska feltyper utifrån feltypologin Exempel på feltyper som hanteras: Fel i nominalfrasen en eventuellt segerfest får vänta Pronomenkasus och ingen kan väl klandra de som deltog Fel i verbkedjan om människor börja tro på förändring Ordföljdsfel jag undrar vad gör de små busungarna

Scania Checker Variant av SCARRie som anpassats till att hantera Scanias kontrollerade språk Utvecklat vid institutionen för lingvistik, UU, och driftas idag av avknoppningsföretaget Convertus AB Används dagligen av Scanias skribenter Minusord för konsistens vid val av terminologi fotkontakt, golvkontakt, fotströmställare, fotomkopplare Ersätt med: golvströmställare

Dagens labb Utvärdering av stavnings- och grammatikkontroll i MS Word http://stp.lingfil.uu.se/~evapet/undervisning/ textanalys11/word-lab.html

Referenser Anna Sågvall Hein, 1998, A Chart-Based Framework for Grammar Checking Initial Studies http://www.lingfil.uu.se/personal/anna/nodali.pdf Ola Knutsson, 2001, Automatisk språkgranskning av svensk text Antti Arppe, 1999, Developing a Grammar Checker for Swedish: http:// www.ling.helsinki.fi/~aarppe/publications/nodalida-99.pdf Juhani Birn, 1999, Detecting grammar errors with Lingsoft s Swedish grammar checker Rickard Domeij, 2005, Datorn granskar språket (kapitel 6-7) Theodorus Gregorius Vosse, 1994, The Word Connection: Grammar-based Spelling Error Correction in Dutch Anna Sågvall Hein, 1998, A grammar checking module for Swedish, i WP12* Olga Wedbjer Rambell et al, 1998, An Error Database of Swedish, i WP5* Olga Wedbjer Rambell, 1998, Error Typology for Automatic Proof-reading, i WP4* * Working Papers in Computational Linguistics & Language Engineering http://www.lingfil.uu.se/ling/wp.html