Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Relevanta dokument
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

språkgranskning, ht 2007

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Språkgranskningsverktyg, vt 2009

Grundläggande textanalys, VT2013

Introduktion till språkteknologi. Datorstöd för språkgranskning

Språkgranskningsverktyg. Grammatikkontroll i Word

Obesvarade frågor från F1

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Grammatifix Svensk grammatikkontroll i MS Word

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Kungliga Tekniska Högskolan Patrik Dallmann

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grammatik för språkteknologer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Tekniker för storskalig parsning

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatik för språkteknologer

Inkongruens och särskrivna sammansättningar en beskrivning av två typer av fel och möjligheten att granska dem automatiskt

Svårigheter med kurslitteraturen

Lingvistik I Delmoment: Datorlingvistik

Lingvistiskt uppmärkt text

Inkongruens och särskrivna sammansättningar

Grammatisk teori II Attributvärdesgrammatik

Parsningens olika nivåer

DATORSTÖDD SPRÅKGRANSKNING OCH

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande textanalys. Joakim Nivre

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Behov av språklig granskning. Granska och automatisk språkgranskning av svensk text. Datorn som språkgranskare

språkgranskning, ht 2007

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Grammatik för språkteknologer

Maskinöversättning och språkgranskning, ht 2006

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatik för språkteknologer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Statistisk grammatikgranskning

Automatisk utvinning av felaktigt särskrivna sammansättningar

Ord och morfologi. Morfologi

Lingvistik I Delmoment: Datorlingvistik

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Fraser, huvuden och bestämningar

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg, vt 2008

Automatisk språkgranskning av svensk text

grammatik Ordklasser, nominalfraser, substantiv

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Datorlingvistisk grammatik

Lingvistik I Delmoment: Datorlingvistik

Ordklasser och satsdelar

Lexikon: ordbildning och lexikalisering

Datorlingvistisk grammatik

Språkgranskningsverktyg. F1: Introduktion

Målet är att ge maskiner förmågan att plocka ut information ur

Lingvistiskt uppmärkt text

Gränssnitt för FakeGranska. Lars Mattsson

ORDKLASSERNA I. Ett sätt att sortera våra ord

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

12 Programstege Substantiv

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Inlämningsuppgift: Pronomenidentifierare

Har adjektivets a och e former någon reell betydelse i dagens svenska? Om den så kallade sexusböjningen. Theres Brännmark Grammatikdagen 17 mars 2017

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Textstil/tonalitet med Acrolinx

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

729G09 Språkvetenskaplig databehandling

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lingvistiska grundbegrepp

Grammatik skillnader mellan svenska och engelska

Feltaxonomi. för automatisk språkgranskning av svensk text

Frasstrukturgrammatik

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Språkgranskningsverktyg, vt 2008

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Kursplaneöversättaren. Lina Stadell

Skriftspråk i förändring möter förlegade skrivstöd

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Språkteknologi och Open Source

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Djupstruktur och ytstruktur

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

NORDISKE STUDIER I LEKSIKOGRAFI

Granskaprojektet: Rapport från arbetet med granskningsregler och kommentarer. *** Rickard Domeij Ola Knutsson IPLab, Nada, KTH

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

Karp. Övningar Språkbankens höstworkshop oktober 2016

Transkript:

Grundläggande Textanalys VT 2016 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se

Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift Denna gång Grammatikkontroll Stilkontroll Kontrollerat språk Språkgranskningssystem, med fokus på MS Word och Granska Kort om labben Samarbetsuppgift

GRAMMATIKKONTROLL

Slarvfel (performansfel) Varför behövs grammatikkontroll? Komplexa grammatiska konstruktioner (kompetensfel) Stilkontroll Andraspråksinlärning Dyslexi och andra skrivsvårigheter Stavningskontroll i kontext

Vad förväntas av det ideala grammatikkontrollprogrammet? Känna igen och larma för alla grammatiska fel Känna igen och acceptera alla grammatiskt korrekta strukturer Ge ett korrekt ersättningsförslag för alla ogrammatiska strukturer och kontextuellt felaktiga ordformer

Realistiska förväntningar på grammatikkontrollprogrammet Undvika falska alarm, även om inte alla fel upptäcks Fokusera på typiska och/eller frekventa feltyper korpusstudie anpassning till olika typer av skribenter, såsom dyslektiker eller andraspråksinlärare Fokusera på typer av fel som är lätta att hitta

Grammatikkontrollens delar 1. Feldetektering (error detection) Fel i nominalfrasen: *det tidiga 1800-talen 2. Feligenkänning (error recognition) Numerusinkongruens determinerare-huvudord 3. Feldiagnos (error diagnosis) Substantivet står i plural i stället för singular Determineraren står i singular i stället för plural 4. Felkorrigering (error correction) det tidiga 1800-talet de tidiga 1800-talen

Utmaningar Hur kan man känna igen så många fel som möjligt utan att få för många falska alarm? Långa och komplexa strukturer *de i paragraf 5 stadgade undantaget Undantag från normalfallet Strindbergs Röda Rummet Begränsat till meningsnivå Jag träffade en flicka igår. *De var mycket söta. Hur sträng bör man vara? *Jag insåg att det här går inte. Hur hanterar man dialektala uttryck? *Denna boken är bra.

Strategier för grammatikkontroll Grammatikbaserad grammatikkontroll Fenomenbaserad grammatikkontroll Sannolikhetsbaserad grammatikkontroll

Grammatikbaserad Fullständig syntaktisk analys av meningen grammatikkontroll Relaxering för att hantera ogrammatiska strukturer Accepterande regler en hund NP Relaxerade regler ett hund NP med kongruensfel

Grammatikbaserad grammatikkontroll Styrka J Kan hantera strukturer där två av varandra oberoende ord inte står intill varandra *Problemet med den kommunala fördelningen från inkomstskatter för säsongsanställda är svår att lösa Svagheter L robusthet effektivitet regelskrivande är tidskrävande och kräver stor lingvistisk och programmeringsteknisk kunskap

Inriktning på förväntade fel Fenomenbaserad grammatikkontroll kongruensfel: artikel i neutrum följt av substantiv i utrum *ett hund Partiell syntaktisk analys Reguljära uttryck

Fenomenbaserad grammatikkontroll Styrkor J robusthet effektivitet Svaghet L Begränsat till felaktigheter mellan ord som står nära varandra, såsom otillåtna ordklasskombinationer och kongruens inom nominalfrasen *kunnat kommit *en rött hus

Sannolikhetsbaserad grammatikkontroll Sannolikhet för n-gram av ordsekvenser baserat på korpusdata Trigram mest effektivt unigram och bigram för informationsfattiga fyrgram, femgram etc leder till data sparseness Osannolika trigram byts ut mot mer sannolika trigram John came form the house à John came from the house

Styrkor J (relativt) lätt att implementera ingen lingvistisk kompetens krävs Svagheter L Sannolikhetsbaserad grammatikkontroll alla ordformer kan inte täckas in av korpusen data sparseness sannolikhetsberäkningar kan vara resurskrävande i termer av datorkraft

STILKONTROLL

Vad innefattar stilkontroll? Genomsnittlig ord- och meningslängd Minusord ålderdomliga byråkratiska vardagliga/talspråkliga Vissa syntaktiska konstruktioner passiv Konsekvenskontroll ska skall mej mig

KONTROLLERAT SPRÅK

Kontrollerat språk Specialfall av stilkontroll Delmängd av naturligt språk Restriktioner på vokabulär, grammatik och stil Möjliga mål: Enhetlig layout, terminologi och stavning Ökad läsbarhet Tydlighet (undvik tvetydighet) Grammatisk och terminologisk korrekthet Maskinöversättningsbar källtext

Simplified English Undvik passiv form Använd om möjligt artikel i nominalfraser Använd enkla tempusformer Var konsekvent i språkbruk och meningsuppbyggnad Undvik flerledade sammansättningar Använd korta meningar

Kontrollerade språk AECMA Simplified English Luftfartsindustri, såsom Boeing Simplified English (1990) Caterpillar Technical English (CTE) KANT-systemet IBM EasyEnglish Scaniasvenska Utvecklat av Uppsala universitet

Hur upplevs kontrollerat språk? Finns ett motstånd från användarna Krångligt och tidsödande att lära sig Känner sig inte fria att skriva som de vill Måste lära sig det kontrollerade språket Måste lära sig den programvara som används för att se till att det kontrollerade språket följs den tid man sparar på maskinöversättning äts upp av den tid det tar för skribenten att anpassa sitt skrivande till det kontrollerade språket

Uppnås målet? Undersökningar har visat att kontrollerat språk: Ger högre kvalitet på texten Ökar läsbarheten Ger bättre översättningar (såväl manuella som maskinella)

Ordkontroll Rätt terminologi Komponenter i en checker för Rätt stavningsvariant (color/colour) Akronymer (IKEA/Ikea) Grammatikkontroll Stilkontroll Ord- och meningslängd Datumformat Ersättningsförslag kontrollerat språk

Scania Checker Utvecklat vid institutionen för lingvistik, Uppsala universitet Används dagligen av Scanias skribenter sedan början av 2000-talet Mål: Minska översättningskostnaden Minska antalet termvarianter och därmed öka läsbarheten Korrekt stavning och grammatik

Gulmarkering Okända ord (saknas i lexikonet) Rödmarkering Minusord med ersättningsförslag Grönmarkering grammatikfel Färguppmärkning i Scania Checker

Minusord I Scania Checker fotkontakt, golvkontakt, fotströmsträllare, fotomkopplare Ersätt med: golvströmställare

SPRÅKGRANSKNINGSSYSTEM

Tidiga språkgranskningssystem Critique CORRie

Critique Första praktiska grammatikbaserade språkkontrollsystemet (80-talet) IBM Engelska och franska Föregångare till språkkontrollen i den engelska versionen av Microsoft Word

Feltyper i Critique 25 grammatiska feltyper, fördelade på fem kategorier: 1. numerusinkongruens *many book/he go 2. fel pronomenform *between you and I 3. fel verbform *seems tobeen/had expect 4. skiljeteckenfel 5. sammanblandningar *who s whose 85 stilistiska fel

CORRie Utvecklat för holländska Fem generella feltyper 1. insättning *tåget har har redan gått hus bil 2. borttagning *tåget redan gått 3. substitution *the well performance 4. transposition *jag tror att tåget går inte idag 5. feature mismatch *den lilla huset männen är glad

Grammatifix, Lingsoft Språkgranskningssystem för svenska Granska, Nada, KTH SCARRIE, Uppsala universitet Modifierad variant: Scania Checker Skribent, Norstedts Ordbok

GRAMMATIFIX (MS WORD)

Grammatifix Används för språkkontroll i den svenska versionen av Microsoft Word Stavfel hanteras i separat modul (Orthografix)

Grammatikkontroll i Grammatifix Parsning med SWECG (Swedish Constraint Grammar) i fem steg: 1. Förbehandling 2. Morfologisk analys 3. Morfologisk disambiguering 4. Morfosyntaktisk mappning 5. Syntaktisk disambiguering

Steg 1: Förbehandling Tokenisering Cirka 150 fraser Cirka 5 000 förkortningar Dessa entreprenöriella faktorer hade än så länge dämpat explosionen. *dessa entreprenöriella faktorer hade än_så_länge dämpat explosionen $.

SWETWOL, cirka 75 000 grundformer Steg 2: Morfologisk analys <*dessa> denna <**c> <DEM><MD>DET UTR/NEU DEF PL NOM @DN denna <**c> <DEM>PRON UTR/NEU DEF PL NOM <entreprenöriella> <faktorer> faktor N UTR INDEF PL NOM <hade> ha <AUX> V ACT PAST <än_så_länge> än_så_länge <COLLOCATION> ADV <dämpat> dämpa V ACT SUPINE dämpa <PCP2> A NEU INDEF SG NOM <explosionen> explosion N UTR DEF SG NOM <$.> $. CLB <PUNCT>

Morfologisk analys av okända ord För ord som saknas I SWETWOL-lexikonet Ett 60-tal regler baserade på suffix Okända ord som inte matchas av någon regel antas vara substantiv <entreprenöriella> entreprenöriella <NON-SWETWOL> A UTR/NEU DEF SG NOM entreprenöriella <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM

Cirka 2 100 morfologiska disambigueringsregler Steg 3: Morfologisk disambiguering <*dessa> denna <**c> <DEM><MD>DET UTR/NEU DEF PL NOM @DN denna <**c> <DEM>PRON UTR/NEU DEF PL NOM <entreprenöriella> entreprenöriella <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM <faktorer> faktor N UTR INDEF PL NOM <hade> ha <AUX> V ACT PAST <än_så_länge> än_så_länge <COLLOCATION> ADV <dämpat> dämpa V ACT SUPINE dämpa <PCP2> A NEU INDEF SG NOM <explosionen> explosion N UTR DEF SG NOM <$.> $. CLB <PUNCT>

Steg 4: Morfosyntaktisk Normalt I SWECG: syntaktiska funktionstaggar I Grammatifix trivialt steg: Alla ord tilldelas båda taggarna @OK och @ERR mappning <*dessa> denna <**c> <DEM><MD>DET UTR/NEU DEF PL NOM @DN @OK @ERR <entreprenöriella> entreprenöriella <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM @OK @ERR <faktorer> faktor N UTR INDEF PL NOM @OK @ERR

Steg 5: Syntaktisk disambiguering Feldetekteringsregler väljer om @OK-taggen eller @ERRtaggen ska gälla (@w =s! (@ERR) ; För ett ord (@w) väl (=s!) feltaggen (@ERR) (0 N-DEF) ; om ordet själv (0) är ett substantiv i bestämd form (N-DEF) och (-2 GEN) ; andra ordet till vänster (-2) är en genitiv (GEN) och (-1 A-DEF) ; det första ordet till vänster är ett adjektiv i bestämd form (A-DEF) unionens snabba utvidgningen Kontrollera ordformen utvidgningen. Om ett substantiv styrs av en genitiv, t.ex. unionens, bör det stå i obestämd form.

Feltyper i Grammatifix 43 feltyper fördelade på tre kategorier Grammatiska fel (26) Fokus på verbkedjor och kongruens i nominalfraser Stilbrott på ordnivå (3) Byråkratiska ord Talspråkliga ord Ålderdomliga ord hemställan, vederlag dej, redaktörn särla, tillförne Brott mot skrivkonventioner (14) Parenteser, datumformatering, interpunktion mm

GRANSKA

Granska Utvecklat av Nada, KTH Grundar sig på tidigare forskningsprojekt Plita Stava Partiell parsning i kombination med hjälpregler Omfattande analys endast om meningen verkar vara felaktig Särskilt inriktat mot användare med svenska som andraspråk

Fokus på tre feltyper 1. Särskrivna sammansättningar Han orkade inte flytta sten bumlingarna. 2. Inkongruens i nominalfrasen ett villa 3. Inkongruens i predikativ Äktenskapet är baserad på kärlek.

Fler feltyper Felaktiga sammansättningar (Svenska skrivregler, 1991) undertiden Sammanblandningar tillhör en av (ska vara är en av eller tillhör) Felaktig preposition (svensk handordbok 1966) med utgångspunkt från Objektsform efter preposition Han skickade en rad vänliga brev till de Tautologi orsaken till anledningen Böjningsfel i verbfras Vi kommer spela en låt av Ebba Grön Ordföljdsfel Han sa att han sparkade inte bollen

Granskasystemet Tokeniserare Taggare Lexikon: SUC, SAOL Statistik: SUC Regelmatchare Accepterande regler Hjälpregler Granskningsregler Grafiskt gränssnitt

Regeluppsättning Accepterande (positiva) regler Hanterar korrekta konstruktioner som måste undantas för att undvika falska alarm en massa arbetare Granskningsregler (negativa) Detekterar och korrigerar grammatiska felaktigheter Hjälpregler Utökad, lokal frasstrukturanalys Anropas endast vid behov

Regelfilens struktur category regler { info ( exempelregler ) link( www namn på länk ) } regelnamn@regler { X() Vänsterled (strängen man vill matcha) --> action(scrutinizing) Högerled (hur man vill rätta strängen) }

Några vanliga särdrag wordcl ordklass gender genus num numerus spec species vbf verbform case kasus text ordsträngen lemma lemma

Några vanliga särdragsvärden dt determinerare jj adjektiv nn substantiv (nomen) def bestämd form (definit) utr utrum vb verb pn pronomen pc particip ie infinitivmärke

Några logiska operatorer = lika med!= inte lika med & logiskt och mellan villkor logiskt eller mellan villkor := tilldelning ex: wordcl = nn ex: wordcl!= nn ex: wordcl = nn & gender = utr ex: wordcl = nn wordcl = pn ex: X.form(gender := Y.gender)

Operatorer för ersättningsförslag join X.join(Y.text) sätter ihop X och Y till ett ord delete X.delete() tar bort ordet X replace X.replace(Y.text) ersätter ordet X med ordet Y

Regelexempel 1 regel1@regler { X(text= ett ), Y(wordcl=nn & gender=utr) --> mark(x Y) corr(x.form(gender:=y.gender)) info( inkongruens i nominalfrasen ) action(scrutinizing) } Han köpte ett villa ett villa inkongruens i nominalfrasen (regel1@regler) exempelregel en villa

Regelexempel 2 regel2@regler { X(wordcl=nn & spec=ind & case=nom), Y(wordcl=nn) --> mark(x Y) corr(x.join(y.text)) info( särskriven sammansättning ) action(scrutinizing) } Människans ingrepp döljs dock bättre vinter tid och kan rekomenderas till den känslige naturvännen. vinter tid särskiven sammansättning (regel2@regler) exempelregel vintertid

Referenser Antti Arppe, 1999, Developing a Grammar Checker for Swedish Juhani Birn, 1999, Detecting Grammar Errors with Lingsoft s Swedish Grammar Checker Rickard Domeij, 2005, Datorn granskar språket (kapitel 6-7) Ola Knutsson, 2001, Automatisk språkgranskning av svensk text Theodorus Vosse, 1994, The Word Connection: Grammar-based Spelling Error Correction in Dutch