Maskinöversättning och språkgranskning 2008 F5 Allmänt om språkgranskning + ordkontroll
Språkgranskningsverktyg Datorprogram som fungerar som skrivstöd genom att kontrollera språkriktighet och ev. stil i text. Språkriktighet och stil bedöms i relation till en given norm
Språkgranskningsområden Stavningskontroll Stilkontroll Avstavning Grammatikkontroll
Deluppgifter för ett språkgranskningsprogram Känna igen fel Diagnosticera dem Rätta el. föreslå rättelser
Önskemål Igenkänning fullständighet (recall) alla fel ska kännas igen träffsäkerhet (precision) inga falska alarm Diagnos korrekt diagnos ska ställas/väljas tillräckligt specifik för att ge grund för rättelse el. rättelseförslag
Önskemål, forts. Rättelseförslag Träffsäkerhet Formulering med hänsyn tagen till användaren
Olika användare Den vane användaren Journalister Tekniska skribenter Inlärare Barn etc.
Användaranpassning Lexikon Terminologi Grammatik Kontrollerat språk
Kommersiella språkgranskningsprogram för svenska WORD Tansa http://www.tansasystems.com/products.htm Skribent http://licenser.adm.gu.se/gu/pgm/skribent.html Scania Checker etc.
Språklig norm Preskriptiv, ej deskriptiv, lingvistik Skriftspråk, ej talspråk Vem fastställer normen för det svenska standardspråket? Svenska Akademien Språkrådet (f.d. Svenska språknämnden)
Svenska Akademien Svenska Akademien instiftades 1786 av Gustaf III. Den främsta uppgiften skulle vara att arbeta på svenska språkets "renhet, styrka och höghet", dvs. dess klarhet, uttrycksfullhet och anseende. För att uppnå det målet skulle Akademien bland annat utarbeta en ordbok och en grammatik. Svenska Akademiens ordlista Svenska Akademiens ordbok Svenska Akademiens grammatik
Svenska Akademiens ordlista SAOL (1986), 11 upplagan av Svenska Akademiens Ordlista c:a 120.000 uppslagsord SAOL (2006), 13 upplagan http://www.saol.se/ Ungefärligt antal uppslagsord? Vilka stilar och ämnesområden urskiljs?
Användning av SAOL Huvudkälla för svensk stavning vid manuell stavningskontroll. Källa till flera svenska stavningsprogram. Uppslagsord originalversionen = grundform Manuellt bruk uppblåst version = böjningsform Maskinellt bruk
Ex. på uppslag i SAOL(1986) form -en s. 1 pl. -ar i sms. som gjutform, bakform 2 pl. -er skapnad, gestalt, yttre beskaffenhet -beständig -bröd -bunden -enlig -experiment -fast -fel -flaska tekn. -franska bröd -fråga s. -fulländad -fulländning -förändring -ge el. giva -givare -givning -gjuta -kurva sport. -känsla -lära -lös -löshet -maskin tekn. -massa -ord t.ex. pronomen, preposition -pressa tekn. -pressning -ren adj. -rik-rikedom -rytteri -sak -sand tekn. -skön -spruta v. tekn. -sprutning -språk -stridig -sträng adj. -svacka s. sport. -system -topp sport. -verktyg -vilja -värld 1form a 1 -an -or s. liten öppning i ugns vägg för tillförsel av blästerluft m.m. 2 -ade v. ge form åt; gestalta; skapa m.m.; sms. se under form -ad -at adj.
Svenska Akademiens ordbok Svenska Akademiens ordbok, SAOB, är en historisk ordbok som beskriver svenskt skriftspråk från 1521 till våra dagar. Man har hunnit från A till Trivsel. Deskriptiv, inte preskriptiv http://www.saob.se/
Språkrådet Språkrådet (f.d. Svenska språknämnden) är Sveriges officiella språkvårdsorgan. Rådet är en del av den nya språkmyndigheten Institutet för språk och folkminnen. Språkrådet ger bland annat ut Språk- och skrivråd.
Mål för ordkontroll Skrivfel Fel som beror på bristande uppmärksamhet och som leder till icke-ord,t.ex. coh Rätt ord men fel i sammanhanget, t.ex. Föredraget vad intressant. Den här karten med inlagda höjdschatteringar blev årets karta både 2006 och 2007 (UNT 2008-04-27)
Stavningskontroll, forts. Stavfel Fel som beror på bristande kunskap, t.ex alldrig, altid, undervisitet, åtminstonde bad design, stekt kyckling lever Tjära vän!
Stilkontroll Avvikelser från standardspråket Ålderdomlig, byråkratisk, talspråklig etc. Uttryck Ordval, t.ex. ity, pimpad Böjningsform, t.ex. sig/sej, de/dom Struktur, t.ex. större än jag/ större än mig; före middagen/innan middagen
Huvudmetoder för feligenkänning vid stavningskontroll Lexikalisk Avstämning mot lexikon (lab) Problem med produktiva ordbildningar Statistisk avstämning mot trigram (Nylander 2000) problem med täckning Grafotaktisk avstämning mot grafotaktiska regler (Nylander 2000) problem med täckning
Avstavning i svenska Mekanisk avstavning enkonsonantregeln En konsonant till nästa rad, men Bryt ej ck, ng som betecknar ett ljud (fonem) vid sammansättningsgräns Morfematisk avstavning Avstavning mellan ordled Den morfematiska avstavningen lanserades i SAOL 1986
Omskrivningsregler för stavelseigenkänning vid mek. avstavning SYLL1 (C1) V (C2) V {a, e, i, o, u,...} C1 {b, c, d, f,...} C2 {b, c, d, f,.., ck, ng,...} (från Sågvall Hein 97) Introduktion till språkteknologi 1997
Avstavning enl. den mekaniska och den morfematiska principen mekanisk morfematisk fyrkant fyr-kant fyr-kant ankor an-kor ank-or elitutbildning eli-tutbildning elit-utbildning andras and-ras andr-as (annan) andras and-ras an-dras (andra) bildrulle bild-rulle bild-rulle bildrulle bild-rulle bil-drulle (från Sågvall Hein 97) Introduktion till språkteknologi 1997
Ordfel som kräver grammatikkontroll Ett stor hus Böckerna var intressant. En av de många fallen Där samlade då hela universitetets spridda administration (UNT 2008-04-27) Det är tänkbart att vi flyttar ut Skandalhuset, men jag kan inte föregripa utvecklingen (UNT 2008-04-27) En idé har varit att göra Carolina till bli universitetets ansikte med en informationsdisk i entrén för studenter och besökare (UNT 2008-04-27)
Vad förväntas av det ideala ordkontrollprogrammet? Känna igen och larma för alla felskrivna ord Känna igen och acceptera alla rättstavade ord Ge ett korrekt rättningsförslag för alla felskrivna ord
Mer realistiska förväntningar Känna igen och larma för de mest frekventa och lättidentifierade felstavningarna Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket Ge ett troligt rättningsförslag för alla felstavade ord (frekvens)
Feligenkänningsstrategier Trigram av tecken Larmar för ovanliga teckenkombinationer Används främst inom OCR Lexikon Fullformslexikon eller stamlexikon Lexikonstorleken avgörande: För stort lexikon = många fel missas (låg täckning) För litet lexikon = många falska alarm (låg precision)
Feligenkänning mha lexikon Problem: språket är produktivt omöjligt att lista alla ord i lexikonet Brist på täckning kan lura skribenten att faktiskt stava fel, t. ex. särskriva sammansättningar: jätte trött
Feligenkänning mha lexikon, forts Kompletterande strategier: Morfologiska regler för t.ex. avledningar Sammansättningsregler Egennamnsigenkänning Tillåt användaren att lägga till egna ord i lexikonet
Feligenkänning: sammansättningar Enklast strategi: ord = ord + ord dator + lingvistik = datorlingvistik Förfinad strategi: ord = förled + ord flicka + klänning = flickklänning äpple + paj = äppelpaj kvinna + parti = kvinnoparti cigarr + rök = cigarrök
Feligenkänning: sammansättningar, forts Sammansättningsanalys minskar antalet falska alarm Sammansättningsanalys kan dock öka antalet missade fel kotakt kontakt makelera makulera medalg medalj cykelsäll cykelställ särkskilt särskilt
Felkorrigering: feltyper Kompetensfel Fonetiska fel: restaurang ---> resturang Homofonfel: gott ---> gått Performansfel Insättning språkteknologii Borttagning spåkteknologi Substitution sprokteknologi Transposition spårkteknologi
Felkorrigering: empiriskt grundade iakttagelser De flesta felstavningar är performansfel (insättning, borttagning, substitution eller transposition) De flesta felstavningar påverkar inte ordets längd med mer än en bokstav Första bokstaven i ordet är sällan felaktig Tangenternas placering påverkar Bokstävernas frekvenser påverkar
Korrigeringsstrategier Minimum Edit Distance Likhetsnycklar N-gramsbaserade tekniker Regelbaserade tekniker Probabilistiska tekniker Neurala nätverk
Minimum Edit Distance Stränglikhet Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan Editeringsoperationer: Insättning Borttagning Substitution (alt. borttagning + insättning) Transposition (alt. borttagning + insättning)
Minimum Edit Distance r ä n g n a r e g n a r
Minimum Edit Distance r ä n g n a r e g n a r substitution + borttagning + insättning = 3
Likhetsnycklar Strängar matchas mot nycklar Ord som stavas på liknande sätt har likadana eller nästan likadana nycklar
Likhetsnycklar: SOUNDEX (1) SOUNDEX: Indexing on Sound Odell & Russel, 1918 (!) Fonetisk likhet Vokaler ignoreras Konsonanter grupperas tillsammans om de liknar varandra fonetiskt Användning: Flygbokningssystem (Davidson 1962)
Likhetsnycklar: SOUNDEX (2) Behåll det första tecknet Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w: 0 b, f, p, v: 1 c, g, j, k, q, s, x, z: 2 d, t: 3 l: 4 m, n: 5 r: 6 Ta bort alla nollor Ta bort alla på varandra följande dubbletter Spara de tre första siffrorna
Likhetsnycklar: SOUNDEX (3) disappoint disapont ---> D215 ---> D215 Ersättningsförslag för disapont: disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing
N-gramsbaserade tekniker Stränglikhet: andelen gemensamma n-gram (trigram) Likhet(i, j) = 2C/(n+n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j
N-gramsbaserade tekniker Hur lika är concider och consider? ##c #co con onc nci cid ide der er# r## ##c #co con ons nsi sid ide der er# r## C (antalet gemensamma trigram) = 7 n (antalet trigram i concider) = 10 n (antalet trigram i consider) = 10 Likhet(concider, consider) = 2C/n+n = 14/20 = 0,70
N-gramsbaserade tekniker Hur lika är concider och cider? ##c #co con onc nci cid ide der er# r## ##c #ci er# r## cid ide der C (antalet gemensamma trigram) = 6 n (antalet trigram i concider) = 10 n (antalet trigram i cider) = 7 Likhet(concider, cider) = 2C/n+n = 12/17 = 0,71
Vidareläsning, för den som vill Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text Daniel Jurafsky & James H. Martin, 2000 (avsnitt 5.1 5.6), Speech and Language Processing Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR errors. http://stp.ling.uu.se/exarb/arch/2000-001.pdf Roger Mitton, 1996, Spellchecking by Computer. http://www.dcs.bbk.ac.uk/~roger/spellchecking.html