Maskinöversättning och språkgranskning F5 Allmänt om språkgranskning + ordkontroll

Relevanta dokument
Språkgranskningsverktyg. F1: Introduktion

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg, vt 2008

Maskinöversättning och språkgranskning, ht 2006

språkgranskning, ht 2007

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Obesvarade frågor från F4

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Introduktion till språkteknologi. Datorstöd för språkgranskning

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Lingvistik I Delmoment: Datorlingvistik

Grundläggande textanalys, VT2013

Missplel ett generellt verktyg för generering av stavfel

Maskinöversättning. F Anna Sågvall Hein

Språkgranskningsverktyg, vt 2009

Målet är att ge maskiner förmågan att plocka ut information ur

Kungl. Tekniska högskolan NADA Grundformer med Stava

Grundläggande textanalys. Joakim Nivre

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Vårdat, enkelt och begripligt!

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Lathund för Stava Rex

Vad kan statistik avslöja om svenska sammansättningar?

Stränglikhet Manchester United vs Manchester Utd. B A R A N S Ö L E N

Svårigheter med kurslitteraturen

Använda SpellRight 2 i Word 2010

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Textstil/tonalitet med Acrolinx

Teoretisk lingvistik och datalingvistik. Robin Cooper

Datorlingvistik och språkteknologi

Använda Stava Rex i Word 2010

LADDA NER LÄSA. Beskrivning. Viktiga ord i svenska : stavning PDF ladda ner

Lathund för SpellRight

Kursplaneöversättaren. Lina Stadell

Hur gör man? Skrivprocessen. Vilka regler gäller? Skribentens verktygslåda. Att skriva. En beskrivning av studenters skrivprocess

Kursplan i svenska. Mål att sträva mot för år F-5

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Språkgranskningsverktyg. Felmodellering

Att använda Stava Rex i Word 2007

Språkteknologi och Open Source

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

LADDA NER LÄSA. Beskrivning. Svenska Akademiens grammatik PDF LÄSA ladda ner

Statistisk Maskinöversättning eller:

Till särskrivningens försvar. Nils Dverstorp Europeiska språkdagen 25 september 2015

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Tekniker för storskalig parsning

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Har du koll på språkgranskningen? 15 februari 2018 Sara Rösare och Anki Mattson

Tekniken bakom språket

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

Statistisk grammatikgranskning

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Språkpsykologi/psykolingvistik

Cristina Eriksson oktober 2001

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Allt fler svenskar skriver dagligen texter. Kontrollera språkkontrollen FRAMTIDEN OLA KARLSSON

RÄTTNINGSMALL. Delprov A. Språkform och språknorm (2013) MÅLSPRÅK SVENSKA. Anvisningar

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

Utveckling av lexikala resurser för ett språkgranskningssystem för svenska

LÄSLANDET - BOKSTÄVER OCH ORD

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

SÅ HÄR SKRIVER VI PÅ HÖGSKOLAN I BORÅS. Skrivhandbok för begripliga texter

DAB760: Språk och logik

Kursplan i svenska grundläggande kurs W

Att lära sig skriva i IT-samhället

Hur man programmerar. Exempel på problemlösning i Python

Identifiering av ordvitsar med Granska

Uttalskorrigering med hjälp av Fonetisk text

när du arbetar med uppsatser och andra långa texter

Kom igång med SpellRight

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Innehåll B-nivå B.1 Två olika konsonanter i rad; i slutet och i början av ord.

BLOCK 1. 1A. Att komma igång

Centralt innehåll: Lokal Pedagogisk Planering i svenska. Ämnesområde: Skolfotot och Huset. Ansvarig lärare: Annika Svartling Andersson

Automatisk utvinning av felaktigt särskrivna sammansättningar

Språket, individen och samhället VT08

Kamratbedömning. Fokusera på följande:

Transkript:

Maskinöversättning och språkgranskning 2008 F5 Allmänt om språkgranskning + ordkontroll

Språkgranskningsverktyg Datorprogram som fungerar som skrivstöd genom att kontrollera språkriktighet och ev. stil i text. Språkriktighet och stil bedöms i relation till en given norm

Språkgranskningsområden Stavningskontroll Stilkontroll Avstavning Grammatikkontroll

Deluppgifter för ett språkgranskningsprogram Känna igen fel Diagnosticera dem Rätta el. föreslå rättelser

Önskemål Igenkänning fullständighet (recall) alla fel ska kännas igen träffsäkerhet (precision) inga falska alarm Diagnos korrekt diagnos ska ställas/väljas tillräckligt specifik för att ge grund för rättelse el. rättelseförslag

Önskemål, forts. Rättelseförslag Träffsäkerhet Formulering med hänsyn tagen till användaren

Olika användare Den vane användaren Journalister Tekniska skribenter Inlärare Barn etc.

Användaranpassning Lexikon Terminologi Grammatik Kontrollerat språk

Kommersiella språkgranskningsprogram för svenska WORD Tansa http://www.tansasystems.com/products.htm Skribent http://licenser.adm.gu.se/gu/pgm/skribent.html Scania Checker etc.

Språklig norm Preskriptiv, ej deskriptiv, lingvistik Skriftspråk, ej talspråk Vem fastställer normen för det svenska standardspråket? Svenska Akademien Språkrådet (f.d. Svenska språknämnden)

Svenska Akademien Svenska Akademien instiftades 1786 av Gustaf III. Den främsta uppgiften skulle vara att arbeta på svenska språkets "renhet, styrka och höghet", dvs. dess klarhet, uttrycksfullhet och anseende. För att uppnå det målet skulle Akademien bland annat utarbeta en ordbok och en grammatik. Svenska Akademiens ordlista Svenska Akademiens ordbok Svenska Akademiens grammatik

Svenska Akademiens ordlista SAOL (1986), 11 upplagan av Svenska Akademiens Ordlista c:a 120.000 uppslagsord SAOL (2006), 13 upplagan http://www.saol.se/ Ungefärligt antal uppslagsord? Vilka stilar och ämnesområden urskiljs?

Användning av SAOL Huvudkälla för svensk stavning vid manuell stavningskontroll. Källa till flera svenska stavningsprogram. Uppslagsord originalversionen = grundform Manuellt bruk uppblåst version = böjningsform Maskinellt bruk

Ex. på uppslag i SAOL(1986) form -en s. 1 pl. -ar i sms. som gjutform, bakform 2 pl. -er skapnad, gestalt, yttre beskaffenhet -beständig -bröd -bunden -enlig -experiment -fast -fel -flaska tekn. -franska bröd -fråga s. -fulländad -fulländning -förändring -ge el. giva -givare -givning -gjuta -kurva sport. -känsla -lära -lös -löshet -maskin tekn. -massa -ord t.ex. pronomen, preposition -pressa tekn. -pressning -ren adj. -rik-rikedom -rytteri -sak -sand tekn. -skön -spruta v. tekn. -sprutning -språk -stridig -sträng adj. -svacka s. sport. -system -topp sport. -verktyg -vilja -värld 1form a 1 -an -or s. liten öppning i ugns vägg för tillförsel av blästerluft m.m. 2 -ade v. ge form åt; gestalta; skapa m.m.; sms. se under form -ad -at adj.

Svenska Akademiens ordbok Svenska Akademiens ordbok, SAOB, är en historisk ordbok som beskriver svenskt skriftspråk från 1521 till våra dagar. Man har hunnit från A till Trivsel. Deskriptiv, inte preskriptiv http://www.saob.se/

Språkrådet Språkrådet (f.d. Svenska språknämnden) är Sveriges officiella språkvårdsorgan. Rådet är en del av den nya språkmyndigheten Institutet för språk och folkminnen. Språkrådet ger bland annat ut Språk- och skrivråd.

Mål för ordkontroll Skrivfel Fel som beror på bristande uppmärksamhet och som leder till icke-ord,t.ex. coh Rätt ord men fel i sammanhanget, t.ex. Föredraget vad intressant. Den här karten med inlagda höjdschatteringar blev årets karta både 2006 och 2007 (UNT 2008-04-27)

Stavningskontroll, forts. Stavfel Fel som beror på bristande kunskap, t.ex alldrig, altid, undervisitet, åtminstonde bad design, stekt kyckling lever Tjära vän!

Stilkontroll Avvikelser från standardspråket Ålderdomlig, byråkratisk, talspråklig etc. Uttryck Ordval, t.ex. ity, pimpad Böjningsform, t.ex. sig/sej, de/dom Struktur, t.ex. större än jag/ större än mig; före middagen/innan middagen

Huvudmetoder för feligenkänning vid stavningskontroll Lexikalisk Avstämning mot lexikon (lab) Problem med produktiva ordbildningar Statistisk avstämning mot trigram (Nylander 2000) problem med täckning Grafotaktisk avstämning mot grafotaktiska regler (Nylander 2000) problem med täckning

Avstavning i svenska Mekanisk avstavning enkonsonantregeln En konsonant till nästa rad, men Bryt ej ck, ng som betecknar ett ljud (fonem) vid sammansättningsgräns Morfematisk avstavning Avstavning mellan ordled Den morfematiska avstavningen lanserades i SAOL 1986

Omskrivningsregler för stavelseigenkänning vid mek. avstavning SYLL1 (C1) V (C2) V {a, e, i, o, u,...} C1 {b, c, d, f,...} C2 {b, c, d, f,.., ck, ng,...} (från Sågvall Hein 97) Introduktion till språkteknologi 1997

Avstavning enl. den mekaniska och den morfematiska principen mekanisk morfematisk fyrkant fyr-kant fyr-kant ankor an-kor ank-or elitutbildning eli-tutbildning elit-utbildning andras and-ras andr-as (annan) andras and-ras an-dras (andra) bildrulle bild-rulle bild-rulle bildrulle bild-rulle bil-drulle (från Sågvall Hein 97) Introduktion till språkteknologi 1997

Ordfel som kräver grammatikkontroll Ett stor hus Böckerna var intressant. En av de många fallen Där samlade då hela universitetets spridda administration (UNT 2008-04-27) Det är tänkbart att vi flyttar ut Skandalhuset, men jag kan inte föregripa utvecklingen (UNT 2008-04-27) En idé har varit att göra Carolina till bli universitetets ansikte med en informationsdisk i entrén för studenter och besökare (UNT 2008-04-27)

Vad förväntas av det ideala ordkontrollprogrammet? Känna igen och larma för alla felskrivna ord Känna igen och acceptera alla rättstavade ord Ge ett korrekt rättningsförslag för alla felskrivna ord

Mer realistiska förväntningar Känna igen och larma för de mest frekventa och lättidentifierade felstavningarna Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket Ge ett troligt rättningsförslag för alla felstavade ord (frekvens)

Feligenkänningsstrategier Trigram av tecken Larmar för ovanliga teckenkombinationer Används främst inom OCR Lexikon Fullformslexikon eller stamlexikon Lexikonstorleken avgörande: För stort lexikon = många fel missas (låg täckning) För litet lexikon = många falska alarm (låg precision)

Feligenkänning mha lexikon Problem: språket är produktivt omöjligt att lista alla ord i lexikonet Brist på täckning kan lura skribenten att faktiskt stava fel, t. ex. särskriva sammansättningar: jätte trött

Feligenkänning mha lexikon, forts Kompletterande strategier: Morfologiska regler för t.ex. avledningar Sammansättningsregler Egennamnsigenkänning Tillåt användaren att lägga till egna ord i lexikonet

Feligenkänning: sammansättningar Enklast strategi: ord = ord + ord dator + lingvistik = datorlingvistik Förfinad strategi: ord = förled + ord flicka + klänning = flickklänning äpple + paj = äppelpaj kvinna + parti = kvinnoparti cigarr + rök = cigarrök

Feligenkänning: sammansättningar, forts Sammansättningsanalys minskar antalet falska alarm Sammansättningsanalys kan dock öka antalet missade fel kotakt kontakt makelera makulera medalg medalj cykelsäll cykelställ särkskilt särskilt

Felkorrigering: feltyper Kompetensfel Fonetiska fel: restaurang ---> resturang Homofonfel: gott ---> gått Performansfel Insättning språkteknologii Borttagning spåkteknologi Substitution sprokteknologi Transposition spårkteknologi

Felkorrigering: empiriskt grundade iakttagelser De flesta felstavningar är performansfel (insättning, borttagning, substitution eller transposition) De flesta felstavningar påverkar inte ordets längd med mer än en bokstav Första bokstaven i ordet är sällan felaktig Tangenternas placering påverkar Bokstävernas frekvenser påverkar

Korrigeringsstrategier Minimum Edit Distance Likhetsnycklar N-gramsbaserade tekniker Regelbaserade tekniker Probabilistiska tekniker Neurala nätverk

Minimum Edit Distance Stränglikhet Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan Editeringsoperationer: Insättning Borttagning Substitution (alt. borttagning + insättning) Transposition (alt. borttagning + insättning)

Minimum Edit Distance r ä n g n a r e g n a r

Minimum Edit Distance r ä n g n a r e g n a r substitution + borttagning + insättning = 3

Likhetsnycklar Strängar matchas mot nycklar Ord som stavas på liknande sätt har likadana eller nästan likadana nycklar

Likhetsnycklar: SOUNDEX (1) SOUNDEX: Indexing on Sound Odell & Russel, 1918 (!) Fonetisk likhet Vokaler ignoreras Konsonanter grupperas tillsammans om de liknar varandra fonetiskt Användning: Flygbokningssystem (Davidson 1962)

Likhetsnycklar: SOUNDEX (2) Behåll det första tecknet Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w: 0 b, f, p, v: 1 c, g, j, k, q, s, x, z: 2 d, t: 3 l: 4 m, n: 5 r: 6 Ta bort alla nollor Ta bort alla på varandra följande dubbletter Spara de tre första siffrorna

Likhetsnycklar: SOUNDEX (3) disappoint disapont ---> D215 ---> D215 Ersättningsförslag för disapont: disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing

N-gramsbaserade tekniker Stränglikhet: andelen gemensamma n-gram (trigram) Likhet(i, j) = 2C/(n+n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j

N-gramsbaserade tekniker Hur lika är concider och consider? ##c #co con onc nci cid ide der er# r## ##c #co con ons nsi sid ide der er# r## C (antalet gemensamma trigram) = 7 n (antalet trigram i concider) = 10 n (antalet trigram i consider) = 10 Likhet(concider, consider) = 2C/n+n = 14/20 = 0,70

N-gramsbaserade tekniker Hur lika är concider och cider? ##c #co con onc nci cid ide der er# r## ##c #ci er# r## cid ide der C (antalet gemensamma trigram) = 6 n (antalet trigram i concider) = 10 n (antalet trigram i cider) = 7 Likhet(concider, cider) = 2C/n+n = 12/17 = 0,71

Vidareläsning, för den som vill Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text Daniel Jurafsky & James H. Martin, 2000 (avsnitt 5.1 5.6), Speech and Language Processing Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR errors. http://stp.ling.uu.se/exarb/arch/2000-001.pdf Roger Mitton, 1996, Spellchecking by Computer. http://www.dcs.bbk.ac.uk/~roger/spellchecking.html