Språkgranskningsverktyg, vt 2008

Relevanta dokument
Språkgranskningsverktyg, vt 2009

Maskinöversättning och språkgranskning, ht 2006

språkgranskning, ht 2007

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Maskinöversättning och språkgranskning F5 Allmänt om språkgranskning + ordkontroll

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Missplel ett generellt verktyg för generering av stavfel

Grundläggande textanalys, VT2013

Stränglikhet Manchester United vs Manchester Utd. B A R A N S Ö L E N

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Målet är att ge maskiner förmågan att plocka ut information ur

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Introduktion till språkteknologi. Datorstöd för språkgranskning

Grundläggande textanalys. Joakim Nivre

Identifiering av ordvitsar med Granska

Språkgranskningsverktyg. F1: Introduktion

Kungl. Tekniska högskolan NADA Grundformer med Stava

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Språkgranskningsverktyg, vt 2009

Lingvistik I Delmoment: Datorlingvistik

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Statistisk grammatikgranskning

Tekniker för storskalig parsning

Vad kan statistik avslöja om svenska sammansättningar?

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Statistisk Maskinöversättning eller:

Obesvarade frågor från F4

Lathund för Stava Rex

Vårdat, enkelt och begripligt!

Kom igång med SpellRight

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Hur hanterar stavningskontrollerna. texter skrivna av skolbarn? en utvärdering av Stava Rex och Microsoft Word 2007.

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Uppgift 1 (grundläggande konstruktioner)

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

ViTal. Talsyntes. Användarhandledning

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Innehåll. Informationssökning språkteknologiska hjälpmedel

Språkets struktur och funktion, 7,5 hp

Utveckling av lexikala resurser för ett språkgranskningssystem för svenska

Objektorienterad Programmering Övningsuppgifter

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Datorlingvistik och språkteknologi

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lathund för SpellRight

Skriftspråk i förändring möter förlegade skrivstöd

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Språkteknologi och Open Source

Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Använda SpellRight 2 i Word 2010

Så här fungerar Stava Rex

Grundläggande textanalys, VT2012

Word- sense disambiguation

Vad är en databas? Databaser. Relationsdatabas. Vad är en databashanterare? Vad du ska lära dig: Ordlista

MS WORD 97. Microsoft Word Lathund för att arbeta med kortkommandon. Utgivare Syncentralernas Datateam Stockholm

Österlengymnasiet

Dolphin Guide Dokument

Hur man programmerar. Exempel på problemlösning i Python

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Använda Stava Rex i Word 2010

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

HSB BRF HAMNEN, ÅSIKTEN ETAPP TVÅ

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Rapportmallen är uppbyggd med omslag, titelsida, sidor för förord, sammanfattning och innehåll, samt en sida där du ska börja skriva din text.

Fonetisk distansmätning av ord i lexikon

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

729G09 Språkvetenskaplig databehandling

BLOCK 1. 1A. Att komma igång

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog

Språkpsykologi/psykolingvistik

Välkommen till ClaroStava svenska mac med tal artnr 12312

SpellRight. för Mac. Innehåll. Rättstavning på engelska. Inställningar...13 Allmänt...13 Ordlistor SpellRight för Mac i korthet...

Uttalskorrigering med hjälp av Fonetisk text

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Rapport från Praktik på SVOX AG till

N-grambaserad språkbestämning

Vad är en databas? Databaser. Relationsdatabas. Vad är en databashanterare? Vad du ska lära dig: Ordlista

Matematisk Statistik och Disktret Matematik, MVE051/MSG810, VT19

Ett rimlexikon över det svenska språket. Rasmus Bååth och Staffan Åberg.

Att skriva på datorn

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

WordRead Plus för Mac

Transkript:

, vt 2008 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1

Föreläsningsöversikt Feligenkänning Felkorrigering Produktivt bildade ord Kort om labben 2

Vad förväntas av det ideala stavningskontrollprogrammet? Känna igen och larma för alla felstavade ord Känna igen och acceptera alla rättstavade ord Ge ett korrekt rättningsförslag för alla felstavade ord 3

Mer realistiska förväntningar Känna igen och larma för de mest frekventa och lättidentifierade felstavningarna Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket Ge ett troligt rättningsförslag för alla felstavade ord (frekvens) 4

Stavningskontrollens två delar 1) Feligenkänning att hitta felen 2) Felkorrigering att ge ersättningsförslag 5

Feligenkänning i Microsoft Word

Felkorrigering i Microsoft Word

Feligenkänning Isolerade ord stavfel som resulterar i icke-ord: och --> coh Ord i kontext stavfel som resulterar i riktiga ord (real word errors): jag er dålig på att stava språk teknologi är kul bättre korrigeringsförslag: det är sårt att stava Word 2003 föreslår: såret, svårt, sårat, såt, sått 8

Feligenkänningsstrategier Trigram av tecken Larmar för ovanliga teckenkombinationer Används främst inom OCR Lexikon Fullformslexikon eller stamlexikon Lexikonstorleken avgörande: För stort lexikon = många fel missas (låg täckning) För litet lexikon = många falska alarm (låg precision) 9

Feligenkänning mha lexikon (1) Problem: språket är produktivt omöjligt att lista alla ord i lexikonet Brist på täckning kan lura skribenten att faktiskt stava fel, t. ex. särskriva sammansättningar: jätte trött 10

Feligenkänning mha lexikon (2) Kompletterande strategier: Morfologiska regler för t.ex. avledningar Sammansättningsregler Egennamnsigenkänning Samförekomst Tillåt användaren att lägga till egna ord i lexikonet 11

Feligenkänning: sammansättningar (1) Enklast strategi: ord = ord + ord dator + lingvistik = datorlingvistik Förfinad strategi: ord = förled + ord flicka + klänning = flickklänning äpple + paj = äppelpaj kvinna + parti = kvinnoparti cigarr + rök = cigarrök 12

Feligenkänning: sammansättningar (2) Lösning: Lista alla fogeformer i lexikonet Problem: Sammansättningar bildas rekursivt och fogeformen kan ändras i flerledade sammansättningar: kakdeg > pepparkaksdeg barnbokhylla/barnbokshylla 13

Feligenkänning: sammansättningar (3) Sms-analys minskar antalet falska alarm Sms-analys kan dock öka antalet missade fel! Missade fel i Word97: kotakt makelera medalg cykelsäll kontakt makulera medalj cykelställ särkskilt särskilt 14

Några frågeställningar kring feligenkänning Hur göra med sällsynta/fackspråkliga ord, som ligger nära felskrivningar av frekventa ord? verv/värv (verv = kraft, livfullhet, glöd enligt SAOL) boke/boken (boke = bokvirke) Dialektala ord? Hur sträng bör man vara? (mej, direktörn) 15

Felkorrigeringens två delar 1) Ta fram ett antal korrigeringskandidater 2) Rangordna korrigeringskandidaterna 16

Felkorrigering: feltyper Kompetensfel Fonetiska fel: restaurang ---> resturang Homofonfel: gott ---> gått Performansfel Insättning språkteknologii Borttagning spåkteknologi Substitution sprokteknologi Transposition spårkteknologi 17

Felkorrigering: feltyper Kompetensfel eller performansfel? tunnt Feltyp ofta inte nödvändig att fastställa för att få fram lämpligt korrigeringsförslag, dock: Kompetensfel: hemta ---> hämta, hämtade Performansfel: hemta --> hemtam 18

Felkorrigering: empiriskt grundade iakttagelser De flesta felstavningar är performansfel (insättning, borttagning, substitution eller transposition) De flesta felstavningar påverkar inte ordets längd med mer än en bokstav Första bokstaven i ordet är sällan felaktig Tangenternas placering påverkar Bokstävernas frekvenser påverkar 19

Korrigeringsstrategier Minimum Edit Distance Likhetsnycklar N-gramsbaserade tekniker Regelbaserade tekniker Probabilistiska tekniker Neurala nätverk 20

Minimum Edit Distance Stränglikhet Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan Editeringsoperationer: Insättning Borttagning Substitution (alt. borttagning + insättning) Transposition (alt. borttagning + insättning) 21

Minimum Edit Distance dist(0,0) = 0 dist(i,0) = i dist(j,0) = j dist(i-1, j) + 1 (insättning) dist(i,j) = min dist(i, j-1) + 1 (borttagning) dist(i-j, j-1)+ d(s i, t j ) (substitution) där i är strängen s fram till i:te tecknet, och j är strängen t fram till j:te tecknet, och d(s i,t j ) är 0 om s i =t j och 1 i övriga fall 22

Minimum Edit Distance r ä n g n a r e g n a r 23

Minimum Edit Distance r ä n g n a r e g n a r substitution + insättning + borttagning = 3 24

Minimum Edit Distance 25

Minimum Edit Distance 26

Minimum Edit Distance 27

Likhetsnycklar Strängar matchas mot nycklar Ord som stavas på liknande sätt har likadana eller nästan likadana nycklar 28

Likhetsnycklar: SOUNDEX (1) SOUNDEX: Indexing on Sound Odell & Russel, 1918 (!) Fonetisk likhet Vokaler ignoreras Konsonanter grupperas tillsammans om de liknar varandra fonetiskt Användning: Flygbokningssystem (Davidson 1962) 29

Likhetsnycklar: SOUNDEX (2) 1) Behåll det första tecknet 2) Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w: 0 b, f, p, v: 1 c, g, j, k, q, s, x, z: 2 d, t: 3 l: 4 m, n: 5 r: 6 3) Ta bort alla nollor 4) Ta bort alla på varandra följande dubbletter 5) Spara de tre första siffrorna 30

Likhetsnycklar: SOUNDEX (3) disappoint disapont ---> D215 ---> D215 Ersättningsförslag för disapont: disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing 31

N-gramsbaserade tekniker Stränglikhet: andelen gemensamma n-gram (trigram) Likhet(i, j) = 2C/(n+n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j 32

N-gramsbaserade tekniker Hur lika är concider och consider? ##c #co con onc nci cid ide der er# r## ##c #co con ons nsi sid ide der er# r## C (antalet gemensamma trigram) = 7 n (antalet trigram i concider) = 10 n (antalet trigram i consider) = 10 Likhet(concider, consider) = 2C/n+n = 14/20 = 0,70 33

N-gramsbaserade tekniker Hur lika är concider och cider? ##c #co con onc nci cid ide der er# r## ##c #ci cid ide der er# r## C (antalet gemensamma trigram) = 6 n (antalet trigram i concider) = 10 n (antalet trigram i cider) = 7 Likhet(concider, cider) = 2C/n+n = 12/17 = 0,71 34

N-gramsbaserade tekniker Modifierat likhetsmått: Likhet(i, j) = C/max(n, n ) Likhet(concider, consider) = 7/10 = 0,70 Likhet(concider, cider) = 6/10 = 0,60 35

Kort om labben Enkelt stavningskontrollprogram: Förprocessning och tokenisering Orduppslagning Versaler och egennamn Sammansättning Avledning Examination: skriftlig rapport, 1-2 personer Inlämning: 12 maj (mejlledes, har inget postfack) 36

Uppgift Antag att en skribent av misstag har skrivit in käran. Antag vidare att ett stavningskontrollprogram har kommit fram till att det rör sig om en felstavning och att möjliga ersättningsförslag är tjäran och kärran. Hur skulle dessa ersättningsförslag rangordnas enligt det (modifierade) n-gramsbaserade måttet? Hur skulle ersättningsförslagen rangordnas enligt Minimum Edit Distance? Kommentera resultatet: Är rangordningen lika bra för alla typer av skribenter? Skulle båda alternativen finnas med bland ersättningsförslagen om man istället hade använt sig av likhetsnycklar på samma sätt som i SOUNDEX? Varför/varför inte? Kommentera! 37

Referenser Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text Daniel Jurafsky & James H. Martin, 2000 (avsnitt 5.1 5.6), Speech and Language Processing Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR errors. http://stp.ling.uu.se/exarb/arch/2000-001.pdf Roger Mitton, 1996, Spellchecking by Computer. http://www.dcs.bbk.ac.uk/~roger/spellchecking.html 38