Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord



Relevanta dokument
Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Handledning Sfi i Hjo «Vi lär oss svenska tillsammans»

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Tentamen Marco Kuhlmann

Automater. Matematik för språkteknologer. Mattias Nilsson

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Proloquo4Text Skriv. Tala. Kommunicera.

Får jag be om ordet!

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter

kl Tentaupplägg

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation

För att använda sifferkrypto använder man en rektangel om 5 gånger 6 bokstäver.

SpellRight. för Google Docs. Manual för SpellRight för Google Docs

Innehåll. WordWall låter dig som pedagog skapa övningar, aktiviteter och presentationer med några enkla klick.

Nallelek Lärarvägledning

LÄSLANDET - BOKSTÄVER OCH ORD

WordRead Plus för Mac

Allemansdata Dags fö r örd

UPPGIFT 1 ÖVERSÄTTNING

SymWriter. Lathund kring hur du arbetar med programmet SymWriter med de absolut vanligaste grunderna. Habilitering & Hjälpmedel

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

HANDLEDNING ZENIT BILBOKNING

(Termen grammatiskt läsande och skrivande kommer från det antika Grekland - grammatisk kunskap: förmågan att hantera bokstäverna)

Språkpsykologi/psykolingvistik

Introduktion till språkteknologi. Datorstöd för språkgranskning

Undervisningsmål Svenska Årskurs 1-5. Läsa

ALEPH ver. 16 Sökning

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

InPrint. Grunderna för hur du kommer igång och arbetar med Communicate: InPrint. Habilitering & Hjälpmedel

KeyControl Sök person, nyckel eller cylinder

Digital Display VDS / Bus2

ViTex snabbguide. 1. Inläsning till ViTex från scanner eller PDF Läs in text via scanner Läs in text från en JPEG-bild eller ett PDF-dokument

Handledning Miljömanualen på webben

Användarmanual DHL ACTIVETRACING 3.3. Full Spårbarhet. Full spårbarhet av dina DHL sändningar

Logger II Plus RADERA NAMN RING UPP

MÅL OCH BETYGSKRITERIER I SVENSKA

BRUKSANVISNING. Modell: LMDT-810 Rörelsevakt / IR som sänder självlärande kodsignal till ansluten Nexa mottagare

Problem: BOW Bowling. Regler för Bowling. swedish. BOI 2015, dag 1. Tillgängligt minne: 256 MB

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Att använda Stava Rex i Word 2007

1 Ändra kolumnbredd och radhöjd

SPELREGLER. 2-4 deltagare från 10 år

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Ny anläggning/inventarie

Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten.

Skriftspråk i förändring möter förlegade skrivstöd

S:t Georgs Scoutgillen i Sverige Handbok för scoutgillen. Mötets A till Ö. Ajournera Att ta en paus.

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

Statligt LOK-stöd från 2014

Anfallslarm EPI-2000(-P) Bruksanvisning

Lärarhandledning Jane Horney

Manual till 3C för CPUP

Grundläggande textanalys. Joakim Nivre

Manual. Användargränssnitt

Instruktion 5. Talonger och tabeller. Övning 25. Hur man gör en talong? Börja med att ställa in ett styckeavstånd på en tomrad.

MENING MED LIVET? FINNS DET NÅGON

9-1 Koordinatsystem och funktioner. Namn:

Manual till 3C för CPUP

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Handledning till riskbedömningsmetoden HARM

Hogia Redovisning & Revision AB. Anståndshantering Hogia Kund- och Uppdragshanterare

Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker

1 Skapa Tabell Skapa Relationer Redigera Relationer Redigera Fält i Tabell Lägga till Poster i Tabell...

Migrera till Word 2010

Användarmanual Körjournal för iphone

En guide till FirstClass

Aditro HR Portalen - logga in och byta lösenord

Begrepp Värde (mätvärde), medelvärde, median, lista, tabell, rad, kolumn, spridningsdiagram (punktdiagram)

Statistisk grammatikgranskning

Elevtext 1 (svenska som andraspråk) berättande

LäsFlyt Metodhandledning

Utdrag ur protokoll vid sammanträde

Från 0 till 5 km på 10 veckor. Träningsprogram och stöd

Programmeringsolympiaden 2012 Kvalificering

ClaroRead Plus Mac Manual. Artikel.nr

Träningssplan: vecka 1-6

Läs detta innan du fortsätter, eller skriv ut det, klicka runt lite och läs samtidigt.

Fågel, fisk eller mittemellan?

Tävlingsdatabasen (TDB)

1 Ormen (Dribbla + Skott) Beskrivning: Förste spelaren i ledet springer i högt tempo med boll och dribblar genom konerna. Efter några koner gör nästa

Träd. Sats. Grafer. Definition. En fullständig graf har en båge mellan varje par av noder. Definition

Projektarbete 2: Interaktiv prototyp

6 Svenska som andraspråk

ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN

språkgranskning, ht 2007

Rolladministration i PaletteArena 5.3

Missade du en runda eller tappade anslutningen? Ingen fara, vi väljer grundalternativet åt dig så att du kan fortsätta spela.

Handledning för uppsatsadministratörer

Utskick av respondentenkät

Resurscentrum för kommunikation Dako SymWriter. Minimanual

Dataspel för barn med läs- och skrivsvårigheter

Från tal till skrift. Susan Nieland Välkomna!

Välkommen till Övertygande Kommunikation

Lexikon: ordbildning och lexikalisering

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Språkäventyret. Mål. Verktyg. Inledande arbete

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk

Transkript:

Joakim Nivre / 30

Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord med OCR 2 / 30

Hur används stavningskontroll? Interaktiv stavningskontroll = stavningskontrollen upptäcker fel medan man skriver Kan ge rättningsförslag Måste fungera i realtid (snabbt) Vi bestämmer, så stavningskontrollen måste inte vara 00% korrekt (särskilt inte rättningsförslagen) Automatisk stavningskontroll = stavningskontrollen körs på ett helt dokument, hittar fel och rättar dem Mycket svårare uppgift Kan kontrolleras av människor i efterhand 3 / 30

Detektering och rättning Två skilda uppgifter: Feldetektering = hitta felstavade ord Felrättning = rätta felstavade ord Det kan vara lätt att avgöra att atten är ett felstavat ord, men vad ska det vara? vatten? katten? arten? Observera att detektering är en förutsättning för rättning 4 / 30

Mellanrumsfel Sammanskrivning = två ord blir ett en katt blir enkatt Särskrivning = ett ord blir två realisation blir reali sation Observera att resultatet kan bli riktiga ord rök fritt blir rökfritt kulglass blir kul glass Intilliggande tangenter tack blir rack därför att t och r är intill varandra på tangentbordet 5 / 30

Att inte veta ett ords stavning (och kanske gissa) sykolog paralell Fonetiska fel Homofoner = två ord som låter likadant kol/kål bredden/brädden själ/skäl chiffer/skiffer Bokstavsutbyte = en bokstav (eller flera) ersätts med en som låter likadant syckel sjanger 6 / 30

är väsentligen detsamma som ordigenkänning, dvs. att dela upp en texts ord i riktiga ord och Hur detekterar man? med hjälp av ett lexikon (konstruktion och uppslagning) med hjälp av n-gram-analys (framför allt för OCR) 7 / 30

Idé: Ha en fullständig lista med ord och kolla textorden mot denna Om det inte finns i lexikonet, är det inte ett ord Två aspekter: uppbyggnad = Hur skapar man lexikonet? Vad ska det innehålla? uppslagning = Hur slår man upp ett möjligt ord i lexikonet (snabbt)? 8 / 30

uppbyggnad Inkluderar vi böjda ord, avledda ord, och sammansättningar? Både stava och stavade? Även stavning, fel och felstavning? Det gör uppslagningen snabbare Men det tar mera minnesutrymme och täcker inte nybildningar (t.ex. snabbstavning) et ska helst bara innehålla ord som är relevanta för användaren För de flesta är memoisera ett felstavat ord, men i datalogi är det en teknisk term Utländska ord, egennamn och nya ord kommer alltid att vara ett problem Vi kan inte förutse ord innan människor har skapat dem 9 / 30

Ett n-gram är här en sträng (sekvens) av n bokstäver ö ön bön böna. -gram (unigram) 2-gram (bigram) 3-gram (trigram) 4-gram. Vi kan använda information om n-gram för att definiera möjliga strängar i språket möj är en möjlig svensk sträng, men kvt är det inte 0 / 30

Bigramtabeller Vi kan t.ex. göra en bigramtabell för bokstäverna k, l, m (med exempel inom parentes)... k l m.... k 0 (tackle) (Hackman) l (elk) (hello) (alms) m 0 0 (hammer). Rader visar första bokstaven, kolumner den andra Denna tabell tar inte hänsyn till position i ordet / 30

Positionell bigramtabell Vi kan få mer information genom att ta hänsyn till position i ordet Här är en tabell för ordslut:... k l m.... k 0 0 0 l (elk) (hall) (elm) m 0 0 0. Vi kan ytterligare förfina detta genom att använda sannolikheter (frekvenser) 2 / 30

Givet att vi har identifierat felstavade ord, hur kan vi rätta dem? Den vanligaste metoden är att rätta, dvs. utan att ta hänsyn till kontexten Observera att detta bara fungerar för stavfel som resulterar i Kunskap om typiska fel kan hjälpa oss att hitta bättre rättningsförslag 3 / 30

Kunskap om typiska fel Ordlängd: de flesta felstavade ord är inom två teckens längd från det avsedda ordet När vi söker efter rättningsförslag, kan vi bortse från ord med större längdskillnader Position: första bokstaven i ett ord är sällan fel När vi söker efter rättningsförslag, kan vi i första hand fokusera på ord som börjar på samma bokstav 4 / 30

Metoder för rättning Fyra metoder som används ofta: regelbaserade metoder likhetsbaserade tekniker sannolikhetsmodeller minsta redigeringsavstånd Dessa metoder används i ett av följande steg:. Generering av rättningsförslag: regelbaserade metoder likhetsbaserade tekniker 2. Rangordning av rättningsförslag sannolikhetsmodeller minsta redigeringsavstånd 5 / 30

Vi kan skriva regler för rättningsförslag: Ofta felskrivna ord: ohc och Regler baserade på böjning: mmning mning (jfr simma simning, rymma rymning) baserade på vanliga feltyper: CsC CaC [C = konsonant] 6 / 30

Hur kan vi skapa en lista över rättningsförslag? Sortera ord i grupper efter likhet. Till exempel:. Sortera först efter första bokstaven punt börjar med P 2. Tilldela varje bokstavsgrupp en siffra 0 for vokal, for b, p, f, v (bilabialer), osv. punt P052 3. Ta bort alla nollor och upprepade siffror P052 P52. 4. Leta efter riktiga ord i samma grupp pund ingår också i grupp P52 7 / 30

Hur är ett felstavat ord relaterat till originalet? Operationer Inskott = en bokstav är tillagd Strykning = en bokstav är struken Substitution = en bokstav ersätter en annan Transposition = två bokstäver har bytt plats Exempel: pund pundd (inskott) pund pun (strykning) pund punt (substitution) pund pudn (transposition) 8 / 30

Två typer av sannolikheter: Transitioner = sannolikhet för att en bokstav följs av en annan Vad är sannolikheten att ett a följer ett p i svenska? Att k följer c? Förväxlingar = sannolikhet för att en bokstav av misstag ersätts med en annan Vad är sannolikheten att g förväxlas med j? 9 / 30

Förväxlingar Det är svårt att uttömmande undersöka alla orsaker till fel, men vi kan observera hur ofta människor gör olika förväxlingar Ett sätt är att bygga en förväxlingsmatris korrekt... r s t.... r 2 22 skrivet s 4 5 t 37. 20 / 30

För att rangordna rättningsförslag, kan man beräkna det minsta redigeringsavståndet = det minsta antalet operationer som krävs för att ändra ett ord till ett annat Till exempel kan vi ändra munk till haiku i 5 steg:. munk muk (strykning) 2. muk huk (substitution) 3. huk hku (transposition) 4. hku hiku (inskott) 5. hiku haiku (inskott) Men är detta det minsta antalet operationer? 2 / 30

Beräkning av redigeringsavstånd Skapa en graf över alla möjliga operationer För att beräkna minsta redigeringsavståndet, skapar vi en riktad graf med noder (cirklar) och bågar (pilar) Olika bågar: Horisontella bågar motsvarar strykningar Vertikala bågar motsvarar inskott Diagonala bågar motsvarar substitutioner (inklusive substitution av samma bokstav) Stryk x Skjut in y Ersätt x med y 22 / 30

Beräkning av redigeringsavstånd Exempel Antag att användaren skriver fire Vi vill beräkna avståndet till fri (som en möjlig rättelse) Vi skapar en graf över alla sätt att göra om fire till fri Varje operation har en kostnad f i r e f 0 r 0 i 0 23 / 30

Beräkning av redigeringsavstånd Finn vägen med lägst kostnad Vi vill ta oss från övre vänstra till nedre högra hörnet så billigt som möjligt Den enkla naiva metoden: Kolla alla vägar och se vilken som är billigast Detta är mycket ineffektivt Antalet väger växer exponentiellt Den smartare metoden: Gå igenom noderna i pilarnas riktning Lagra den minsta kostnaden för varje nod Lägg till operationens kostnad för varje ny nod Detta kallas dynamisk programmering 24 / 30

Rättning i kontext Kontextberoende rättning = rätta ord med hänsyn till sammanhanget Enda sättet att rätta stavfel som ser ut som riktiga ord Mycket nära grammatikkontroll = rätta grammatiska fel 25 / 30

Syntaktiska fel = fel i hur ord sätts samman till meningar, t.ex. ordföljd, kongruensfel Lokala fel: 2 ords avstånd Studien utfördes huvudsakligen uv Margareta Pettersson. Ett substantiv på en prepositions plats Långdistansfel: längre avstånd Barnen som träffade tomten på dagis blev mycket glad. Kongruensfel mellan subjektet Barnen och adjektivet glad 26 / 30

Mer om grammatikkontroll Semantiska fel = fel där strukturen är okej men betydelsen konstig De åt glas med chokladsås. glas och glass är båda substantiv men bara det senare passar i kontexten Det finns många metoder för grammatikkontroll. Två av de vanligaste: N-gram-modeller Regelbaserade modeller 27 / 30

N-gram-modeller Vi kan titta på bigram av ord Vad är sannolikheten för ett ord givet föregående ord? Efter dessa är det mer sannolikt att se tider än timer När ett förväxlingsbart ord (tider) har högre sannolikhet i kontexten, kan vi markera timer som ett möjligt fel Detta kräver dock att vi har tillräckligt mycket text för att skatta dessa sannolikheter på ett tillförlitligt sätt OBS: Mer om n-gram på första laborationen... 28 / 30

Regelbaserade modeller Vi kan skriva regler för att matcha typiska fel. Han brukade att komma sent. Matcha verb som brukade och kunde följda av att. Stryk att i detta mönster. Se t.ex. http://www.languagetool.org/ 29 / 30

Detektera stavfel Lättast för (lexikon eller n-gram) Andra fel kräver grammatisk (och semantisk) analys Generera rättningsförslag Regler för vanliga fel Ordna ord i likhetsgrupper Rangordna rättningsförslag Förväxlingssannolikheter Redigeringsavstånd 30 / 30