Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Relevanta dokument
Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg, vt 2008

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Maskinöversättning och språkgranskning, ht 2006

språkgranskning, ht 2007

Maskinöversättning och språkgranskning F5 Allmänt om språkgranskning + ordkontroll

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

A Prima Vista (eller enbart a vista), italienska, betyder vid första anblicken. Uttrycket används i musiksammanhang med betydelsen att utföra ett

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

KIT 104, Cognitive processes. Lecture 1: Vision , Thomas Porathe

Uppsatsskrivning utvärdering av språkteknologiska applikationer

KIT 104, Kognitiva processer. Föreläsning 1: Synen , Thomas Porathe

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys, VT2013

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Målet är att ge maskiner förmågan att plocka ut information ur

Tekniker för storskalig parsning

Missplel ett generellt verktyg för generering av stavfel

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Introduktion till språkteknologi. Datorstöd för språkgranskning

Lathund för SpellRight

Statistisk grammatikgranskning

Språkgranskningsverktyg. F1: Introduktion

Lingvistik I Delmoment: Datorlingvistik

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Språkpsykologi/psykolingvistik

Obesvarade frågor från F4

Lingvistik I Delmoment: Datorlingvistik

Lathund för Stava Rex

Kungliga Tekniska Högskolan Patrik Dallmann

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Lingvistik I Delmoment: Datorlingvistik

Språkgranskningsverktyg, vt 2009

MÅL ATT UPPNÅ (FRÅN SKOLVERKET)

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac

Identifiering av ordvitsar med Granska

Kursinformation och schema Lingvistik 729G08 (6 hp)

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

To Lauren Beukes Tune: Top of the World Written by Marianna Leikomaa

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Språkteknologi och Open Source

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Tid Lokalerna finns i Time Edit. ti 23 jan KMB CL LA. ons 24 jan Läsa:

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

STOCKHOLMS UNIVERSITET Sociologiska institutionen

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Tentamen Marco Kuhlmann

Kom igång med SpellRight

Kursplan och läromedelsförteckning

Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

English. Things to remember

Några skillnader mellan svenska och engelska

Stränglikhet Manchester United vs Manchester Utd. B A R A N S Ö L E N

Språkfärdighet 3 hp, ht 07

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Grammatik skillnader mellan svenska och engelska

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Kursbeskrivning med litteraturlista HT-13

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

Logging Module into the PRIME Core

Kungl. Tekniska högskolan NADA Grundformer med Stava

Sociologisk analys III, VT 2016, Kvalitativ del (3 hp)

Språksociologi Å ni ba : va fan dillar na om?

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Kursutvärdering Icke-linjärt och interaktivt berättande VT 2014

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

Vad är en databas? Databaser. Relationsdatabas. Vad är en databashanterare? Vad du ska lära dig: Ordlista

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

(engelska)

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Provlektion Just Stuff B Textbook Just Stuff B Workbook

Synkronisering av kalenderdata

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

DVA223 INFORMATION - KUNSKAP VETENSKAP - ETIK

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

Kompensatoriska Tekniska Hjälpmedel - appar och andra verktyg. Cecilia Widlund, leg. logoped Logopederna Sverige AB

Socialpsykologiska teorier, 7,5 hp

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Vad kan statistik avslöja om svenska sammansättningar?

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Datorlingvistik och språkteknologi

Riktlinjer och mallar för betygskriterier inom grundutbildningen i biologi (beslutat av BIG: s styrelse den 13 juni 2007)

Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Arbetsordning för kursen Arbetsvetenskaplig introduktion ht 2012

Kurs-PM HI2011, Programutveckling i funktionella och objektorienterande spra k, P3 VT17

Transkript:

Grundläggande Textanalys VT 2017 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se

Först några ord om referatuppgiften Sammanfatta en vetenskaplig artikel, vilket ger färdigheter i att: läsa och ta till sig information från vetenskapliga artiklar skriva vetenskapligt presentera informationen för andra Examination 1 2 sidors skriftligt referat (i pdf-format, svenska eller engelska) ca 10 min muntlig presentation följt av ca 5 min diskussion aktivt deltagande i de avslutande seminarierna

Referatuppgiften: Examination Individuell inlämning (ej grupparbete) Obligatorisk närvaro vid båda seminarierna Vid frånvaro krävs skriftlig sammanfattning av samtliga artiklar som presenterats på seminariet i fråga Betygsättning För VG på kursen krävs VG på minst två av labbarna, samt a well-written summary

Ett välskrivet referat Följer grunderna för vetenskapligt skrivande (objektivitet, saklighet etc) Vi kommer att prata mer om detta på morgondagens föreläsning Anger referenser och citat på ett korrekt sätt Tar upp den väsentliga informationen från ursprungsartikeln

Referatuppgiften: viktiga datum Viktiga datum Fre 5 maj Val av artikel mejla eva.pettersson@lingfil.uu.se Tis 16 maj Muntlig presentation 1 Turing Ons 17 maj Muntlig presentation 2 Turing Ons 24 maj Inlämning av skriftlig rapport via Studentportalen

Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Övningsuppgift Nästa gång Grammatikkontroll Stilkontroll Kontrollerat språk Språkgranskningssystem, med fokus på MS Word och Granska Att skriva referat Språkgranskningslabben

Typoglycemia Aoccdrnig to a rseearch taem at Cmabrigde Uinervtisy, it deosn't mttaer in waht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer be in the rghit pclae. The rset can be a taotl mses and you can sitll raed it wouthit a porbelm. Tihs is bcuseae the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe. Scuh a cdonition is arppoiatrely cllaed Typoglycemia. Amzanig huh? Yaeh and you awlyas thguoht slpeling was ipmorantt. According to a research team at Cambridge University, it doesn't matter in what order the letters in a word are, the only important thing is that the first and last letter be in the right place. The rest can be a total mess and you can still read it without a problem. This is because the human mind does not read every letter by itself, but the word as a whole. Such a condition is appropriately called Typoglycemia. Amazing huh? Yeah and you always thought spelling was important.

Varför behövs stavningsstandard? Ofta kan vi förstå felstavade ord, dock: Olika uttal i olika dialekter Undvika onödiga tvetydigheter och missuppfattningar Lättare att söka i olika register, lexikon etc Dessutom underlättar det för maskinell analys av texten J

Historisk text utan stavningsnorm besväradhe sig befallningsmannen Haanss Sivardzson, öffuer Tegelzmora boerne, som hafva så inbärgat Crononess Höö på grufmåssen, att dett mästedeels ähr förskämbt, på huilken skadha han Ratione officij protesterade. Ther till bemälte allmoge svaradhe sig så hårtt vara förbudne, att ingen skulle vijka derifrå, vidh 40, förre ähn ängen bärgat blefve, och derfhöre den eene daghen slogz ängen, och den andre in emoth afton, hadhe the höett i Stack, som uthan tuifvelsmåål intet tårtt var: Blef för det såleedess interlocutorie affsagt, att Påvel Grufvefougdhe, huilkom bemälte Eng för hanss löön gifuess för 80 daler kopparmynthe skall bemälte höö emodth tagha, så myket han kan någorleedess komma till vägha uthan sin Märkelig skadha ahntagha, och Nembningeman skall veetha beskeedh på dem som det höett bärgadhe, huilket Påvell sig till betallning anammat. Finss sedhan någodt som så illa medhfharidt ähr att han ingalunda kan det vidhertagha, så vardher Rätten förklarandess sig på dem som skäligen bevijsass kunna höet genom försumelse, och vhanrycht och genom otidigt bärgandhe fördärfvat hafva, på huilka och Nembningeman i lijka måtto, beskeedh och underrättellse vetta skall;

Vad förväntas av det ideala stavningskontrollprogrammet? Känna igen och larma för alla felstavade ord täckning (recall) Känna igen och acceptera alla rättstavade ord precision Ge ett korrekt rättningsförslag för alla felstavade ord

Realistiska förväntningar på stavningskontrollprogrammet Känna igen och larma för alla de mest frekventa och/eller lättidentifierade felstavningarna Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket Ge ett korrekt sannolikt rättningsförslag för alla felstavade ord

Stavningskontrollens två delar 1. Feligenkänning (error detection) att hitta felen 2. Felkorrigering (error correction) att ge ersättningsförslag Inte alltid nödvändigt med ersättningsförslag. Ibland räcker det att skribenten görs uppmärksam på att det förekommer en felstavning över huvud taget.

Feligenkänning i Microsoft Word

Felkorrigering i Microsoft Word

FELIGENKÄNNING

Feligenkänning Enklaste formen: isolerade ord Skrivfel som resulterar i icke-ord och à coh Lite klurigare: ord i kontext Stavfel som resulterar i riktiga ord (real word errors) jag er dålig på att stava språk teknologi är kul

Real Word Errors 1. Lokala syntaktiska fel Stavfelet går att identifiera genom att titta på ett eller två ord före eller efter det felaktiga ordet * Det er svårt att stava Två på varandra följande pronomen i meningsinitial position verkar högst osannolikt

Real Word Errors 2. Globala syntaktiska fel (long-distance) För att hitta stavfelet måste man göra en mer utförlig grammatisk analys av meningen * The team that hits the most runs get ice cream Numerusinkongruens mellan subjektet och predikatet

Real Word Errors 3. Semantiska fel Stavfelet ger upphov till ett befintligt ord som fungerar bra syntaktiskt, men där innebörden av meningen blir konstig * det är svart att stava Här förväntas rent syntaktiskt ett adjektiv, så de flesta (alla?) språkgranskningsprogram skulle missa detta fel.

Feligenkänningsstrategier Trigram av tecken Larmar för ovanliga teckenkombinationer, såsom coh Används främst inom OCR Lexikon Ord som saknas i lexikonet larmas för som felstavningar Vanligaste (grund-)metoden för stavningskontroll Fullformslexikon eller stamlexikon

Svagheter med lexikonmetoden För stort lexikon ger låg täckning många fel missas (t.ex. verv, boke) För litet lexikon ger låg precision många falska alarm kan lura skribenten att till exempel särskriva jättetrött à jätte trött jätte finns i lexikonet, och trött finns i lexikonet, men jättetrött saknas i lexikonet Omöjligt att lista alla ord, då språket är produktivt Vad göra?

Komplement till lexikonmetoden Morfologiska regler för avledningar svamp-ig (jmf. svamp-ar) be-bo (jmf. bo-r) vattn-a (jmf. vattn-et) Regler för att hantera sammansättningar Egennamnsigenkänning Domänspecifika lexikon Tillåta användaren att lägga till egna ord i lexikonet

Feligenkänning av sammansättningar Basstrategi: sammansättning = ord + ord (eventuellt med vissa ordklassrestriktioner för de ingående orden) dator + lingvistik = datorlingvistik Förfinad strategi: sammansättning = förled + ord flicka + klänning = flickklänning äpple + paj = äppelpaj kvinna + parti = kvinnoparti cigarr + rök = cigarrök

För- och nackdelar med sammansättningsanalys Minskar antalet falska alarm (bättre precision) Kan öka antalet missade fel (sämre täckning) Missade fel i Word97 (åtgärdat i senare versioner): kotakt kontakt ko-takt makelera makulera make-lera medalg medalj med-alg cykelsäll cykelställ cykel-säll särkskilt särskilt särk-skilt

Att fundera kring Hur göra med sällsynta/fackspråkliga ord? Kan ligga nära felskrivningar av frekventa ord verv/värv (verv = kraft, livfullhet, glöd enligt SAOL) boke/boken (boke = bokvirke) Dialektala ord? däven, tyket, hurven, tölig Slang? keff, gola, kirra, impa, guss, deppa, dagis Talspråk? Hur sträng bör man vara? mej, direktörn, idag

FELKORRIGERING

Felkorrigeringens två delar Ta fram ett antal korrigeringskandidater Rangordna korrigeringskandidaterna

Approacher till felkorrigering 1. Interaktiv stavningskontroll Fel detekteras och markeras medan man skriver Skribenten väljer själv om åtgärd behövs 2. Automatisk stavningskontroll (autocorrect) Fel detekteras och korrigeras automatiskt, utan inblandning från skribenten

Felkorrigering i MS Word Interaktiv felkorrigering Rödmarkering under skrivandets gång, med ersättningsförslag om skribenten högerklickar på det felmarkerade ordet Automatisk felkorrigering Vissa vanliga säkra felskrivningar autokorrigeras, ex: á la carte à à la carte abbonemang à abonnemang coh à och kasett à kassett affich à affisch dublett à dubblett

Felkorrigering Det finns många faktorer att ta hänsyn till om man vill ge användbara ersättningsförslag det är sårt att stava Word föreslår: särt sort surt svårt sårat

Felkorrigering Det finns många faktorer att ta hänsyn till om man vill ge användbara ersättningsförslag det är sårt att stava Word föreslår: särt sort surt svårt sårat mest sannolikt låg frekvens oväntad ordklass semantiskt osannolikt

Feltyper Kompetensfel (spelling confusion) Fonetiska fel: restaurang à resturang Homofonfel: gott à gått Performansfel (typographical errors/typos) Insättning språkteknologii Borttagning spåkteknologi Substitution språktelnologi Transposition spårkteknologi

Feltyper (forts) tunnt Kompetensfel eller performansfel? Spelar det någon roll? Oftast inte nödvändigt att veta om kompetensfel eller performansfel Kan ge bättre korrigeringsförslag om man tar hänsyn till feltyp hemta performansfel: hämta/hemtam kompetensfel: hämta/hämtade

Empiriskt grundade iakttagelser De flesta felstavningar är performansfel (insättning, borttagning, substitution, transposition) De flesta felstavningar påverkar inte ordets längd med mer än en bokstav Första bokstaven i ordet är sällan felaktig Tangenternas placering påverkar Bokstävernas frekvenser påverkar Grundat på korpusdata producerat av skribenter som skriver på sitt modersmål och som inte har särskilda skrivsvårigheter. Kan se annorlunda ut för exempelvis andraspråksinlärare och dyslektiker.

Korrigeringsstrategier Editeringsavstånd (Minimum Edit Distance/Levenshtein Distance) Likhetsnycklar N-gramsbaserade tekniker Regelbaserade tekniker Probabilistiska tekniker

Editeringsavstånd Stränglikhet Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan Editeringsoperationer (per tecken/bokstav): insättning borttagning substitution (alt. borttagning + insättning) transposition (alt. substitution + substitution)

Editeringsavstånd formel dist(0,0) = 0 dist(i,0) = i dist(0,j) = j dist(i,j) = min dist(i-1,j) + 1 dist(i,j-1) + 1 dist(i-j,j-1) + (borttagning) (insättning) 0 om i = j (likhet) 1 annars (substitution) där i är strängen s fram till i:te tecknet, och j är strängen t fram till j:te tecknet

Editeringsavstånd illustrerat r ä n g n a r e g n a r

Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 0

Editeringsavstånd illustrerat r ä n g n a Editeringsavstånd: 1 substitution r e g n a r

Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning

Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning

Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning

Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning

Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 3 substitution + borttagning + insättning

Likhetsnycklar Ord matchas mot nycklar istället för ord Ord som stavas på liknande sätt har likadana (eller nästan likadana) nycklar Bygger ofta på fonetisk likhet

Likhetsnycklar: Soundex SOUNDEX = Indexing on Sound Odell & Russel, 1918 (!) Fonetisk likhet vokaler ignoreras konsonanter grupperas tillsammans om de liknar varandra fonetiskt Användning: 1918: indexering av äldre dokument från amerikanska folkbokföringen, t.ex. för släktforskning 1960-talet: Flygbokningssystem (Davidson 1962)

Soundex algoritm 1. Behåll det första tecknet 2. Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w 0 b, f, p, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 3. Ta bort alla nollor 4. Ta bort alla på varandra följande dubbletter 5. Spara de tre första siffrorna

Soundex exempel disapont à??? 1. Behåll det första tecknet 2. Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w 0 b, f, p, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 3. Ta bort alla nollor 4. Ta bort alla på varandra följande dubbletter 5. Spara de tre första siffrorna

Soundex exempel disapont à D215 1. Behåll det första tecknet 2. Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w 0 b, f, p, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 3. Ta bort alla nollor 4. Ta bort alla på varandra följande dubbletter 5. Spara de tre första siffrorna

Soundex exempel disapont à D215 disappoint à D215 1. Behåll det första tecknet 2. Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w 0 b, f, p, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 3. Ta bort alla nollor 4. Ta bort alla på varandra följande dubbletter 5. Spara de tre första siffrorna

Soundex exempel disapont à D215 disappoint à D215 Exempel på ersättningsförslag för disapont: disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing

N-gramsbaserade tekniker Stränglikhet, dvs andelen gemensamma n-gram (vanligen trigram av tecken/bokstäver) likhet(i,j) = 2C/(n+n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j

N-gramsbaserade tekniker (ex 1) Hur lika är concider och consider? ##c #co con onc nci cid ide der er# r## ##c #co con ons nsi sid ide der er# r## concider consider C (antalet gemensamma trigram) = 7 n (antalet trigram i concider) = 10 n (antalet trigram i consider) = 10 likhet(concider,consider) = 2C/(n+n ) = 14/20 = 0,70

N-gramsbaserade tekniker (ex 2) Hur lika är concider och cider? ##c #co con onc nci cid ide der er# r## ##c #ci cid ide der er# r## concider cider C (antalet gemensamma trigram) = 6 n (antalet trigram i concider) = 10 n (antalet trigram i consider) = 7 likhet(concider,cider) = 2C/(n+n ) = 12/17 0,71 likhet(concider,consider) = 2C/(n+n ) = 14/20 = 0,70

N-gramsbaserade tekniker (forts) Modifierat likhetsmått: likhet(i,j) = 2C/(n+n ) à likhet(i,j) = C/max(n,n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j likhet(concider,consider) = 7/10 = 0,70 likhet(concider,cider) = 6/10 = 0,60

Referenser Markus Dickinson, Chris Brew & Detmar Meurers, 2013 (kapitel 2), Language and Computers Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text Roger Mitton, 1996, Spellchecking by Computer Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR Errors

Övningsuppgift Antag att en skribent av misstag har skrivit in käran. Antag vidare att ett stavningskontrollprogram har kommit fram till att det rör sig om en felstavning och att möjliga ersättningsförslag är tjäran och kärran. 1. Hur skulle dessa ersättningsförslag rangordnas enligt det modifierade n- gramsbaserade måttet? 2. Hur skulle ersättningsförslagen rangordnas i termer av editeringsavstånd? 3. Fundera på resultatet: Är rangordningen lika bra för alla typer av skribenter? 4. Skulle båda alternativen finnas med bland ersättningsförslagen om man istället hade använt sig av likhetsnycklar på samma sätt som i SOUNDEX? Varför/varför inte?