Introduktion till språkteknologi. Datorstöd för språkgranskning



Relevanta dokument
Grim. Några förslag på hur du kan använda Grim. Version 0.8

Kungliga Tekniska Högskolan Patrik Dallmann

Skriftspråk i förändring möter förlegade skrivstöd

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Att använda Stava Rex i Word 2007

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Målet är att ge maskiner förmågan att plocka ut information ur

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Tankar om språkundervisning

Din väg till svenskan

Skriftlig kommunikation. Att väcka och behålla läsarnas intresse

Grammatik för språkteknologer

Nätverksträff för lärare inom vuxenutbildningens grundläggande nivå

språkgranskning, ht 2007

Obesvarade frågor från F4

Capítulo 5, La ciudad V 9-14 Spanska år 8

Grammatifix Svensk grammatikkontroll i MS Word

SpellRight. för Google Docs. Manual för SpellRight för Google Docs

Projektets syfte. Att lära sig skriva i IT-samhället. Forskningsfrågor, forts. Forskningsfrågor. Hur skriver barn? Ursprunget till projektidén

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Att lära sig skriva i IT-samhället

Grundläggande textanalys. Joakim Nivre

Grafisk visualisering av en spårbarhetslösning

WordRead Plus för Mac

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

1-6:an skriver sig till läsning läsåret

Kundfokus för ökad användning av kommunala e-tjänster. Esmail Salehi-Sangari, LTU & KTH Maria Ek Styvén, LTU Anne Engström, LTU Åsa Wallström, LTU

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

- Språk och kön - Hemtentamen i feministisk filosofi HT 2005 Anna Schön

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

6 Svenska som andraspråk

Kurs: Svenska. Kurskod: GRNSVE2. Verksamhetspoäng: 1000

Från tal till skrift. Susan Nieland Välkomna!

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Word- sense disambiguation

Att använda Stava Rex

Utvärdering APL frågor till handledare VT2015

SVENSKA SOM ANDRASPRÅK

Praktikintyg. Utbildning och praktik för ungdomar med sikte på JOBB!

Styrdokumentkompendium

Ämnesplan i Engelska

Hej, snälla! ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN

Kursplan för kurs på grundnivå

Grundläggande textanalys, VT2013

Utvärdering av föräldrakurs hösten 2013

Bedömningmatris Moderna språk år 7-9 Grundskola 7 9 LGR11 Mspr2

Lathund för webbredaktörer. Så skriver du på webben

ClaroRead Plus Mac Manual. Artikel.nr

Handledning Sfi i Hjo «Vi lär oss svenska tillsammans»

Undervisningsmål Svenska Årskurs 1-5. Läsa

Lathund för Stava Rex

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten.

Antagning till högre utbildning höstterminen 2016

Lexikon: ordbildning och lexikalisering

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

En beskrivning av det professionella rådgivningssamtalet

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Plugga/slappa/leva/plugga/slappa/leva/plugga/slappa/leva. Carina Bäckström & Ola Olefeldt

WORKPLACE BRuKsAnvisning

Anne Persson, Professor

Sammanställning av studentenkät arbetsterapeuter 2009

L6EN20, Engelska 2 för lärare åk 4-6, 15,0 högskolepoäng English 2 for Teachers, 4th-6th grade, 15.0 higher education credits

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Anvisningar för utformning av sammandrag som mognadsprov

Allt fler svenskar skriver dagligen texter. Kontrollera språkkontrollen FRAMTIDEN OLA KARLSSON

BARNETS FEM KÄRLEKSSPRÅK

Skrivprojekt åk 7. Syfte: Utveckla sin förmåga att skriva berättande text. Jobba med skrivprocessen där respons och bearbetning av texten ingår.

IntoWords webb elevdata.se

ALLMÄN BESKRIVNING AV LÄROÄMNET ENGELSKA I ÅRSKURSERNA 4-6

Vad händer med de svenska dialekterna? 19/ Margareta Svahn

Innehåll. Sammanfattning

Auktorisation som tolk

Språkgranskningsverktyg. F1: Introduktion

Litteraturvetenskap Ger dig en akademisk grund att stå på

Kursutvärdering Digital kompetens/it-ämnen vt11

Prövning i Moderna språk 2

Liten introduktion till akademiskt arbete

Analys av Gruppintag 2 Arbetsmarknadsintroduktion för nyanlända

Kursutvärdering. Samhällskunskap A

Peter Ottosson 31/ Introduktionskurs i datateknik II1310

BARNS SPRÅKUTVECKLING

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grupparbete om PBL Problembaserat Lärande

Kursplaneöversättaren. Lina Stadell

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Vad är en artikel? Vad är typiskt för en krönika? Hur skriver jag en novell? Vad är det för skillnad på ett referat och en recension?

Hur kan man lyssna på den komplexa patienten?

ViTex snabbguide. 1. Inläsning till ViTex från scanner eller PDF Läs in text via scanner Läs in text från en JPEG-bild eller ett PDF-dokument

4. Bedömning av delprov C

HJÄLPFIL: LÄRARAPPLIKATIONEN

Miljö och hållbar utveckling MHU

Grammatik, det fixar väl datorn?

Illustrationer: Hugo Karlsson, Ateljé Inuti Projektledare: Elinor Brunnberg. Mälardalens högskola Text: Kim Talman, Jeanette Åkerström Kördel, Elinor

Svårigheter med kurslitteraturen

Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10

Transkript:

Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET

Huvudpunkter Vad är datorstödd språkgranskning Skrivprocessen och skrivstöd Datoriserade skrivstöd Hur används dessa stöd Slutsatser och frågeställningar. Läs: Ola Karlsson: Kontrollera språkkontrollen (länk från hemsidan).

Vad är datorstödd språkgranskning? En hjälp för användaren att granska och bearbeta en texten. Skrivstöd stöd för redigering Elektroniska ordböcker Språkkontroll Stavning, grammatik och stil

Perfekt språkgranskning Att finna alla stavfel och ogrammatiska konstruktioner, och ge (korrekta) förslag på korrigering, men inte ge några falsklarm. (Extraktionsproblem, identifiera och lokalisera fel.) Vad är ett språkfel? Dem dom, mig mej större än han/honom söndrig

Vad är viktigast? Att programmet hittar så många fel som möjligt (i idealfallet alla)? Att programmet ger så få falsklarm som möjligt (i idealfallet inga alls)? Konflikt mellan dessa. Vilka är användarens behov?

Teckenbaserad kontroll Teckenbaserad mönstermatchning. Begränsad funktionalitet, kontrollerar främst teckenanvänding som t.ex. stor bokstav efter punkt eller apostrofanvändning. Tekniken skulle t.ex. kunna använda sig av en regel att larma då något matchar mot mönstret det -a -arna det fina fåglarna det ska varna T.ex. Skribent, Norstedts ordbok.

Stavningskontroll Kontrollen av felstavade ord arbetar för det mesta mot en ordlista. Ju mer morfologi ett språk har, dest mer praktiskt att arbeta med grundformer och regler för böjningar, avledningar och sammansättningar. Speciellt svårt: sammansättningar (felaktiga särskrivningar) -- fel alternativ finns i ordlistan. En jätte stor som ett hus. En jättestor bil. Han är småskolärare, hon är barnnorska. Nu skall de till Dunmark på semester.

Grammatikkontroll Fenomenbaserat (ytanalys) Kontrollerar en begränsad del av meningen som kan förväntas innehålla fel. Snäv kontext, regler för ordklassekvenser, t.ex. kan två supinumformer i rad vara en otillåten kombination. Ytlig parsning. Grammatikbaserat (djupare analys) Kontrollera om (hela) satsen är grammatisk given en uppsättning grammatikregler -- > ej möjligt. En lösning: relaxation, dvs att ange vilka regler som inte alltid behöver följas.

Statistiska metoder Programmet lär sig vanliga fel genom att ett maskininlärningsprogram tränas på en korpus med vanliga fel. Mindre vanligt. Statistiska metoder vid analysen (taggning och parsning) kan dock förekomma utan att själva feldetekteringen är statistiskt baserad.

Existerande system för svenska Fenomenbaserade: Grammatikbaserade: Grammatifix (Word) Lingsoft SCARRIE Uppsala universitet Granska NADA, KTH Grim Granska anpassat för andraspråksinlärare av svenska. Finite Check Göteborgs universitet

SCARRIE Utvecklat vid Uppsala universitet, korrekturläsningsverktyg för tidningsskribenter. Stavningskontroll Lexikonuppslagning Sammansättningsregler (svårigheter) Grammatikkontroll Partiell parsning Söker igenom analysen för fel.

SCARRIE-projektet feltyper Feltyper annoterade i en korpus med autentiska fel. Hierarkisk uppdelning av feltyper 500 på den mest fingranulerade nivån. Översta nivån av feltyper: Stavfel 43%. Interpunktion 17%. Stil, mening och referens (syftning) 16%. Grammatiska fel 15%. Grafiska fel 9%.

SCARRIE feltyper II NP-fel: Ett stort bil. PN-fel: Jag såg hon. Verbkedjor: Hon börja läsa. Särskrivningar: Upplands kusten. Ordföljdsfel: Jag undrar vad gör de.

Utvärderingsmått Dessa utvärderingsmått används ofta då en språkteknologisk tillämpning skall leta upp någon typ av fenomen i en text. Precision: andelen utpekade exempel som är verkliga exempel. Täckning (recall): andelen verkliga exempel som pekas ut.

SCARRIE resultat Stavningskontroll (hitta stavfel): Täckning 96,5 % Precision 41,3 % Grammatikkontroll (hitta grammatikfel): Täckning 85,7 % Precision 92,3 %

Granska grammatikkontroll Domeij (2003), Knutsson (2005). arbetar mot ett lexikon samt med hjälp av enkel kontroll av ändelser (om programmet ser lampan kommer också lampor att accepteras). har viss hantering av sammansättningar baserat på en undantagslista. tokeniserar ord och meningar. Ordklasstaggning och morfologisk analys (statistiskt baserad). Feldetektering (regelbaserad som använder sig av ordoch ordklassinformation). Partiell parsning.

Feltyper Granska (Knutsson, 2005) Kongruens i NP jag såg en glador. Predikativfel (inkongruens) mannen var glada. Särskrivning gladan tog en åker sork. Verbkedjor jag har spana på en glada en längre tid. Objektsform jag visade gladan för hon. Stavning jag såg en galda.

Granska resultat Stavnings- och grammatikkontroll: Täckning 52%. Precision 53%. (Är det bra?) Böjningsfel i verbkedjor: täckning 97%, precision 83%. Kongruensfel : täckning 74%, precision 72%. Särskrivningar: täckning 40%, precision 67%.

Grim Datoriserat skrivstöd för andraspråksinlärare. Baserat på Granska, men utökat för att stödja andraspråksinlärare av svenska: Visualisering/färgkodning av olika typer av fel. Böjningsformer. Markering av ordklasser, fraser och satser. Lexikon Lexin. Korpussökning Parole.

Förhoppningar resultat, GRIM Förhoppningen var att tillgång till flera olika verktyg skulle verka aktiverande på studenten, och hjälpa studenten att själv finna sig tillrätta i språket. Resultat: Problem med: falska alarm (dock inte lika problematiskt med icke detekterade fel). diagnos och rättning av särskrivningar. flera möjligheter till korrektion.

Att jämföra olika system Svårt att jämföra siffror från olika utvärderingar: Olika feltyper. Olika texter. Komparativ utvärdering: Samma feltyper. Samma texttyper. Synliggör olika systems strategier.

Ännu ett utvärderingsmått: F-score F-score räknas ut som 2*(täckning*precision)/(täckning+precision) (Ett sätt att väga samman täckning och precision.)

Granska och andra grammatikkontroller Texter skrivna av grundskoleelever Granska, F-score 23% SCARRIE, F-score 18% MS Word, F-score 14% Finite Check, F-score 49% (från Knutsson 2005)

Granska och MS Word Undersökningen utförd på inlärarsvenska (Svante) Granska (P / R ) Word (P / R ) Typografi 70 / 21 62 / 82 Stavning 86 / 57 38 / 91 Grammatik 80 / 84 86 / 34 Total 82 / 63 47 / 66 (Knutsson, 2005)

Återkoppling Hur förklarar man för användaren vad det är för fel med sekvensen som är understruken med rött? Förklaringar använder ofta en rätt teknisk språkvetenskaplig terminologi. Vet alla vad predikativ är? Olika återkoppling till olika användare.

Användarperspektivet Viktigt att användaren är medveten om programmets begränsningar och har ett kritiskt förhållningssätt. Ett sätt att kommunicera programmets begränsningar kan vara att tydliggöra syftet med programmet. Vilka är de feltyper som är viktigast att programmet kan upptäcka? Hur ger man explicit feedback på bästa sätt? Vilka språkteknologiska resurser är praktiska att integrera i en ordbehandlare?

Ersättningsförslag Ersättningsförslag kan vara till hjälp, om de ofta är de avsedda. Vad krävs av användaren? Osäkra skribenter kan ha svårt att välja.

Hur används datorstöden? Främjar en ytlig granskningsstrategi. Djupare bearbetning av text handlar om arbete av annat slag (t.ex. omstrukturering, sovring, klargöranden, preciseringar). Fungerar kanske för en typ av användare, men inte för andra.

Slutsatser Datorstödd språkgranskning kan klart hjälpa oss att undvika slarvfel med felslag etc. Ju mer problemet ligger i sammanhang och presentation av budskapet, desto svårare för den datorstödda språkgranskningen. Viktigt med upplysta användare. Viktigt med ett uttalat syfte för programmet detta påverkar även vilka feltyper som fokuseras samt vilken typ av återkoppling man ger.

Referenser Domeij, R. (2003): Datorstödd språkgranskning under skrivprocessen. Doktorsavhandling, Institutionen för lingvistik, Stockholms universitet. Domeij, R. (2005): Datorn granskar språket. Svenska språknämnden. Karlsson, O. (2007): Kontrollera språkkontrollen. Språkvård 2/2007. http://www.sprakradet.se/servlet/getdoc? meta_id=2331 Knutsson, O. (2005): Developing and Evaluating Language Tools for Writers and Learners of Swedish. Doktorsavhandling, Institutionen för numerisk analys och datalogi, KTH. Sågvall Hein, A. (1998): A Chart-Based Framework for Grammar Checking, Initial Studies. NODALIDA '98 Proceedings Vol. 11. Center for Sprogteknologi, Denmark. http://www.lingfil.uu.se/personal/anna/nodali.pdf Sågvall Hein, A., Olsson, L., Dahlqvist, B., Mats, E. (1999): Evaluation Report for the Swedish Prototype, Deliverable 8.1.3. In: Working Papers in Computational Linguistics & Language Enginering, vol 13, 1999. Dept. of Linguistics, Uppsala University.