Innehåll. Två olika sätt att utvärdera. Varför skall man utvärdera språkgranskningssystem? F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG

Relevanta dokument
Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Obesvarade frågor från F4

Introduktion till språkteknologi. Datorstöd för språkgranskning

Utvärderingsmetoder inom MDI DH2408. Introduktion. Kursens mål. För att ni ska

Kursen handlar om. Var används datorer och andra IT-stöd? Människa-datorinteraktion 1MD016, 5hp. T ex:

Feltaxonomi. för automatisk språkgranskning av svensk text

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Systemering med användarfokus

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Användarcentrerad systemdesign

språkgranskning, ht 2007

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Kursen: Sjukvårdsarbete. Människa-datorinteraktion 5hp. IT-inst. / MDI-avd. Anders Jansson Lars Oestreicher Bengt Sandblad Bengt Göransson Thomas Lind

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Kursen handlar om. Var används datorer och andra IT-stöd? T ex: Människa-datorinteraktion (MDI) Inst. för informationsteknologi

Användarcentrerad systemdesign

Användarcentrerad systemdesign

Språkteknologi och Open Source

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Behov av språklig granskning. Granska och automatisk språkgranskning av svensk text. Datorn som språkgranskare

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys, VT2013

Bild 1: Översikt över faserna i projektarbetet

Effektivt Nyttigt Självförklarande Kräver ingen manual Intuitivt Läcker design Vem som helst kan använda det. Ändamålsenligt. Farmor kan använda den!

Datavetenskap. Beteendevetenskap MDI. Design

Föreläsning 4, Användbarhet, prototyper

Kursbeskrivning med litteraturlista HT-13

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Automatisk språkgranskning av svensk text

Svårigheter med kurslitteraturen

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Användarcentrerad systemdesign introduktion till begrepp, processer och arbetssätt

Period 3-4, VT2006 Distans, nät

Bruksanvisning och formalia för proben

Föreläsning 2: Introduktion till utvärdering varför ska vi utvärdera?

Människa-datorinteraktion och användarcentrerad design

Mobiler och mobilappar som redskap för språkutveckling

Lingvistik I Delmoment: Datorlingvistik

språkgranskning, ht 2007

Intro utvärdering

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Användbarhet och Webbutveckling för mobila enheter. Behovsanalys

Tekniker för storskalig parsning

Föreläsning 4: Designprocessen

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Utvärdering. Övergripande (1) Med/utan användare. Övergripande (2) Fredag 1 oktober F1. Ann Lantz - Anna Swartling -

Grim. Några förslag på hur du kan använda Grim. Version 0.8

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

Utvärdering av gränssnitt särskilt befintliga. Hur utvecklar man användbara system? Användbarhet handlar om kvalitet

Föreläsning 2: Introduktion till utvärdering varför ska vi utvärdera?

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Arbetsmiljöproblem vid IT-stött arbete

PRODUKTUTVECKLING. Ämnets syfte

Språkgranskningsverktyg, vt 2009

Vem är jag? Välkommen till Människa- Datorinteraktion, Inledande. Era förväntningar på kursen. Vem jag tror Ni är? Fortsättning från denna kurs..

Interaktionsdesign. Användbarhet ISO Usability goals. Interaktionsdesign, grundkurs (7,5 HP) Sammanfattande föreläsning

Användarcentrerad systemdesign

Introducing Peer-based Intervention to improve learning in foreign language translation classes

Prövning i Moderna språk 1

Kommentarer till bedömningsmatris för Skriva Kurs C

Människa-datorinteraktion 1MD016, hösten 2011 Användarcentrerad systemdesign september 2011

att / bor / de / finns / för / heter / inte / många / ni / och / på / ska / så / är / som /

28/ Introduktion CL / Föreläsning: Utvärdering av studie- och yrkesvägledning och annan pedagogisk verksamhet

Kursplaneöversättaren. Lina Stadell

Teoretisk lingvistik och datalingvistik. Robin Cooper

Från Smart TV till Smartare upplevelse Av: Kim Huber och Connie Huanca

Allt fler svenskar skriver dagligen texter. Kontrollera språkkontrollen FRAMTIDEN OLA KARLSSON

Föreläsning 10: Introduktion till utvärdering. Rogers et al. Kapitel 12

Kursinformation och schema för Lingvistik 6 hp 729G08

Forskningsperspektiv inom MDI Vetenskap, mångvetenskap och tvärvetenskap Vad är forskning inom MDI?

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Bilaga 2. Rapport av resultatet för Användbarhetsutvärderingen av E-handelstjänsten Proceedo

Språkgranskningsverktyg. F1: Introduktion

Metoder för datainsamling

Basic Swedish 1. A. typ-prov skriftligt / written exam a) lucktext / text with blanks b) grammatik / grammar c) läsförståelse / reading comprehension

Capítulo 5, Animales y países, Tapas 2

Maskinöversättning och språkgranskning, ht 2006

Kursrapport Datorlingvistisk grammatik (första skiss)

Basic Swedish 1. A. typ-prov skriftligt / written exam a) lucktext / text with blanks b) grammatik / grammar c) läsförståelse / reading comprehension

Prövning i Moderna språk 3

Allmänna frågor om kursen: 1. Vilket är ditt allmänna omdöme om kursen? Antal svar: 25 Medelvärde: 4.3

Interaktionsdesign - Prototyper. Användbarhetskrav

Design och konstruktion av grafiska gränssnitt

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Objektorientering. Grunderna i OO

Objektorienterad analys och design

Mjukvarudesign. Designprocessen. Teknisk design. Konceptuell design

Kriminologiska på lärplattformen

Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS

Resultat av kursvärdering för kursansvarig och lärare

Användbarhet. Datorbaserade verktyg används till att. Aspekter på användbarhet. uppfylla behov eller lösa problem! Användbarhet.

Cristina Eriksson oktober 2001

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Testdriven utveckling. Magnus Jonsson Siemens Medical Solutions

Transkript:

Innehåll Korpusbaserad utvärdering F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG Ola Knutsson knutsson@csc.kth.se Automatisering av utvärdering!uppmärkta fel" Helautomatisk utvärdering!artificiella fel" ISO 9126 Usability testing Användarstudier Utvärdering som en del av systemutvecklingsprocessen Demo av Grim Två olika sätt att utvärdera Varför skall man utvärdera språkgranskningssystem? Två vägar att gå för att anpassa verktygen Produktorientering: Felkorpus, felannotering och feltypologi Aktivitetsorientering: metoder för att studera skrivaktiviteter # användarstudier

Att annotera fel Annoteringsövningar Jag har precis flyttat in i ett nytt villa. Svårigheter Hur påverkar detta resultatet? i kväl en gammal man läser bocken som heter "Mordet på Cirkus" Han läggar sig i sängen. Det är möligt ute. Jag bor i Fetja. Jag åker från till Frescati halv timmer vi måste sitter i tunlbana och bussen. Jag måste vackna klockan sex, därför att det är lång väg och börjar min klass klockan 8, och Jag hoppa. Kan jag sultat kalas och börjar fakolititet. Intern och extern utvärdering Olika delproblem att utvärdera Black box$utvärdering Utvärdera varje enskild modul för att få fram var störst insatser för förbättringar skall läggas. Detektionen Diagnosen Ersättningsförslagen

Utvärderingsmått a= antal korrekt detekterade fel = antal korrekta alarm b = falska alarm c = missade fel täckning/recall R = a/!a+c" precision P = a/!a+b" ( F = 1+ " 2 )PR " 2 P + R Utvärdering av Granska: Fem texttyper undersöktes Sportnyheter% % % 63 568 ord Utrikesnyheter% % % 20 881 ord Myndighetstexter% % % 36 667 ord Populärvetenskap% % % 32 386 ord Gymn.$ och högskoleuppsatser%47 517 ord $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ % % % % % 201 019 ord!400 A4" Felfrekvenser Fel i verbkedjan% % % % % 21 & Särskrivna sammansättningar% % 18 & Inkongruens i nominalfraser% % 17 & Inkongruens i predikativ% % % 4 & $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ Stavfel med gram$sem konsekvens% 13 & Jag har hjort läxan Ord saknas% % % % % % 13 & Några resultat vid utvärderingen av Granska Begränsad undersökning I populärvetenskaplig text upptäcktes 9 av 10 fel, 5 av 10 felrapporter var korrekta Gymn.$ och högskoletexter upptäcktes 4 av 10 fel, 7 av 10 felrapporter var korrekta Han kör? grön bil

Word H GC ---------------- Kvinnan! OK OK! hade! OK OK! köpt!! OK OK en!! OK OK ny!! OK OK hus!! ERR ERR bil ERR ERR. OK OK Han OK OK träffade OK OK en OK OK massa OK ERR bedömare OK ERR igår OK OK. OK OK Två mål för att förbättra verktygen Iterativ design av verktygens kärna. Men hur länge kan man egentligen hålla på? Iterativ design av verktygens interaktion och gränssnitt. Forskning vs. produktutveckling Felkorpusar Hur skall man annotera felen? korpusar med korrekturläst språk felkorpusar felannotering feltypologi Tolkning eller vad som faktiskt står? Var går gränsen för lingvistik? Feltyper? Är stavfel en feltyp eller skall man tala om böjningsfel, ortografiska brott!insättning, borttagning, omkastning, transformation" Fungerar dessa även på grammatisk nivå?

I gränslandet: Särskrivna sammansättningar Stavfel? Grammatiska fel? Semantiska fel? Kategori Deletion Insertion Substitution Transposition Feature mismatch Exempel Det är bra att man tabuläger svordomar och könsord. De som är emot tycker att det inte behövs inte i språket. Till exempel på en fotbollsmatch reagerar inte många för svordomarna. En sak tycker jag att vi alla kan hålla med om är att svordomar och könsord är onödigt i språket. Slangen anses som fula och opassande. <annot> <position pos="6" /> <type>ortografiskt FEL</type> <type>substitution</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevisitet kommer ut </suggestion> <annotatedwords>aggrivisitet </annotatedwords> </annot> <annot> <position pos="6" /> <type>ortografiskt FEL</type> <type>deletion</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevissitet kommer ut</suggestion> <annotatedwords>aggrivisitet </annotatedwords> </annot> "#$%&'()*+,-+#*.)*#-)&/*+#-)#&-0#/1#$%&-)#'(,#&-)#/$+2-00/#/))%+-,3)4-)5#67#89,#*-,#8-0/#$%&-) 2+:!"##$%!7"##$%!&'()*+,-./0,%!122#$%!(123)'*(#4+,-.,'$#+,56,7%!$89)%:";:<"=>?@A;'>BC!7$89)%!$89)%?D@B";?:D!7$89)%!$89)%&E(&F(GH2G23!7$89)%!$)I$%&#4')2'9(GH1$'(1JG#'F121K'1KJ(G3'&FLKK)'!7$)I$%!M#44)2$%!7M#44)2$%!&L33)&$G#2%&#4')2'9(GH1$'(1JG#F121K'1KJ(G3'&FLKK)'!7&L33)&$G#2%!122#$1$)JN#(J&%(1JG#'F121K'!7122#$1$)JN#(J&%!7122#$%!7&% <annot> <position pos="6" /> <type>ortografiskt FEL</type> <type>transposition</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggressivitet kommer ut</suggestion> <annotatedwords>aggrivisitet </annotatedwords> </annot> ;-&#2+47)4*<2)$+#3#/)&,/#/,=-+-)#3)%>#'-0+/?%)%>3 @ A#&-0*#'(,#*1-)*$+#13&$%>>/)&-#3

Norsk Andrespråkskorpus (ASK) <type>morfosyntaktiskt FEL</type> <type>substitution</type> <type>lexikonfel</type> <text>på de lägre stadiumen. </text> <comment></comment> <suggestion>på de lägre stadierna. </suggestion> <annotatedwords>stadiumen </annotatedwords offentlige språkprøvene i norsk for voksne innvandrere en felkorpus en korrigerad version Feilkodene kan deles i fem typer: Leksemfeil: W (galt ord) ORT (ortografisk feil) PART (samskrivningsfeil, avledningsfeil) SPL (særskrivningsfeil) CAP (galt valg av stor/liten bokstav) FL (ord fra andre språk enn norsk) Morfologifeil: F (galt valg av morfosyntaktisk bøyningsform) INFL (feil form der intensjonen er riktig morfosyntaktisk kategori) Syntaksfeil: M (et ord eller en frase mangler) R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) O (ord eller fraser står i gal rekkefølge) Interpunktuasjonsfeil: PUNC (galt valg av tegn) PUNCM (tegnsetting mangler) PUNCR (tegnsetting må fjernes) Uidentifiserbar feil X intensjon) (umulig å gi en klar tolkning av tekstsutdragets

Kritik mot felanalys Dagneaux et al 1. Heterogeneous learner data 2. Error categories are fuzzy 3. Cannot cater avoidance strategies 4. Focus on what a learner cannot do 5. Product oriented (static view) Vad säger egentligen precision och täckning? Användarcentrerad utveckling av granskningsverktyg Ökad kritik mot de utvärderingsmetoder som används hittills språkteknologin. Idealiserad användning av programmen i laboratoriemiljö!se t.ex. Sparc Jones 2001". Men alla program behöver inte utvärderas med användare!t.ex. parsrar" Hur skall vi studera skrivande, lärande och användning av olika verktyg? Mer specifikt: hur skall vi undersöka hur verktygen används i olika aktiviteter? Resultaten skall användas för att förbättra programmen, både insida och utsida.

Utvärdering som ett led i systemutvcklingsprocessen ISO 9126: Funktionalitet Pålitlighet Användbarhet E'ektivitet Underhållbarhet Portabilitet Mjukvarukvalitet ISO 9126 Funktionalitet Prestation Pålitlighet Användbarhet Robusthet Underhåll Användbarhet ISO 9241-11 Ändamålsenlighet nå målen fri från fel fullständighet Effektivitet-produktivitet hur mycket tid och andra resurser som krävs Tillfredsställelse bekvämlighet acceptans Vad är användbarhet? Definition ISO 9241-11 Användbarhet: I hur hög grad en specifik användare i ett givet sammanhang kan bruka en produkt för att uppnå specifika mål på ett ändamålsenligt, effektivt och för användaren tillfredsställande sätt. Vad påverkar och vad påverkas? ISO 9241-11 Faktorer som kan specificeras Faktorer i användningskontexten Användaren Uppgiften Produkten Miljön Faktorer som kan mätas Användbarhetsmått Ändamålsenlighet Effektivitet Tillfredsställelse

Hur mäter man användbarhet? Faktorer som kan mätas Användbarhetsmått Ändamålsenlighet Effektivitet Tillfredsställelse Precision, felfrihet Antal klarade uppgifter Optimal väg Tid att utföra uppgifter Upplevd kontroll Upplevd effektivitet Lätt att förstå Förutsägbart Uppfyller syfte Attraktiv, trevlig Användarcentrerad design ISO 13407 1. Planering av användarcentrerad process Möter kraven 5. Användbarhetsutvärdering Uppfylla kravspecifikation 2. Specificering av anv. sammanhanget. Användaren: kunskaper, erfarenheter, vana, kultur. Miljön: platsen, befintliga system & hjälpmedel. Arbetsuppgifter: hur ofta arbetsflöde, önskat resul-tat, befogenheter/ansvar, behov för att lösa uppg. 4. Produktion av designlösningar 3. Specificering av 1)användarnas & 2)organisationens krav. 1.funktionalitet, interaktionssätt, struktur, terminologi, anv.stöd, 2.verksamhetens syfte, kostnad, underhåll, arbetsflöde, identitet Användbart? Är ett program användbart när det har fler än 1000 användare per dag? (the Systran case), 1 million translations each day (Jurafsky & Martin, 2000) Är ett program användbart när en forskare visar det genom att mäta någon egenskap hos programmet (partof-speech tagger?) Eller är ett program användbart när vi vet att användarna uppskattar det? (Eliza, drill-and-kill i CALL) Glider vi in en ny disciplin nu? Datorstödd språkinlärning!call" Språkteknologin styvmoderligt behandlad Vad behöver vi veta för att lyckas? Andraspråksinlärning, MDI, Datorstödd inlärning generellt!skillnad?" och språkteknologi och datalogi.

Går det att bevisa lärande sker? Tänka-högt metodik Kan vi mäta e'ekterna av användningen av ett CALL$ program? Kan vi visa att falska alarm inte är farliga? Många studier inom fältet andraspråksinlärning bygger på pre$test och post$test. Är det så enkelt? Vad är syftet med tänka$högt? Man vill veta vad personen tänker vid en speciell handling vid en speciell tidpunkt. Vad blir skillnaden om du tänker högt med en kompis? Loggning Fältstudier Världen ligger utanför laboratoriet Mer okontrollerad datainsamling speciellt om studien pågår en längre tid. Etnografi Teoristyrd metod!t.ex. sociokulturell", man vill ofta visa något, t.ex. kontexten styr tolkningen av uppgifter!t.ex. portotabellen"

Fältstudier med Granska Implementationen av fältstudien 16 studenter, 3 månader till 10 år i Sverige 20$40 år gamla, endast en man. Avancerad kurs i svenska som främmande språk. Vi förklarade att Granska endast är ett datorprogram med begränsad språklig förmåga.! Kontakter med lärare, studierektor! Lära känna kursen, dess mål, innehåll och dess studenter! Introduktion av oss och projektet! Deltagande observationer!granska i datorsal"! Insamling av data! Medgivandeformulär Why focus on errors? Instruktioner till användarna Använd Granska när du vill The learners errors are a register of their current perspective of the target language!james, 1998". Noticing a problem pushes the learner to modify his/ her output!swain & Lapkin, 1995": # syntactic processing mode # important for the development of IL och när du tycker att programmet kan hjälpa dig Fokus på studenternas fria skrivande

5. Utmärkt $ t.ex. jag förstår precis vad Granska menar 4. Bra # t.ex. Granska är till ganska stor hjälp diagnosis detection 3. Godkänt # t.ex. jag har svårt att ta ställning, men jag chansar 2. Dåligt # t.ex. jag har svårt att ta ställning, måste slå i lärobok 1. Obegripligt # t.ex. jag förstår inte vad Granska menar correction Antal uppgifter, vilken typ Ordförande inledde diskussionen och deltagarna hade olika uppfattning om vad en uppgift och ett ämnet är. ((((ett ämnet ((((Om ett syftar på ämnet är det kongruensfel!kong22e@kong" (M5,D3,E2) Här borde det vara ett ämne ((((det ämnet De föreslog att ett prov med flera delar / uppgifter betyder flera skriftliga uppsatser eller övningar!t. ex. grammatik eller ordkunskap" som måste göras under provet. Ett ämne beskrevs som en uppsatsfråga!t. ex. pappaledighet". Efter en tolkning av vad en uppgift och ett ämne egentligen betyder samt en kort diskussion beslutade mötes majoritetet att en uppgift på provet är tillräcklig. ((((majoritetet ((((Okänt ord!stav1@stavning" Stava (M5,D3,E5) Här borde det vara: beslutade majoriteten... ((((majoriteten ((((majoriteter Språkteknologi för inlärare Hur kan vi stödja inlärning med annan teknik än en robust grammatikkontroll? Vilken funktionalitet är viktig i en miljö för inlärare av svenska?

Bedömningar av falska alarm Resultat Error type detection mean diagnosis mean correction mean Brist på feedback och vilseledande Agr. NP 5 2 2 Spelling 4 3.3 2.6 Word order 5 5 5 Missing X 2.3 1.7 1.7 feedback Olika källor med lingvistisk information # ett verktyg räcker inte. Fokus på form Att lita på programmet Mer resultat Metaspråk och grammatisk kunskap Genomskinlighet!kan man få fram stavningsreglerna ur stavningskontrollen" Interaktion and integration Användaranpassning av Granska Andraspråksinlärare och användare med speciella behov Andra behov av språklig hjälp Om en mening innehåller många fel är den synnerligen svår att analysera Nya krav på gränssnitt och innehåll $$> Grim!

Några insikter En grupp av studenter vill lära sig från programmet. En annan grupp av studenter vill endast lyckas med skrivuppgifterna!kursen". Läraren är mycket viktig för förklara programmet och dess innehåll. Läraren står så att säga mellan programmet och studenten. Hur skall vi designa ett program för andraspråksinlärning? Vårt förslag är Grim. Grim är en lärmiljö med många olika verktyg. Grim ger feedback på olika aspekter av skribentens språk. Grim ger exempel på målspråkets användning Diskussion Demo av Grim Är Grim en lärmiljö? Skall man bygga in pedagogiska paket i miljön? Semantisk återkoppling $$ när blir det focus on forms? Varför används datorer så lite i språkutbildning? Hur kan vi studera Grim på ett naturligt sätt utan marknadsföra det? http://skrutten.nada.kth.se/grim