Innehåll Korpusbaserad utvärdering F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG Ola Knutsson knutsson@csc.kth.se Automatisering av utvärdering!uppmärkta fel" Helautomatisk utvärdering!artificiella fel" ISO 9126 Usability testing Användarstudier Utvärdering som en del av systemutvecklingsprocessen Demo av Grim Två olika sätt att utvärdera Varför skall man utvärdera språkgranskningssystem? Två vägar att gå för att anpassa verktygen Produktorientering: Felkorpus, felannotering och feltypologi Aktivitetsorientering: metoder för att studera skrivaktiviteter # användarstudier
Att annotera fel Annoteringsövningar Jag har precis flyttat in i ett nytt villa. Svårigheter Hur påverkar detta resultatet? i kväl en gammal man läser bocken som heter "Mordet på Cirkus" Han läggar sig i sängen. Det är möligt ute. Jag bor i Fetja. Jag åker från till Frescati halv timmer vi måste sitter i tunlbana och bussen. Jag måste vackna klockan sex, därför att det är lång väg och börjar min klass klockan 8, och Jag hoppa. Kan jag sultat kalas och börjar fakolititet. Intern och extern utvärdering Olika delproblem att utvärdera Black box$utvärdering Utvärdera varje enskild modul för att få fram var störst insatser för förbättringar skall läggas. Detektionen Diagnosen Ersättningsförslagen
Utvärderingsmått a= antal korrekt detekterade fel = antal korrekta alarm b = falska alarm c = missade fel täckning/recall R = a/!a+c" precision P = a/!a+b" ( F = 1+ " 2 )PR " 2 P + R Utvärdering av Granska: Fem texttyper undersöktes Sportnyheter% % % 63 568 ord Utrikesnyheter% % % 20 881 ord Myndighetstexter% % % 36 667 ord Populärvetenskap% % % 32 386 ord Gymn.$ och högskoleuppsatser%47 517 ord $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ % % % % % 201 019 ord!400 A4" Felfrekvenser Fel i verbkedjan% % % % % 21 & Särskrivna sammansättningar% % 18 & Inkongruens i nominalfraser% % 17 & Inkongruens i predikativ% % % 4 & $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ Stavfel med gram$sem konsekvens% 13 & Jag har hjort läxan Ord saknas% % % % % % 13 & Några resultat vid utvärderingen av Granska Begränsad undersökning I populärvetenskaplig text upptäcktes 9 av 10 fel, 5 av 10 felrapporter var korrekta Gymn.$ och högskoletexter upptäcktes 4 av 10 fel, 7 av 10 felrapporter var korrekta Han kör? grön bil
Word H GC ---------------- Kvinnan! OK OK! hade! OK OK! köpt!! OK OK en!! OK OK ny!! OK OK hus!! ERR ERR bil ERR ERR. OK OK Han OK OK träffade OK OK en OK OK massa OK ERR bedömare OK ERR igår OK OK. OK OK Två mål för att förbättra verktygen Iterativ design av verktygens kärna. Men hur länge kan man egentligen hålla på? Iterativ design av verktygens interaktion och gränssnitt. Forskning vs. produktutveckling Felkorpusar Hur skall man annotera felen? korpusar med korrekturläst språk felkorpusar felannotering feltypologi Tolkning eller vad som faktiskt står? Var går gränsen för lingvistik? Feltyper? Är stavfel en feltyp eller skall man tala om böjningsfel, ortografiska brott!insättning, borttagning, omkastning, transformation" Fungerar dessa även på grammatisk nivå?
I gränslandet: Särskrivna sammansättningar Stavfel? Grammatiska fel? Semantiska fel? Kategori Deletion Insertion Substitution Transposition Feature mismatch Exempel Det är bra att man tabuläger svordomar och könsord. De som är emot tycker att det inte behövs inte i språket. Till exempel på en fotbollsmatch reagerar inte många för svordomarna. En sak tycker jag att vi alla kan hålla med om är att svordomar och könsord är onödigt i språket. Slangen anses som fula och opassande. <annot> <position pos="6" /> <type>ortografiskt FEL</type> <type>substitution</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevisitet kommer ut </suggestion> <annotatedwords>aggrivisitet </annotatedwords> </annot> <annot> <position pos="6" /> <type>ortografiskt FEL</type> <type>deletion</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevissitet kommer ut</suggestion> <annotatedwords>aggrivisitet </annotatedwords> </annot> "#$%&'()*+,-+#*.)*#-)&/*+#-)#&-0#/1#$%&-)#'(,#&-)#/$+2-00/#/))%+-,3)4-)5#67#89,#*-,#8-0/#$%&-) 2+:!"##$%!7"##$%!&'()*+,-./0,%!122#$%!(123)'*(#4+,-.,'$#+,56,7%!$89)%:";:<"=>?@A;'>BC!7$89)%!$89)%?D@B";?:D!7$89)%!$89)%&E(&F(GH2G23!7$89)%!$)I$%')2'9(GH1$'(1JG#'F121K'1KJ(G3'&FLKK)'!7$)I$%!M#44)2$%!7M#44)2$%!&L33)&$G#2%')2'9(GH1$'(1JG#F121K'1KJ(G3'&FLKK)'!7&L33)&$G#2%!122#$1$)JN#(J&%(1JG#'F121K'!7122#$1$)JN#(J&%!7122#$%!7&% <annot> <position pos="6" /> <type>ortografiskt FEL</type> <type>transposition</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggressivitet kommer ut</suggestion> <annotatedwords>aggrivisitet </annotatedwords> </annot> ;-+47)4*<2)$+#3#/)&,/#/,=-+-)#3)%>#'-0+/?%)%>3 @ A#&-0*#'(,#*1-)*$+#13&$%>>/)&-#3
Norsk Andrespråkskorpus (ASK) <type>morfosyntaktiskt FEL</type> <type>substitution</type> <type>lexikonfel</type> <text>på de lägre stadiumen. </text> <comment></comment> <suggestion>på de lägre stadierna. </suggestion> <annotatedwords>stadiumen </annotatedwords offentlige språkprøvene i norsk for voksne innvandrere en felkorpus en korrigerad version Feilkodene kan deles i fem typer: Leksemfeil: W (galt ord) ORT (ortografisk feil) PART (samskrivningsfeil, avledningsfeil) SPL (særskrivningsfeil) CAP (galt valg av stor/liten bokstav) FL (ord fra andre språk enn norsk) Morfologifeil: F (galt valg av morfosyntaktisk bøyningsform) INFL (feil form der intensjonen er riktig morfosyntaktisk kategori) Syntaksfeil: M (et ord eller en frase mangler) R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) O (ord eller fraser står i gal rekkefølge) Interpunktuasjonsfeil: PUNC (galt valg av tegn) PUNCM (tegnsetting mangler) PUNCR (tegnsetting må fjernes) Uidentifiserbar feil X intensjon) (umulig å gi en klar tolkning av tekstsutdragets
Kritik mot felanalys Dagneaux et al 1. Heterogeneous learner data 2. Error categories are fuzzy 3. Cannot cater avoidance strategies 4. Focus on what a learner cannot do 5. Product oriented (static view) Vad säger egentligen precision och täckning? Användarcentrerad utveckling av granskningsverktyg Ökad kritik mot de utvärderingsmetoder som används hittills språkteknologin. Idealiserad användning av programmen i laboratoriemiljö!se t.ex. Sparc Jones 2001". Men alla program behöver inte utvärderas med användare!t.ex. parsrar" Hur skall vi studera skrivande, lärande och användning av olika verktyg? Mer specifikt: hur skall vi undersöka hur verktygen används i olika aktiviteter? Resultaten skall användas för att förbättra programmen, både insida och utsida.
Utvärdering som ett led i systemutvcklingsprocessen ISO 9126: Funktionalitet Pålitlighet Användbarhet E'ektivitet Underhållbarhet Portabilitet Mjukvarukvalitet ISO 9126 Funktionalitet Prestation Pålitlighet Användbarhet Robusthet Underhåll Användbarhet ISO 9241-11 Ändamålsenlighet nå målen fri från fel fullständighet Effektivitet-produktivitet hur mycket tid och andra resurser som krävs Tillfredsställelse bekvämlighet acceptans Vad är användbarhet? Definition ISO 9241-11 Användbarhet: I hur hög grad en specifik användare i ett givet sammanhang kan bruka en produkt för att uppnå specifika mål på ett ändamålsenligt, effektivt och för användaren tillfredsställande sätt. Vad påverkar och vad påverkas? ISO 9241-11 Faktorer som kan specificeras Faktorer i användningskontexten Användaren Uppgiften Produkten Miljön Faktorer som kan mätas Användbarhetsmått Ändamålsenlighet Effektivitet Tillfredsställelse
Hur mäter man användbarhet? Faktorer som kan mätas Användbarhetsmått Ändamålsenlighet Effektivitet Tillfredsställelse Precision, felfrihet Antal klarade uppgifter Optimal väg Tid att utföra uppgifter Upplevd kontroll Upplevd effektivitet Lätt att förstå Förutsägbart Uppfyller syfte Attraktiv, trevlig Användarcentrerad design ISO 13407 1. Planering av användarcentrerad process Möter kraven 5. Användbarhetsutvärdering Uppfylla kravspecifikation 2. Specificering av anv. sammanhanget. Användaren: kunskaper, erfarenheter, vana, kultur. Miljön: platsen, befintliga system & hjälpmedel. Arbetsuppgifter: hur ofta arbetsflöde, önskat resul-tat, befogenheter/ansvar, behov för att lösa uppg. 4. Produktion av designlösningar 3. Specificering av 1)användarnas & 2)organisationens krav. 1.funktionalitet, interaktionssätt, struktur, terminologi, anv.stöd, 2.verksamhetens syfte, kostnad, underhåll, arbetsflöde, identitet Användbart? Är ett program användbart när det har fler än 1000 användare per dag? (the Systran case), 1 million translations each day (Jurafsky & Martin, 2000) Är ett program användbart när en forskare visar det genom att mäta någon egenskap hos programmet (partof-speech tagger?) Eller är ett program användbart när vi vet att användarna uppskattar det? (Eliza, drill-and-kill i CALL) Glider vi in en ny disciplin nu? Datorstödd språkinlärning!call" Språkteknologin styvmoderligt behandlad Vad behöver vi veta för att lyckas? Andraspråksinlärning, MDI, Datorstödd inlärning generellt!skillnad?" och språkteknologi och datalogi.
Går det att bevisa lärande sker? Tänka-högt metodik Kan vi mäta e'ekterna av användningen av ett CALL$ program? Kan vi visa att falska alarm inte är farliga? Många studier inom fältet andraspråksinlärning bygger på pre$test och post$test. Är det så enkelt? Vad är syftet med tänka$högt? Man vill veta vad personen tänker vid en speciell handling vid en speciell tidpunkt. Vad blir skillnaden om du tänker högt med en kompis? Loggning Fältstudier Världen ligger utanför laboratoriet Mer okontrollerad datainsamling speciellt om studien pågår en längre tid. Etnografi Teoristyrd metod!t.ex. sociokulturell", man vill ofta visa något, t.ex. kontexten styr tolkningen av uppgifter!t.ex. portotabellen"
Fältstudier med Granska Implementationen av fältstudien 16 studenter, 3 månader till 10 år i Sverige 20$40 år gamla, endast en man. Avancerad kurs i svenska som främmande språk. Vi förklarade att Granska endast är ett datorprogram med begränsad språklig förmåga.! Kontakter med lärare, studierektor! Lära känna kursen, dess mål, innehåll och dess studenter! Introduktion av oss och projektet! Deltagande observationer!granska i datorsal"! Insamling av data! Medgivandeformulär Why focus on errors? Instruktioner till användarna Använd Granska när du vill The learners errors are a register of their current perspective of the target language!james, 1998". Noticing a problem pushes the learner to modify his/ her output!swain & Lapkin, 1995": # syntactic processing mode # important for the development of IL och när du tycker att programmet kan hjälpa dig Fokus på studenternas fria skrivande
5. Utmärkt $ t.ex. jag förstår precis vad Granska menar 4. Bra # t.ex. Granska är till ganska stor hjälp diagnosis detection 3. Godkänt # t.ex. jag har svårt att ta ställning, men jag chansar 2. Dåligt # t.ex. jag har svårt att ta ställning, måste slå i lärobok 1. Obegripligt # t.ex. jag förstår inte vad Granska menar correction Antal uppgifter, vilken typ Ordförande inledde diskussionen och deltagarna hade olika uppfattning om vad en uppgift och ett ämnet är. ((((ett ämnet ((((Om ett syftar på ämnet är det kongruensfel!kong22e@kong" (M5,D3,E2) Här borde det vara ett ämne ((((det ämnet De föreslog att ett prov med flera delar / uppgifter betyder flera skriftliga uppsatser eller övningar!t. ex. grammatik eller ordkunskap" som måste göras under provet. Ett ämne beskrevs som en uppsatsfråga!t. ex. pappaledighet". Efter en tolkning av vad en uppgift och ett ämne egentligen betyder samt en kort diskussion beslutade mötes majoritetet att en uppgift på provet är tillräcklig. ((((majoritetet ((((Okänt ord!stav1@stavning" Stava (M5,D3,E5) Här borde det vara: beslutade majoriteten... ((((majoriteten ((((majoriteter Språkteknologi för inlärare Hur kan vi stödja inlärning med annan teknik än en robust grammatikkontroll? Vilken funktionalitet är viktig i en miljö för inlärare av svenska?
Bedömningar av falska alarm Resultat Error type detection mean diagnosis mean correction mean Brist på feedback och vilseledande Agr. NP 5 2 2 Spelling 4 3.3 2.6 Word order 5 5 5 Missing X 2.3 1.7 1.7 feedback Olika källor med lingvistisk information # ett verktyg räcker inte. Fokus på form Att lita på programmet Mer resultat Metaspråk och grammatisk kunskap Genomskinlighet!kan man få fram stavningsreglerna ur stavningskontrollen" Interaktion and integration Användaranpassning av Granska Andraspråksinlärare och användare med speciella behov Andra behov av språklig hjälp Om en mening innehåller många fel är den synnerligen svår att analysera Nya krav på gränssnitt och innehåll $$> Grim!
Några insikter En grupp av studenter vill lära sig från programmet. En annan grupp av studenter vill endast lyckas med skrivuppgifterna!kursen". Läraren är mycket viktig för förklara programmet och dess innehåll. Läraren står så att säga mellan programmet och studenten. Hur skall vi designa ett program för andraspråksinlärning? Vårt förslag är Grim. Grim är en lärmiljö med många olika verktyg. Grim ger feedback på olika aspekter av skribentens språk. Grim ger exempel på målspråkets användning Diskussion Demo av Grim Är Grim en lärmiljö? Skall man bygga in pedagogiska paket i miljön? Semantisk återkoppling $$ när blir det focus on forms? Varför används datorer så lite i språkutbildning? Hur kan vi studera Grim på ett naturligt sätt utan marknadsföra det? http://skrutten.nada.kth.se/grim