Språkgranskningsverktyg Felmodellering
Varför felmodellering? Återkoppling till användaren Vad kan betraktas som ett fel? Hur kan det beskrivas? Hur kan det förklaras? Hur kan det åtgärdas? Utvärdering Vilka fel klarar mitt program av? Hur bra klarar det av dem?
Huvudsteg vid felmodellering Felinsamling Felanalys Vad är för fel? Feltypologi Hur kan felen kategoriseras? Hur kan felet åtgärdas?
Felinsamling Korpusbaserad Text producerad av den aktuella målgruppen Parallellkorpus av rå och korrekturläst text Automatisk felinsamling
Ex. på rå och korrigerad text Faran med produkten är att den - till skillnad från klassikern T-röd - innehåller en hög halt metanol, d v s träsprit. (SvD) -> Faran med produkten är att den - till skillnad från klassikern T-röd - innehåller en hög halt metanol, dvs träsprit. (SvD) Det kördes också också två treårslopp. (UNT) -> Det kördes också två treårslopp. (UNT)
Scarrie-projektet Scandinavian Proof-Reading Tools, ett EU projekt som genomfördes 1996-1999. I projektet utvecklades prototyper till korrekturläsningsverktyg för den danska, norska och svenska publiceringsindustrin. Det svenska delprojektet var främst inriktat mot tidningstext och genomfördes som ett samarbete mellan Inst f lingvistik vid UU samt SvD och UNT.
Felinsamling i Scarrie Svenska Dagbladet (SvD) och Uppsala Nya Tidning (UNT) levererade rå och korrekturläst text. Korrekturläsningen hade gjorts på tidningarna av professionella korrekturläsare. Materialet från SvD levererades i elektronisk form. De båda textversionerna parallellställdes mening för mening, och korrigeringarna spårades automatiskt med hjälp av ett datorprogram. Totalt sett omfattade leveransen två veckors produktion, vilket svarade mot 734 artiklar och 2 100 fel. UNT levererade papperskopior med korrekturmarkeringar. Leveransen svarade mot 25 dagars produktion från de avsnitt av tidningen som korrekturlästes. Totalt sett insamlades 6 801 fel med rättelser. Felen analyserades och kategoriserades i enlighet med en feltypologi som byggdes upp.
Ex. på grammatikfel 1. ett stor hus 2. Böckerna var intressant. 3. det tidiga 1800-talen 4. en av de många fallen 5. Där samlade då hela universitetets spridda administration. 6. Det är tänkbart att vi flyttar ut Skandalhuset, men jag kan inte föregripa utvecklingen. 7. En idé har varit att göra Carolina till bli universitetets ansikte med en informationsdisk i entrén för studenter och besökare.
Feltypologi i Scarrie Huvudgrupp Kategori Underkategori Specifikation (Wedbjer Rambell 98)
Huvudgrupper Ordfel (performans och kompetens) Grammatikproblem Interpunktionsproblem Grafiska problem Stil-, betydelse- och syftningsproblem
Ett grammatikfel: analys och felkod Det tidstypiska tornet var på modet under sent 1800-tal där dåtida sjöman... -> Det tidstypiska tornet var på modet under sent 1800-tal där dåtida sjömän... Grupp: Grammatikproblem (GP) Kategori: Nominalfras (NP) Underkategori: Kongruens (AG) Specifikation: singular -> plural (01) GPNPAG01
Stavfel - SP Kategorier Stor bokstav - CP Ordbildning - WF Avstavning HY Övriga - OS
Grammatikfel - GP Kategorier Nominalfraser NP Adjektivfraser AP Adverbfraser AB Prepositionsfraser PP Konjunktioner och konjunktiva adverb CN Verbfras i begränsad mening VF Verbvalens VV
Grammatikproblem GP, forts Pronominellt kasus PC Kongruens (på satsnivå) AG Syftningsproblem RP Ordföljd WO Fel ordkategori WC Andra fel OG
Interpunktionsproblem - PU Kategorier Meningsslut ES Stor bokstav CP Comma CO Tankestreck i meningen DW Colon CN Semikolon SN Övriga problem - OP
Grafiska problem - TY Kategorier Mellanrum SC Ny rad el. nytt stycke NL Tankestreck i meningen DW Anföringstecken QM Parenteser PA Typografiska fel TY Övriga grafiska problem - OP
Stil-, betydelse- och syftningsproblem - SP Rekommenderad skrivning (PS) Förkortning (AB) Siffer- och nummerstil (NS) Rätt ordklass men fel ord (WN) Val av ord och uttryck (CW) Val av skiljetecken (CS) Val av meningsgräns (CB) Val av syntaktisk konstruktion (SC) Konsistens i uttrycket (CN) Redundans (RD) Syftningsproblem (RP
Feldatabas Alla felinstanser analyserades och försågs med uppgift om felkod, tidning, publiceringsdatum och avsnitt i tidningen. Därefter lagrades de tillsammans med de rättade versionerna i en feldatabas, se www.lingfil.uu.se/ling/ecd/. (Sidan är lösenordsskyddad.) Se också Wedbjer Rambell O., Dahlqvist, B., Tjong Kim Sang, E. & Hein, N. 1998.
Feldatabasen Feldatabasen med dess gränssnitt är det bästa hjälpmedlet när det gäller att skaffas sig kunskap och överblick över den komplexa feltypologin Den tillkom som ett alternativ till ett försök att beskriva typologin som en trädstruktur
Feldistribution - gruppnivå Felkod UNT % SvD % Tot. % SE 3068 45,4 723 34,5 3809 42,8 GP 984 14,5 390 18,6 1374 15,4 Interp. PU 1009 14,8 468 22,3 1477 16,6 Felgrupp Stavning Grammatik Typografi GR 670 9,9 120 5,7 790 8,9 Stil etc. SP 1049 15,4 397 18,9 1446 16,3 Tot. 6798 100 2098 100 8896 100
Feldistribution - stavfel Felkat. Felkod UNT % SvD % Tot. % Stor b. SECP 409 13,3 128 17,7 537 14,1 Ordb. SEWF 630 20,4 346 47,9 976 25,6 Avstav. SEHY 1263 40,9 0 0 1263 33,2 Andra SEOS 783 25,4 248 34,3 1031 27,1 Tot. 3085 100 722 100 3807 100
Feldistribution - Grammatik Felkat. Felkod UNT % SvD % Tot. % NP GPNP 414 42,1 147 37,3 561 40,8 AP GPSP 5 0,5 3 0,8 8 0,6 AB GPAB 5 0,5 1 0,3 6 0,4 PP GPPP 114 11,6 38 9,7 152 11,1 Konjunk. GPCN 50 5,1 21 5,4 71 5,2 Verbf. GPVF 79 8,0 33 8,5 112 8,2 Valens GPVV 151 15,3 88 22,6 239 17,4 Pron.kas GPPC 11 1,1 10 2,6 21 1,5 Kongru. GPAG 42 4,3 15 3,8 57 4,1 Syftn. GPR9 26 2,6 10 2,6 36 2,6 Ordf. GPWO 48 4,9 8 2,1 56 4,1 Ordkat. GPWC 13 1,3 1 0,3 14 1,0 Andra GPOG 26 2,6 15 3,8 41 3,0 Tot. 984 Språkgranskningsverktyg 100 390 vt 09, 100 An 1374 100
Användarmodellering Olika användare gör olika fel vilket bör avspeglas i felmodelleringen felinsamling feltypologi felrespons se t.ex. EAGLES, 1996, Evaluation of natural language processing systems. Nås via http:// www.issco.unige.ch/projects/ewg96/ewg96.html
Ex. på feltypologier Svenska SCARRIE Grammatifix (-> Word) GRANSKA Spanska GramCheck Con-Text Danska Scarrie TEMAA Norska Scarrie Italienska TEMAA