Svårigheter med kurslitteraturen Forskningsanknuten kurs Litteraturen är skriven i syfte att presentera forskningsresultat och ofta argumentera för vissa lösningar; undantag: uppfriskningslitteraturen och J&M Det finns inget läromedel som täcker kursens innehåll
Förbättringar? Förbättrade utskriftsmöjligheter? Överföring av litteratur från aktivt läst litteratur till seminarielitteraturen? Stryka något? Mer specifika läsanvisningar? Kompendium? Ytterligare något?
Språkgranskningsverktyg F8: Grammatikkontroll i Svenska Scarrie
Innehåll Scarrieprojektet Teknologisk back-ground Strategi Bestämning av felrepertoar Implementering Corrie Scarcheck Lexikonet Utvärdering Vad hände sen?
Scarrie-projektet SCARRIE is short for Scandinavian Proof-reading Tools. It is the name of a project within the EU TELEMATICS APPLICATIONS Programme. The project run for 30 months starting in November 1996. "The SCARRIE project aims at the development of a high-quality proof reading tool for the Scandinavian publishing industry. A concrete concrete result of the project will be a carefully evaluated demonstrator, the SCARRIE pilot, designed to meet the needs formulated by a user group consisting of representatives for Danish, Norwegian and Swedish newspapers and publishing houses. " (from LE3-4239 SCARRIE Project Programme. Annex I.) Se vidare http://stp.lingfil.uu.se/~bengt/scarrie/.
Teknologisk back-ground Corrie-programmet Grammatikbaserad stavningskontroll Batch-mode och utnyttjande av textfrekvenser i stavningskontrollen Se vidare Vosse, Theo G. (1994) The Word Connection. Grammar-based Spelling Error Correction in Dutch
Back-ground, forts. Tillgång till Uppsala Chart Parser och dess procedurella formalism Idé om utnyttjande av parsern för grammatikkontroll
Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar dem Verkligheten Partiell parsning parsning av vissa typer av fraskonstituenter Tillämpning av lokala felregler
Vad menas med parsning? Tilldelning av lingvistisk struktur till ett språkligt uttryck Morfologisk parsning Ord Syntaktisk parsning Fras Sats Mening UCP klarar både morfologisk och syntaktisk parsning
Partiell parsning Parsning enligt en frasstrukturgrammatik Parsning av meningsfragment Accepterar brott mot särdragsrestriktioner i fraskonstituenter Reglerna bildar en positiv grammatik med uppmjukade (relaxed) särdragsrestriktioner Kan användas både för feligenkänning och för analys av korrekt text NP > Det N Ett hus / NP En hus / NP med genusfel
Ex. på korrekt struktur men brott mot särdragsrestriktioner Gäspningar och liknande beteenden skulle ha en kopplingar till såväl aggression som sårbarhet. Ett framtvingad kostnadsmedvetande kan faktiskt vara av godo.
Lokala felregler Känner igen felaktiga konstruktioner som inte lokaliseras till fraskonstituenter i en frasstrukturgrammatik Fångar upp strukturella fel Reglerna bildar en felgrammatik Kan inte användas för analys av korrekt text
Ex. på strukturella fel Förväntningarna har varit låg ställda på svenskarna i årets Wimbledon. Men finländaren är bara är en av många kandidater. Ernst Melin rest mycket med dotter och måg.
Bestämning av felrepertoar Genomgång av felen i feldatabasen med avseende på hur de kan kännas igen Brott mot särdragsrestriktioner Strukturella fel Fel som inte kan hanteras med grammatisk analys Frekvensförhållanden
Primära grammatikproblem agreement within the noun phrase exceptions from agreement rules (species) case problems verb sequences structural errors: violations of category sequences of well-formed phrases and clauses
Sekundära grammatikproblem Secondary grammar problems: verb valency agreement between NP (subject) and AP (subjective complement) noun valency adjective valency pronoun case
Felrepertoar 50 feltyper av totalt dryga 500 i feldatabasen fördes till felrepertoaren Se vidare Sågvall Hein, A. 1999, A Grammar Checking Module for Swedish http://www.lingfil.uu.se/ling/wp/wp12c.pdf
Implementering Utprovning av Corrie Utveckling av UCP för grammatikkontroll Integrering av Corrie och UCP Corrie för stavningskontroll UCP för grammatikkontroll
Corrie Igenkänning av grammatiska fel baserad på fullständigt analyserade meningar Batch-mode Stavningskontroll sammanbakad med grammatikkontroll Frekvensbaserad stavningskontroll Utprovning på svenska Införande av fragmentanalys
ScarCheck Chartparser Frasstrukturgrammatik procedurell regelformalism, Uppsala Chart Parser, UCP robusta frasstrukturregler lokala felregler felannotering enl. feltypologi Chartavläsare Reportchart Lexikal databas
Metod Parsern arbetar bottom-up Regler ansätts från grammatiken Den bygger så mycket struktur som den kan enligt frasstrukturgrammatiken och för in felkoderna i charten Chartavläsningsprogrammet läser av felkoderna och deras beskrivning
Felkoder och förklaringar (setq *error-acts* '(:VAL gpagna01 gpagna03 gpapag01 gpapag02 gpapag03 gpcncc02 gpcnec03 gpnpag01 gpnpag02 gpnpag03 gpnpag08 gpnpag14 gpnpca01 gpnpss01 gpnpss02.)) "gpagna01: fel numerus på adjektivet i predikatsfylln." "gpagna03: fel genus på adjektivet i predikatsfylln." "gpapag01: fel form av ett av de parallella adjektiven" "gpapag02: fel form av ett av de samordnade adjektiven" "gpapag03: fel form av adjektivet" "gpcncc02: andra ledet i sammansatt konjunktion saknas" "gpcnec03: OCH i stf komma" "gpnpag01: fel numerus" "gpnpag02: fel genus "gpnpag03: fel form av substantivet" "gpnpag08: numerusfel" "gpnpag14: fel form av adjektivet" "gpnpca01: grundkasus i st f genitiv" "gpnpss01: artikel saknas i bestämd nominalfras i sing "gpnpss02: fel form av substantivet efter genitivattribut"
Scarrie-lexikonet Baserat på SvD/UNT-korpusen: 220 086 artiklar, 70 miljoner ordförekomster och 1 672 993 ordtyper Alla ordtyper som endast förekom en gång i korpusen togs bort, vilket lämnade 618 099 ordtyper. Ordformerna kategoriserades utifrån vilka teckentyper de innehöll, t.ex. poster bestående enbart av sifferuttryck vilka uteslöts. Resterande 350 000 ordtyper frekvens två och högreanalyserades morfologiskt i UCP inkl. sammansättningsanalys Resultatet av analysen efter viss gallringen var 252 180 ordformer vilka representerar 88 325 lemman
Scarrie-databasen Lexikonet lagrades i en lexikal databas med ett användarvänligt gränssnitt
Teknologi i Svenska Scarrie Corrie för stavningskontroll + Scarcheck för grammatikkontroll
Utvärdering - stavning Testkorpus på slumpvis valda tidningsartiklar omfattande 15 000 ord Stavning Täckning 98.0 % lexikal täckning 96.5% på feltäckning Precision: 41.3% bra flaggningar jämfört med 20.0% för MS Word Problem med förkortningar Rättelseförslag sämre
Utvärdering - Grammatik 8 av de grammatiska feltyperna fanns med I valideringskorpusen (fel i NP, VF, ordföljdsfel och felaktiga särskrivningar) Täckning på 85,7 % och precision på 92,3 % vid andra körningen då grammatiken fintrimmats
Ex. på felrapportering Nu räcker det i princip med att den som tillhör #2#underrrepresenterat kön är tillräckligt kvalificerad --> 2.underrepresenterat för tjänsten för att positiv särbehandling skall kunna tillämpas. An example of a spell checking error from the log-file Ett viktigt motiv för de svenska EU-medlemskapet - också för socialdemokraterna - var just möjligheten att vara med i de fora där besluten fattas. $!43$ --> 43.intervall: 6-7 typ av fel: gpnpag01: fel numerus An example of a grammar checking error from the log-file
Ex. från utvärderingsprotokoll 1) GPVFMF01 066/570 S: $GPVFMF01$Därefter var har han verksam som byggnadssnickare och även finsnickare. H: $GPVFMF01$Därefter var har han verksam som byggnadssnickare och även finsnickare. F: Därefter var han verksam som byggnadssnickare och även finsnickare. 2) GPNPAG01 000/570 S: $GPNPAG01$Politiker och tjänstemän vill gå mer varsamt fram och ta hänsyn också till de positiva värdena som ofta finns i det här områdena. H: F: S: Scarrie, H: Human evaluator F: Gold standard
Ex. från utvärderingsprotokoll, forts. 3) PUCOPH03 000/322 S: För riskpersoner till exempel äldre och hjärtsjuka med svåra symtom kan det dock vara rekommendabelt att uppsöka sjukhusvård. H: $PUCOPH03$För riskpersoner till exempel äldre och hjärtsjuka med svåra symtom kan det dock vara rekommendabelt att uppsöka sjukhusvård. F: För riskpersoner, till exempel äldre och hjärtsjuka med svåra symtom, kan det dock vara rekommendabelt att söka sjukhusvård.
Vad hände se n? Scania Checker Andraspråksinlärning?