Svårigheter med kurslitteraturen

Relevanta dokument
Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Språkgranskningsverktyg, vt 2008

Djupstruktur och ytstruktur

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

språkgranskning, ht 2007

Obesvarade frågor från F4

Introduktion till språkteknologi. Datorstöd för språkgranskning

Obesvarade frågor från F1

Språkgranskningsverktyg. Grammatikkontroll i Word

Språkgranskningsverktyg, vt 2009

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Executive summary The main objective of Work Package 8 of the Scarrie project was to test the system performance of the prototype.

Grundläggande textanalys, VT2013

Utveckling av lexikala resurser för ett språkgranskningssystem för svenska

Språkgranskningsverktyg. Felmodellering

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Grundläggande textanalys. Joakim Nivre

Grammatisk teori II Attributvärdesgrammatik

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grammatifix Svensk grammatikkontroll i MS Word

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Frasstrukturgrammatik

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Grammatik för språkteknologer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Tekniker för storskalig parsning: Grundbegrepp

Språkgranskningsverktyg. F1: Introduktion

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Språkets struktur och funktion, 7,5 hp

Lingvistik I Delmoment: Datorlingvistik

Att lära sig skriva i IT-samhället

Grammatik för språkteknologer

729G09 Språkvetenskaplig databehandling

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Tekniker för storskalig parsning

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Tekniker för storskalig parsning

Fraser, huvuden och bestämningar

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Teoretisk lingvistik och datalingvistik. Robin Cooper

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Automatisk språkgranskning av svensk text

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Machine Translation MÖSG F Anna Sågvall Hein


Swell code book (error taxonomy + examples)

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Språkteknologi och Open Source

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

QC i en organisation SAST

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

FL 6: Definite Clause Grammars (kap. 7)

Week/vecka Monday/måndag Tuesday/tisdag Goal/mål

Lingvistik I Delmoment: Datorlingvistik

MÖSG ht 2005 Maskinöversättningssystemet MATS

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Kursplaneöversättaren. Lina Stadell

Maskinöversättning. F Anna Sågvall Hein

Grammatik för språkteknologer

Innovation in the health sector through public procurement and regulation

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Sri Lanka Association for Artificial Intelligence

Kursbeskrivning med litteraturlista HT-13

Morfologi och syntax. Föreläsning 1 & 2

grammatik Ordklasser, nominalfraser, substantiv

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Grammatisk teori III Praktisk analys

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Datorlingvistisk grammatik

ORDKLASSERNA I. Ett sätt att sortera våra ord

Gränssnitt för FakeGranska. Lars Mattsson

Partiell parsning Parsning som sökning

Projektets syfte. Att lära sig skriva i IT-samhället. Forskningsfrågor, forts. Forskningsfrågor. Hur skriver barn? Ursprunget till projektidén

Lingvistik I Delmoment: Datorlingvistik

Lathund för SpellRight

Arbetsplan A1-A2. Svenska kursenheten. Deltagare 2016

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Automatisk utvinning av felaktigt särskrivna sammansättningar

4. Bedömning av delprov C

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Målet är att ge maskiner förmågan att plocka ut information ur

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Kursplan. AB1030 Att arbeta i projekt. 7,5 högskolepoäng, Grundnivå 1. Working in projects

Inledningsanförande av Ylva Johansson, Arbetsmarknadsoch etableringsminister

DATORSTÖDD SPRÅKGRANSKNING OCH

Facit för diagnostiska provet i grammatik

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs

Kursplan. TY1034 Tyska: Tysk grammatik med textkommentar. 7,5 högskolepoäng, Grundnivå 1. German: German Grammar

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

1 Introduction Grammar rules in CORRie...2

Transkript:

Svårigheter med kurslitteraturen Forskningsanknuten kurs Litteraturen är skriven i syfte att presentera forskningsresultat och ofta argumentera för vissa lösningar; undantag: uppfriskningslitteraturen och J&M Det finns inget läromedel som täcker kursens innehåll

Förbättringar? Förbättrade utskriftsmöjligheter? Överföring av litteratur från aktivt läst litteratur till seminarielitteraturen? Stryka något? Mer specifika läsanvisningar? Kompendium? Ytterligare något?

Språkgranskningsverktyg F8: Grammatikkontroll i Svenska Scarrie

Innehåll Scarrieprojektet Teknologisk back-ground Strategi Bestämning av felrepertoar Implementering Corrie Scarcheck Lexikonet Utvärdering Vad hände sen?

Scarrie-projektet SCARRIE is short for Scandinavian Proof-reading Tools. It is the name of a project within the EU TELEMATICS APPLICATIONS Programme. The project run for 30 months starting in November 1996. "The SCARRIE project aims at the development of a high-quality proof reading tool for the Scandinavian publishing industry. A concrete concrete result of the project will be a carefully evaluated demonstrator, the SCARRIE pilot, designed to meet the needs formulated by a user group consisting of representatives for Danish, Norwegian and Swedish newspapers and publishing houses. " (from LE3-4239 SCARRIE Project Programme. Annex I.) Se vidare http://stp.lingfil.uu.se/~bengt/scarrie/.

Teknologisk back-ground Corrie-programmet Grammatikbaserad stavningskontroll Batch-mode och utnyttjande av textfrekvenser i stavningskontrollen Se vidare Vosse, Theo G. (1994) The Word Connection. Grammar-based Spelling Error Correction in Dutch

Back-ground, forts. Tillgång till Uppsala Chart Parser och dess procedurella formalism Idé om utnyttjande av parsern för grammatikkontroll

Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar dem Verkligheten Partiell parsning parsning av vissa typer av fraskonstituenter Tillämpning av lokala felregler

Vad menas med parsning? Tilldelning av lingvistisk struktur till ett språkligt uttryck Morfologisk parsning Ord Syntaktisk parsning Fras Sats Mening UCP klarar både morfologisk och syntaktisk parsning

Partiell parsning Parsning enligt en frasstrukturgrammatik Parsning av meningsfragment Accepterar brott mot särdragsrestriktioner i fraskonstituenter Reglerna bildar en positiv grammatik med uppmjukade (relaxed) särdragsrestriktioner Kan användas både för feligenkänning och för analys av korrekt text NP > Det N Ett hus / NP En hus / NP med genusfel

Ex. på korrekt struktur men brott mot särdragsrestriktioner Gäspningar och liknande beteenden skulle ha en kopplingar till såväl aggression som sårbarhet. Ett framtvingad kostnadsmedvetande kan faktiskt vara av godo.

Lokala felregler Känner igen felaktiga konstruktioner som inte lokaliseras till fraskonstituenter i en frasstrukturgrammatik Fångar upp strukturella fel Reglerna bildar en felgrammatik Kan inte användas för analys av korrekt text

Ex. på strukturella fel Förväntningarna har varit låg ställda på svenskarna i årets Wimbledon. Men finländaren är bara är en av många kandidater. Ernst Melin rest mycket med dotter och måg.

Bestämning av felrepertoar Genomgång av felen i feldatabasen med avseende på hur de kan kännas igen Brott mot särdragsrestriktioner Strukturella fel Fel som inte kan hanteras med grammatisk analys Frekvensförhållanden

Primära grammatikproblem agreement within the noun phrase exceptions from agreement rules (species) case problems verb sequences structural errors: violations of category sequences of well-formed phrases and clauses

Sekundära grammatikproblem Secondary grammar problems: verb valency agreement between NP (subject) and AP (subjective complement) noun valency adjective valency pronoun case

Felrepertoar 50 feltyper av totalt dryga 500 i feldatabasen fördes till felrepertoaren Se vidare Sågvall Hein, A. 1999, A Grammar Checking Module for Swedish http://www.lingfil.uu.se/ling/wp/wp12c.pdf

Implementering Utprovning av Corrie Utveckling av UCP för grammatikkontroll Integrering av Corrie och UCP Corrie för stavningskontroll UCP för grammatikkontroll

Corrie Igenkänning av grammatiska fel baserad på fullständigt analyserade meningar Batch-mode Stavningskontroll sammanbakad med grammatikkontroll Frekvensbaserad stavningskontroll Utprovning på svenska Införande av fragmentanalys

ScarCheck Chartparser Frasstrukturgrammatik procedurell regelformalism, Uppsala Chart Parser, UCP robusta frasstrukturregler lokala felregler felannotering enl. feltypologi Chartavläsare Reportchart Lexikal databas

Metod Parsern arbetar bottom-up Regler ansätts från grammatiken Den bygger så mycket struktur som den kan enligt frasstrukturgrammatiken och för in felkoderna i charten Chartavläsningsprogrammet läser av felkoderna och deras beskrivning

Felkoder och förklaringar (setq *error-acts* '(:VAL gpagna01 gpagna03 gpapag01 gpapag02 gpapag03 gpcncc02 gpcnec03 gpnpag01 gpnpag02 gpnpag03 gpnpag08 gpnpag14 gpnpca01 gpnpss01 gpnpss02.)) "gpagna01: fel numerus på adjektivet i predikatsfylln." "gpagna03: fel genus på adjektivet i predikatsfylln." "gpapag01: fel form av ett av de parallella adjektiven" "gpapag02: fel form av ett av de samordnade adjektiven" "gpapag03: fel form av adjektivet" "gpcncc02: andra ledet i sammansatt konjunktion saknas" "gpcnec03: OCH i stf komma" "gpnpag01: fel numerus" "gpnpag02: fel genus "gpnpag03: fel form av substantivet" "gpnpag08: numerusfel" "gpnpag14: fel form av adjektivet" "gpnpca01: grundkasus i st f genitiv" "gpnpss01: artikel saknas i bestämd nominalfras i sing "gpnpss02: fel form av substantivet efter genitivattribut"

Scarrie-lexikonet Baserat på SvD/UNT-korpusen: 220 086 artiklar, 70 miljoner ordförekomster och 1 672 993 ordtyper Alla ordtyper som endast förekom en gång i korpusen togs bort, vilket lämnade 618 099 ordtyper. Ordformerna kategoriserades utifrån vilka teckentyper de innehöll, t.ex. poster bestående enbart av sifferuttryck vilka uteslöts. Resterande 350 000 ordtyper frekvens två och högreanalyserades morfologiskt i UCP inkl. sammansättningsanalys Resultatet av analysen efter viss gallringen var 252 180 ordformer vilka representerar 88 325 lemman

Scarrie-databasen Lexikonet lagrades i en lexikal databas med ett användarvänligt gränssnitt

Teknologi i Svenska Scarrie Corrie för stavningskontroll + Scarcheck för grammatikkontroll

Utvärdering - stavning Testkorpus på slumpvis valda tidningsartiklar omfattande 15 000 ord Stavning Täckning 98.0 % lexikal täckning 96.5% på feltäckning Precision: 41.3% bra flaggningar jämfört med 20.0% för MS Word Problem med förkortningar Rättelseförslag sämre

Utvärdering - Grammatik 8 av de grammatiska feltyperna fanns med I valideringskorpusen (fel i NP, VF, ordföljdsfel och felaktiga särskrivningar) Täckning på 85,7 % och precision på 92,3 % vid andra körningen då grammatiken fintrimmats

Ex. på felrapportering Nu räcker det i princip med att den som tillhör #2#underrrepresenterat kön är tillräckligt kvalificerad --> 2.underrepresenterat för tjänsten för att positiv särbehandling skall kunna tillämpas. An example of a spell checking error from the log-file Ett viktigt motiv för de svenska EU-medlemskapet - också för socialdemokraterna - var just möjligheten att vara med i de fora där besluten fattas. $!43$ --> 43.intervall: 6-7 typ av fel: gpnpag01: fel numerus An example of a grammar checking error from the log-file

Ex. från utvärderingsprotokoll 1) GPVFMF01 066/570 S: $GPVFMF01$Därefter var har han verksam som byggnadssnickare och även finsnickare. H: $GPVFMF01$Därefter var har han verksam som byggnadssnickare och även finsnickare. F: Därefter var han verksam som byggnadssnickare och även finsnickare. 2) GPNPAG01 000/570 S: $GPNPAG01$Politiker och tjänstemän vill gå mer varsamt fram och ta hänsyn också till de positiva värdena som ofta finns i det här områdena. H: F: S: Scarrie, H: Human evaluator F: Gold standard

Ex. från utvärderingsprotokoll, forts. 3) PUCOPH03 000/322 S: För riskpersoner till exempel äldre och hjärtsjuka med svåra symtom kan det dock vara rekommendabelt att uppsöka sjukhusvård. H: $PUCOPH03$För riskpersoner till exempel äldre och hjärtsjuka med svåra symtom kan det dock vara rekommendabelt att uppsöka sjukhusvård. F: För riskpersoner, till exempel äldre och hjärtsjuka med svåra symtom, kan det dock vara rekommendabelt att söka sjukhusvård.

Vad hände se n? Scania Checker Andraspråksinlärning?