Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Relevanta dokument
Parsningens olika nivåer

Parsningens olika nivåer

Språkgranskningsverktyg. Grammatikkontroll i Word

Obesvarade frågor från F1

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Grammatifix Svensk grammatikkontroll i MS Word

språkgranskning, ht 2007

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Tekniker för storskalig parsning

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Tekniker för storskalig parsning

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Korpuslingvistik vt 2007

Grundläggande textanalys. Joakim Nivre

Tekniker för storskalig parsning: Grundbegrepp

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatik för språkteknologer

Grammatik för språkteknologer

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

729G09 Språkvetenskaplig databehandling

NORDISKE STUDIER I LEKSIKOGRAFI

Grundläggande textanalys, VT2013

Tekniker för storskalig parsning

Lingvistiskt uppmärkt text

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Frasstrukturgrammatik

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Partiell parsning Parsning som sökning

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Lexikon: ordbildning och lexikalisering

Grammatisk teori II Attributvärdesgrammatik

Word- sense disambiguation

Grammatik för språkteknologer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Cristina Eriksson oktober 2001

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Kungliga Tekniska Högskolan Patrik Dallmann

Grammatisk teori III Praktisk analys

Språkteknologi och Open Source

Fraser, huvuden och bestämningar

Lingvistiska grundbegrepp

Korpuslingvistik vt 2007

Inlämningsuppgift: Pronomenidentifierare

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Grammatik för språkteknologer

1 INTRODUKTION SUPERLÄNKAR SCOTS TEXTER ÖVERSÄTTNING RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET

Datorlingvistisk grammatik

Neurolingvistik - Grammatik

Ord och morfologi. Morfologi

Datorlingvistisk grammatik

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Statistisk grammatikgranskning

Lingvistiskt uppmärkt text

Bootstrapping för substantivtaggning

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Trädrepresentation. Parentesrepresentation

Tentamen Marco Kuhlmann


Parsning I. Disposition. Parsning användingsområden. Vad menas med parsning inom språkteknologin? Top-down parsning. Parsning som sökning

Språkteknologi. Språkteknologi

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Språkgranskningsverktyg, vt 2008

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Grammatisk teori III - Seminarium

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

ORDKLASSERNA I. Ett sätt att sortera våra ord

ANDREAS ISSA SVENSKA SPRÅKET

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Datorlingvistisk grammatik

Grundläggande textanalys, VT2013

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Grundläggande textanalys, VT2013

Automatisk igenkänning av nominalfraser i löpande text

Automatisk språkgranskning av svensk text

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Datorlingvistisk grammatik

Ord och morfologi. Morfologi

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Datum: Date: Provkodr: KTR1 Exam code:

Språkets struktur och funktion, 7,5 hp

Lingvistik V Satsdelar, huvud- och bisatser

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Transkript:

Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den ytliga informationen i en text underskattad Minimalt lexikon med funktionsord Mönstermatchning av morfologiska och ytsyntaktiska ytmönster Märker orden med ordklass, känner igen vissa NP och PP. Jabberwocky (Källgren, 1992) De iggla skviggarna trassade vombigt i den harliga gopen. -Hurk, najdade den ena skviggen, maffar pem en bunne? -Snå, bebbade den umre skviggen aldrigt. Snafs på nerfen. - Lytrik snafs det? -Pej gemmer det fraskar för kloxigt. Så vatrik jeggade skviggen snafen bunne. Mer Jabberwocky (Lewis Carrol) http://www76.pair.com/keithlim/jabberwocky/ Olika översättningar till 29 språk. Brills tagger Maskininlärning Det behövs en taggad korpus Ord-tagg-frekvenser Korrigeringsregler Dependensgrammatik Tesnière (1959), Mel'cuk (1988) Grammatiska relationer: Subjekt, finit verb (main), och objekt viktiga, huvud och modifierare Mycket generella semantiska relationer 1

Constraint grammar Ett språkoberoende system för att analysera löpande text The dog sniffs at the meat and the fish "<*the>" "the" <*> <Def> DET CENTRAL ART SG/PL @DN> "<dog>" "dog" N NOM SG @SUBJ <sniffs>" "sniff" <SV> <SVO> V PRES SG3 VFIN @+FMAINV "<at>" "at" PREP @ADVL "<meat>" "meat" <-Indef> N NOM SG @<P "<and>" "and" CC @CC "<fish>" "fish" N NOM SG/PL @<P "<$.>" The dog sniffs at the meat and the cat sniffs at the fish. "<*the>" "the" <*> <Def> DET CENTRAL ART SG/PL @DN> "<dog>" "dog" N NOM SG @SUBJ "<sniffs>" "sniff" <SV> <SVO> V PRES SG3 VFIN @+FMAINV "<at>" "at" PREP @ADVL "<meat>" "meat" <-Indef> N NOM SG @<P "<and>" "and" CC @CC "<cat>" "cat" N NOM SG @SUBJ "<sniffs>" "sniff" <SV> <SVO> V PRES SG3 VFIN @+FMAINV "<at>" "at" PREP @ADVL "<fish>" "fish" N NOM SG/PL @<P "<$.>" CG:s målsättningar Perfekt analys: Perfekt täckning & perfekt precision Rätt- tolkning skall ges av den kontexten som finns för handen Om flera analyser ges och endast en av de är rätt räknas som felaktig analys Om flera analyser ges och det inte går att att avgöra med kontexten vilken som är rätt rätt analys All indata skall ges någon analys Parsern skall kunna analysera obegränsad text (unrestricted text) den skall vara robust. Tar inga beslut om vad som är grammatiskt ogrammatiskt I praktiken måste man ändå satsa på att hantera de ord och meningar som kan anses tillhöra språket (Master lexicon, Core Lexicon) Heuristiska metoder Grammatikformalismen skall vara språkoberoende Grammatikformalismen skall inte utgå från något speciellt språk Formalismen skall kunna rymma många olika språk från olika språkfamiljer Grammatikformalismen måste vara separerad från programkoden för att vara språkoberoende 2

Anpassning till olika texttyper Hur stort lexikon man än har så kommer det alltid att saknas ord Egennamn, Datatermer Vissa konstruktioner finns endast i vissa texter Tillåta att ha möjlighet att anpassa systemet till texttypen Domänlexikon Gissare för okända ord Förprocessning är ett viktigt steg Tokenisering Idiom-igenkänning Stavningskontroll Grammatikformalismen skall kunna använda typografisk information Viktig information finns i typografin; den bör tas tillvara: Olika skiljetecken Rubriker Verasaler/gemener SGML Utdata skall vara läsbart och inte nersölat med ett ohanterbart antal analysalternativ. Många system reducerar inte tolkningsmöjligheter utan introduerar istället nya möjliga tolkningar. En kärna av regelbaserade restriktioner Men det skall finnas möjlighet till probabilistiska (alt. heuristiska) villkor på toppen på ett lingvistiskt sätt Korpusstudier viktiga för att formulera regler basera grammatiken på hur det verkligen ser ut. Det är en styrka om så många regler som möjligt är icke-heuristiska Det är upp till grammatikern att använda heuristik och ta risker (kan vara nödvändigt för vissa språk/tillämpningar). Det viktiga är att tilldela meningar en analys Jensen, Heidorn: trying to write a grammar to describe explicity all and only the sentences of a natural language is about as practical as trying to find the Holy Grail Varje grammatik läcker. Att eliminera ogrammatiska tolkningar är mer rimligt än att avgöra vad som är absolut grammatiskt/ogrammatiskt 3

Morfologisk och lexikal analys är grunden Full lexikal täckning: alla böjningsformer, basformsreduktion, hantering av sammansättningar (ej lexikaliserade) TWOL Minst 30 000 lexem (kärnvokabulären) ENGTWOL: 56 000 SWETWOL: 48 000 Morfologisk heuristik Flertydighet är kärnproblemet Gazdar-Mellish (1989): Flertydighet är det enskilt största problemet inom NLP. CG vill lyfta fram beskrivningen av flertydighet. CG är i grunden ett system för att skriva disambigueringsregler CG bryter upp parsningsproblemet i tre delar Morfologisk disambiguering Bestäm satsgränserna inom en mening Ytsyntaktisk disambiguering Disambiguering skall ske på alla tre delproblemen Utgå från värsta fallet: Tilldelning av alla möjliga tolkningar. Målet med varje restriktion är att förkasta så många alternativ som möjligt. En lyckosam parsning gör meningen morfologiskt och syntaktiskt otvetydig Den syntaktiska beskrivningen Varje ord skall tilldelas en ytsyntaktisk funktion Beskrivningen ger också grundläggande dependensrelationer inom satsen och meningen. En platt representation (inget träd). Parserdesign Verktyg för att testa, debugga och optimera enskilda constraints och hela grammatiken. Användaren skall ha mycket kontrollbestämma grad av återstående tvetydighet Parsern skall kunna komma ihåg disambigueringsbeslut Snabb (400-500 ord/s) Kunna implementeras med ändliga automater 4

Constraint grammar parsing Förinställda steg: 1. Satsgränsmappning 2. Kontextkänslig morfologisk disambiguering 3. Satsgränsmappning (ny kan ha uppstått) 4. Kontextkänslig morfologisk disambiguering 5. Satsgränsmappning 6. Morfosyntaktisk mappning 7. Syntaktisk analys Deklarationer och disambigueringsregler Deklarationer: Meningsavgränsare:.!? Mängder: (PREMOD A DET) Syntaktiska funktioner: (@+FMAINV @-FMAINV ) Tre operatorer för morfologisk disambiguering =!! Väljer analys om alla villkor är uppfyllda, tar bort analys om villkoren är falska. =! Välj analys (selection rules) =0 ta bort analys (deletion rules) Regelsyntax Morfosyntaktisk mappning: <matchningsankare kontextvillkor syntaktiska_taggar> Ex: ((N) ((-1C PREP) (1 <<<)) (@<P)) N tilldelas den syntaktiska funktionen prepositinskomplement om N föregås av en preposition och följs av meningsslut. Regelsyntax: Disambiguerande regler: (matchningsankare operator tolkning villkor) 50-ordsfönster: 25 ord matchningsankare 25 ord (@w =0 VFIN (-1 TO)) ( <for> =! (CS) (NOT 1 VFIN) (1 TO) (2 INF) (*3 VFIN)) Templates Två typer av templates: Med positioner angivna: ($$(DEF-NP ((1 DET) (2 N))) Systemet räknar själv ut positionerna: (&&NP (((N)) ((A) (N)) ((DET) (N)) ((A) (A) (N)) ((DET (A) (N)))) 5

Satsgränser Satsgränsuppmärkning Många möjliga satsgränser hämtas direkt från lexikon, t.ex. subjunktioner och relativa pronomen (t.ex. som ) Regler för satsgränsmappning: (@w=**clb (CC) (1C VFIN)) och gick (@w=**clb VFIN (-1C VFIN)) boken som han läser är tråkig. Syntaktiska regler =s!väljer en tolkning och förkastar övriga =s0 förkastar en tolkning sparar övriga Ej matchning av ordformer @w är standard vilket ord som helst Jag spelar fotboll (@w =s! (@SUBJ) (1 VFIN) (1 ACTIVE) (NOT *-1 @SUBJ) (NOT *1 @SUBJ)) SWECG Material hämtat från: http://www.lingsoft.fi/swecg/ Juhani Birn på Lingsoft har skrivit reglerna i SWECG. Indata: löpande text 1. Förprocessning 2. Morfologisk analys 3. Morfologisk heuristik 4. Morfologisk disambiguation 5. Morfosyntaktisk mappning 6. Syntaktisk disambiguering Utdata: CG-taggad text 1. Förprocessning Dessa entreprenöriella faktorer hade än så länge dämpat explosionen *dessa entreprenöriella faktorer hade än_så_länge dämpat explosionen $. 2. Morfologisk analys "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN> "denna" <**c> <DEM> PRON UTR/NEU DEF PL NOM "<entreprenöriella>" "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "dämpa" <PCP2> A NEU INDEF SG NOM "<explosionen>" "explosion" N UTR DEF SG NOM <$.>" "$." CLB <PUNCT> 6

3. Morfologisk heuristik Analys av ord som inte analyseras av SWETWOL 60 regler baserade på ordformer "<entreprenöriella>" "entreprenöriella" <NON- SWETWOL> A UTR/NEU DEF SG NOM "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM Saknas regel tilldelas ordet substantiv-taggar 4. Morfologisk disambiguering Över 50 % av orden i svenskan är flertydiga (SVD, 1.9 milj. ord. SWETWOL-analys) 1.82 tolkningar/ord i medeltal Testresultat: 4631 ord (4304 full disambiguering) Täckning: 99.57 % Precision: 95.36 % Utvärderingsproblem: för lite testdata, vad som är en korrekt tolkning avgjordes av regelskrivaren Förbättringar: Allt som går att göra är inte gjort, framförallt behövs det en större utvecklingskorpus i nuläget 120 000 ord. "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN> "<entreprenöriella>" "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "<explosionen>" "explosion" N UTR DEF SG NOM <$.>" "$." CLB <PUNCT> 5. Morfosyntaktisk mappning Huvudsyfte: Lägga på den syntaktiska flertydigheten. Syntaktiska huvudtyper: verbfunktion huvudverb, verbkedjeverb, finita/infinita verb subjekt, objekt och adverbial (ord med huvudfunktion i satsen) modifierare bestämningar till huvudorden "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL NOM @DN> "<entreprenöriella> "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM @AN> @SCOMP @OCOMP @SUBJ @OBJ @IOBJ @AOBJ @ADVL @AD> @P>> @<P @<N @NPHR "<faktorer>" "faktor" N UTR INDEF PL NOM @SUBJ @OBJ @IOBJ @AOBJ @SCOMP @OCOMP @ADVL @NN> @P>> @<P @<NN @NPHR Syntaktisk disambiguerining inte fullt utvecklad 400 regler finns i nuläget Det behövs 3-4 * 400 regler för att lösa upp alla tvetydigheter Inga resultat finns att tillgå eftersom denna del inte är fullt utvecklad Denna del används inte i grammatikontrollen i Word 2000 7

Testa ENGCG http://www.lingsoft.fi/cgi-pub/engcg Uppstickare: SweCG-2 EngCG-2 http://www.conexor.fi/ Functional Dependency Grammar Functional Dependency Grammar (Tapanainen & Järvinen, 1997) Syntaxträd, länkar mellan ord, inte konstituenter Ca 35 dependensrelationer Grammatiska funktioner Huvud modifierare Enkla semantiska relationer www.ling.helsinki.fi/~tapanain/dg/eng/demo.html The dog sniffs at the meat and the fish. utvärdering The dog sniffs at the meat and the cat sniffs at the fish. 0 1 The the det:>2 @DN> DET SG/PL 2 dog dog subj:>3 @SUBJ N NOM SG 3 sniffs sniff main:>0 @+FMAINV V PRES SG3 4 at at loc:>3 @ADVL PREP 5 the the det:>6 @DN> DET SG/PL 6 meat meat pcomp:>4 @<P N NOM SG 7 and and cc:>3 @CC CC 8 the the det:>9 @DN> DET SG/PL 9 cat cat subj:>10 @SUBJ N NOM SG 10 sniffs sniff cc:>3 @+FMAINV V PRES SG3 11 at at loc:>10 @ADVL PREP 12 the the det:>13 @DN> DET SG/PL 13 fish fish pcomp:>11 @<P N NOM SG/PL 8