Datorlingvistisk grammatik



Relevanta dokument
Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Grammatik för språkteknologer

Matematik för språkteknologer

729G09 Språkvetenskaplig databehandling

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Frasstrukturgrammatik

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

729G09 Språkvetenskaplig databehandling

Grammatik för språkteknologer

Grammatik för språkteknologer

Partiell parsning Parsning som sökning

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Grammatisk teori II Attributvärdesgrammatik

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Föreläsning 7: Syntaxanalys

Fraser, huvuden och bestämningar

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Semantik och pragmatik (serie 5)

Datorlingvistisk grammatik

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Inlämningsuppgift MiniPlotter

Tekniker för storskalig parsning: Grundbegrepp

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

PROV I MATEMATIK Automatateori och formella språk DV1 4p

FL 6: Definite Clause Grammars (kap. 7)

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Grammatik för språkteknologer

Föreläsning 2 5/6/08. Reguljära uttryck 1. Reguljära uttryck. Konkatenering och Kleene star. Några operationer på språk

DAB760: Språk och logik

Matematik för språkteknologer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Kontextfri grammatik (CFG)

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

Datorlingvistisk grammatik

Grammatik för språkteknologer

Automater. Matematik för språkteknologer. Mattias Nilsson

Introduktion till formella metoder Programmeringsmetodik 1. Inledning


FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Semantik och pragmatik

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Kompositionell semantik och λ-kalkyl

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Neurolingvistik - Grammatik

DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin

Tekniker för storskalig parsning

Datorlingvistisk grammatik

ORDKLASSERNA I. Ett sätt att sortera våra ord

Grammatik för språkteknologer

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Semantik och pragmatik (Serie 3)

Grundläggande textanalys, VT2012

Tekniker för storskalig parsning

Matematik för språkteknologer

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Grafer. 1 Grafer. Grunder i matematik och logik (2015) 1.1 Oriktade grafer. Marco Kuhlmann

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Ord och morfologi. Morfologi

7, Diskreta strukturer

Lingvistik IV Konstituenter och frasstruktur

Kontextfria grammatiker

BER AKNINGSBARHET F OR DATALOGER. Kent Petersson. Institutionen for Datavetenskap Goteborgs Universitet / Chalmers Goteborg, Sweden

Alfabeten, strängar och språk. String

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Semantik och pragmatik

Facit för diagnostiska provet i grammatik

grammatik Ordklasser, nominalfraser, substantiv

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Introduktion till språkteknologi

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Relationer och funktioner

Explorativ övning 9 RELATIONER OCH FUNKTIONER

Lexikon: ordbildning och lexikalisering

3 Relationer och funktioner

MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP

Grafer och grannmatriser

Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk

DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Viktiga frågor att ställa när ett argument ska analyseras och sedan värderas:

Semantik och pragmatik

Statistisk grammatikgranskning

Semantik och pragmatik

Kartläggning och bedömning av nyanlända elevers kunskaper och språkutveckling

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier:

Semantik och pragmatik

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Grammatisk teori III Praktisk analys

Konstituenter och frasstruktur. 729G49 16 April

Transkript:

Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker, mest kontextfri. Beskriva språk m.h.a. kontextfri grammatik. Linjär precedens Konstituens Kategorisering Visst överlapp med och repetition av saker från Matematik för språkteknologer. 1 2 Formell kontra traditionell grammatik Tendenser (men mkt gemensamt, olika användning): Handkodad grammatik kontra maskinlärning Tendenser i språkteknologin, grovhuggen bild: traditionell grammatik vaghet heterogenitet implicithet robust ofta preskriptiv ej direkt implementerbar redan de gamla grekerna formell grammatik precision systematik explicithet begränsad täckning vetenskaplig, empirisk typiskt implementerbar 1900-talssak handkodning maskininlärning 1950 1990-tal senaste decenniet personalintensivt dataintensivt - trädbanker språkspecifikt tvärspråkliga metoder allmän grammatikteori ST-orienterade metoder kvalitativ värdering kvantitativ värdering begränsad täckning fokus på robusthet 3 4

Kategorisk vs heuristisk analys Kategorisk regler: Objekt antingen exemplifierar en kategori eller gör det inte. Inga grader. Absoluta regler. Rätt/fel. (Grammatik i lingvistiken är ofta sådan.) Heuristiska principer: Grader av exemplifierande. Osäkerhet. Kan bygga på statistik/sannolikhetsberäkningar. (Vanligt inom språkteknologin.) Inga anspråk på 100% korrekthet. Formell grammatik: konstituens Konstituens: abstrakt del-helhetsbegrepp. Enkla konstituenter: (typiskt) ord. Sammansatta konstituenter: fraser. omedelbar vs medelbar konstituens (föräldrar dominerar barn) konstituensen placerar noderna i ett rotat träd visas t.ex. som en graf: omedelbar konstituens blir streck eller genom bracketing : [i [lådan [på [vinden]]]] 5 6 Linjär precedens = grammatikens abstrakta linjära ordning, (ordföljd och frasföljd) Syntaxträd (med kategorietiketter) S motsvarar före efter i tal NP VP motsvarar vänster höger i skrift (Kan glömmas bort, eftersom man fångar informationen gratis genom talets flöde i tiden och skriftens riktning på pappret.) det en n katt v såg det flera NP n hundar 7 8

Grammatisk beskrivning av noder Noderna svarar mot ord, fraser, satser och meningar. Vi vill antagligen knyta en beskrivning av det språkliga uttrycket till varje nod. Enkel sak: en kategorisymbol. Mer utvecklat: Strukturerade beskrivningar, t.ex. särdragsstrukturer (senare på kursen). Syntaxträd, vanliga begränsningar Syntaxträd brukar lyda följande begränsningar: Omedelbara konstituensen (OK) ger just en trädstruktur (utifrån ett ändligt antal noder). Träd (typ av graf): En nod har ingen förälder; alla andra har precis en; ingen cirkularitet. (Noder som saknar barn kallas löv.) Linjär precedens överensstämmer med OK: Varje fras är linjärt kontinuerlig. (Inga korsande grenar.) M.a.o. linjär precedens ger ett ordnat träd. Precis en kategori per nod. 9 10 Språk och grammatik i formell bemärkelse i formell, matematisk mening (Chomsky). Ett språk är en mängd strängar En grammatik definierar ett språk. En grammatik definierar en mängd syntaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi kan läsa av en ordsträngen ur varje träd). Detta är perspektivet i matematisk lingvistik. Olika typer av formell grammatik Det finns olika typer av grammatiker som kan definiera olika klasser av oändliga språk, t.ex. Reguljära uttryck Kontextfria grammatiker (CFG) Det finns andra grammatiktyper som analyseras inom matematiska lingvistiken. Chomskyhierarkin är den mest kända uppställningen. 11 12

Chomskyhierarkin Avser klasser av automater, grammatiker och språk. typ automat grammatik språk 0 Turingmaskin obegränsad rekursivt enumerabla 1 linjärt begränsad a. kontextkänslig kontextkänsliga 2 stackmaskin kontextfri kontextfria 3 ändlig a. linjär reguljära (reguljära uttryck) 0 3: Fallande beräkningsmässig styrka, ökande uttrycksmässiga begränsningar, mindre klasser av språk. Obegränsad grammatik, typ 0 En obegränsad grammatik (omskrivningssystem) är en kvadrupel N,T,P,Σ, där N är en mängd icke-terminaler (kategorisymboler), T är en mängd terminaler (ord), P är en mängd produktioner och Σ är en startsymbol. En produktion är av formen α β, där α är en icke-tom sträng över N T (terminaler och icke-terminaler) och β är en sträng över N T. 13 14 Grammatiker härledning språk Givet ett omskrivningssystem N,T,P,Σ kan man härleda: Strängen Σ (sträng av ensam startsymbol). Givet att α β P och att en sträng xαy (över N T) kan härledas (där x och y är godtyckliga strängar över N T ), så kan xβy härledas. Ett omskrivningssystem definierar det språk (i Chomskys mening) som består av alla de strängar av icke-terminaler som kan härledas. Varje språk i Chomskyhierarkin kan definieras på detta sätt. (Typ 0.) Begränsade grammatiktyper, typ 1 Givet definitionen av omskrivningssystem kan vi ställa hårdare krav på produktionerna. Typ 1, kontextkänslig grammatik: Alla produktioner är av formen X 1 CX 2 X 1 βx 2, där C N (d.v.s. är en icke-terminal), X 1,X 2 N T {ε} (d.v.s. är en terminal, icke-terminal eller tomma strängen). Alltså, C får bara skrivas om till β när det förekommer i en viss kontext, alltså X 1 och X 2. (Mellan ε och ε betyder överallt.) 15 16

Typ 1, alternativ definition Typ 1, kontextkänslig grammatik. Alternativt begrepp: Alla produktioner är av formen α β, där β längre än eller lika lång som α. Detta ger en annan sorts grammatik, men den har precis samma styrka som kontextkänslig grammatik enligt tidigare definition. Denna kan kallas icke-kontraktiv grammatik (men kallas även den kontextkänslig grammatik). Begränsade grammatiktyper, typ 2 Givet definitionen av omskrivningssystem kan vi ställa än hårdare krav på produktionerna. Typ 2, kontextfri grammatik Enbart produktioner av typen C β, där där C N (d.v.s. är en icke-terminal). Kontextfri i jämförelse med kontextkänslig grammatik. 17 18 Begränsade grammatiktyper, typ 3 Givet ett definitionen av omskrivningssystem kan vi ställa hårdare krav på produktionerna. Typ 3, högerlinjär grammatik. Enbart produktioner av typen C 1 tc 2 och C 1 t, där C 1,C 2 N (d.v.s är icke-terminaler) och t T (d.v.s. är en terminal). Alternativt begrepp: Spegelvända begreppet vänsterlinjär grammatik ger samma beräkningsmässiga styrka. Reguljära uttryck: semantik (repetition) Reguljära uttryck är ett annat sätt att definiera språk av typ 3 (s.k. reguljära språk). Basuttryck: D(ε) = {ε}. Om s Σ, där Σ är alfabetet, så D(s) = {s}. Konkatenering (ibland skrivs mer explicit R 1 R 2 istället för R 1 R 2 ): D(R 1 R 2 ) = {xy x D(R 1 ) och y D(R 2 )}. 19 20

Reguljära uttryck: semantik (repetition) Union (alternativitet) (ibland skrivs R 1 R 2 istället för R 1 R 2 ) D(R 1 R 2 ) = {x x D(R 1 ) eller x D(R 2 )}. Kleenehölje (godtycklig självkonkatenering) D(R ) = {x 1 x 2...x n n 0 och x i D(R)} Förkortade skrivsätt: R + för RR. (R) (optionalitet i SWB 2.2.2) för R ε. Kontextfri grammatik (CFG) träd För en CFG gäller att ett träd tillåts av omm: Rotnoden (den utan förälder) är märkt med grammatikens startsymbol. Varje föäldranod med barn (=lokalt träd) matchar en regel i grammatiken. Lövnoderna (lexikala, terminala) matchar lexikoningångar. En sträng tillåts av grammatiken om det finns ett motsvarande träd. 21 22 Syntaxträd, regler, lexikon CFG, ännu mer formellt NP det n en katt S v såg VP det flera NP n hundar S NP VP NP det n VP v NP det en n katt v såg det flera n hundar Vanligt sätt att definiera en CFG formellt: En CFG är en kvadrupel N, T, P, Σ, där N är mängden icke-terminaler (kategorisymboler), T är mängden terminaler (ord), P är mängden av regler (inklusive lexikoningångar) och Σ är startsymbol. En CFG definierar en mängd träd och en mängd strängar icke-terminaler (alltså ett språk i Chomskys mening). 23 24

CFG, ännu mer formellt, exempel Exempel på en CFG, N,T,P,Σ (utifrån tidigare träd): N = {S, NP, VP det, n, v} T = {en, flera, hundar, katt, såg} P = { S NP VP, NP det n, VP v NP, det en, n katt, v såg, det flera, n hundar } Σ =S CFG och naturligt språk En CFG kommer i bästa fall att kunna fånga en delmängd (ett fragment) av ett naturligt språk. Kategorierna måste fånga alla syntaktiskt viktiga distinktioner. (De bildar en platt taxonomi.) En bra grammatik för ett fragment bör (liksom varje teoretisk redogörelse) vara så enkel så möjligt. 25 26 Fraser/konstituenter: distribution Distribution: Vilka grammatiska satskontexter ett uttryck kan förekomma i. Om två fraser har olika distribution så finns det grammatiska satser i vilka det ena uttrycket förekommer och där det inte kan bytas mot det andra utan att grammatikaliteten fördärvas. den lilla hunden och den stora katten har samma distribition. den lilla hunden och det stora djuret har olika distribution: Den lilla hunden är snäll. *Det stora djuret är snäll. Fraser/konstituenter: syntaktiska kategorier Grundprincip: Fraser med samma distribution tillhör samma kategori. Fraser med olika distribution tillhör olika kategorier. Vi måste kunna skilja på den lilla hunden och det stora djuret kategorimässigt. Vi använder ofta också vidare kategorier: Begreppet nominalfras täcker in många olika nominalfraser som vi måste kunna skilja på. 27 28

Problem med atomära beskrivningar Om vi i en kontextfri grammatik har en kategori för substantiv i singularis obestämd form neutrum, nson, och en för substantiv i singularis obestämd form utrum, nsou, så blir nson och nsou lika olika som nson och VP. Viktig observation: Grammatisk information är flerdimensionell: Vi behöver molekylära /dekomponerade/faktoriserade beskrivningar. Annars kan vi inte uttrycka många generaliseringar som vi borde kunna fånga. Problem med atomära beskrivningar Om vi i en kontextfri grammatik har en kategori för substantiv i singularis obestämd form neutrum, nson, och en för substantiv i singularis obestämd form utrum, nsou, så blir nson och nsou lika olika som nson och VP. Vi måste ha massor av regler för att få till alla sekvenser av t.ex. determinerare adjektivfras substantiv (i NP), en för varje kongruensfall. (Övning: skriv ner alla regler som behövs och ange hur lexikoningångar måste se ut.) CFG tillåter ingenting enklare, p.g.a. att taxonomin är platt. 29 30 Problem med atomära beskrivningar Grammatisk information är flerdimensionell: Vi behöver molekylära /dekomponerade/faktoriserade beskrivningar i grammatiken. Det finns många generaliseringar som vi borde kunna fånga med som CFG inte tillåter oss att uttrycka. Exempel, två ord hund huset ordklass subst. subst. (samma) numerus sing. sing. (samma) genus utrum neutrum (olika) species obest. best. (olika) Orden har en några gemensamma särdrag och några som skiljer dem åt. 31 32