Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Relevanta dokument
729G09 Språkvetenskaplig databehandling

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Frasstrukturgrammatik

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Datorlingvistisk grammatik

Partiell parsning Parsning som sökning

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Grammatik för språkteknologer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Fraser, huvuden och bestämningar

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Tekniker för storskalig parsning

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatisk teori III Praktisk analys

Grammatik för språkteknologer

Kontextfri grammatik (CFG)

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References

Datorlingvistisk grammatik

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

729G09 Språkvetenskaplig databehandling

FL 6: Definite Clause Grammars (kap. 7)

Lingvistiskt uppmärkt text

Lingvistik IV Konstituenter och frasstruktur

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Tekniker för storskalig parsning: Grundbegrepp

Lösningsförslag till tentamen i Språkteknologi 2D1418,

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Kungliga Tekniska Högskolan Patrik Dallmann

Språkpsykologi/psykolingvistik

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Grundläggande textanalys. Joakim Nivre

Grammatisk teori II Attributvärdesgrammatik

Konstituenter och frasstruktur. 729G49 16 April

Matematik för språkteknologer

Faktorer av betydelse för en flerspråkig utveckling. Sociala faktorer. Språkliga faktorer. Pedagogiska faktorer

Kontextfria grammatiker

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin

Språkteknologi och Open Source

Grammatik för språkteknologer

Lingvistik V Satsdelar, huvud- och bisatser. 729G49 23 april

Huvudansatser för parsningsmetoder

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Korpuslingvistik vt 2007

Datorlingvistisk grammatik

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

Grammatisk teori III - Seminarium

Grammatik för språkteknologer

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)


Tekniker för storskalig parsning

Föreläsning 7: Syntaxanalys

Ämnesspråk i matematik - något mer än begrepp? Ida Bergvall, PhD

Syntax 1: Fraser och satsled Syntax 2: Satser och meningar

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

De som (som) vi använder

Språkteknologi. Språkteknologi

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Språkets struktur och funktion, 7,5 hp

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

Föreläsning 7: Syntaxanalys

Neurolingvistik - Grammatik

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Grammatik i Samtal I. Mathias Broth Lingvistik (729G08) ht -12

Morfologi och syntax. Föreläsning 1 & 2

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Lingvistiska grundbegrepp

grammatik Ordklasser, nominalfraser, substantiv

Att hantera två eller flera språk

Ord och morfologi. Morfologi

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Grundläggande textanalys, VT2012

Satsled och satstruktur

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Pragmatisk och narrativ utveckling

Inlämningsuppgift MiniPlotter

Parsningens olika nivåer

Om språkutvecklingsschemat for grundskolan Barns språkutveckling är individuell och inte linjär. Därftjr är språkutvecklingsschemat inte

Tala, skriva och samtala

Språk, datorer och textbehandling

Objektorienterad modellering och diskreta strukturer. 13. Problem. Sven Gestegård Robertz. Datavetenskap, LTH

Datorlingvistisk grammatik

Kommentarer till bedömningsmatris för Skriva Kurs C

Kursplan för kurs på grundnivå

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Elementära verktyg för korpusbearbetning

Ordförråd och Ordbildning

TDDC89 LINGVISTIK måndag 20 oktober 2008

Tentamen Del A. Marco Kuhlmann

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Transkript:

Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri grammatik Probabilistisk CFG Synkron CFG En kontextfri grammatik bestäms av en mängd av icke-terminala symboler en startsymbol S en mängd L av terminala symboler en mängd regler på formen C C 1 C 2 C n, där C och C i L Språkteknologi (Lars Ahrenberg) 1 Språkteknologi (Lars Ahrenberg) 2 En enkel kontextfri grammatik Klasser av formella språk S NP VP NP N NP Det N NP Det A N VP V VP V NP N bollen, hund, V träffade, är, A liten, ful, Det en, ett, S NP VP N V NP Det A N bollen träffade en liten hund Språkteknologi (Lars Ahrenberg) 3 Språkteknologi (Lars Ahrenberg) 4 Kontextfri grammatik Kontextfri grammatik - användning Skillnad mot reguljär grammatik full rekursion, bättre beskrivning av frasstruktur Skillnad mot kontextkänslig grammatik svårare att beskriva beroenden mellan olika delar av en sats. Modellering av frasstruktur (även som del i komplexare grammatiker) Gruppering, Ordning, Frastyper Applikationer som fokuserar syntaktisk analys, t.ex. grammatikkontroll Syntaxanalys som försteg till semantisk analys Semantisk grammatik Dialogstruktur Språkteknologi (Lars Ahrenberg) 5 Språkteknologi (Lars Ahrenberg) 6

Användning för analys Strukturella ambiguiteter mening Parser analyser grammatik En kontextfri grammatik visar på möjliga alternativ, men saknar oftast den information som krävs för att välja rätt alternativ. Exempel: Prepositionsfrasers tillhörighet. NP N NP Det N NP NP PP VP V NP PP VP V NP NP PP Exempel: Obama svor eden med handen på bibeln. Språkteknologi (Lars Ahrenberg) 7 Språkteknologi (Lars Ahrenberg) 8 Strukturella ambiguiteter Obama svor eden med handen på bibeln VP V NP N PP P NP svor eden med handen på bibeln Hur kan man lösa strukturella ambiguiteter? Omvärldskunskap / Begreppskunskap med handen på bibeln är en gest som hör ihop med aktiviteten, inte med innehållet i eden. Lexikala associationer svära : hand vs. ed : hand Pragmatisk kunskap ( referential success ) Vi ställer in mötet i morgon En CFG modellerar inte något av detta. Språkteknologi (Lars Ahrenberg) 9 Språkteknologi (Lars Ahrenberg) 10 Regelsammanslagning Semantisk grammatik NP N NP Det N NP Det Adj N NP Adj N NP (Det) (Adj) N NP Det N NP Poss N NP N NP (Det Poss) N En semantisk grammatik är en kontextfri grammatik med kategorier som baseras på semantiska distinktioner. S AvsiktsP AvreseortsP DestinationsP AvsiktsP Pro1 HjV ReseV Pro1 jag, vi, HjV vill, ska, skulle_vilja, ReseV åka, resa, AvreseortsP från Ort DestinationsP till Ort Ort Linköping, Nyköping, Malmö, Språkteknologi (Lars Ahrenberg) 11 Språkteknologi (Lars Ahrenberg) 12

Dialogstruktur Val av kategorier -Vart vill du resa? -Jag vill resa till Stockholm. -Du vill resa till Stockholm? -Ja. -När vill du resa? Dq q (Dch) a Dch ch conf ch rej q: question a: answer ch: check conf: confirmation rej: rejection en liten hund men *ett liten hund NP Det Adj N vs. NP DetSgObUtr AdjSgObUtr NSgObUtr NP DetSgObNeutr AdjSgObNeutr NSgObNeutr NP DetSgBestUtr AdjBest NSgBestUtr NP DetSgBestNeutr AdjBest NSgBestNeutr Språkteknologi (Lars Ahrenberg) 13 Språkteknologi (Lars Ahrenberg) 14 Val av kategorier Långdistansberoenden bollen träffade en hund men *bollen försvann en hund VP V (NP) (NP) (PP) (S) vs. VP IntransV (försvann, träffade) VP TransV NP (träffade) VP BitransV NP NP (gav, unnade, ) VP SatsobjV S (trodde, sa, ) Ett vanligt argument mot CFG som tillräckligt uttrycksfullt verktyg för modellering av frasstruktur har varit s.k. långdistansberoenden. Exempel: Vilken film var det som Albin sa att vi borde se? Språkteknologi (Lars Ahrenberg) 15 Språkteknologi (Lars Ahrenberg) 16 Dependensgrammatik Exempel: dependensstruktur En dependensgrammatik utgår från asymmetriska relationer mellan ord i sin beskrivning av syntaktisk struktur: huvud ~ bestämning en hund, mycket stor, sprang fort, huvud ~ komplement träffade en liten hund, gav bollen till Lisa, tror att jorden är platt. huvud ~ samordnat led en svensk, en tysk och en Bellman Språkteknologi (Lars Ahrenberg) 17 Språkteknologi (Lars Ahrenberg) 18

Exempel: typade dependenser Alternativt format dobj det subj attr 1 Bollen subj > 2 2 träffade main > 0 3 en det > 5 4 liten attr > 5 5 hund obj > 2 6. pct > 2 Språkteknologi (Lars Ahrenberg) 19 Språkteknologi (Lars Ahrenberg) 20 Från dependens- till frasstruktur Från fras- till dependensstruktur VP NP NP N V Det Adj N Pct Idé: Definiera för varje frasnod en lista med beslutsregler. Exempel: NP: välj den sista dominerade noden om den är pronomen, egennamn, substantiv, adjektiv eller räkneord PP: välj den första noden som är Prep VP: välj den första noden som är V Idé: Varje huvud genererar två noder: en för sig själv, och en frasnod, som dominerar dependenta noder. Språkteknologi (Lars Ahrenberg) 21 Språkteknologi (Lars Ahrenberg) 22 Trädbanker Trädbanksexempel, svensk trädbank En trädbank är en korpus där varje mening har tilldelats en syntaktisk analys. Penn Treebank project Am. engelska + flera andra språk frasstruktur med grammatiska funktioner Svensk trädbank SUC + Skrivsyntax platta frasstruktur med relationsnamn på grenarna under arbete Parallella trädbanker Språkteknologi (Lars Ahrenberg) 23 Språkteknologi (Lars Ahrenberg) 24

Probabilistisk CFG Synkron CFG En probabilistisk kontextfri grammatik (PCFG) är en kontextfri grammatik där varje regel är tilldelad en sannolikhet. Exempel: NP N 0,20 NP Det N 0,15 NP Det A N 0,10 NP PRON 0,20 NP PN 0,15 Sannolikheten anger p(hl VL) dvs sannolikheten för att en NP-nod dominerar regelns högerled. En synkron kontextfri grammatik är en grammatik för två språk där varje regel i det ena språket är associerad med en eller flera regler i det andra. (jmf. transduktor för reguljära språk). S <did X Y, Y X> X <he, han> <the ball, bollen> Y <hit X, träffa X> Språkteknologi (Lars Ahrenberg) 25 Språkteknologi (Lars Ahrenberg) 26