Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri grammatik Probabilistisk CFG Synkron CFG En kontextfri grammatik bestäms av en mängd av icke-terminala symboler en startsymbol S en mängd L av terminala symboler en mängd regler på formen C C 1 C 2 C n, där C och C i L Språkteknologi (Lars Ahrenberg) 1 Språkteknologi (Lars Ahrenberg) 2 En enkel kontextfri grammatik Klasser av formella språk S NP VP NP N NP Det N NP Det A N VP V VP V NP N bollen, hund, V träffade, är, A liten, ful, Det en, ett, S NP VP N V NP Det A N bollen träffade en liten hund Språkteknologi (Lars Ahrenberg) 3 Språkteknologi (Lars Ahrenberg) 4 Kontextfri grammatik Kontextfri grammatik - användning Skillnad mot reguljär grammatik full rekursion, bättre beskrivning av frasstruktur Skillnad mot kontextkänslig grammatik svårare att beskriva beroenden mellan olika delar av en sats. Modellering av frasstruktur (även som del i komplexare grammatiker) Gruppering, Ordning, Frastyper Applikationer som fokuserar syntaktisk analys, t.ex. grammatikkontroll Syntaxanalys som försteg till semantisk analys Semantisk grammatik Dialogstruktur Språkteknologi (Lars Ahrenberg) 5 Språkteknologi (Lars Ahrenberg) 6
Användning för analys Strukturella ambiguiteter mening Parser analyser grammatik En kontextfri grammatik visar på möjliga alternativ, men saknar oftast den information som krävs för att välja rätt alternativ. Exempel: Prepositionsfrasers tillhörighet. NP N NP Det N NP NP PP VP V NP PP VP V NP NP PP Exempel: Obama svor eden med handen på bibeln. Språkteknologi (Lars Ahrenberg) 7 Språkteknologi (Lars Ahrenberg) 8 Strukturella ambiguiteter Obama svor eden med handen på bibeln VP V NP N PP P NP svor eden med handen på bibeln Hur kan man lösa strukturella ambiguiteter? Omvärldskunskap / Begreppskunskap med handen på bibeln är en gest som hör ihop med aktiviteten, inte med innehållet i eden. Lexikala associationer svära : hand vs. ed : hand Pragmatisk kunskap ( referential success ) Vi ställer in mötet i morgon En CFG modellerar inte något av detta. Språkteknologi (Lars Ahrenberg) 9 Språkteknologi (Lars Ahrenberg) 10 Regelsammanslagning Semantisk grammatik NP N NP Det N NP Det Adj N NP Adj N NP (Det) (Adj) N NP Det N NP Poss N NP N NP (Det Poss) N En semantisk grammatik är en kontextfri grammatik med kategorier som baseras på semantiska distinktioner. S AvsiktsP AvreseortsP DestinationsP AvsiktsP Pro1 HjV ReseV Pro1 jag, vi, HjV vill, ska, skulle_vilja, ReseV åka, resa, AvreseortsP från Ort DestinationsP till Ort Ort Linköping, Nyköping, Malmö, Språkteknologi (Lars Ahrenberg) 11 Språkteknologi (Lars Ahrenberg) 12
Dialogstruktur Val av kategorier -Vart vill du resa? -Jag vill resa till Stockholm. -Du vill resa till Stockholm? -Ja. -När vill du resa? Dq q (Dch) a Dch ch conf ch rej q: question a: answer ch: check conf: confirmation rej: rejection en liten hund men *ett liten hund NP Det Adj N vs. NP DetSgObUtr AdjSgObUtr NSgObUtr NP DetSgObNeutr AdjSgObNeutr NSgObNeutr NP DetSgBestUtr AdjBest NSgBestUtr NP DetSgBestNeutr AdjBest NSgBestNeutr Språkteknologi (Lars Ahrenberg) 13 Språkteknologi (Lars Ahrenberg) 14 Val av kategorier Långdistansberoenden bollen träffade en hund men *bollen försvann en hund VP V (NP) (NP) (PP) (S) vs. VP IntransV (försvann, träffade) VP TransV NP (träffade) VP BitransV NP NP (gav, unnade, ) VP SatsobjV S (trodde, sa, ) Ett vanligt argument mot CFG som tillräckligt uttrycksfullt verktyg för modellering av frasstruktur har varit s.k. långdistansberoenden. Exempel: Vilken film var det som Albin sa att vi borde se? Språkteknologi (Lars Ahrenberg) 15 Språkteknologi (Lars Ahrenberg) 16 Dependensgrammatik Exempel: dependensstruktur En dependensgrammatik utgår från asymmetriska relationer mellan ord i sin beskrivning av syntaktisk struktur: huvud ~ bestämning en hund, mycket stor, sprang fort, huvud ~ komplement träffade en liten hund, gav bollen till Lisa, tror att jorden är platt. huvud ~ samordnat led en svensk, en tysk och en Bellman Språkteknologi (Lars Ahrenberg) 17 Språkteknologi (Lars Ahrenberg) 18
Exempel: typade dependenser Alternativt format dobj det subj attr 1 Bollen subj > 2 2 träffade main > 0 3 en det > 5 4 liten attr > 5 5 hund obj > 2 6. pct > 2 Språkteknologi (Lars Ahrenberg) 19 Språkteknologi (Lars Ahrenberg) 20 Från dependens- till frasstruktur Från fras- till dependensstruktur VP NP NP N V Det Adj N Pct Idé: Definiera för varje frasnod en lista med beslutsregler. Exempel: NP: välj den sista dominerade noden om den är pronomen, egennamn, substantiv, adjektiv eller räkneord PP: välj den första noden som är Prep VP: välj den första noden som är V Idé: Varje huvud genererar två noder: en för sig själv, och en frasnod, som dominerar dependenta noder. Språkteknologi (Lars Ahrenberg) 21 Språkteknologi (Lars Ahrenberg) 22 Trädbanker Trädbanksexempel, svensk trädbank En trädbank är en korpus där varje mening har tilldelats en syntaktisk analys. Penn Treebank project Am. engelska + flera andra språk frasstruktur med grammatiska funktioner Svensk trädbank SUC + Skrivsyntax platta frasstruktur med relationsnamn på grenarna under arbete Parallella trädbanker Språkteknologi (Lars Ahrenberg) 23 Språkteknologi (Lars Ahrenberg) 24
Probabilistisk CFG Synkron CFG En probabilistisk kontextfri grammatik (PCFG) är en kontextfri grammatik där varje regel är tilldelad en sannolikhet. Exempel: NP N 0,20 NP Det N 0,15 NP Det A N 0,10 NP PRON 0,20 NP PN 0,15 Sannolikheten anger p(hl VL) dvs sannolikheten för att en NP-nod dominerar regelns högerled. En synkron kontextfri grammatik är en grammatik för två språk där varje regel i det ena språket är associerad med en eller flera regler i det andra. (jmf. transduktor för reguljära språk). S <did X Y, Y X> X <he, han> <the ball, bollen> Y <hit X, träffa X> Språkteknologi (Lars Ahrenberg) 25 Språkteknologi (Lars Ahrenberg) 26