729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap
Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON 2 nsubj 4 oberoende oberoende ADJ 7 case 5 av av ADP 4 mwe 6 tidigare tidig ADJ 7 det 7 arbetsinkomst arbetsinkomst NOUN 2 nmod 8.. PUNCT 2 punct
Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik
Generativ grammatik
Generativ grammatik Generativ grammatik är en samlad benämning på en speciell typ av grammatiska teorier. Principerna bakom generativ grammatik formulerades först av den amerikanske lingvisten Noam Chomsky (född 1928). Syntactic Structures (1957) Noam Chomsky Generativ grammatik är idag en paradigm inom lingvistiken. Minimalist Program, Lexical Functional Grammar (LFG), Head-Driven Phrase Structure Grammar (HPSG)
Vad är ett språk? Ett språk som svenska kan beskrivas på många olika sätt. teckensystem, kommunikationsmedel, socialt normsystem Inom den generativa grammatiken beskriver man språk som en mängd, närmare bestämt som en mängd av satser. min bror köpte cykeln av en gammal vän den gamla damen träffade killen med handväskan En grammatik är en explicit redogörelse för en sådan mängd.
En sats en sekvens av ord? antal ord antal permutationer 1 1 2 2 3 6 4 24 5 120 6 720 7 5040 8 40320 9 362 880 10 3 628 800
Grammatiska och ogrammatiska satser Bara ett litet fåtal av de möjliga permutationerna är grammatiska. grammatiska satser cykeln köpte min bror av en gammal vän köpte min bror cykeln av en gammal vän ogrammatiska satser *vän gammal en av cykeln köpte bror min *min gammal bror av en cykeln köpte vän
Grammatiskt versus faktiskt förekommande Det finns ogrammatiska satser som är fullt begripliga. den stora hus byggt av Kalle Det finns grammatiska satser som är svårbegripliga. osten möglade osten råttan tog möglade osten råttan katten jagade tog möglade osten råttan katten hunden bet jagade tog möglade
Om synen på data Generativ grammatik Empiriska data utgörs av satser och talares omdömen om dem. Utvärderingskriterium: Är detta en adekvat beskrivning? En välformad sats är inte alltid ett faktiskt förekommande yttrande. Språkteknologi Empiriska data utgörs av faktiskt förekommande yttranden. Utvärderingskriterium: Hjälper detta i användningen? in vivo-utvärdering, in vitro-utvärdering
Hur ska en grammatik se ut? Allmänt sett finns det två olika sätt att ange en mängd: extensionellt (genom uppräkning) {Helsingfors, Köpenhamn, Oslo, Reyjkjavik, Stockholm} intensionellt (genom beskrivning) {x x är huvudstad i ett nordiskt land}
Varför en intensionell redogörelse? Varje naturligt språk består av oändligt många satser. osten råttan katten hunden bet jagade tog möglade En grammatik ska även redogöra för satsernas struktur. min bror köpte cykeln av en gammal vän [min bror] [köpte cykeln av en gammal vän] [[min] [bror]] [[köpte] [cykeln] [av en gammal vän]] [[min] [bror]] [[köpte] [cykeln] [av [en gammal vän]]] [[min] [bror]] [[köpte] [cykeln] [av [[en] [gammal] [vän]]]]
Adekvathet En grammatik är observationsmässigt adekvat om den genererar alla och endast de grammatiska satserna i det aktuella språket. En grammatik är deskriptivt adekvat om den tilldelar varje grammatisk sats en strukturell beskrivning.
Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik
Frasstrukturgrammatik
Fraser Ordgrupper kan ibland fungera som enskilda ord. Statsministern. En stad av samma storlek som Linköping. Elin i Hagen. Hon och var och en av oss. Sådana ordgrupper kallas fraser.
Exempel på fraser nominalfraser (NP) hon. Stefan Löfvén. ett sådant klassiskt ställe som Operakällaren. verbfraser (VP) rodnade. bad henne att sätta sig hos honom. levde lyckliga i alla sina dagar. prepositionsfraser (PP) på bordet. bortom all kontroll. med viss självständighet.
Frasstrukturgrammatik Fraser kan sättas ihop för att bilda större fraser. generativt perspektiv En komplex fras kan delas upp i mindre fraser. analytiskt perspektiv Detta ger upphov till en hierarkisk struktur som kan beskrivas med hjälp av en frasstrukturgrammatik.
Lexikala kategorier A DET N P TV adjektiv determinator (eng. determiner) nomen (eng. noun); substantiv preposition transitivt verb
Verbindelning efter transitivitet Intransitiva verb kräver en nominalfras som subjekt. Kalle springer. Båten sjunker. Monotransitiva verb har både subjekt och direkt objekt. Lisa spelar fotboll. Jag sköt en gås. Mormor vek papperssvalor. Bitransitiva verb har subjekt, direkt och indirekt objekt. Vi lånade henne två cd-skivor. Man skänkte staden en staty.
Icke-lexikala kategorier AP S NP PP VP adjektivfras (eng. adjective phrase) sats (eng. sentence) nominalfras (eng. noun phrase) prepositionsfras (eng. prepositional phrase) verbfras (eng. verb phrase)
Flertydighet I booked a flight from L.A. Denna mening är flertydig. På vilket sätt? Hur yttrar sig flertydigheten med avseende på frasstrukturen?
Analys 1: PP modifierar verbets objekt S NP VP Pro Verb NP I booked Det Nom a Nom PP Noun from LA flight
Analys 2: PP modifierar verbet S NP VP Pro Verb NP PP I booked Det Nom from LA a Noun flight
Kombinatorisk explosion 800 600 400 exponentiell kubisk linjär 200 0 0 1 2 3 4 5 6
Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik
Kontextfria grammatik
Kontextfri grammatik (CFG) Kontextfri grammatik är en specifik formalism för att beskriva den syntaktiska strukturen hos naturliga språk i termer av hierarkiska fraser. även programspråk En kontextfri grammatik består i huvudsak av ett antal regler som beskriver hur fraser kan delas upp i mindre fraser, ända ner till ordnivån.
En kontextfri grammatik Regel S NP VP NP Pronoun NP Proper-Noun NP Det Nominal Nominal Nominal Noun Nominal Noun VP Verb VP Verb NP VP Verb NP PP VP Verb PP PP Preposition NP Exempel I + want a morning flight I Los Angeles a flight morning flight flights do want + a flight leave + Boston + in the morning leaving + on Thursday from + Los Angeles
Ingredienser i en kontextfri grammatik N T P S en mängd av frassymboler (eng. nonterminals) en mängd av ord (eng. terminals) en mängd av produktioner eller regler en speciell frassymbol; grammatikens startsymbol
Notation för regler vänsterled S NP VP högerled En mening (S) består av en nominalfras (NP) och en verbfras (VP).
En kontextfri grammatik Regel S NP VP NP Pronoun NP Proper-Noun NP Det Nominal Nominal Nominal Noun Nominal Noun VP Verb VP Verb NP VP Verb NP PP VP Verb PP PP Preposition NP Exempel I + want a morning flight I Los Angeles a flight morning flight flights do want + a flight leave + Boston + in the morning leaving + on Thursday from + Los Angeles
Frasstrukturträd S NP VP Pro Verb NP I prefer Det Nom a Nom Noun Noun flight morning
Övning: Generera meningar Lexikala regler DT en IV sover NN hund hunden NN kastrull kastrullen PN Pelle PRO hon PREP på TV kastar Icke-lexikala regler S NP VP NP DT NN NP NN NP PN NP PRO VP IV VP TV NP VP TV NP PP PP PREP NP
Begränsningar av kontextfria grammatiker Kontextfria grammatiker kan modellera många intressanta aspekter hos naturliga språk. språklig kreativitet, inbäddade strukturer Men det finns andra aspekter som de inte är så bra på eller inte kan modellera alls. kongruensböjning, korsande dependenser
Kongruensböjning På engelska måste ett subjekt ha samma numerus som det verb det är kopplat till. *[A flight] [leave Boston in the morning]. Reglerna från vår exempelgrammatik fångar inte in detta. Man säger att grammatiken övergenererar.
Kongruensböjning Ett sätt att lösa problemet är att specialisera reglerna med morfologiska särdrag: Regel S NP[sg] VP[sg] NP[sg] Det[sg] Nom[sg] VP[sg] Verb[sg] PP NP[pl] Det[pl] NP[pl] Exempel this flight + leaves on Monday this + flight leaves + on Monday these + flights Detta gör dock att grammatiken blir väldigt stor.
Chomsky-hierarkin rekursivt uppräkningsbara språk kontextkänsliga språk kontextfria språk reguljära språk
Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik