Frasstrukturgrammatik

Relevanta dokument
729G09 Språkvetenskaplig databehandling

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Fraser, huvuden och bestämningar

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Grammatisk teori II Attributvärdesgrammatik

Grammatik för språkteknologer

Datorlingvistisk grammatik

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Lingvistiska grundbegrepp

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Lingvistiskt uppmärkt text

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Konstituenter och frasstruktur. 729G49 16 April

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Grammatisk teori III Praktisk analys

Språkets struktur och funktion, 7,5 hp

Lingvistik IV Konstituenter och frasstruktur

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Grundläggande syntaktiska funktioner och roller

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

FL 6: Definite Clause Grammars (kap. 7)

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Morfologi och syntax. Föreläsning 1 & 2


Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Lingvistiskt uppmärkt text

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Inlämningsuppgift: Pronomenidentifierare

Syntax Fras, sats, mening

Tekniker för storskalig parsning: Grundbegrepp

TDDC89 LINGVISTIK måndag 20 oktober 2008

GÖTEBORGS UNIVERSITET Institutionen för svenska språket. Introduktion till frasstrukturgrammatik

Datum: Date: Provkodr: KTR1 Exam code:

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References

Satslära introduktion

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Syntax 1: Fraser och satsled Syntax 2: Satser och meningar

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Satsled och satstruktur

Språkteknologi. Språkteknologi

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Lingvistik V Satsdelar, huvud- och bisatser

Datorlingvistisk grammatik

Tenta i Lingvistik 729G08 ht10 ( )

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Matematik för språkteknologer

Datorlingvistisk grammatik

Byggstenar. Fraser och satsled. Sammanhang. Definitioner

Lingvistik V Satsdelar, huvud- och bisatser. 729G49 23 april

Grammatik för språkteknologer

Datum: Date: Provkodr: KTR1 Exam code:

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Kompositionell semantik och λ-kalkyl

Tentamen Marco Kuhlmann

Först lite rester...

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Datum: Date: Provkodr: KTR1 Exam code:

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Datum: Date: Provkodr: KTR1 Exam code:

Struktur och funktion i satser en introduktion till satsträd Niklas Edenmyr (Inst. f. lingvistik & filologi)

Ordklasser och satsdelar

Grundläggande textanalys. Joakim Nivre

Grammatik för språkteknologer

Korpuslingvistik vt 2007

Kontextfria grammatiker

Världens språk, 7,5hp vt 2012

Neurolingvistik - Grammatik

Grim. Några förslag på hur du kan använda Grim. Version 0.8

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Annoteringsvägledning SWE-TIGER

Facit för diagnostiska provet i grammatik

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

*han är nyss bekymrad b)pp kan i motsats till de flesta andra Adj. aldrig ta en gradkvantor (som t.ex. mycket):

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Världens språk, 7,5hp vt 2012

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Olika typer av satser

ENGA21: Engelska fortsättningskurs, 30 högskolepoäng Studiebeskrivning

Partiell parsning Parsning som sökning

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Satsdelar Subjekt, predikat och objekt

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Kursbeskrivning med litteraturlista HT-13

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Kommentarer till bedömningsmatris för Tala Kurs D

Transkript:

729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap

Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON 2 nsubj 4 oberoende oberoende ADJ 7 case 5 av av ADP 4 mwe 6 tidigare tidig ADJ 7 det 7 arbetsinkomst arbetsinkomst NOUN 2 nmod 8.. PUNCT 2 punct

Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik

Generativ grammatik

Generativ grammatik Generativ grammatik är en samlad benämning på en speciell typ av grammatiska teorier. Principerna bakom generativ grammatik formulerades först av den amerikanske lingvisten Noam Chomsky (född 1928). Syntactic Structures (1957) Noam Chomsky Generativ grammatik är idag en paradigm inom lingvistiken. Minimalist Program, Lexical Functional Grammar (LFG), Head-Driven Phrase Structure Grammar (HPSG)

Vad är ett språk? Ett språk som svenska kan beskrivas på många olika sätt. teckensystem, kommunikationsmedel, socialt normsystem Inom den generativa grammatiken beskriver man språk som en mängd, närmare bestämt som en mängd av satser. min bror köpte cykeln av en gammal vän den gamla damen träffade killen med handväskan En grammatik är en explicit redogörelse för en sådan mängd.

En sats en sekvens av ord? antal ord antal permutationer 1 1 2 2 3 6 4 24 5 120 6 720 7 5040 8 40320 9 362 880 10 3 628 800

Grammatiska och ogrammatiska satser Bara ett litet fåtal av de möjliga permutationerna är grammatiska. grammatiska satser cykeln köpte min bror av en gammal vän köpte min bror cykeln av en gammal vän ogrammatiska satser *vän gammal en av cykeln köpte bror min *min gammal bror av en cykeln köpte vän

Grammatiskt versus faktiskt förekommande Det finns ogrammatiska satser som är fullt begripliga. den stora hus byggt av Kalle Det finns grammatiska satser som är svårbegripliga. osten möglade osten råttan tog möglade osten råttan katten jagade tog möglade osten råttan katten hunden bet jagade tog möglade

Om synen på data Generativ grammatik Empiriska data utgörs av satser och talares omdömen om dem. Utvärderingskriterium: Är detta en adekvat beskrivning? En välformad sats är inte alltid ett faktiskt förekommande yttrande. Språkteknologi Empiriska data utgörs av faktiskt förekommande yttranden. Utvärderingskriterium: Hjälper detta i användningen? in vivo-utvärdering, in vitro-utvärdering

Hur ska en grammatik se ut? Allmänt sett finns det två olika sätt att ange en mängd: extensionellt (genom uppräkning) {Helsingfors, Köpenhamn, Oslo, Reyjkjavik, Stockholm} intensionellt (genom beskrivning) {x x är huvudstad i ett nordiskt land}

Varför en intensionell redogörelse? Varje naturligt språk består av oändligt många satser. osten råttan katten hunden bet jagade tog möglade En grammatik ska även redogöra för satsernas struktur. min bror köpte cykeln av en gammal vän [min bror] [köpte cykeln av en gammal vän] [[min] [bror]] [[köpte] [cykeln] [av en gammal vän]] [[min] [bror]] [[köpte] [cykeln] [av [en gammal vän]]] [[min] [bror]] [[köpte] [cykeln] [av [[en] [gammal] [vän]]]]

Adekvathet En grammatik är observationsmässigt adekvat om den genererar alla och endast de grammatiska satserna i det aktuella språket. En grammatik är deskriptivt adekvat om den tilldelar varje grammatisk sats en strukturell beskrivning.

Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik

Frasstrukturgrammatik

Fraser Ordgrupper kan ibland fungera som enskilda ord. Statsministern. En stad av samma storlek som Linköping. Elin i Hagen. Hon och var och en av oss. Sådana ordgrupper kallas fraser.

Exempel på fraser nominalfraser (NP) hon. Stefan Löfvén. ett sådant klassiskt ställe som Operakällaren. verbfraser (VP) rodnade. bad henne att sätta sig hos honom. levde lyckliga i alla sina dagar. prepositionsfraser (PP) på bordet. bortom all kontroll. med viss självständighet.

Frasstrukturgrammatik Fraser kan sättas ihop för att bilda större fraser. generativt perspektiv En komplex fras kan delas upp i mindre fraser. analytiskt perspektiv Detta ger upphov till en hierarkisk struktur som kan beskrivas med hjälp av en frasstrukturgrammatik.

Lexikala kategorier A DET N P TV adjektiv determinator (eng. determiner) nomen (eng. noun); substantiv preposition transitivt verb

Verbindelning efter transitivitet Intransitiva verb kräver en nominalfras som subjekt. Kalle springer. Båten sjunker. Monotransitiva verb har både subjekt och direkt objekt. Lisa spelar fotboll. Jag sköt en gås. Mormor vek papperssvalor. Bitransitiva verb har subjekt, direkt och indirekt objekt. Vi lånade henne två cd-skivor. Man skänkte staden en staty.

Icke-lexikala kategorier AP S NP PP VP adjektivfras (eng. adjective phrase) sats (eng. sentence) nominalfras (eng. noun phrase) prepositionsfras (eng. prepositional phrase) verbfras (eng. verb phrase)

Flertydighet I booked a flight from L.A. Denna mening är flertydig. På vilket sätt? Hur yttrar sig flertydigheten med avseende på frasstrukturen?

Analys 1: PP modifierar verbets objekt S NP VP Pro Verb NP I booked Det Nom a Nom PP Noun from LA flight

Analys 2: PP modifierar verbet S NP VP Pro Verb NP PP I booked Det Nom from LA a Noun flight

Kombinatorisk explosion 800 600 400 exponentiell kubisk linjär 200 0 0 1 2 3 4 5 6

Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik

Kontextfria grammatik

Kontextfri grammatik (CFG) Kontextfri grammatik är en specifik formalism för att beskriva den syntaktiska strukturen hos naturliga språk i termer av hierarkiska fraser. även programspråk En kontextfri grammatik består i huvudsak av ett antal regler som beskriver hur fraser kan delas upp i mindre fraser, ända ner till ordnivån.

En kontextfri grammatik Regel S NP VP NP Pronoun NP Proper-Noun NP Det Nominal Nominal Nominal Noun Nominal Noun VP Verb VP Verb NP VP Verb NP PP VP Verb PP PP Preposition NP Exempel I + want a morning flight I Los Angeles a flight morning flight flights do want + a flight leave + Boston + in the morning leaving + on Thursday from + Los Angeles

Ingredienser i en kontextfri grammatik N T P S en mängd av frassymboler (eng. nonterminals) en mängd av ord (eng. terminals) en mängd av produktioner eller regler en speciell frassymbol; grammatikens startsymbol

Notation för regler vänsterled S NP VP högerled En mening (S) består av en nominalfras (NP) och en verbfras (VP).

En kontextfri grammatik Regel S NP VP NP Pronoun NP Proper-Noun NP Det Nominal Nominal Nominal Noun Nominal Noun VP Verb VP Verb NP VP Verb NP PP VP Verb PP PP Preposition NP Exempel I + want a morning flight I Los Angeles a flight morning flight flights do want + a flight leave + Boston + in the morning leaving + on Thursday from + Los Angeles

Frasstrukturträd S NP VP Pro Verb NP I prefer Det Nom a Nom Noun Noun flight morning

Övning: Generera meningar Lexikala regler DT en IV sover NN hund hunden NN kastrull kastrullen PN Pelle PRO hon PREP på TV kastar Icke-lexikala regler S NP VP NP DT NN NP NN NP PN NP PRO VP IV VP TV NP VP TV NP PP PP PREP NP

Begränsningar av kontextfria grammatiker Kontextfria grammatiker kan modellera många intressanta aspekter hos naturliga språk. språklig kreativitet, inbäddade strukturer Men det finns andra aspekter som de inte är så bra på eller inte kan modellera alls. kongruensböjning, korsande dependenser

Kongruensböjning På engelska måste ett subjekt ha samma numerus som det verb det är kopplat till. *[A flight] [leave Boston in the morning]. Reglerna från vår exempelgrammatik fångar inte in detta. Man säger att grammatiken övergenererar.

Kongruensböjning Ett sätt att lösa problemet är att specialisera reglerna med morfologiska särdrag: Regel S NP[sg] VP[sg] NP[sg] Det[sg] Nom[sg] VP[sg] Verb[sg] PP NP[pl] Det[pl] NP[pl] Exempel this flight + leaves on Monday this + flight leaves + on Monday these + flights Detta gör dock att grammatiken blir väldigt stor.

Chomsky-hierarkin rekursivt uppräkningsbara språk kontextkänsliga språk kontextfria språk reguljära språk

Denna föreläsning Generativ grammatik Frasstrukturgrammatik Kontextfri grammatik