729G09 Språkvetenskaplig databehandling

Relevanta dokument
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Frasstrukturgrammatik

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Grammatik för språkteknologer

Fraser, huvuden och bestämningar

Lingvistik IV Konstituenter och frasstruktur

Syntax Fras, sats, mening

Konstituenter och frasstruktur. 729G49 16 April

Datorlingvistisk grammatik

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Grundläggande syntaktiska funktioner och roller

Grammatisk teori II Attributvärdesgrammatik


Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Datum: Date: Provkodr: KTR1 Exam code:

Satslära introduktion

Grammatisk teori III Praktisk analys

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Datum: Date: Provkodr: KTR1 Exam code:

Datorlingvistisk grammatik

Lingvistik V Satsdelar, huvud- och bisatser

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

TDDC89 LINGVISTIK måndag 20 oktober 2008

Datum: Date: Provkodr: KTR1 Exam code:

Syntax 1: Fraser och satsled Syntax 2: Satser och meningar

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Satsled och satstruktur

Struktur och funktion i satser en introduktion till satsträd Niklas Edenmyr (Inst. f. lingvistik & filologi)

Datum: Date: Provkodr: KTR1 Exam code:

Lingvistik V Satsdelar, huvud- och bisatser. 729G49 23 april

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

729G09 Språkvetenskaplig databehandling

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Lingvistiskt uppmärkt text

GÖTEBORGS UNIVERSITET Institutionen för svenska språket. Introduktion till frasstrukturgrammatik

Förord KERSTIN BALLARDINI

Språkets struktur och funktion, 7,5 hp

Tekniker för storskalig parsning: Grundbegrepp

Datorlingvistisk grammatik

Tenta i Lingvistik 729G08 ht10 ( )

Morfologi och syntax. Föreläsning 1 & 2

Facit för diagnostiska provet i grammatik

Byggstenar. Fraser och satsled. Sammanhang. Definitioner

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Världens språk, 7,5hp vt 2012

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Datorlingvistisk grammatik

Satsdelar. Carina

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Språkets byggstenar. Varför läsa grammatik? Vad är grammatik?

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Partiell parsning Parsning som sökning

Koll på strukturerna. Några didaktiska reflektioner

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Grammatik för språkteknologer

Lingvistiska grundbegrepp

Grammatik för språkteknologer

Lexikon: ordbildning och lexikalisering

Att analysera andraspråkstexter

Matematik för språkteknologer

grammatik Ordklasser, nominalfraser, substantiv

Korpuslingvistik vt 2007

Kompositionell semantik och λ-kalkyl

Sidan 1. Mångtydighet. Ordföljd och informationsstruktur. En situation. Fri ordföljd. Finska kasus. Bunden ordföljd

FL 6: Definite Clause Grammars (kap. 7)

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Lingvistiskt uppmärkt text

SVENSKANS STRUKTUR. Inledning. Marke&a Sundman

KATTEN SOM INTE HAR NÅN SVANS OCH HÄNNÄTÖN KISSA. Översättning av nominalfraser från svenska till finska i barnberättelsen Pelle Svanslös på äventyr

De som (som) vi använder

Tekniker för storskalig parsning

Grammatik för språkteknologer

gramma%k pronomen, a-ribut, adjek%v (fraser), räkneord och syntak%sk funk%on

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Annoteringsvägledning SWE-TIGER

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Kursbeskrivning med litteraturlista HT-13

Världens språk, 7,5hp vt 2012

Trädrepresentation. Parentesrepresentation

Bedömning av språklig nivå utifrån processbarhetsteorin - Har andraspråksinlärare på Komvux utvecklats språkligt mellan olika kurser?

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Sfi-läromedel ur ett processbarhetsperspektiv

Språkteknologi. Språkteknologi

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Först lite rester...

Förhållandet mellan anföringssats och anförd sats vid direkt anföring *

Inlämningsuppgift: Pronomenidentifierare

Sidan 1. En situation. En modell för satsproduktion. Fri ordföljd. Finska kasus. Bunden ordföljd

Kontextfri grammatik (CFG)

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

inte jobbet i sig, men En korpusstudie av konstruktionen X i sig

Transkript:

729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04

Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2

Generativ grammatik Modellera naturliga språks grammatik (specifikt syntax) så att Oändligt många satser kan beskrivas, Välformade satser skiljs från ovälformade, Strukturen i en välformad sats representeras adekvat, Modellen använder universellt giltiga syntaktiska begrepp ( universell grammatik ) 3

Språkteknologi Modellera naturliga språks syntax för praktiska syften så som att extrahera faktainformation ur dem, läsa upp text med syntetiskt tal, översätta till ett annat språk, identifiera grammatiska fel och föreslå rättelser, Varje tillämpning ställer olika krav varför olika modeller används. 4

Om synen på data Generativ grammatik begreppet 'välformad sats' svarar inte på något direkt sätt mot 'faktiskt förekommande yttranden' empiriska data är framför allt satser och talares omdömen om dem Språkteknologi data utgörs av faktiskt förekommande yttranden processmodellerna utvärderas utifrån systemkriterier 5

Hur många möjliga kombinationer? Antal ord Permutationer Grammatiska 2 2? 3 6? 4 24? 5 120? 6 720? 7 5040? 8 40320? 9 362,880? 10 3,628,880? 6

Hur många möjliga kombinationer? Det beror naturligtvis på vilka ord vi väljer Exempel 1: Variera satsen ovan! Exempel 2: {den, en, fisk, tog, såg, nog} 7

Finns det mönster? Ja, massvis, t.ex. En sats innehåller, per definition, minst två delar, subjekt och verbfras i vid bemärkelse (Josefsson, sid. 151) Schemamodellen för svenskans ordföljd (Josefsson, kap. 12) I nominalfraser står adjektivattribut framför substantivet, prepositionsfraser efter substantivet (Josefsson, kap. 6.1) 8

Strukturella principer Linjär struktur (dvs. ordföljd) alla ordningar är inte grammatiska fågeln tog en fisk, *fågeln fisk en tog Hierarkisk struktur (gruppering) ord bildar fraser, som ev. bildar större fraser och vi kan inte bryta upp fraser hur som helst: fågeln [ tog [ en fisk ]] 9

Strukturella principer Relationell struktur ( beroenden ), t.ex. Kongruensböjning den lilla fisken, men inte *det lilla fisken, eller *den liten fisken Valenser eller transitivitet Klara tycker om Bach, men inte *Klara sover Bach eller *Klara tycker om; Långdistansberoenden Bach tror jag inte Klara har tyckt om förut. *Bach tror jag inte Klara har tyckt om Bach förut 10

Strukturberoende Det faktum att hypoteser om välformighet inte enbart kan baseras på ord, ordklasser och deras ordning har kallats språkets strukturberoende Förutom ord och ordklasser behövs därför också i en syntaxmodell fraser och fraskategorier 11

Frasstrukturträd Linjär och hierarkisk struktur kan illustreras grafiskt och resulterar då i en typ av graf kallad ett (etiketterat) träd. S NP VB PP DT ADJ NN försvann P NN den lilla fisken i djupet 12

Ett frastrukturträd för en sats med bisats S rekursivitet! NP VB BS PRON tror att S jag NP VB ADV NN försvann däråt fisken 13

Frasstrukturgrammatik I frasstrukturgrammatik analyseras satser och meningar i termer av beståndsdelar eller konstituenter och deras ordning. Analysen kan beskrivas i ett etiketterat träd. Etiketterna i en frasstrukturgrammatik representerar sådant som ord ordklasser fraskategorier olika typer av satser 14

Kontextfri grammatik Kontextfri grammatik är ett sätt att formellt modellera frasstrukturanalys. Kärnan i en kontextfrigrammatik är en mängd av kontextfria omskrivningsregler, regler som skriver om en symbol (etikett) utan hänsyn till vad som ev står runt omkring. Exempel: S A B A a A C Strängmängder som genereras av kontextfria regler kallas kontextfria språk. 15

Kontextfri grammatik En kontextfri grammatik ges av Ett alfabet av terminala symboler En uppsättning icke-terminala symboler En startsymbol, som är icke-terminal En samling regler på formatet X X 1 X 2 X n där X är icke-terminal Regler av typen X x där x är terminal kallas ofta lexikonregler 16

Syntaktisk modellering Modell (Formell) grammatik S NP VP NP DT NN NP PN VP IV VP TV NP NN: hund, bil,... IV: sover TV: köpte. Icke-meningar Verklighet meningar 17

Formella och naturliga språk Givet en formell grammatik, G, kallas de strängar som grammatiken genererar för grammatikens språk och betecknas ofta L G. Vid syntaktisk modellering är problemet att givet ett språk, L, hitta en formell grammatik G så att L = L G. Alfabetet ( de terminala symbolerna ) utgörs då av språkets ord. 18

Trädstrukturer En kontextfri grammatik bestämmer minst en struktur för varje mening som den genererar. Strukturer kan visualiseras som träd med etiketterade noder Om grammatiken ger en mening flera olika träd är meningen flertydig enligt grammatiken 19

Kontextfri grammatik som modelleringsverktyg I princip alla slags objekt som uppvisar linjära och hierarkiska relationer (inte bara syntax), t.ex. Webbdokumentstruktur HTML HEAD BODY HEAD (METAP) TITLE (STYLE) (SCRIPT) BODY... Samtalsstruktur SEQ PAIR (SEQ) PAIR Q A (FB) PAIR... 20

Exempel: kontextfria regler S NP VP NP DT NN VP TV NP DT en NN hund NN bil TV jagar en hund jagar en bil 21

Trädrepresentation S icke-terminaler NP VP TV NP DT NN DT NN terminaler en hund jagar en bil 22

Regelsammanslagning Optionalitet - () NP (DET) (AP) NN Alternativ - eller {, } NP PN PRON NN Dessa utgör ett slags förkortningskonventioner: flera regler formuleras som en. Reglerna ovan slår ihop 7 regler till 2. OBS! upprepning (*, +) som i reguljära uttryck är inte tillåtet i kontextfria regler. 23

En frasstrukturgrammatik S NP VP VP IV VP TV NP (PP) NP PN PRO NP NN NP DT NN PP PREP NP NN hund hunden kastrull kastrullen DT en TV kastar IV sover PN pelle PRO hon PREP på 24

Övning: vilka meningar genereras av grammatiken? en hund kastar en kastrull på pelle hon kastar en hund på en kastrull en kastrull kastar en hund sover pelle på hon 25

Vanliga fraskategorier i frasstrukturgrammatik S VP NP AP/JP PP ADVP/RP... sentence / sats, mening verb phrase / verbfras noun phrase / nominalfras adjektivfras prepositionsfras adverbfras 26

Frasstruktur Fraser med huvudord och bestämningar VP V NP PP NP DT (AP) N AP (ADV) A PP P NP Generellt format: XP X Vi betecknar ofta fraser efter ordklassen för huvudordet. 27

Två typer av bestämningar Komplement uttrycker argument till en relation obligatoriska för många verb exempel: direkt objekt, indirekt objekt, prepositionsobjekt, objektsbisats, predikativ Modifierare vanligen optionella t.ex. adverbial, adjektivattribut, relativbisatser,... 28

Fraskategorier och huvudord (jmf. Josefsson, kap. 6) Nominalfras huvud: substantiv, egennamn, pronomen, NP NN NP PRO PN Verbfras huvud: verb (ofta underindelade i intransitiva, transitiva, bitransitiva,...) VP IV TV NP BV NP NP... Sats huvud: verbfras S NP VP 29

Fraskategorier och huvuden Prepositionsfras huvudord: preposition (olika meningar finns dock) PP P NP Adjektivfras huvudord: adjektiv AP A... 30

Fraser med likvärdiga konstituenter Samordningar NP NP och NP exempel: jag och mina katter Man kan dock argumentera för att även dessa fraser har huvud, t.ex. det första ledet i samordningen. 31

Strukturella ambiguiteter S NP VP NP N (PP) VP V NP (PP) PP P NP Jämför: Lisa äter nudlar med pinnar Lisa äter nudlar med ketchup 32

Vad hör ihop med vad? För NP, AP, PP Vad står intill huvudordet? Vad flyttas med om vi flyttar på huvudordet? Ex: Hunden jagade den gula bilen. Men, objekt och adverbial (dvs bestämningar till verb och prepositioner) kan flyttas friare. Ex: Bilen visste inte Erik att Eva hade tittat på. 33

Språk och komplexitet Det här är osten som råttan som katten som hunden jagade dödade åt. Kraften i en grammatik (formellt) enligt Chomsky-hierarkin Reguljära språk Kontextfria språk Kontextkänsliga språk Typ 0-språk (Turing-ekvivalenta) 34