Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Relevanta dokument
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

729G09 Språkvetenskaplig databehandling

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Frasstrukturgrammatik

Datorlingvistisk grammatik

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Grammatik för språkteknologer

Korpuslingvistik vt 2007

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Datorlingvistisk grammatik

Språkets struktur och funktion, 7,5 hp

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Grammatisk teori III Praktisk analys

Fraser, huvuden och bestämningar

Grammatik för språkteknologer

Tekniker för storskalig parsning

Sidan 1. En situation. En modell för satsproduktion. Fri ordföljd. Finska kasus. Bunden ordföljd

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Lexikon: ordbildning och lexikalisering

Konstituenter och frasstruktur. 729G49 16 April

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Grammatisk teori II Attributvärdesgrammatik

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Ord och morfologi. Morfologi

Tekniker för storskalig parsning

Lingvistik V Satsdelar, huvud- och bisatser. 729G49 23 april

Datorlingvistisk grammatik

Tekniker för storskalig parsning: Grundbegrepp

Matematik för språkteknologer

Sidan 1. Mångtydighet. Ordföljd och informationsstruktur. En situation. Fri ordföljd. Finska kasus. Bunden ordföljd

Datorlingvistisk grammatik

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Tekniker för storskalig parsning

Kontextfri grammatik (CFG)

Grammatik för språkteknologer

Tenta i Lingvistik 729G08 ht10 ( )

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References


FL 6: Definite Clause Grammars (kap. 7)

Lingvistiskt uppmärkt text

Parsningens olika nivåer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

GÖTEBORGS UNIVERSITET Institutionen för svenska språket. Introduktion till frasstrukturgrammatik

Parsningens olika nivåer

Partiell parsning Parsning som sökning

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Grammatik för språkteknologer

TDDC89 LINGVISTIK måndag 20 oktober 2008

Lingvistik IV Konstituenter och frasstruktur

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Cristina Eriksson oktober 2001

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Lingvistiska grundbegrepp

Facit för diagnostiska provet i grammatik

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Grundläggande syntaktiska funktioner och roller

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Förord KERSTIN BALLARDINI

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Språktypologi och språksläktskap

Semantik och pragmatik

Grundläggande textanalys. Joakim Nivre

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Ordförråd och Ordbildning

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Grammatisk teori III - Seminarium

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Teoretisk lingvistik och datalingvistik. Robin Cooper

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

Grammatik+ Frasstruktur, argumentstruktur och informationsstruktur

Kungliga Tekniska Högskolan Patrik Dallmann

Grammatik för språkteknologer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Lektion 4, måndagen den 16 september, Svenska för internationella studenter, kurs 1

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

Syntax 1: Fraser och satsled Syntax 2: Satser och meningar

Satsled och satstruktur

Språk. Språkets natur. Kreativt

Neurolingvistik - Grammatik

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Grammatiska strukturer förändras över tid, men finns det någon ordning i förändringsprocessen? Hur var det? Hur är det? Hur blir det?

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Reglerna för när man sätter punkt och när man kan eller måste sätta kommatecken

Schema för semantikdelen i kognitionsvetenskap, ht 2008

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Syntax och syntaxformalismer. Definitioner från SAG. Adress till Swetwol. Argument för konstituentstruktur. Konstituentstruktur

Transkript:

Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika sätt att representera syntaktisk information Jämförelser med frastrukturgrammatik och dependensgrammatik Varför är syntax fascinerande? Lingvistik som vetenskap: språket som objekt eller verktyg? Gärdenfors tankar om en språklig evolution - syntax växer fram för att snabba upp kommunikationen. Bygger på regler som bestäms på nations- eller folkgruppsnivå? Kan allt delas upp i små delar? Integration av syntax och semantik Sammansatta ord - syntax och semantik flyttar in i ordet: regler för språk vs. språkregler Flerordsuttryck - uppdelning av dessa ger inte deras syntax eller semantik: om jag vore i dina kläder, det gäller att ha is i magen, över huvud taget 4 Vad är syntax? Syntax = studiet av hur satser byggs upp av ord och kombinationer av ord (fraser) Grammatik = studiet av hur satser byggs upp (av fonem, morfem, ord och ordkombinationer) Syntax Semantik? (Färglösa gröna idéer sover rasande eller En man har en hund) Olika språksyn a generative grammar is capable of generating an infinite number of strings from a finite set of rules (ej exakt citat från Chomsky) an infinite system that generates only a finite body of texts (M.A.K. Halliday) 6

Taggmönster som en enkel syntaktisk struktur Min bror väntade på flygplatsen PS + NN + VB + PP + NN Min flygplatsen väntade på bror PS + NN + VB + PP + NN Taggmönster med särdrag PS + NN.IND + VB + PP + NN.DEF Godkänner: Min bror väntade på flygplatsen. Godkänner inte: * Min flygplatsen väntade på bror. Övning - Swetwolmeningar Vår grundinställning är att alla våra svenska spelbolag som hittar på nya produkter självfallet ska få tillstånd för dem under förutsättning att de uppfyller de krav på spelansvar som vi ställer, säger vice statsminister, tillika idrottsminister Bosse Ringholm. Grammatikalisk och acceptabel +gram & +accept: Hon åt en grön sak. +gram & -accept: Hon åt en grön sak. -gram & -accept: Hon åt grön saker. -gram & +accept:?he is a not unintelligent person (* a not grey sky) All grammars leak (Sapir, 1921). Svensk ordföljd rätt eller fel bland 24 teoretiskt möjliga satser (obrutna fraser) a. Rune köpte sin nya klocka i lördags. b. Rune köpte i lördags sin nya klocka c. I lördags köpte Rune sin nya klocka d. Sin nya klocka köpte Rune i lördags e. Sin nya klocka köpte i lördags Rune. f. Köpte Rune sin nya klocka i lördags? g. Köpte Rune i lördags sin nya klocka? h. Köpte i lördags Rune sin nya klocka? i. Rune sin nya klocka köpte i lördags. j. Rune i lördags köpte sin nya klocka. k. Rune sin nya klocka köpte i lördags. l. Rune i lördags sin nya klocka köpte. m. I lördags Rune köpte sin nya klocka. n. I lördags Rune sin nya klocka köpte. o. I lördags sin nya klocka Rune köpte. p. I lördags sin nya klocka köpte Rune. q. I lördags köpte sin nya klocka. r. Sin nya klocka Rune köpte i lördags. s. Sin nya klocka Rune i lördags köpte. t. Sin nya klocka i lördags Rune köpte. u. Sin nya klocka i lördags köpte Rune. v. Köpte sin nya klocka i lördags Rune? x. Köpte i lördags sin nya klocka Rune? y. Köpte sin nya klocka Rune i lördags? Colorless green ideas sleep furiously Grammaticality: någon slags grammatik bestämmer om en sats tillhör språket eller inte. Manning (2002): form, context and meaning. Acceptability är svårt bygger på individuella bedömningar Strangeness: språk som det används av språkakrobater Infelicity: fel när det gäller olika talakter 12

Ordföljden i svenskan och i andra språk S=subjekt, V=verb, O=objekt SVO (svenska, finska, engelska) SOV (persiska, mongoliska) VSO (iriska, zapotek) VOS (tagalog) OVS (hixkarayana) Grundläggande begrepp inom konstituent/frasstrukturgrammatik grammar omskrivningsregler konstituenter frasstruktur kontextfri grammatik Argument för frasstrukturgrammatik Språkteknologiska motiv? Gruppering (perceptuell grundegenskap?) Transformation en viktig egenskap i språket: den lille mannen på bänken --> mannen. Mindre lexikon större grammatik Generativ grammatik (Chomsky) Mål: Hitta de grammatiska regler som genererar ett språk - beskriva satsers struktur. Produktion och tolkning av språkliga satser involverar successiva tillämpningar av omskrivningsregler. En talare av ett språk måste känna språkets grammatik. Grammatiken definierar vilka strängar som tillhör språket eller inte. Universiell grammatik Det enskilda språkets variation är inte gränslös. En beskrivning av de gemensamma dragen i alla världens språk. En grammatik för enskilt språk skulle bestå av dess språkspecifika egenskaper. En grammatik definieras genom: 1. Ett lexikon 2. En uppsättning kategorier 3. En uppsättning regler Ord - terminala symboler Kategorier - icke-terminala symboler Kontextfria regler: C --> s Kontextkänsliga regler: C --> s/s1_s2

Kontextfria regler Icke-terminaler Terminaler S --> NP VP S = startsymbol (kan bestå av flera S) Fraser och fraser som består av fraser Enkla NP: NP --> DT NN (en bil) NP --> PM (Pelle) Sammansatta: NP --> NP KN NP (en bil och Pelle) Fler vanliga frastyper VP --> VB NP (spelar Pelle) PP --> Prep NP (i en bil) AP --> JJ JJ (stora stygga) S! S! VP! VP! PP En generativ grammatik: NP VP VP VB VB PP! P NP Kalle springer i regnet. Springer i regnet.?regnet springer i Kalle NP! PM NP! PM! NN! NN kalle regnet V! springer P! i Särdrag i grammatiker Man vill kunna kontrollera kongruens: det lilla huset vs. den lilla huset Verbens subkategorisering: Jag gav mannen boken. Hon sov sängen. Jag tog boken mannen. Ordföljd? Chomsky-hierarkin Typ 0: Obegränsade grammatikor Typ 1: Kontextkänsliga grammatikor Typ 2: Kontextfria grammatikor Typ 3: Finite-state grammatikor Grammatikens språk: Samma mänskligt språk svagt ekvivalenta Isomorfa syntaktiska strukturer starkt ekvivalenta.

Dependensgrammatik Djupa historiska rötter, antiken och indiska grammatiker. Formell grammatik för Sanskrit (ca. 300 f.kr.) Föll i glömska, väcktes delvis av statistiska metoder inom språkteknologin. Men även av Constraint Grammar. Argument för dependensgrammatik Språkteknologiska motiv? Enklare att hantera friare ordföljd Mer i lexikon mindre i grammatiken Mindre komplexa regler? relationer mellan ord. Inte relationer mellan ord och fraser, fraser i fraser, satser i fraser etc. Tydligare koppling till semantiken (hävdar en del) Dependensrelationer En dependensrelation är en asymmetrisk relation mellan ett ord som kallas huvud (head) och ett ord som kallas modifierare (modifier). Ett ord kan vara ett huvud i flera relationer. Huvudet kan ha flera modifierare. Varje ord kan endast vara modifierare en gång. Undantag: ett speciellt ord kan inte vara modifierare överhuvudtaget, detta får namnet rot (root). Mängden av dependensrelationer som defineras för en mening utgör ett depedensträd. Subjekt Objekt Indirekt objekt Syntaktiska funktioner Prepositionskomplement Predikativkomplement Olika adverbial Attribut (premodifierare) Postmodifierare (typ PP) Regler inom dependensgrammatik 1. Kan w1 vara vänster modifierare till huvudet w2 med dependensrelationen r? w1 <-- w2 2. Kan w2 vara höger modifierare till huvudet w1 med dependensrelationen r? w1 --> w2 Olika sätt att representera syntaktisk struktur Peter gillar sin glada pojke.

En vanlig mening från Stockholm Umeå Corpus Parseträd för frasstruktur Viktigaste redskapen vid ympning är annars papper och penna, menade han. Dependensträd Trädbanker en större samling syntaxträd (syntaktiskt annoterade meningar) träningsmaterial för maskininlärning utvärdering empiriskt sökbart material för lingvister man kan utvinna en grammatik för det språk som finns i korpusen Penn Treebank SynTag (100 000 ord) Swedish Treebank Swedish Treebank 35 36

Bracketing ((CL (NP (AP Viktigaste) redskapen) (PP vid (NP ympning)) (VC är) (ADVP annars) (NP (NP papper) och (NP penna))) (CL, (VC menade) (NP han)). ) Viktigaste (the most important) APB NPB CLB redskapen (tools) NPI CLI vid (in) PPB CLI ympning (grafting) NPB PPI CLI är (is) VCB CLI annars (normally) ADVPB CLI papper (paper) NPB NPB CLI och (and) NPI CLI penna (pen) NPB NPI CLI, 0 CLB menade (meant) VCB CLI han (he) NPB CLI. 0 CLI # Text Baseform Syntactic rel Syntax and morphology 1 Viktigaste viktig attr:>2 %>N <Sup> A NOM 2 redskapen redskap subj:>5 %NH N PL NOM 3 vid vid mod:>2 %N< PREP 4 ympning ympning pcomp:>3 %NH N SG NOM 5 är vara obj:>11 %MV V PRES 6 annars annars advl:>5 %AH ADV 7 papper papper sc:>5 %NH N NOM 8 och och cc:>7 %CC CC 9 penna penna cc:>7 %NH N SG NOM 10, 11 menade mena main:>0 %MV V PAST 12 han han subj:>11 %NH PRON SG NOM 13. Noder Syntaktiska Funktioner CFG vs. DG Kontextfri grammatik Fras och terminaler Nej, endast kategorier Dependensgrammatik Endast terminaler Ordföljd Ja, regler Nej, inga krav Lexikalisering Nej, regelbaserat Ja (valens) Ja