Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Relevanta dokument
729G09 Språkvetenskaplig databehandling

Frasstrukturgrammatik

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Tekniker för storskalig parsning

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Språkets struktur och funktion, 7,5 hp

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Datorlingvistisk grammatik

Grammatik för språkteknologer

Tekniker för storskalig parsning


Partiell parsning Parsning som sökning

Sidan 1. Repetition: satsledsanalys (delvis från övningsboken) Satser och struktur Föreläsning 8, Lingvistik grundkurs. Vad är objekt och predikativ?

Grammatisk teori II Attributvärdesgrammatik

Fraser, huvuden och bestämningar

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Tekniker för storskalig parsning: Grundbegrepp

729G09 Språkvetenskaplig databehandling

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Lingvistik IV Konstituenter och frasstruktur

Syntax Fras, sats, mening

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

TDDC89 LINGVISTIK måndag 20 oktober 2008

Ord och morfologi. Morfologi

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Kursbeskrivning med litteraturlista HT-13

Konstituenter och frasstruktur. 729G49 16 April

Datorlingvistisk grammatik

Morfologi och syntax. Föreläsning 1 & 2

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Korpuslingvistik vt 2007

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Betygskriterier. NS2019, Svenska II, 30 hp. Förväntade studieresultat För godkänt resultat på delkursen ska studenten kunna visa:

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Introduktion till språkteknologi

Lingvistiska grundbegrepp

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Introduktion till språkteknologi språk och kognition

Psykolingvistik. Kognitionspsykologi, Klas Karlgren Kapitel 11 och 12 i Anderson

Förord KERSTIN BALLARDINI

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Grundläggande textanalys. Joakim Nivre

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Syntax 1: Fraser och satsled Syntax 2: Satser och meningar

Satsled och satstruktur

Faktorer av betydelse för en flerspråkig utveckling. Sociala faktorer. Språkliga faktorer. Pedagogiska faktorer

Sidan 1. Mångtydighet. Ordföljd och informationsstruktur. En situation. Fri ordföljd. Finska kasus. Bunden ordföljd

Sidan 1. En situation. En modell för satsproduktion. Fri ordföljd. Finska kasus. Bunden ordföljd

Matematik för språkteknologer

Parsningens olika nivåer

Grammatik för språkteknologer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Föreläsningsserie: Introduktion till språk- och litteraturvetenskap

De som (som) vi använder

Världens språk, 7,5hp vt 2012

Grammatik för språkteknologer

Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

Datorlingvistisk grammatik

Maskinöversättning möjligheter och gränser

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Betygskriterier. US610F - Språkdidaktik I, 30 hp

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Struktur och funktion i satser en introduktion till satsträd Niklas Edenmyr (Inst. f. lingvistik & filologi)

Språkpsykologi/psykolingvistik

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Institutionen för lingvistik och filologi HT 2007

Grundläggande datalogi - Övning 9

Delkurs 1. Nordiska språk och svensk språkhistoria, 7,5 hp

Neurolingvistik - Grammatik

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Lingvistik V Satsdelar, huvud- och bisatser. 729G49 23 april

Kursplan för kurs på grundnivå

Kontextfria grammatiker

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Språkteknologi. Språkteknologi

Grammatik i Samtal I. Mathias Broth Lingvistik (729G08) ht -12

Parsningens olika nivåer

Modersmål och litteratur i åk Sammandrag av utvärderingsresultaten

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Teoretisk lingvistik och datalingvistik. Robin Cooper

Att analysera andraspråkstexter

Satslära introduktion

Att lära sig/ut språk. Teori under 50 år och praktik under 50 minuter Sofia Tingsell, Göteborgs universitet

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Omtenta Svenska - ett andraspråk S S2GA01/04. ht 2014/vt 2015 fredag den 13 mars Inga hjälpmedel! VG G U 0-84

Facit för diagnostiska provet i grammatik

Datorlingvistisk grammatik

Kursinformation och schema Lingvistik 729G08 (6 hp)

Kompositionell semantik och λ-kalkyl

Lingvistiskt uppmärkt text

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Transkript:

Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1

Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser Satsstruktur hur ser enkla satser ut? hur kan vi beskriva deras struktur? Frasstrukturgrammatik Litteratur: Elementa i generativ grammatik: kap 1-4. 2

Några särdrag i människans språk Stor vokabulär (lexikon) Oändligt antal möjliga yttranden (satser) ( kreativitet, produktivitet ) Starka formella begränsningar på satser (strukturberoende) Avvikande grammatik och uttal märks ( språkkänsla ) Inlärs i tidig ålder (fullt utvecklad grammatik vid 3-4 års ålder) 3

Generativ grammatik Modellera naturliga språks grammatik (specifikt syntax) så att Oändligt många satser kan beskrivas, Välformade satser skiljs från ovälformade, Strukturen i en välformad sats representeras adekvat, Modellen använder universellt giltiga syntaktiska begrepp ( universell grammatik ) 4

Språkteknologi Modellera naturliga språks syntax för praktiska syften så som att extrahera faktainformation ur dem, läsa upp text med syntetiskt tal, översätta till ett annat språk, identifiera grammatiska fel och föreslå rättelser, Varje tillämpning ställer olika krav varför olika modeller används. 5

Psykolingvistik Förklara hur språkliga processer går till, bland dessa speciellt barnets språkinlärning språkperception och språkförståelse språkproduktion andraspråksinlärning Olika perspektiv / hypoteser artspecifik förmåga eller ej? specifik förmåga eller generell? modulär eller integrerad arkitektur? 6

Om synen på data Generativ grammatik begreppet 'välformad sats' svarar inte på något direkt sätt mot 'faktiskt förekommande yttranden' empiriska data är framför allt satser och talares omdömen om dem Språkteknologi data utgörs av faktiskt förekommande yttranden processmodellerna utvärderas utifrån systemkriterier Psykolingvistik data utgörs av faktiskt förekommande yttranden och deras kontexter (inkl. neurologiska data) processmodellerna utvärderas utifrån deras förklaringsvärde 7

Om synen på syntax Generativ grammatik syntax är centralt och i fokus för modeller av den universella grammatiken Språkteknologi parsning är ett centralt generellt problem, men användning beror av tillämpningen Alternativ: chunkning, samförekomststatistik Psykolingvistik syntax är något som behöver förklaras modul (i vissa modeller) 8

Garden paths The horse raced past the barn fell. The complex houses married and single students and their families. Jag sa till alla som försökte att klättra. Meningar som dessa ger stöd för hypotesen att meningar tolkas inkrementellt och 'girigt'. 9

Övning: Vilka permutationer ger svenska satser? {apan, försvann} apan försvann försvann apan {apan, däråt, försvann}... apan försvann däråt försvann apan däråt däråt försvann apan {apan, bordet, försvann, under} {apan, att, försvann, jag, tror} {apan, bordet, försvann, jag, tror, under} 10

Hur många möjliga kombinationer? Antal ord Permutationer Grammatiska 2 2 2 = 100% 3 6 3 = 50% 4 24? 5 120? 6 720? 7 5040? 8 40320? 9 362,880? 10 3,628,880? 11

Kan vi hitta mönster för strukturen?... apan försvann däråt NN VB ADV däråt försvann apan ADV VB NN försvann apan däråt VB NN ADV apan försvann under bordet NN VB Prep NN 12

Strukturella principer Linjär struktur (dvs. ordföljd) alla ordningar är inte grammatiska apan försvann däråt, *apan däråt försvann Hierarkisk struktur (gruppering) ord bildar fraser, som ev. bildar större fraser och vi kan inte bryta upp fraser hur som helst: [ den lilla apan ] försvann försvann [ den lilla apan ] *den försvann lilla apan 13

Strukturberoende Det faktum att hypoteser om välformighet inte enbart kan baseras på ord, ordklasser och deras ordning har kallats språkets strukturberoende Förutom ord och ordklasser behövs därför också i en syntaxmodell fraser och fraskategorier 14

Strukturella principer Relationell struktur ( beroenden ), t.ex. Kongruensböjning den lilla apan, men inte *det lilla apan, eller *den liten apan Valenser eller transitivitet Klara gillar Bach, men inte *Klara sover Bach eller *Klara gillar; Långdistansberoenden Bach tror jag inte Klara har gillat förut. *Bach tror jag inte Klara har gillat Bach förut 15

Frasstrukturträd Linjär och hierarkisk struktur kan illustreras grafiskt och resulterar då i en typ av graf kallad ett (etiketterat) träd. S NP VB ADV DT ADJ NN försvann däråt den lilla apan 16

Omskrivningsregler S NP VB En sats kan bestå av en nominalfras och ett verb NP NN En NP kan bestå av ett nomen S NP VB ADV En sats kan bestå av en nominal-fras, ett verb och ett adverb Ord kan också införas med omskrivningsregler: NN apan VB försvann ADV däråt 'apan' är ett substantiv 'försvann' är ett verb 'däråt' är ett adverb 17

Omskrivningsregler och träd Omskrivningsregler svarar mot lokala delträd. Omvänt kan vi läsa ett träd som ett antal påståenden om lokal frasstruktur: Denna sats består av en NP, ett VB och ett ADV Denna NP består av en DT, ett ADJ och ett NN. 18

Bisatser med omskrivningsregler Objektbisats: Jag tror att apan försvann däråt S NP VB BS BS att S S NP VB ADV NP PRON NP NN NN apan PRON jag VB tror VB försvann ADV däråt 19

Ett frastrukturträd för en sats med bisats S rekursivitet! NP VB BS PRON tror att S jag NP VB ADV NN försvann däråt apan 20

Frasstrukturgrammatik I frasstrukturgrammatik analyseras satser och meningar i termer av beståndsdelar eller konstituenter och deras ordning. Reglerna i en frasstrukturgrammatik är kontextfria omskrivningsregler (dvs varje regel säger hur en symbol kan omskrivas oberoende av vad som kan stå runt omkring) Symbolerna i en frasstrukturgrammatik representerar sådant som ordklasser, fraskategorier, olika typer av satser 21

Fras eller ej En generativ grammatik ska representera strukturen i en välformad sats adekvat Är t.ex. försvann däråt och däråt fraser? Jämför S NP VP VP VB ADVP ADVP ADV med S NP VB ADV 22

Trädstrukturer En kontextfri grammatik bestämmer minst en struktur för varje mening som den genererar. Strukturer kan visualiseras som träd med etiketterade noder Om grammatiken ger en mening flera olika träd är meningen flertydig enligt grammatiken 23

En grammatik med flertydigheter S S och S S p S q S r p och q och r p och r och q och r 24