Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1
Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser Satsstruktur hur ser enkla satser ut? hur kan vi beskriva deras struktur? Frasstrukturgrammatik Litteratur: Elementa i generativ grammatik: kap 1-4. 2
Några särdrag i människans språk Stor vokabulär (lexikon) Oändligt antal möjliga yttranden (satser) ( kreativitet, produktivitet ) Starka formella begränsningar på satser (strukturberoende) Avvikande grammatik och uttal märks ( språkkänsla ) Inlärs i tidig ålder (fullt utvecklad grammatik vid 3-4 års ålder) 3
Generativ grammatik Modellera naturliga språks grammatik (specifikt syntax) så att Oändligt många satser kan beskrivas, Välformade satser skiljs från ovälformade, Strukturen i en välformad sats representeras adekvat, Modellen använder universellt giltiga syntaktiska begrepp ( universell grammatik ) 4
Språkteknologi Modellera naturliga språks syntax för praktiska syften så som att extrahera faktainformation ur dem, läsa upp text med syntetiskt tal, översätta till ett annat språk, identifiera grammatiska fel och föreslå rättelser, Varje tillämpning ställer olika krav varför olika modeller används. 5
Psykolingvistik Förklara hur språkliga processer går till, bland dessa speciellt barnets språkinlärning språkperception och språkförståelse språkproduktion andraspråksinlärning Olika perspektiv / hypoteser artspecifik förmåga eller ej? specifik förmåga eller generell? modulär eller integrerad arkitektur? 6
Om synen på data Generativ grammatik begreppet 'välformad sats' svarar inte på något direkt sätt mot 'faktiskt förekommande yttranden' empiriska data är framför allt satser och talares omdömen om dem Språkteknologi data utgörs av faktiskt förekommande yttranden processmodellerna utvärderas utifrån systemkriterier Psykolingvistik data utgörs av faktiskt förekommande yttranden och deras kontexter (inkl. neurologiska data) processmodellerna utvärderas utifrån deras förklaringsvärde 7
Om synen på syntax Generativ grammatik syntax är centralt och i fokus för modeller av den universella grammatiken Språkteknologi parsning är ett centralt generellt problem, men användning beror av tillämpningen Alternativ: chunkning, samförekomststatistik Psykolingvistik syntax är något som behöver förklaras modul (i vissa modeller) 8
Garden paths The horse raced past the barn fell. The complex houses married and single students and their families. Jag sa till alla som försökte att klättra. Meningar som dessa ger stöd för hypotesen att meningar tolkas inkrementellt och 'girigt'. 9
Övning: Vilka permutationer ger svenska satser? {apan, försvann} apan försvann försvann apan {apan, däråt, försvann}... apan försvann däråt försvann apan däråt däråt försvann apan {apan, bordet, försvann, under} {apan, att, försvann, jag, tror} {apan, bordet, försvann, jag, tror, under} 10
Hur många möjliga kombinationer? Antal ord Permutationer Grammatiska 2 2 2 = 100% 3 6 3 = 50% 4 24? 5 120? 6 720? 7 5040? 8 40320? 9 362,880? 10 3,628,880? 11
Kan vi hitta mönster för strukturen?... apan försvann däråt NN VB ADV däråt försvann apan ADV VB NN försvann apan däråt VB NN ADV apan försvann under bordet NN VB Prep NN 12
Strukturella principer Linjär struktur (dvs. ordföljd) alla ordningar är inte grammatiska apan försvann däråt, *apan däråt försvann Hierarkisk struktur (gruppering) ord bildar fraser, som ev. bildar större fraser och vi kan inte bryta upp fraser hur som helst: [ den lilla apan ] försvann försvann [ den lilla apan ] *den försvann lilla apan 13
Strukturberoende Det faktum att hypoteser om välformighet inte enbart kan baseras på ord, ordklasser och deras ordning har kallats språkets strukturberoende Förutom ord och ordklasser behövs därför också i en syntaxmodell fraser och fraskategorier 14
Strukturella principer Relationell struktur ( beroenden ), t.ex. Kongruensböjning den lilla apan, men inte *det lilla apan, eller *den liten apan Valenser eller transitivitet Klara gillar Bach, men inte *Klara sover Bach eller *Klara gillar; Långdistansberoenden Bach tror jag inte Klara har gillat förut. *Bach tror jag inte Klara har gillat Bach förut 15
Frasstrukturträd Linjär och hierarkisk struktur kan illustreras grafiskt och resulterar då i en typ av graf kallad ett (etiketterat) träd. S NP VB ADV DT ADJ NN försvann däråt den lilla apan 16
Omskrivningsregler S NP VB En sats kan bestå av en nominalfras och ett verb NP NN En NP kan bestå av ett nomen S NP VB ADV En sats kan bestå av en nominal-fras, ett verb och ett adverb Ord kan också införas med omskrivningsregler: NN apan VB försvann ADV däråt 'apan' är ett substantiv 'försvann' är ett verb 'däråt' är ett adverb 17
Omskrivningsregler och träd Omskrivningsregler svarar mot lokala delträd. Omvänt kan vi läsa ett träd som ett antal påståenden om lokal frasstruktur: Denna sats består av en NP, ett VB och ett ADV Denna NP består av en DT, ett ADJ och ett NN. 18
Bisatser med omskrivningsregler Objektbisats: Jag tror att apan försvann däråt S NP VB BS BS att S S NP VB ADV NP PRON NP NN NN apan PRON jag VB tror VB försvann ADV däråt 19
Ett frastrukturträd för en sats med bisats S rekursivitet! NP VB BS PRON tror att S jag NP VB ADV NN försvann däråt apan 20
Frasstrukturgrammatik I frasstrukturgrammatik analyseras satser och meningar i termer av beståndsdelar eller konstituenter och deras ordning. Reglerna i en frasstrukturgrammatik är kontextfria omskrivningsregler (dvs varje regel säger hur en symbol kan omskrivas oberoende av vad som kan stå runt omkring) Symbolerna i en frasstrukturgrammatik representerar sådant som ordklasser, fraskategorier, olika typer av satser 21
Fras eller ej En generativ grammatik ska representera strukturen i en välformad sats adekvat Är t.ex. försvann däråt och däråt fraser? Jämför S NP VP VP VB ADVP ADVP ADV med S NP VB ADV 22
Trädstrukturer En kontextfri grammatik bestämmer minst en struktur för varje mening som den genererar. Strukturer kan visualiseras som träd med etiketterade noder Om grammatiken ger en mening flera olika träd är meningen flertydig enligt grammatiken 23
En grammatik med flertydigheter S S och S S p S q S r p och q och r p och r och q och r 24