Frasstrukturgrammatik

Relevanta dokument
Frasstrukturgrammatik

Kontextfri grammatik (CFG)

Grammatik för språkteknologer

Datorlingvistisk grammatik I

Parsningsalgoritmer. Parsningsalgoritmer: inledning. OH-serie 1: introduktion. Parsningalgoritmer I. Algoritmer. Vad är parsning? Vad är en algoritm?

Borel-Cantellis sats och stora talens lag

Genomsnittligt sökdjup i binära sökträd

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Egna funktioner. Vad är sin? sin är namnet på en av många inbyggda funktioner i Ada (och den återfinns i paketet Ada.Numerics.Elementary_Functions)


1. Test av anpassning.

Databaser - Design och programmering. Programutveckling. Programdesign, databasdesign. Kravspecifikation. ER-modellen. Begrepps-modellering

Systemdesign fortsättningskurs

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Kompletterande kurslitteratur om serier

Fakta om plast i havet

Universitetet: ER-diagram e-namn

S0005M V18, Föreläsning 10

x 1 x 2 x 3 x 4 x 5 x 6 HL Z x x x

TMS136: Dataanalys och statistik Tentamen med lösningar

DEL I. Matematiska Institutionen KTH

Digital signalbehandling Fönsterfunktioner

= (1 1) + (1 1) + (1 1) +... = = 0

1. Hur gammalt är ditt barn?

REGULJÄRA SPRÅK (8p + 6p) 1. DFA och reguljära uttryck (6 p) Problem. För följande NFA över alfabetet {0,1}:

Sannolikhetslära. c 2015 Eric Järpe Högskolan i Halmstad

2. Konfidensintervall för skillnaden mellan två proportioner.

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Tentamen 19 mars, 8:00 12:00, Q22, Q26

Design mönster. n n n n n n. Command Active object Template method Strategy Facade Mediator

Universitetet: ER-diagram e-namn

Introduktion till statistik för statsvetare

RESTARITMETIKER. Avsnitt 4. När man adderar eller multiplicerar två tal som t ex

101. och sista termen 1

Mätbar vetskap om nuläget och tydliga målbilder om framtiden. Genomför en INDICATOR självvärdering och nulägesanalys inom tre veckor

Databaser - Design och programmering. Databasdesign. Funktioner. Relationsmodellen. Relationsmodellen. Funktion = avbildning (mappning) Y=X 2

Visst kan man faktorisera x 4 + 1

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Remiss Remissvar lämnas i kolumnen Tillstyrkes term och Tillstyrkes def(inition) och eventuella synpunkter skrivs i kolumnen Synpunkter.

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Fakta om Zara Larsson

Lösningar och kommentarer till uppgifter i 1.1

Datorövning 2 Fördelningar inom säkerhetsanalys

Tentamen Metod C vid Uppsala universitet, , kl

Plan för hasselmus vid Paradis, Sparsör

1. BERÄKNING AV GRÄNSVÄRDEN ( då x 0 ) MED HJÄLP AV MACLAURINUTVECKLING. n x

Tommy Färnqvist, IDA, Linköpings universitet

Uppsala Universitet Matematiska Institutionen Bo Styf. Genomgånget på föreläsningarna Föreläsning 26, 9/2 2011: y + ay + by = h(x)

Parkerings- och handelsutredning Kristianstad centrum

AMF. I princip är det bara möjligt att flytta privat sparande och sparande där avtalet tecknats efter den 2 februari i fjol.

Förfrågan till Klockarens redaktörer

Kollektivt bindande styre på global nivå

Arbetsmiljöuppföljning IFO-FH enhet: Vuxenenheten 26 år -

Lycka till! I(X i t) 1 om A 0 annars I(A) =

LINJÄRA DIFFERENTIALEKVATIONER AV HÖGRE ORDNINGEN

Geometriska summor. Aritmetiska summor. Aritmetiska talföljder kallar vi talföljder som. Geometriska talföljder kallar vi talföljder som

Lärarhandledning Att bli kvitt virus och snuva - När Lisa blev av med förkylningen

729G09 Språkvetenskaplig databehandling

Fourierserien. fortsättning. Ortogonalitetsrelationerna och Parsevals formel. f HtL g HtL t, där T W ã 2 p, PARSEVALS FORMEL

Tentamen Metod C vid Uppsala universitet, , kl

a) Beräkna E (W ). (2 p)

Digital signalbehandling Alternativa sätt att se på faltning

Inledande matematisk analys (TATA79) Höstterminen 2016 Föreläsnings- och lekionsplan

MARKNADSPLAN Kungälvs kommun

Många tror att det räcker

vara ett polynom där a 0, då kallas n för polynomets grad och ibland betecknas n grad( P(

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Innehåll Grafräknaren och diskret matematik...1 Vad handlar diskret matematik om?...1 Permutationer och kombinationer...3 Något om heltalsräkning...

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Allmänna avtalsvillkor för konsument

F10 ESTIMATION (NCT )

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

Handbok i materialstyrning - Del F Prognostisering

D 45. Orderkvantiteter i kanbansystem. 1 Kanbansystem med två kort. Handbok i materialstyrning - Del D Bestämning av orderkvantiteter

TAMS15: SS1 Markovprocesser

b 1 och har för olika värden på den reella konstanten a.

Föreläsning 10: Kombinatorik

Föreläsning G04: Surveymetodik

1. Hur gammalt är ditt barn?

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

H1009, Introduktionskurs i matematik Armin Halilovic POLYNOM, POLYNOMDIVISION, ALGEBRAISKA EKVATIONER, PARTIALBRÅKSUPPDELNING. vara ett polynom där a

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Ny lagstiftning från 1 januari 2011

Uppgifter 3: Talföljder och induktionsbevis

(a) om vi kan välja helt fritt? (b) om vi vill ha minst en fisk av varje art? (c) om vi vill ha precis 3 olika arter?

Trigonometriska polynom

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Föreläsning F3 Patrik Eriksson 2000

SveTys. Affärskultur i Tyskland. Vad är det? Och vad ska jag tänka på?

Efter tentamen För kurser med fler än 60 examinerande meddelas resultatet SENAST 20 arbetsdagar efter examinationen annars 15 arbetsdagar.

Tentamen i matematisk statistik

Jag läser kursen på. Halvfart Helfart

Induktion och Binomialsatsen. Vi fortsätter att visa hur matematiska påståenden bevisas med induktion.

1. Hur gammalt är ditt barn?

Transkript:

USALA UNIVERSITET December 2015 Ist. för ligvistik och filologi Grammatik för språktekologer Mats Dahllöf http://stp.ligfil.uu.se/ matsd/uv/uv15/gfst Frasstrukturgrammatik Det här är täkt som ytterst elemtär itroduktio till frasstrukturgrammatik. (Iom språktekologi och matematisk ligvistik brukar ma tala om kotextfri grammatik, cotext-free grammar, CFG.) E viss allmä grammatikituitio krävs för att ma skall se poäg resoemag och kua tillämpa dem. Avsikt text är att d skall itroducera de formella mekaismera frå grud. 1. Kostitutaalys Utgågspukt är att migar är lijära sekvser av ett ädligt atal ordförekomster. Fråga, är ma gör sytaktisk aalys, är om fis ytterligare grammatisk struktur i ords förhållade till varadra. Frasstrukturgrammatik är ära besläktad traditioell grammatik, m är mer systematisk. De uppsättigar grammatiska kategorier som aväds ka också vara mer eller midre olika. Ett grudläggade sätt att aalysera migar och adra språkliga uttryck är att dela upp dem i delar. Om vi t.ex. har mig som E hud studt, så ka vi kaske täka att E hud är del, subjektet i traditioell satslösig och studt d adra del. Sådaa delar kallas kostituter. Fras studt ka i si tur delas upp i två delar predikat och objekt i satslösigstermer alltså i och studt. Slutlig ka flerordiga uttryck delas upp i ord. Då ka studt bara delas upp i och studt, (artikel och huvudord). E hud måste rimligtvis förstås på samma sätt. Om vi bara vill visa hur vi klippt upp mig så ka vi rita så här: E hud studt E hud studt E hud studt studt Fast vi ka ju frå de kla ord se vilka ordsekvser som avses, så ta diagram räcker: 1

E hud studt Vi ka också, gom att aväda hakparteser skriva så här. Det blir lite mer kompakt. [[E hud] [ [ studt]]]. Detta visar hur vi har klippt, och där vilka fraser vi urskiljt. Så här lågt ka vi visa att t.ex. ordsekvs studt är sammahägade het, och att sekvsera hud och ite häger samma på samma sätt, eller adra ord, utgör fraser, givet träddiagramm ova. 2. Frasstrukturträd I frasstrukturgrammatik beskriver ma migars grammatik gom att kostruera träd som ta. Det är västlig samma träd som ova, fast ytterligare etiketter. Vi har satt i kategorisymbol för varje ord och kutit kategoribeteckig till varje fras. mig omialfras verbfras artikel substativ verb omialfras hud artikel substativ studt I ta träd förbids fjorto s.k. oder (kutpukter) streck. Dessa oder är etiketterade symboler. Vi har tio olika symboler: mig, omialfras, verbfras, artikel, substativ, verb,, hud,, och studt. Fyra av dessa förekommer som etiketter på två oder, ämlig, omialfras, artikel, substativ, och, eftersom dessa tre kategorier och ta ord exemplifieras två gåger i exempelmig. Det fis precis etikett på varje od. Kategoribeteckigara här översstämmer i hög grad traditioell grammatik. I frasstrukturgrammatik aväder ma ofta delvis aorluda uppsättig begrepp. Rt kokret skriver ma ofta förkortigar utifrå gelska termer. Vad som västlig är samma träd som ova blir då så här: 2

S hud studt De ya kategoribeteckigara tolkas alltså så här: S: mig (stce, eller täk sats ) : omialfras ( phrase ) : verbfras : ermiator (artikel) : substativ ( ou ) : trasitivt verb (verb som tar ett objekt) 3. Frasstrukturgrammatik Vi ka u formalisera grammatik gom att formulera regler som precist och tydigt säger hur träd (relativt viss grammatik) får se ut. D här typ av formell grammatik kallas kotextfri grammatik, cotext-free grammar, CFG. Kotextfri grammatik ka avädas för parsig av aturligt språk, m aväds äu mer i relatio till artificiella desigade språk, som programmerigsspråk och html. Kategorisymbolera kallas icke-termialer, därför att trä ite får sluta (termiera) i dessa. Trä skall sluta i riktiga ord, som här, hud,, och studt. Dessa symboler kallas följdriktigt termialer, eftersom trä slutar i dessa. Notera att trä är uppochedvät, rot högst upp. Rotod är d som har etikett S. Ordodera, eller termialodera, kallas som vi ka förväta oss för löv(oder). Nodera kategoriserar de ordsekvser (termialsekvser) som ma ka hitta uder dem. De oder som ligger uder aa od och som är förbuda d kallas för da ods döttrar (dotteroder). (Och väder vi på hela så talar vi om ods moder/moderod.) E ods döttrar visar vad ett uttryck består av. I trä ova så består t.ex. S-uttrycket (hela ordsekvs) av ett -uttryck ( hud) och ett -uttryck ( studt). Vi ka också, t.ex, se att or hud är av kategori (ordklass) (substativ). Vi har u tre typer av oder: Rotod: Da är d översta od. D är ite dotter till ågo od. Icke-termiala oder: Dessa är etiketterade icke-termialer (grammatiska begrepp) och måste ha döttrar (som ka ta oss till termialera, alltså till de riktiga ord). 3

Termiala oder (löv): Dessa är etiketterade termialer. Eftersom vi där ått till de riktiga ord så ka vi ite ha ågra dotteroder till dessa. Det fis också lijär ordig mella odera, som visar d valiga ordig i språket, alltså d som ges av tidsföljd i tal och d valiga läsordig frå väster till höger är gäller skrift. För att vi skall ha ett träd så måste alla oder utom (alltså rotod) ha precis moderod. Vi får ite heller ha korsade grar: Om od ligger före aa, så måste d första ods döttrar också ligga före d adra ods döttrar. Som vi u kostruerat träd så är klart att träd är formella saker, som vi fullstädigt och precist ka represtera i dator. Vi ka också utföra olika automatiska maipulatioer av träd. Och vi ka också bygga träd givet regler för hur de får se ut. 3.1 Regler i frasstrukturgrammatik Som vi sett ova, så fis hel del allmäa krav på sytaxträd. M vi ka äv formulera mer specifika villkor. Och skall vi rikta i oss på att bygga träd för ett visst språk, så måste vi göra. På så sätt ka vi u skriva grammatiker som är villkor på hur träd får byggas och samtidigt fågar struktur hos språk vi vill beskriva (t.ex. svska). Vi ka täka oss grammatik som samlig av grammatiksatser, där varje grammatiksats tillåter del av ett träd. Nu ka vi t.ex. vilja säga vilka ord som tillhör viss kategori. Med regel som hud säger vi att hud tillhör kategori (ordklass substativ). Som trädvillkor iebär att od etikett får ha od etikett hud som da dotter. Ja, gällde ju precis da del av trä ova: hud Sådaa grammatiksatser kallas lexikoigågar. De säger att visst ord (termialsymbol) tillåts och vilk kategori (icke-termial) tillhör. De reglerar ärmare bestämt de fall i vilka icke-termial od har (da) termial dotter. I lexikoigåg har vi alltsa precis icke-termial till väster och termial till höger. För träs ova del behövs alltså följade fyra lexikoigågar (som vi t.ex. ka skriva i bokstavsordig). hud studt Vi behöver också säga i vilka fall od får ha ( eller fler) icke-termiala döttrar. Det gör vi hjälp av s.k. omskrivigsregler. Dessa grammatiksatser säger att od giv etikett får ha sekvs av döttrar giva etiketter. T.ex. säger grammatiksats S att S-od (alltså od etikett S) får ha -od och -od som döttrar agiv lijär ordig. Det är alltså da del av trä som där tillåts: 4

S Vi behöver följade tre regler för att kostruera trä i avsitt 2: S Ytterligare restriktio är viktig: Vilk symbol får stå på rotod? I trä ova står S som rotods etikett. Vi ka då säga att grammatiks startsymbol är S, eftersom vi avsett att bygga träd för migar. Grammatik bakom trä ka u sammafattas på ta sätt: Icke-termialer: S,,,,,. Termialer:, hud,, studt Startsymbol: S. Grammatiksatser (produktioer ka ma också säga): S hud studt Da grammatik tillåter fyra olika träd, ämlig dem för hud hud, hud studt, studt hud och studt studt. Atalet träd växer sabbt om vi till da grammatik lägger till ya ord: Om vi t.ex. lägger till tre ya och tre ya, så får vi 5 5 4 = 100 träd, för vi väljer på två ställ och på ett (och val är oberode). 4.1 Exempel: samordig Vi ka också skapa lit grammatik som tillåter oädligt måga träd. Det som kallas Samordig är t.ex. möjligt: 5

S hud coj och hud studt För att ta träd skall tillåtas behöver vi bara följade ya grammatiksatser: coj och coj Vi iför alltså kojuktio (coj) och och tillåter att två sätts ihop till kojuktio ( coj ). Detta kallas alltså samordig i valig grammatik. Vi har bara lagt till ett ord och regel, m gör att vi u ka bygga hur måga och hur stora träd som helst. E -od iförd av d ya regel ka i si tur byggas ut da regel, som ma ser i ta exempel: coj och coj hud och hud studt (Da ka t.ex. ersätta vilk som helst i iledigs träd.) Var och av de -oder som har expaderats regel kude lika gära ha expaderats coj. Det fis alltså i pricip iget största träd vi ka bygga på ta sätt. Det fis alltid ett äu större träd, och så verkar vara i aturligt språk också, eftersom vi vad grammatik abelagar alltid ka göra migar lägre och lägre och mer och mer ordrika, m som tur är tröttar vi gaska sabbt på såda språklig produktivitet, och våra läsare och åhörare tappar ataglig tålamo äu sabbare. 4.2 Exempel: ositiosfraser Prepositioer står före ( är som term ositio säger) fraser, i de allra flesta fall omialfraser. Ett sådat par brukar kallas för ositiosfras (). Om vi gör följade tillägg till vår exempelgrammatik, så ka vi t.ex. bygga fras hud. 6

Vi får där bl.a. följade träd: hud Nu har vi dock ig möjlighet att sätta i i ett S-träd. :er ka bestämma både substativ och verb. I studt hud kyts till ett substativ, a d hör ihop ett verb i slog Pelle lijal. Träd för dessa exempel borde bli ågot i stil : slog p Pelle d lijal d studt d hud Dessa träd kräver del ya regler och ord. Vi behöver iföra ågra ya sorters substativ d: defiite ou (bestämt substativ) p: proper ou (egam). Dessa ka samma bilda :er. d d p 7

d hud d studt d lijal p Pelle 5. Grammatisk flertydighet ( ambiguitet ) Med d grammatik som vi u ifört uppstår d itressata situatio att två olika träd ka kytas till vissa ordsekvser: S p Pelle slog d studt d lijal S p Pelle slog d studt d lijal Reglera tillåter oss alltså att kyta : som syster till både ärmaste substativ och till verbet. Om vi täker i termer av betydelse, ka vi täka oss att systerod bestämmer ett ord. Så lijal ka alltså säga vilk perso studt syftar på eller hur ågo slog (i vilket fall ositio atyder att hadlar om tillhygget, eller som språkvetare brukar säga, istrumtet). Dessa två frasstrukturträd verkar alltså visa grammatisk skillad som svarar mot gui sematiskt tvetydighet. De regler som vi ifört visar också tvetydighet hos som studt lijal och hud. (Bra övig: Rita upp de båda möjliga träd!) 8

6. Fördelar och poäger da typ av aalys Da typ av aalys, där vi har frasstrukturträd och bestämd typ av regler, tvigar i d grammatiska alys i kel och väldefiierad ram. D tekiska term för da typ av regeluppsättigar är kotextfri grammatik (cotext-free grammar, CFG). Kotextfri grammatik är alltför fyrkatig för att fugera bra i t.ex. iformella redogörelser för hur språks grammatik ser ut eller i språkudervisig. Istället är poäg att vi ka göra helt bestämda påståd av hur fraser och satser får se ut. Det fis då ig vaghet i huruvida ordsekvs tillåts som t.ex. sats eller ite. Det är också möjligt att skriva datorprogram som applicerar kotextfria grammatiker på giva ordsekvser och säger om dessa är tillåta eller ite. Och är vi gör ka vi också räka ut vilka frasstrukturträd som grammatik då tillskriver de tillåta satsera. Detta ka avädas i datoriserade system som utför grammatisk aalys av aturligt språk, i olika språktekologiska system. Kotextfria grammatiker aväds äv för att defiiera artificiella språk som aväds för programmerig, iformatiosöverförig och -prestatio, som t.ex. HTML. 9