Grammatik för språktekologer Språktekologi och grammatiska begrepp http://stp.ligfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Istitutioe för ligvistik och filologi November 2011 Dea serie Frasstrukturaalys mer formellt. Beskriva språk m.h.a. kotextfri grammatik. Lijär precedes Kostitues Kategoriserig AB: allmäbildig, överkurs. 1 2 Frasstrukturträd Ett sätt att represetera sytaktiska aalyser. Alterativt t.ex. till depedesaalyser. Ka kopplas till CFG. Ofta grude för formell sytax. Formell grammatik: kostitues Kostitues: abstrakt del-helhetsbegrepp. Ekla kostitueter: (typiskt) ord. Sammasatta kostitueter: fraser. omedelbar vs medelbar kostitues (föräldrar domierar bar) kostituese placerar odera i ett rotat träd visas t.ex. som e graf: omedelbar kostitues blir streck eller geom bracketig : [i [låda [på [vide]]]] 3 4
Lijär precedes = grammatikes abstrakta lijära ordig, (ordföljd och frasföljd) Sytaxträd (med kategorietiketter) S motsvarar före efter i tal motsvarar väster höger i de flesta skriftsystem (höger väster i t.ex. arabiska) (Ka glömmas bort, eftersom ma fågar iformatioe gratis geom talets flöde i tide och skriftes riktig på pappret.) det e katt v såg VP det flera hudar 5 6 Grammatisk beskrivig av oder Nodera svarar mot ord, fraser, satser och meigar. Vi vill ataglige kyta e beskrivig av det språkliga uttrycket till varje od. Ekel sak: e kategorisymbol. Mer utvecklat: Strukturerade beskrivigar, t.ex. särdragsstrukturer. Sytaxträd, valiga begräsigar Sytaxträd brukar lyda följade begräsigar: Omedelbara kostituese (OK) ger just e trädstruktur (utifrå ett ädligt atal oder). Träd (typ av graf): E od har ige förälder; alla adra har precis e; ige cirkularitet. (Noder som sakar bar kallas löv.) Lijär precedes överesstämmer med OK: Varje fras är lijärt kotiuerlig. (Iga korsade grear.) M.a.o. lijär precedes ger ett ordat träd. Precis e kategori per od. 7 8
Depedesaalys, exempel Motsvarade frasstruktur, platt S dobj art subj art w 0 w 1 w 2 w 3 w 4 E studet läste e bok det vtr läste det Strukture (depedesträdet) måste byggas utifrå tillgägliga oder, alltså de ord som fis. e studet e bok Frasstrukturträd tillåter rikare struktur ä depedesaalyser. Depedesträdet motsvarar eklast ett sådat här frasstrukturträd. 9 10 Motsvarade frasstruktur, med VP-od det e studet S vtr läste VP det e bok Me med frasstruktur ka vi bygga e rikare struktur, t.ex. geom att iföra e VP-od av valig typ. Sytaxträd, regler, lexiko S VP det v e katt såg det flera hudar S VP det VP v det e katt v såg det flera hudar 11 12
E CFG formell defiitio Valigt sätt att defiiera e CFG formellt: E CFG är e kvadrupel N,T,P,Σ, där N är mägde icke-termialer (kategorisymboler), T är mägde termialer (ord), P är mägde av regler (iklusive lexikoigågar) och Σ är startsymbol (som igår i N). E CFG defiierar e mägd träd och e mägd strägar icke-termialer (alltså ett språk i Chomskys meig). CFG exempel Exempel på e CFG, N,T,P,Σ (utifrå tidigare träd): N = {S,, VP det,, v} T = {e, flera, hudar, katt, såg} P = { S VP, det, VP v, det e, katt, v såg, det flera, hudar } Σ =S 13 14 Kotextfri grammatik (CFG) träd För e CFG gäller att ett träd tillåts av omm: Rotode (de uta förälder) är märkt med grammatikes startsymbol. Varje föräldraod med bar (=lokalt träd) matchar e regel i grammatike. (Lövodera (lexikala, termiala) matchar lexikoigågar.) E sträg tillåts av grammatike om det fis ett motsvarade träd. CFG och aturligt språk E CFG kommer i bästa fall att kua fåga e delmägd (ett fragmet) av ett aturligt språk. Kategoriera måste fåga alla sytaktiskt viktiga distiktioer. (De bildar e platt taxoomi.) E bra grammatik för ett fragmet bör (liksom varje teoretisk redogörelse) vara så ekel så möjligt. 15 16
Fraser/kostitueter: distributio Distributio: Vilka grammatiska satskotexter ett uttryck ka förekomma i. Om två fraser har olika distributio så fis det grammatiska satser i vilka det ea uttrycket förekommer och där det ite ka bytas mot det adra uta att grammatikalitete fördärvas. de lilla hude och de stora katte har samma distributio. de lilla hude och det stora djuret har olika distributio: De lilla hude är säll. *Det stora djuret är säll. Sytaktiska kategorier i e stor CFG Fraser med samma distributio tillhör samma CFG-kategori. Fraser med olika distributio tillhör olika CFG-kategorier. Vi måste ha olika kategorier för de lilla hude och det stora djuret i e CFG. Utaför e CFG ka vi aväda vidare kategorier: Begreppet omialfras är avädbart i måga sammahag, me det täcker i olika typer av omialfraser som vi måste kua skilja på i e CFG. 17 18 CFG-beräkigar kolla träd Givet e godtycklig CFG och ett godtyckligt frasstrukturträd: Kolla att trädet tillåts av grammatike. Lätt, både för e mäiska och e dator. CFG-beräkigar parsigsproblemet Givet e godtycklig CFG och e godtycklig symbolsekves: Avgöra vilka sytaxträd (eller om det ite fis ågot) som ka byggas för sekvese. Parsigsproblemet för CFG. Ka lösas av e dator. Det fis olika algoritmer. Ka vara svårt för e mäiska. (E CFG ka vara stor och lurig.) 19 20
CFG-beräkigar kostruera e CFG Givet e mägd giva grammatiska strägar, kostruera e bra CFG för dem. Teorikostruktio. Ekelhet är i sådaa sammahag e öskvärd egeskap hos e teori. Svårt, både för e dator och e mäiska. Språk och grammatik i formell bemärkelse Ett språk är e mägd strägar E grammatik defiierar ett språk. E grammatik defiierar e mägd sytaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi ka läsa av e ordsträge ur varje träd). Detta är perspektivet i matematisk ligvistik (med Chomsky som främste företrädare). 21 22 Olika typer av formell grammatik (AB) Det fis olika typer av grammatiker som ka defiiera olika klasser av oädliga språk, t.ex. Reguljära uttryck Kotextfria grammatiker (CFG) Det fis adra grammatiktyper som aalyseras iom matematiska ligvistike. Chomskyhierarki är de mest käda uppställige. Chomskyhierarki (AB) Avser klasser av automater, grammatiker och språk. typ automat grammatik språk 0 Turigmaski obegräsad rekursivt eumerabla 1 lijärt begräsad a. kotextkäslig kotextkäsliga 2 stackmaski kotextfri kotextfria 3 ädlig a. lijär reguljära (reguljära uttryck) 0 3: Fallade beräkigsmässig styrka, ökade uttrycksmässiga begräsigar, midre klasser av språk. 23 24
Obegräsad grammatik, typ 0 (AB) E obegräsad grammatik (omskrivigssystem) är e kvadrupel N,T,P,Σ, där N är e mägd icke-termialer (kategorisymboler), T är e mägd termialer (ord), P är e mägd produktioer och Σ är e startsymbol. E produktio är av forme α β, där α är e icke-tom sträg över N T (termialer och icke-termialer) och β är e sträg över N T. Grammatiker härledig språk (AB) Givet ett omskrivigssystem N,T,P,Σ ka ma härleda: Sträge Σ (sträg av esam startsymbol). Givet att α β P och att e sträg xαy (över N T) ka härledas (där x och y är godtyckliga strägar över N T ), så ka xβy härledas. Ett omskrivigssystem defiierar det språk (i Chomskys meig) som består av alla de strägar av icke-termialer som ka härledas. Varje språk i Chomskyhierarki ka defiieras på detta sätt. (Typ 0.) 25 26 Begräsade grammatiktyper, typ 1 (AB) Givet defiitioe av omskrivigssystem ka vi ställa hårdare krav på produktioera. Typ 1, kotextkäslig grammatik: Alla produktioer är av forme X 1 CX 2 X 1 βx 2, där C N (d.v.s. är e icke-termial), X 1,X 2 N T {ε} (d.v.s. är e termial, icke-termial eller tomma sträge). Alltså, C får bara skrivas om till β är det förekommer i e viss kotext, alltså X 1 och X 2. (Mella ε och ε betyder överallt.) Typ 1, alterativ defiitio (AB) Typ 1, kotextkäslig grammatik. Alterativt begrepp: Alla produktioer är av forme α β, där β lägre ä eller lika låg som α. Detta ger e aa sorts grammatik, me de har precis samma styrka som kotextkäslig grammatik eligt tidigare defiitio. Dea ka kallas icke-kotraktiv grammatik (me kallas äve de kotextkäslig grammatik). 27 28
Begräsade grammatiktyper, typ 2 Givet defiitioe av omskrivigssystem ka vi ställa ä hårdare krav på produktioera. Typ 2, kotextfri grammatik Ebart produktioer av type C β, där där C N (d.v.s. är e icke-termial). Bara e symbol får skrivas om/expaderas i taget. Detta garaterar trädstruktur. Kotextfri i jämförelse med kotextkäslig grammatik. Begräsade grammatiktyper, typ 3 (AB) Givet ett defiitioe av omskrivigssystem ka vi ställa hårdare krav på produktioera. Typ 3, högerlijär grammatik. Ebart produktioer av type C 1 tc 2 och C 1 t, där C 1,C 2 N (d.v.s är icke-termialer) och t T (d.v.s. är e termial). Alterativt begrepp: Spegelväda begreppet västerlijär grammatik ger samma beräkigsmässiga styrka. 29 30 Problem med atomära beskrivigar Om vi i e kotextfri grammatik har e kategori för substativ i sigularis obestämd form eutrum, so, och e för substativ i sigularis obestämd form utrum, sou, så blir so och sou lika olika som so och VP. Viktig observatio: Grammatisk iformatio är flerdimesioell: Vi behöver molekylära /dekompoerade/faktoriserade beskrivigar. Aars ka vi ite uttrycka måga geeraliserigar som vi borde kua fåga. Problem med atomära beskrivigar Om vi i e kotextfri grammatik har e kategori för substativ i sigularis obestämd form eutrum, so, och e för substativ i sigularis obestämd form utrum, sou, så blir so och sou lika olika som so och VP. Vi måste ha massor av regler för att få till alla sekveser av t.ex. determierare adjektivfras substativ (i ), e för varje kogruesfall. (Övig: skriv er alla regler som behövs och age hur lexikoigågar måste se ut.) CFG tillåter igetig eklare, p.g.a. att taxoomi är platt. 31 32
Problem med atomära beskrivigar Grammatisk iformatio är flerdimesioell: Vi behöver molekylära /dekompoerade/faktoriserade beskrivigar i grammatike. Det fis måga geeraliserigar som vi borde kua fåga med som CFG ite tillåter oss att uttrycka. Exempel, två ord hud huset ordklass subst. subst. (samma) umerus sig. sig. (samma) geus utrum eutrum (olika) species obest. best. (olika) Orde har e ågra gemesamma särdrag och ågra som skiljer dem åt. 33 34