Grammatik för språkteknologer

Relevanta dokument
Datorlingvistisk grammatik

Datorlingvistisk grammatik I

Kontextfri grammatik (CFG)

Frasstrukturgrammatik

Frasstrukturgrammatik

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Parsningsalgoritmer. Parsningsalgoritmer: inledning. OH-serie 1: introduktion. Parsningalgoritmer I. Algoritmer. Vad är parsning? Vad är en algoritm?

Föreläsning G04: Surveymetodik

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

REGULJÄRA SPRÅK (8p + 6p) 1. DFA och reguljära uttryck (6 p) Problem. För följande NFA över alfabetet {0,1}:

Föreläsning 10: Kombinatorik

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Databaser - Design och programmering. Programutveckling. Programdesign, databasdesign. Kravspecifikation. ER-modellen. Begrepps-modellering

2. Konfidensintervall för skillnaden mellan två proportioner.

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Genomsnittligt sökdjup i binära sökträd

Borel-Cantellis sats och stora talens lag

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

RESTARITMETIKER. Avsnitt 4. När man adderar eller multiplicerar två tal som t ex

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

101. och sista termen 1

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Databaser - Design och programmering. Databasdesign. Funktioner. Relationsmodellen. Relationsmodellen. Funktion = avbildning (mappning) Y=X 2

Induktion och Binomialsatsen. Vi fortsätter att visa hur matematiska påståenden bevisas med induktion.

Lycka till! I(X i t) 1 om A 0 annars I(A) =

x 1 x 2 x 3 x 4 x 5 x 6 HL Z x x x

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

H1009, Introduktionskurs i matematik Armin Halilovic POLYNOM, POLYNOMDIVISION, ALGEBRAISKA EKVATIONER, PARTIALBRÅKSUPPDELNING. vara ett polynom där a

b 1 och har för olika värden på den reella konstanten a.

Föreläsning 2: Punktskattningar

Kompletterande kurslitteratur om serier

vara ett polynom där a 0, då kallas n för polynomets grad och ibland betecknas n grad( P(

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

Egna funktioner. Vad är sin? sin är namnet på en av många inbyggda funktioner i Ada (och den återfinns i paketet Ada.Numerics.Elementary_Functions)

DEL I. Matematiska Institutionen KTH

= (1 1) + (1 1) + (1 1) +... = = 0

Datorövning 2 Fördelningar inom säkerhetsanalys

Räkning med potensserier

Universitetet: ER-diagram e-namn

Sannolikhetslära. c 2015 Eric Järpe Högskolan i Halmstad

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

a) Beräkna E (W ). (2 p)

7 Sjunde lektionen. 7.1 Digitala filter

. Mängden av alla möjliga tillstånd E k kallas tillståndsrummet.

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Digital signalbehandling Fönsterfunktioner

Inledande matematisk analys (TATA79) Höstterminen 2016 Föreläsnings- och lekionsplan

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Uppgifter 3: Talföljder och induktionsbevis

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

Föreläsning G70 Statistik A

Armin Halilovic: EXTRA ÖVNINGAR

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Fakta om plast i havet

Digital signalbehandling Alternativa sätt att se på faltning

4. Uppgifter från gamla tentor (inte ett officiellt urval) 6

Tentamen 19 mars, 8:00 12:00, Q22, Q26

Cartesisk produkt. Multiplikationsprincipen Ï Ï Ï

Operativsystem - Baklås

Jag läser kursen på. Halvfart Helfart

Uppsala Universitet Matematiska Institutionen Bo Styf. Sammanfattning av föreläsningarna 1-6, 29/10-8/11, = m n

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Introduktion till statistik för statsvetare

MS-A0409 Grundkurs i diskret matematik I

(a) om vi kan välja helt fritt? (b) om vi vill ha minst en fisk av varje art? (c) om vi vill ha precis 3 olika arter?

Universitetet: ER-diagram e-namn

Ekvationen (ekv1) kan beskriva en s.k. stationär tillstånd (steady-state) för en fysikalisk process.

Problem 2 löses endast om Du hade färre än 15 poäng på duggan som gavs arctanx sin x. x(1 cosx) lim. cost.

SveTys. Affärskultur i Tyskland. Vad är det? Och vad ska jag tänka på?

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Remiss Remissvar lämnas i kolumnen Tillstyrkes term och Tillstyrkes def(inition) och eventuella synpunkter skrivs i kolumnen Synpunkter.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

LINJÄRA DIFFERENTIALEKVATIONER AV HÖGRE ORDNINGEN

NEWTON-RAPHSONS METOD (en metod för numerisk lösning av ekvationer)

Lösningar och kommentarer till uppgifter i 1.1

TFM. Avdelningen för matematik Sundsvall Diskret analys. En studie av polynom och talföljder med tillämpningar i interpolation

F10 ESTIMATION (NCT )

Lösningar till tentamensskrivning i kompletteringskurs Linjär Algebra, SF1605, den 10 januari 2011,kl m(m + 1) =

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Ca m 3 = ton. Masshantering Sven Brodin. Dessa mängder ska Stockholms Stad transportera varje månad.

Tentamen i Linjär Algebra, SF december, Del I. Kursexaminator: Sandra Di Rocco. Matematiska Institutionen KTH

Kontrollskrivning 2 till Diskret Matematik SF1610, för CINTE1, vt 2019 Examinator: Armin Halilovic Datum: To Σ p P/F Extra Bonus

Förfrågan till Klockarens redaktörer

Ny lagstiftning från 1 januari 2011

Del A. x 0 (1 + x + x 2 /2 + x 3 /6) x x 2 (1 x 2 /2 + O(x 4 )) = x3 /6 + O(x 5 ) (x 3 /6) + O(x 4 )) = 1 + } = 1

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Tentamenskrivning, , kl SF1625, Envariabelanalys för CINTE1(IT) och CMIEL1(ME ) (7,5hp)

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Systemdesign fortsättningskurs

Plattformshissar från Cibes Lift för alla byggnader

Tenta i MVE025/MVE295, Komplex (matematisk) analys, F2 och TM2/Kf2

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

TAMS15: SS1 Markovprocesser

Datastrukturer och algoritmer

Transkript:

Grammatik för språktekologer Språktekologi och grammatiska begrepp http://stp.ligfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Istitutioe för ligvistik och filologi November 2011 Dea serie Frasstrukturaalys mer formellt. Beskriva språk m.h.a. kotextfri grammatik. Lijär precedes Kostitues Kategoriserig AB: allmäbildig, överkurs. 1 2 Frasstrukturträd Ett sätt att represetera sytaktiska aalyser. Alterativt t.ex. till depedesaalyser. Ka kopplas till CFG. Ofta grude för formell sytax. Formell grammatik: kostitues Kostitues: abstrakt del-helhetsbegrepp. Ekla kostitueter: (typiskt) ord. Sammasatta kostitueter: fraser. omedelbar vs medelbar kostitues (föräldrar domierar bar) kostituese placerar odera i ett rotat träd visas t.ex. som e graf: omedelbar kostitues blir streck eller geom bracketig : [i [låda [på [vide]]]] 3 4

Lijär precedes = grammatikes abstrakta lijära ordig, (ordföljd och frasföljd) Sytaxträd (med kategorietiketter) S motsvarar före efter i tal motsvarar väster höger i de flesta skriftsystem (höger väster i t.ex. arabiska) (Ka glömmas bort, eftersom ma fågar iformatioe gratis geom talets flöde i tide och skriftes riktig på pappret.) det e katt v såg VP det flera hudar 5 6 Grammatisk beskrivig av oder Nodera svarar mot ord, fraser, satser och meigar. Vi vill ataglige kyta e beskrivig av det språkliga uttrycket till varje od. Ekel sak: e kategorisymbol. Mer utvecklat: Strukturerade beskrivigar, t.ex. särdragsstrukturer. Sytaxträd, valiga begräsigar Sytaxträd brukar lyda följade begräsigar: Omedelbara kostituese (OK) ger just e trädstruktur (utifrå ett ädligt atal oder). Träd (typ av graf): E od har ige förälder; alla adra har precis e; ige cirkularitet. (Noder som sakar bar kallas löv.) Lijär precedes överesstämmer med OK: Varje fras är lijärt kotiuerlig. (Iga korsade grear.) M.a.o. lijär precedes ger ett ordat träd. Precis e kategori per od. 7 8

Depedesaalys, exempel Motsvarade frasstruktur, platt S dobj art subj art w 0 w 1 w 2 w 3 w 4 E studet läste e bok det vtr läste det Strukture (depedesträdet) måste byggas utifrå tillgägliga oder, alltså de ord som fis. e studet e bok Frasstrukturträd tillåter rikare struktur ä depedesaalyser. Depedesträdet motsvarar eklast ett sådat här frasstrukturträd. 9 10 Motsvarade frasstruktur, med VP-od det e studet S vtr läste VP det e bok Me med frasstruktur ka vi bygga e rikare struktur, t.ex. geom att iföra e VP-od av valig typ. Sytaxträd, regler, lexiko S VP det v e katt såg det flera hudar S VP det VP v det e katt v såg det flera hudar 11 12

E CFG formell defiitio Valigt sätt att defiiera e CFG formellt: E CFG är e kvadrupel N,T,P,Σ, där N är mägde icke-termialer (kategorisymboler), T är mägde termialer (ord), P är mägde av regler (iklusive lexikoigågar) och Σ är startsymbol (som igår i N). E CFG defiierar e mägd träd och e mägd strägar icke-termialer (alltså ett språk i Chomskys meig). CFG exempel Exempel på e CFG, N,T,P,Σ (utifrå tidigare träd): N = {S,, VP det,, v} T = {e, flera, hudar, katt, såg} P = { S VP, det, VP v, det e, katt, v såg, det flera, hudar } Σ =S 13 14 Kotextfri grammatik (CFG) träd För e CFG gäller att ett träd tillåts av omm: Rotode (de uta förälder) är märkt med grammatikes startsymbol. Varje föräldraod med bar (=lokalt träd) matchar e regel i grammatike. (Lövodera (lexikala, termiala) matchar lexikoigågar.) E sträg tillåts av grammatike om det fis ett motsvarade träd. CFG och aturligt språk E CFG kommer i bästa fall att kua fåga e delmägd (ett fragmet) av ett aturligt språk. Kategoriera måste fåga alla sytaktiskt viktiga distiktioer. (De bildar e platt taxoomi.) E bra grammatik för ett fragmet bör (liksom varje teoretisk redogörelse) vara så ekel så möjligt. 15 16

Fraser/kostitueter: distributio Distributio: Vilka grammatiska satskotexter ett uttryck ka förekomma i. Om två fraser har olika distributio så fis det grammatiska satser i vilka det ea uttrycket förekommer och där det ite ka bytas mot det adra uta att grammatikalitete fördärvas. de lilla hude och de stora katte har samma distributio. de lilla hude och det stora djuret har olika distributio: De lilla hude är säll. *Det stora djuret är säll. Sytaktiska kategorier i e stor CFG Fraser med samma distributio tillhör samma CFG-kategori. Fraser med olika distributio tillhör olika CFG-kategorier. Vi måste ha olika kategorier för de lilla hude och det stora djuret i e CFG. Utaför e CFG ka vi aväda vidare kategorier: Begreppet omialfras är avädbart i måga sammahag, me det täcker i olika typer av omialfraser som vi måste kua skilja på i e CFG. 17 18 CFG-beräkigar kolla träd Givet e godtycklig CFG och ett godtyckligt frasstrukturträd: Kolla att trädet tillåts av grammatike. Lätt, både för e mäiska och e dator. CFG-beräkigar parsigsproblemet Givet e godtycklig CFG och e godtycklig symbolsekves: Avgöra vilka sytaxträd (eller om det ite fis ågot) som ka byggas för sekvese. Parsigsproblemet för CFG. Ka lösas av e dator. Det fis olika algoritmer. Ka vara svårt för e mäiska. (E CFG ka vara stor och lurig.) 19 20

CFG-beräkigar kostruera e CFG Givet e mägd giva grammatiska strägar, kostruera e bra CFG för dem. Teorikostruktio. Ekelhet är i sådaa sammahag e öskvärd egeskap hos e teori. Svårt, både för e dator och e mäiska. Språk och grammatik i formell bemärkelse Ett språk är e mägd strägar E grammatik defiierar ett språk. E grammatik defiierar e mägd sytaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi ka läsa av e ordsträge ur varje träd). Detta är perspektivet i matematisk ligvistik (med Chomsky som främste företrädare). 21 22 Olika typer av formell grammatik (AB) Det fis olika typer av grammatiker som ka defiiera olika klasser av oädliga språk, t.ex. Reguljära uttryck Kotextfria grammatiker (CFG) Det fis adra grammatiktyper som aalyseras iom matematiska ligvistike. Chomskyhierarki är de mest käda uppställige. Chomskyhierarki (AB) Avser klasser av automater, grammatiker och språk. typ automat grammatik språk 0 Turigmaski obegräsad rekursivt eumerabla 1 lijärt begräsad a. kotextkäslig kotextkäsliga 2 stackmaski kotextfri kotextfria 3 ädlig a. lijär reguljära (reguljära uttryck) 0 3: Fallade beräkigsmässig styrka, ökade uttrycksmässiga begräsigar, midre klasser av språk. 23 24

Obegräsad grammatik, typ 0 (AB) E obegräsad grammatik (omskrivigssystem) är e kvadrupel N,T,P,Σ, där N är e mägd icke-termialer (kategorisymboler), T är e mägd termialer (ord), P är e mägd produktioer och Σ är e startsymbol. E produktio är av forme α β, där α är e icke-tom sträg över N T (termialer och icke-termialer) och β är e sträg över N T. Grammatiker härledig språk (AB) Givet ett omskrivigssystem N,T,P,Σ ka ma härleda: Sträge Σ (sträg av esam startsymbol). Givet att α β P och att e sträg xαy (över N T) ka härledas (där x och y är godtyckliga strägar över N T ), så ka xβy härledas. Ett omskrivigssystem defiierar det språk (i Chomskys meig) som består av alla de strägar av icke-termialer som ka härledas. Varje språk i Chomskyhierarki ka defiieras på detta sätt. (Typ 0.) 25 26 Begräsade grammatiktyper, typ 1 (AB) Givet defiitioe av omskrivigssystem ka vi ställa hårdare krav på produktioera. Typ 1, kotextkäslig grammatik: Alla produktioer är av forme X 1 CX 2 X 1 βx 2, där C N (d.v.s. är e icke-termial), X 1,X 2 N T {ε} (d.v.s. är e termial, icke-termial eller tomma sträge). Alltså, C får bara skrivas om till β är det förekommer i e viss kotext, alltså X 1 och X 2. (Mella ε och ε betyder överallt.) Typ 1, alterativ defiitio (AB) Typ 1, kotextkäslig grammatik. Alterativt begrepp: Alla produktioer är av forme α β, där β lägre ä eller lika låg som α. Detta ger e aa sorts grammatik, me de har precis samma styrka som kotextkäslig grammatik eligt tidigare defiitio. Dea ka kallas icke-kotraktiv grammatik (me kallas äve de kotextkäslig grammatik). 27 28

Begräsade grammatiktyper, typ 2 Givet defiitioe av omskrivigssystem ka vi ställa ä hårdare krav på produktioera. Typ 2, kotextfri grammatik Ebart produktioer av type C β, där där C N (d.v.s. är e icke-termial). Bara e symbol får skrivas om/expaderas i taget. Detta garaterar trädstruktur. Kotextfri i jämförelse med kotextkäslig grammatik. Begräsade grammatiktyper, typ 3 (AB) Givet ett defiitioe av omskrivigssystem ka vi ställa hårdare krav på produktioera. Typ 3, högerlijär grammatik. Ebart produktioer av type C 1 tc 2 och C 1 t, där C 1,C 2 N (d.v.s är icke-termialer) och t T (d.v.s. är e termial). Alterativt begrepp: Spegelväda begreppet västerlijär grammatik ger samma beräkigsmässiga styrka. 29 30 Problem med atomära beskrivigar Om vi i e kotextfri grammatik har e kategori för substativ i sigularis obestämd form eutrum, so, och e för substativ i sigularis obestämd form utrum, sou, så blir so och sou lika olika som so och VP. Viktig observatio: Grammatisk iformatio är flerdimesioell: Vi behöver molekylära /dekompoerade/faktoriserade beskrivigar. Aars ka vi ite uttrycka måga geeraliserigar som vi borde kua fåga. Problem med atomära beskrivigar Om vi i e kotextfri grammatik har e kategori för substativ i sigularis obestämd form eutrum, so, och e för substativ i sigularis obestämd form utrum, sou, så blir so och sou lika olika som so och VP. Vi måste ha massor av regler för att få till alla sekveser av t.ex. determierare adjektivfras substativ (i ), e för varje kogruesfall. (Övig: skriv er alla regler som behövs och age hur lexikoigågar måste se ut.) CFG tillåter igetig eklare, p.g.a. att taxoomi är platt. 31 32

Problem med atomära beskrivigar Grammatisk iformatio är flerdimesioell: Vi behöver molekylära /dekompoerade/faktoriserade beskrivigar i grammatike. Det fis måga geeraliserigar som vi borde kua fåga med som CFG ite tillåter oss att uttrycka. Exempel, två ord hud huset ordklass subst. subst. (samma) umerus sig. sig. (samma) geus utrum eutrum (olika) species obest. best. (olika) Orde har e ågra gemesamma särdrag och ågra som skiljer dem åt. 33 34