Datorlingvistisk grammatik

Storlek: px
Starta visningen från sidan:

Download "Datorlingvistisk grammatik"

Transkript

1 Datorlingvistisk grammatik Kontextfri grammatik, m.m. Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker, mest kontextfri. Beskriva språk m.h.a. kontextfri grammatik. Linjär precedens Konstituens Kategorisering Visst överlapp med och repetition av saker från Matematik för språkteknologer. 1 2 Formell kontra traditionell grammatik Tendenser (men mkt gemensamt, olika användning): Handkodad grammatik kontra maskinlärning Tendenser i språkteknologin, grovhuggen bild: traditionell grammatik vaghet heterogenitet implicithet robust ofta preskriptiv ej direkt implementerbar redan de gamla grekerna formell grammatik precision systematik explicithet begränsad täckning vetenskaplig, empirisk typiskt implementerbar 1900-talssak handkodning maskininlärning tal senaste decenniet personalintensivt dataintensivt - trädbanker språkspecifikt tvärspråkliga metoder allmän grammatikteori ST-orienterade metoder kvalitativ värdering kvantitativ värdering begränsad täckning fokus på robusthet 3 4

2 Kategorisk vs heuristisk analys Kategorisk regler: Objekt antingen exemplifierar en kategori eller gör det inte. Inga grader. Absoluta regler. Rätt/fel. (Grammatik i lingvistiken är ofta sådan.) Heuristiska principer: Grader av exemplifierande. Osäkerhet. Kan bygga på statistik/sannolikhetsberäkningar. (Vanligt inom språkteknologin.) Inga anspråk på 100% korrekthet. Formell grammatik: konstituens Konstituens: abstrakt del-helhetsbegrepp. Enkla konstituenter: (typiskt) ord. Sammansatta konstituenter: fraser. omedelbar vs medelbar konstituens (föräldrar dominerar barn) konstituensen placerar noderna i ett rotat träd visas t.ex. som en graf: omedelbar konstituens blir streck eller genom bracketing : [i [lådan [på [vinden]]]] 5 6 Linjär precedens = grammatikens abstrakta linjära ordning, (ordföljd och frasföljd) Syntaxträd (med kategorietiketter) S motsvarar före efter i tal NP VP motsvarar vänster höger i skrift (Kan glömmas bort, eftersom man fångar informationen gratis genom talets flöde i tiden och skriftens riktning på pappret.) det en n katt v såg det flera NP n hundar 7 8

3 Grammatisk beskrivning av noder Noderna svarar mot ord, fraser, satser och meningar. Vi vill antagligen knyta en beskrivning av det språkliga uttrycket till varje nod. Enkel sak: en kategorisymbol. Mer utvecklat: Strukturerade beskrivningar, t.ex. särdragsstrukturer (senare på kursen). Syntaxträd, vanliga begränsningar Syntaxträd brukar lyda följande begränsningar: Omedelbara konstituensen (OK) ger just en trädstruktur (utifrån ett ändligt antal noder). Träd (typ av graf): En nod har ingen förälder; alla andra har precis en; ingen cirkularitet. (Noder som saknar barn kallas löv.) Linjär precedens överensstämmer med OK: Varje fras är linjärt kontinuerlig. (Inga korsande grenar.) M.a.o. linjär precedens ger ett ordnat träd. Precis en kategori per nod Språk och grammatik i formell bemärkelse i formell, matematisk mening (Chomsky). Ett språk är en mängd strängar En grammatik definierar ett språk. En grammatik definierar en mängd syntaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi kan läsa av en ordsträngen ur varje träd). Detta är perspektivet i matematisk lingvistik. Olika typer av formell grammatik Det finns olika typer av grammatiker som kan definiera olika klasser av oändliga språk, t.ex. Reguljära uttryck Kontextfria grammatiker (CFG) Det finns andra grammatiktyper som analyseras inom matematiska lingvistiken. Chomskyhierarkin är den mest kända uppställningen

4 Chomskyhierarkin Avser klasser av automater, grammatiker och språk. typ automat grammatik språk 0 Turingmaskin obegränsad rekursivt enumerabla 1 linjärt begränsad a. kontextkänslig kontextkänsliga 2 stackmaskin kontextfri kontextfria 3 ändlig a. linjär reguljära (reguljära uttryck) 0 3: Fallande beräkningsmässig styrka, ökande uttrycksmässiga begränsningar, mindre klasser av språk. Obegränsad grammatik, typ 0 En obegränsad grammatik (omskrivningssystem) är en kvadrupel N,T,P,Σ, där N är en mängd icke-terminaler (kategorisymboler), T är en mängd terminaler (ord), P är en mängd produktioner och Σ är en startsymbol. En produktion är av formen α β, där α är en icke-tom sträng över N T (terminaler och icke-terminaler) och β är en sträng över N T Grammatiker härledning språk Givet ett omskrivningssystem N,T,P,Σ kan man härleda: Strängen Σ (sträng av ensam startsymbol). Givet att α β P och att en sträng xαy (över N T) kan härledas (där x och y är godtyckliga strängar över N T ), så kan xβy härledas. Ett omskrivningssystem definierar det språk (i Chomskys mening) som består av alla de strängar av icke-terminaler som kan härledas. Varje språk i Chomskyhierarkin kan definieras på detta sätt. (Typ 0.) Begränsade grammatiktyper, typ 1 Givet definitionen av omskrivningssystem kan vi ställa hårdare krav på produktionerna. Typ 1, kontextkänslig grammatik: Alla produktioner är av formen X 1 CX 2 X 1 βx 2, där C N (d.v.s. är en icke-terminal), X 1,X 2 N T {ε} (d.v.s. är en terminal, icke-terminal eller tomma strängen). Alltså, C får bara skrivas om till β när det förekommer i en viss kontext, alltså X 1 och X 2. (Mellan ε och ε betyder överallt.) 15 16

5 Typ 1, alternativ definition Typ 1, kontextkänslig grammatik. Alternativt begrepp: Alla produktioner är av formen α β, där β längre än eller lika lång som α. Detta ger en annan sorts grammatik, men den har precis samma styrka som kontextkänslig grammatik enligt tidigare definition. Denna kan kallas icke-kontraktiv grammatik (men kallas även den kontextkänslig grammatik). Begränsade grammatiktyper, typ 2 Givet definitionen av omskrivningssystem kan vi ställa än hårdare krav på produktionerna. Typ 2, kontextfri grammatik Enbart produktioner av typen C β, där där C N (d.v.s. är en icke-terminal). Kontextfri i jämförelse med kontextkänslig grammatik Begränsade grammatiktyper, typ 3 Givet ett definitionen av omskrivningssystem kan vi ställa hårdare krav på produktionerna. Typ 3, högerlinjär grammatik. Enbart produktioner av typen C 1 tc 2 och C 1 t, där C 1,C 2 N (d.v.s är icke-terminaler) och t T (d.v.s. är en terminal). Alternativt begrepp: Spegelvända begreppet vänsterlinjär grammatik ger samma beräkningsmässiga styrka. Reguljära uttryck: semantik (repetition) Reguljära uttryck är ett annat sätt att definiera språk av typ 3 (s.k. reguljära språk). Basuttryck: D(ε) = {ε}. Om s Σ, där Σ är alfabetet, så D(s) = {s}. Konkatenering (ibland skrivs mer explicit R 1 R 2 istället för R 1 R 2 ): D(R 1 R 2 ) = {xy x D(R 1 ) och y D(R 2 )}

6 Reguljära uttryck: semantik (repetition) Union (alternativitet) (ibland skrivs R 1 R 2 istället för R 1 R 2 ) D(R 1 R 2 ) = {x x D(R 1 ) eller x D(R 2 )}. Kleenehölje (godtycklig självkonkatenering) D(R ) = {x 1 x 2...x n n 0 och x i D(R)} Förkortade skrivsätt: R + för RR. (R) (optionalitet i SWB 2.2.2) för R ε. Kontextfri grammatik (CFG) träd För en CFG gäller att ett träd tillåts av omm: Rotnoden (den utan förälder) är märkt med grammatikens startsymbol. Varje föäldranod med barn (=lokalt träd) matchar en regel i grammatiken. Lövnoderna (lexikala, terminala) matchar lexikoningångar. En sträng tillåts av grammatiken om det finns ett motsvarande träd Syntaxträd, regler, lexikon CFG, ännu mer formellt NP det n en katt S v såg VP det flera NP n hundar S NP VP NP det n VP v NP det en n katt v såg det flera n hundar Vanligt sätt att definiera en CFG formellt: En CFG är en kvadrupel N, T, P, Σ, där N är mängden icke-terminaler (kategorisymboler), T är mängden terminaler (ord), P är mängden av regler (inklusive lexikoningångar) och Σ är startsymbol. En CFG definierar en mängd träd och en mängd strängar icke-terminaler (alltså ett språk i Chomskys mening)

7 CFG, ännu mer formellt, exempel Exempel på en CFG, N,T,P,Σ (utifrån tidigare träd): N = {S, NP, VP det, n, v} T = {en, flera, hundar, katt, såg} P = { S NP VP, NP det n, VP v NP, det en, n katt, v såg, det flera, n hundar } Σ =S CFG och naturligt språk En CFG kommer i bästa fall att kunna fånga en delmängd (ett fragment) av ett naturligt språk. Kategorierna måste fånga alla syntaktiskt viktiga distinktioner. (De bildar en platt taxonomi.) En bra grammatik för ett fragment bör (liksom varje teoretisk redogörelse) vara så enkel så möjligt Fraser/konstituenter: distribution Distribution: Vilka grammatiska satskontexter ett uttryck kan förekomma i. Om två fraser har olika distribution så finns det grammatiska satser i vilka det ena uttrycket förekommer och där det inte kan bytas mot det andra utan att grammatikaliteten fördärvas. den lilla hunden och den stora katten har samma distribition. den lilla hunden och det stora djuret har olika distribution: Den lilla hunden är snäll. *Det stora djuret är snäll. Fraser/konstituenter: syntaktiska kategorier Grundprincip: Fraser med samma distribution tillhör samma kategori. Fraser med olika distribution tillhör olika kategorier. Vi måste kunna skilja på den lilla hunden och det stora djuret kategorimässigt. Vi använder ofta också vidare kategorier: Begreppet nominalfras täcker in många olika nominalfraser som vi måste kunna skilja på

8 Problem med atomära beskrivningar Om vi i en kontextfri grammatik har en kategori för substantiv i singularis obestämd form neutrum, nson, och en för substantiv i singularis obestämd form utrum, nsou, så blir nson och nsou lika olika som nson och VP. Viktig observation: Grammatisk information är flerdimensionell: Vi behöver molekylära /dekomponerade/faktoriserade beskrivningar. Annars kan vi inte uttrycka många generaliseringar som vi borde kunna fånga. Problem med atomära beskrivningar Om vi i en kontextfri grammatik har en kategori för substantiv i singularis obestämd form neutrum, nson, och en för substantiv i singularis obestämd form utrum, nsou, så blir nson och nsou lika olika som nson och VP. Vi måste ha massor av regler för att få till alla sekvenser av t.ex. determinerare adjektivfras substantiv (i NP), en för varje kongruensfall. (Övning: skriv ner alla regler som behövs och ange hur lexikoningångar måste se ut.) CFG tillåter ingenting enklare, p.g.a. att taxonomin är platt Problem med atomära beskrivningar Grammatisk information är flerdimensionell: Vi behöver molekylära /dekomponerade/faktoriserade beskrivningar i grammatiken. Det finns många generaliseringar som vi borde kunna fånga med som CFG inte tillåter oss att uttrycka. Exempel, två ord hund huset ordklass subst. subst. (samma) numerus sing. sing. (samma) genus utrum neutrum (olika) species obest. best. (olika) Orden har en några gemensamma särdrag och några som skiljer dem åt

Första ordningens logik

Första ordningens logik Första ordningens logik Christian Bennet Christian Bennet, februari 2013 Detta verk är licensierat under en Creative Commons Erkännande- Ickekommersiell-IngaBearbetningar 3.0 Unported license. För att

Läs mer

Något om logik och logisk semantik

Något om logik och logisk semantik UPPSALA UNIVERSITET Semantik och pragmatik (HT 08) Institutionen för lingvistik och filologi Mats Dahllöf http://stp.ling.uu.se/ matsd/uv/uv08/sempht/ Något om logik och logisk semantik 1 Språk och sanning

Läs mer

Akademiska uppsatsers uppbyggnad

Akademiska uppsatsers uppbyggnad UPPSALA UNIVERSITET Institutionen för lingvistik och filologi Februari 2014 Mats Dahllöf mats.dahllof@lingfil.uu.se Akademiska uppsatsers uppbyggnad Detta är en elementär introduktion till genren akademisk

Läs mer

Författare: Eeva-Liisa Järvinen, Projektet På väg mot kommunikativ kompetens: tillägnandet av svenskans struktur/ Åbo Universitet

Författare: Eeva-Liisa Järvinen, Projektet På väg mot kommunikativ kompetens: tillägnandet av svenskans struktur/ Åbo Universitet Titelblad Titel: Val av species och bestämdhetsform i ett test för finska grundskolelever. Författare: Eeva-Liisa Järvinen, Projektet På väg mot kommunikativ kompetens: tillägnandet av svenskans struktur/

Läs mer

REKURSION & INDUKTIONSBEVIS

REKURSION & INDUKTIONSBEVIS REKURSION & INDUKTIONSBEVIS Rekursiva definitioner Sluten formel (direkt formel) För t.ex. följden a 0 =1,a 1 =,a =4,a 3 =8,a 4 =16,a 5 =3,... är det lätt att skriva upp en formel som direkt visar hur

Läs mer

Rätt utvärdering ger rätt leverantör

Rätt utvärdering ger rätt leverantör Affärer MENINGSFULL UPPHANDLING Affärer Rätt utvärdering ger rätt leverantör Många upphandlingar leder till att fel leverantör vinner affären. En förklaring är hur utvärderingen hanteras. Anbudsutvärdering

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Talmönster och algebra. TA

Talmönster och algebra. TA Talmönster och algebra. TA Diagnoserna i området avser att kartlägga om eleverna kan upptäcka talmönster samt på olika sätt bearbeta algebraiska uttryck och ekvationer. Förståelse av koordinatsystem och

Läs mer

PROV I MATEMATIK Automatateori och formella språk DV1 4p

PROV I MATEMATIK Automatateori och formella språk DV1 4p UPPSALA UNIVERSITET Matematiska institutionen Salling (070-6527523) PROV I MATEMATIK Automatateori och formella språk DV1 4p 19 mars 2004 SKRIVTID: 15-20. POÄNGGRÄNSER: 18-27 G, 28-40 VG. MOTIVERA ALLA

Läs mer

När kan man lita på maskinöversättning?

När kan man lita på maskinöversättning? När kan man lita på maskinöversättning? Aarne Ranta Institutionen för data- och informationsteknik Chalmers tekniska högskola och Göteborgs universitet aarne@chalmers.se Sammanfattning Artikeln ger en

Läs mer

Formulering av företagsekonomisk forskningsfråga

Formulering av företagsekonomisk forskningsfråga Formulering av företagsekonomisk forskningsfråga med utgångpunkt i bloggar Viktor Öman, bibliotekarie viktor.oman@mdh.se Licens: CC BY-NC-SA (2012). Välja och utveckla sitt uppsatsämne Ibland har man bara

Läs mer

Eulers polyederformel och de platonska kropparna

Eulers polyederformel och de platonska kropparna Eulers polyederformel och de platonska kropparna En polyeder är en kropp i rummet som begränsas av sidoytor som alla är polygoner. Exempel är tetraedern och kuben, men klotet och konen är inte polyedrar.

Läs mer

Slump och sannolikheter

Slump och sannolikheter Slump och sannolikheter JOHAN WÄSTLUND, LINKÖPINGS UNIVERSITET N är man nämner sannolikhetsteori, tänker väl de flesta på metoder för att besvara frågor om just sannolikheter. Med hjälp av statistik och

Läs mer

TUFF-PO Kravsättning av tidplaner utifrån personalplaneringsbehov

TUFF-PO Kravsättning av tidplaner utifrån personalplaneringsbehov TUFF-PO Kravsättning av tidplaner utifrån personalplaneringsbehov Martin Aronsson, Jan Ekman Februari 2002 SW E D I S H IN S T I T U T E O F CO M P U T E R SC I E N C E (SICS) Kontaktperson: Martin Aronsson

Läs mer

År 2006 hittade jag av en slump boken Rika matematiska problem inspiration

År 2006 hittade jag av en slump boken Rika matematiska problem inspiration Ulrihca Malmberg Att göra rika problem rika Att använda rika problem och utnyttja deras potential är inte helt lätt. Här behandlas några svårigheter och problem som visat sig och som varit utgångspunkt

Läs mer

En studie av flertydiga satser med en oklar räckviddsrelation

En studie av flertydiga satser med en oklar räckviddsrelation Många vågar inte eller Inte många vågar? En studie av flertydiga satser med en oklar räckviddsrelation Aleksina Puro Pro gradu-avhandling Hösten 2013 Nordiska språk Finska, finskugriska och nordiska institutionen

Läs mer

Litet analytisk-filosofiskt manifest av Kalle Grill

Litet analytisk-filosofiskt manifest av Kalle Grill Litet analytisk-filosofiskt manifest av Kalle Grill Den analytiska filosofin innehåller några av de bästa verktyg vi har för att förstå världen. Analys är sönderdelning, eller mer positivt uppdelning.

Läs mer

Kapitel 4. Funktioner. 4.1 Definitioner

Kapitel 4. Funktioner. 4.1 Definitioner Kapitel 4 Funktioner I det här kapitlet kommer vi att undersöka funktionsbegreppet. I de första sektionerna genomgås definitionen av begreppet funktion och vissa egenskaper som funktioner har. I slutet

Läs mer

Moment 4: Metoder för dataanalys 4. 1 Statistisk analys

Moment 4: Metoder för dataanalys 4. 1 Statistisk analys Moment 4 Metoder för dataanalys 1 (7) Moment 4: Metoder för dataanalys 4. 1 Statistisk analys Texten på dessa sidor syftar till att disponera och vägleda läsningen av den för momentet anvisade kurslitteraturen.

Läs mer

Mer om reella tal och kontinuitet

Mer om reella tal och kontinuitet Kapitel R Mer om reella tal och kontinuitet I detta kapitel formulerar vi ett av de reella talens grundläggande axiom, axiomet om övre gräns, och studerar några konsekvenser av detta. Med dess hjälp kommer

Läs mer

Examensarbete 15 högskolepoäng. Elevers förhållningssätt till nyttan av matematik utanför skolan en jämförelse mellan årskurs 7 och 9.

Examensarbete 15 högskolepoäng. Elevers förhållningssätt till nyttan av matematik utanför skolan en jämförelse mellan årskurs 7 och 9. Malmö högskola Lärarutbildningen Natur, miljö, samhälle Examensarbete 15 högskolepoäng Elevers förhållningssätt till nyttan av matematik utanför skolan en jämförelse mellan årskurs 7 och 9 Students' perceptions

Läs mer

Moralfilosofi. Föreläsning 11

Moralfilosofi. Föreläsning 11 Moralfilosofi Föreläsning 11 Kants etik Immanuel Kant (1724-1804) är en av mest betydelsefulla moderna filosoferna Kant utvecklade inte bara en teori om moralen utan också teorier i metafysik, epistemologi,

Läs mer

SPETSSTÄLLDA LED OCH REMATISKA RELATIVER En korpusstudie av satsflätor med presenteringsomskrivning/existentialsats

SPETSSTÄLLDA LED OCH REMATISKA RELATIVER En korpusstudie av satsflätor med presenteringsomskrivning/existentialsats GÖTEBORGS UNIVERSITET Institutionen för svenska språket SPETSSTÄLLDA LED OCH REMATISKA RELATIVER En korpusstudie av satsflätor med presenteringsomskrivning/existentialsats Filippa Lindahl MAGISTERUPPSATS,

Läs mer

BOKSAMMANFATTNING MOTIVATION.SE

BOKSAMMANFATTNING MOTIVATION.SE BOKSAMMANFATTNING MOTIVATION.SE #Twitterboken - smarta tips från första kvittret till att flyga fritt En grundläggande manual såväl som affärstips kring hur du får ut det bästa av twitter. Innehåller essutom

Läs mer

Svenska språket. Grammatik. www.sofiadistans.nu

Svenska språket. Grammatik. www.sofiadistans.nu Svenska språket Grammatik www.sofiadistans.nu 1 Innehåll Grammatik De 9 ordklasserna... 4 Substantiv... 5 Adjektiv... 6 Verb... 7 Pronomen... 8 Personliga pronomen... 8 Possessiva pronomen... 9 Relativa

Läs mer

Objektorientering/1.2. 3 Klasser

Objektorientering/1.2. 3 Klasser 3 Klasser 3.1 Att hantera många objekt 3.2 Klasser 3.3 Krav för att bilda en klass 3.4 Får två objekt vara helt identiska? 3.5 Måste vi använda klasser i objektorientering? 3.6 En klassbeskrivning 3.7

Läs mer

Inledning Väcker intresse och introducerar ämnet

Inledning Väcker intresse och introducerar ämnet En muntlig informerande presentation presenterar något eller illustrerar hur något fungerar. Huvudsyftet är alltid att informera, till skillnad från en argumenterande presentation där huvudsyftet är att

Läs mer

Wiggo Kilborn. Om tal i bråkoch decimalform en röd tråd

Wiggo Kilborn. Om tal i bråkoch decimalform en röd tråd Wiggo Kilborn Om tal i bråkoch decimalform en röd tråd Tal i bråkoch decimalform en röd tråd Wiggo Kilborn Nationellt centrum för matematikutbildning Göteborgs universitet 20 Detta verk är licensierad

Läs mer

Metoder för risk- och sårbarhetsanalys ur ett systemperspektiv

Metoder för risk- och sårbarhetsanalys ur ett systemperspektiv Metoder för risk- och sårbarhetsanalys ur ett systemperspektiv Henrik Johansson Henrik Jönsson LUCRAM Lunds universitets centrum för riskanalys och riskhantering Lunds universitet Rapport 1010, Lund 2007

Läs mer

Att Analysera film. 1. Allmän analys / filmens struktur.

Att Analysera film. 1. Allmän analys / filmens struktur. Att Analysera film Denna skrift innehåller olika analysscheman. Olika exempel som används i högskolestudier och lite enklare som kan vara lite enklare att applicera på de filmer ni arbetar med. / Lennart

Läs mer