Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin



Relevanta dokument
Datorlingvistisk grammatik

Grammatik för språkteknologer

Grammatik för språkteknologer

Grammatik för språkteknologer

729G09 Språkvetenskaplig databehandling

Frasstrukturgrammatik

Matematik för språkteknologer

Fraser, huvuden och bestämningar

Datorlingvistisk grammatik

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Datorlingvistisk grammatik

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Tekniker för storskalig parsning

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Grammatik för språkteknologer

Partiell parsning Parsning som sökning

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Tekniker för storskalig parsning: Grundbegrepp

Datorlingvistisk grammatik

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Lexikon: ordbildning och lexikalisering

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

729G09 Språkvetenskaplig databehandling

Grammatik för språkteknologer

Inlämningsuppgift MiniPlotter

Introduktion till språkteknologi

DAB760: Språk och logik

Grammatisk teori II Attributvärdesgrammatik

Semantik och pragmatik (Serie 3)

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier:

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Några skillnader mellan svenska och engelska

Språkteknologi och Open Source

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Datorlingvistisk grammatik I

Grammatik för språkteknologer

Kursbeskrivning med litteraturlista HT-13

PROV I MATEMATIK Automatateori och formella språk DV1 4p

Tala, skriva och samtala

Lingvistiska grundbegrepp

Logik och modaliteter

Grammatik skillnader mellan svenska och engelska


Svenskans struktur, 7,5 hp Tentamensexempel 1

Grundläggande textanalys. Joakim Nivre

Riktlinjer för bedömning av examensarbeten

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg

Semantik och pragmatik

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Semantik och pragmatik

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Språkteknologi. Språkteknologi

Teoretisk lingvistik och datalingvistik. Robin Cooper

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Föreläsning 7: Syntaxanalys

Några skillnader mellan svenska och engelska

Kompositionell semantik och λ-kalkyl

Språkets struktur och funktion, 7,5 hp

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Neurolingvistik - Grammatik

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Viktiga frågor att ställa när ett argument ska analyseras och sedan värderas:

Betygskriterier. CT120U, Svenska som andraspråk för gymnasielärare, 90 hp. Ingår i Lärarlyftet II.

Semantik och pragmatik

Lokal pedagogisk planering för årskurs 8 i ämnet moderna språk - spanska

MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP

Föreläsning 5. Deduktion

Betygskriterier. NS2019, Svenska II, 30 hp. Förväntade studieresultat För godkänt resultat på delkursen ska studenten kunna visa:

Pragmatisk och narrativ utveckling

Semantik och pragmatik

Grammatisk teori III Praktisk analys

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

FL 6: Definite Clause Grammars (kap. 7)

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Ordförråd och Ordbildning

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Sanning och lögnare. Rasmus Blanck VT2017. FT1200, LC1510 och LGFI52

Kontextfri grammatik (CFG)

Tekniker för storskalig parsning

Om ämnet Engelska. Bakgrund och motiv

Naturalism. Föreläsning Naturalismen (tolkad som en rent värdesemantisk teori) är en form av kognitivism

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Grundläggande textanalys, VT2012

Föreläsning 2 5/6/08. Reguljära uttryck 1. Reguljära uttryck. Konkatenering och Kleene star. Några operationer på språk

Betyg i moderna språk nu redan i år 6. Mia Smith, förstelärare Vallhamra skola, Partille

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin

Kontextfria grammatiker

729G06 Logik FÖRELÄSNING 1 ANDERS MÄRAK LEFFLER IDA/HCS

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

AEC 7 Ch av 10. Detta ska du kunna (= konkretisering)

Transkript:

Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans. Grammatiska begrepp (viss repetition) Frasstrukturanalys och CFG (repetition). Mats Dahllöf Institutionen för lingvistik och filologi Januari 2009 1 2 Lärandemål Efter avslutad kurs skall studenten för att förtjäna betyget Godkänd minst kunna: Lärandemål (3) analysera den syntaktiska strukturen hos meningar på svenska och engelska i termer av grammatisk valens; (1) redogöra för grammatikanalysens relevans för de viktigaste språkteknologiska delområdena; (4) analysera meningar på svenska och engelska i termer av dependensrelationer och i viss mån värdera alternativa analysmöjligheter i förhållande till varandra; (2) analysera meningar på svenska och engelska i termer av frasstruktur och i viss mån värdera alternativa analysmöjligheter; 3 4 Lärandemål (5) formulera kontextfria grammatiker för syntaktisk analys av fragment av svenska och engelska och i viss mån värdera alternativa formuleringar; (6) redogöra för hur en särdragsgrammatikformalism kan användas för att formalisera kategoritilldelning, valensbindning, kongruens och kasusstyrning; (7) hantera något datorverktyg för arbete med formella grammatiker. Grammatikens delar (repetition) FONOLOGI/ORTOGRAFI ljudförrådet, hur ljuden får kombineras (fonotax) grafemförrådet, hur grafem får kombineras (grafotax) MORFOLOGI strukturen inom ord, hur morfer bildar ord SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar större enheter 5 6 Grammatik vs semantik (repetition) Relativt svår distinktion, teoretiskt sett GRAMMATIK (form) abstrakt form, grammatikalitet SEMANTIK (innehåll) språkets relation till verkligheten, (syftning/referens) meningsfullhet och -löshet, sant och falskt Morfem (repetition) Grammatikens minsta enheter: de minsta betydelsebärande enheterna. (Jfr: fonem: de minsta betydelseskiljande enheterna.) Vissa morfem kan stå som ord (fria morfem), t.ex. hus, semester, med, se, etc. Andra morfem kan inte det (bundna morfem), t.ex. (hus)lig, (semester)n, (se)r, etc. 7 8

Ord, lexem, ordformer (repetition) Ord: teoretiskt ganska svåra typer av enhet. Självklar endast för vissa skrivna språk. Ordförekomster: grammatiskt sett hårt sammanbundna enheter. Betoning i uttal. Lexem: ett uppslagsord (abstrakt enhet). T.ex. verbet älska, substantivet bord. Böjningsform: Mer konkret form ett lexem kan anta. Former av älska: älska (infintiv), älskar (presens), älskande (presens particip), o.s.v. Ord och morfem (repetition) Fria morfem bildar ordformer. Andra ordformer är sammansatta, kombinationstyper: Böjning (inom ett lexem), t.ex. hus-en-s, läs-te-s. Avledning (nytt lexem från annat), t.ex. läs-lig, läs-ning, hus-lig. (Avlett lexem kan i sin tur böjas.) Sammansättning (två lexem kombineras till ett nytt), t.ex. husbåt, gulgön, citronpaj. (Sammansatt lexem kan i sin tur böjas.) 9 10 Fraser/konstituenter (repetition) Enheter som hänger ihop grammatiskt. Teoretisk motivation: fraser av en viss kategori kan förekomma i olika kontexter. (Egna enheter/moduler av struktur.) Exempel: Den lilla hunden skäller. (som subjekt) Lisa köpte den lilla hunden. (som objekt) Lisa tittade på den lilla hunden. (som prepositions rektion) Beskrivningen av (olika slag av) nominalfraser måste kunna återanvändas i olika sammanhang. Grammatisk analys i språkteknologin Grammatiken kan ses som ett första steg i förståelsen av språk som språk. Grammatiken ger en grovhuggen bild av innehållet. Relevant för i stort sett alla delområden inom ST: Man kan nästan säga att det är känslighet för grammatisk struktur som definierar språkteknologi. 11 12 Språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. Grammatik-, stavnings- och stilkontroll (givetvis). Informationssökning och -extraktion. Maskinöversättning: analys av källspråket. Språkteknologisk relevans (2) Grammatik är även viktigt i språkteknologisk generering av yttranden/text: Maskinöversättning: generering till målspråket. Dialogsystem: generera yttranden. Pedagogiska program: generera problem. Talsyntes (intonation, disambiguering, etc). 13 14 Grammatisk analys ur ST-perspektiv Hur skall analysen representeras formellt? Vilken grundtyp är det? (Dependenser? Frasstrukturer? Eller?) Hur skall analysen se ut? Teorin om språket ifråga. Annotationsmanual för mänskliga uppmärkare. Hur kan vi automatiskt tilldela texter sådan här analys? (Parser.) Som bygger på inlärning? Som bygger på handskrivna regler? Trädbank En korpus med syntaktisk uppmärkning kallar man för en trädbank för det brukar ju vara något slags syntaxträd det handlar om). Den kan t.ex. användas för träning av maskininlärningsbaserade modeller eller för utvärdering. Bra trädbanker är dyra. (Varför?) Det är alltså viktigt vilken sorts syntaktisk uppmärkning man arbetar med. Konvertering från en typ av uppmärkning till en annan blir ofta en viktig fråga när man skall kombinera trädbanksdata. 15 16

Annotationsmanual En grund för syntaktisk analys är att vi bestämmer oss för hur vi skall göra. Detta handlar först om att enas om en teori om grammatiken. Och det finns väldigt många syntaxteorier att välja på. Det handlar även mer konkret om hur olika typer av information skall kodas. Sedan måste man enas om hur man skall hantera diverse ej självklara konstruktioner inom ramverket. En mänsklig faktor kommer givetvis alltid in. Annotationsmanual, instruktion (ex. 1) Exempel (citat) från Krohmann et al. Danish Dependency Treebank Annotation guide,http://www.treebank.dk, som avser en dependensanalys av danska. The words at and om are analyzed as special pronouns that take a verbal object, ie, in the external syntax, they are always analyzed as if they were ordinary noun phrases. At can take a finite or infinitive verb as its verbal object, whereas om only takes a finite verb as its verbal object. 17 18 Annotationsmanual, instruktion (ex. 2) Exempel (citat) från Krohmann et al. Danish Dependency Treebank Annotation guide,http://www.treebank.dk, som avser en dependensanalys av danska. The adjunct label voc is used for nominals that refer to the intended listener, but serve no complement function with respect to the verb. Luk så den dør, Marie! Marie, vil du/i godt lukke den dør? Önskemål: (principiell) robusthet Grammatiken bör kunna ta hand om alla relevanta språkexempel. Grammatikteorier har ofta fullständiga meningar som norm. Ofullständiga och felaktiga uttryck är vanliga och bör hanteras. 19 20 Önskemål: optimal för tillämpning Vilken grammatikinformation behövs för en viss tillämpning? Vilken grammatikinformation kan man få fram givet t.ex. trädbanker och verktyg? Finkornighet (specifika kategorier) i analysen kan försvåra för maskininlärningsmetoder. (Färre belägg och svårare avgöranden.) Finkornighet kan ge för tillämpningen värdefull information. Skiljetecken Skiljetecken används, åtminstone ur en normativ synvinkel, med referens till den syntaktiska strukturen. De är därför ofta redundanta. I syntaktisk analys kan man därför välja att ha med dem som konstituenter eller ignorera dem. I ST-sammanhang kan det vara meningsfullt att pröva båda strategierna. 21 22 Parsing två begrepp Parsing engelska ordet för satslösning. Parsing utifrån grammatik: Räkna ut en strängs analys (ofta en trädstruktur) givet en formell grammatik. Empirisk/språkteknologiskt praktisk bemärkelse: Räkna ut den syntaktiska strukturen hos naturligt förekommande meningar. Med eller utan inblandning av en formell grammatik. Parsing för ST viktiga aspekter Vilken sorts språk? Med vilka begrepp? Hur fullständigt och bra? Med vilken grad av korrekthet/precision/recall för olika aspekter? Robusthet: hantering av ogrammatiskt och ofullständigt material, etc. 23 24

Parsingalgoritmer (1) Algoritmer: Mekaniska (effektiva) procedurer för att lösa givna problem, eller (mer tekniskt), beräkna funktioner. Alltså: Den abstrakta principen bakom ett program. (Så att samma algoritm kan implementeras på olika sätt och i olika programspråk.) Parsing i teknisk bemärkelse (och i svenskan): syntaktisk analys i dator, både av naturligt och artificiellt språk. Parsingalgoritmer (2) Parsingalgoritm: En algoritm som givet en typ av grammatik, och en sträng av symboler räknar ut en mängd analyser (typiskt syntaxträd) som grammatiken tilldelar strängen. Olika urval analyser: alla (om grammatiken tillåter ambiguitet), bästa (utifrån någon rangordning), en enda, etc. Recognition när man bara får ett ja eller nej till frågan om grammatiken kan generera strängen. 25 26 Formell kontra traditionell grammatik Tendenser (men mkt gemensamt, olika användning): Handkodad grammatik kontra maskinlärning Tendenser i språkteknologin, grovhuggen bild: traditionell grammatik vaghet heterogenitet implicithet robust ofta preskriptiv ej direkt implementerbar redan de gamla grekerna formell grammatik precision systematik explicithet begränsad täckning vetenskaplig, empirisk typiskt implementerbar 1900-talssak handkodning maskininlärning 1950 1990-tal senaste decenniet personalintensivt dataintensivt - trädbanker språkspecifikt tvärspråkliga metoder allmän grammatikteori ST-orienterade metoder kvalitativ värdering kvantitativ värdering begränsad täckning fokus på robusthet 27 28 Kategorisk vs heuristisk analys Formell analys: Objekt antingen exemplifierar en kategori eller gör det inte. Inga grader. Absoluta regler. Rätt/fel. (Grammatik i lingvistiken är ofta sådan.) Heuristisk analys: Grader av exemplifierande. Osäkerhet. Kan bygga på statistik/sannolikhetsberäkningar. (Vanligt inom språkteknologin.) Inga anspråk på 100% korrekthet. Grammatikalitetsdata, exempel Svenska OK: Hon ser på honom. Hon ser honom. Honom ser hon. Svenska inte OK: *Hon ser honom på. *Henne ser honom. *Ser honom hon. 29 30 Grammatikalitet Ett naturligt språk erbjuder en oändlighet av (grammatiska) möjligheter: Många grammatiska strängar kommer aldrig att användas. Många grammatiska strängar är semantisk sett udda (och därför oanvändbara). Många grammatiska strängar är så komplexa att man inte kan hålla reda på deras struktur. Alltså: grammatisk användbar (i språket) (Chomsky). Korpusdata Korpus: stor samling med autentiska språkexempel (texter eller samtal), visar hur folk faktiskt använder språk (representativitet). Detta är kanske viktigare (för en lingvist/språkteknolog) än frågan om grammatikalitet. Korpusdata kan även avslöja relativa frekvenser hos olika grammatiska fenomen. En korpus innehåller säkert (normativt sett) ogrammatiska saker. 31 32

Fraser/konstituenter: egenskaper Egenskaper som ofta talar för frasstatus: (ex. Lisa köpte den lilla hunden.) Kan flyttas. Den lilla hunden var det som Lisa köpte. Kan befrågas. Vad köpte Lisa? Den lilla hunden. Kan samordnas. Lisa köpte den lilla hunden och den stora katten. Semantiken kan stödja (och ligger bakom) våra intuitioner om frasstatus. Fraser/konstituenter: distribution Distribution: Vilka grammatiska satskontexter ett uttryck kan förekomma i. Om två fraser har olika distribution så finns det grammatiska satser i vilka det ena uttrycket förekommer och där det inte kan bytas mot det andra utan att grammatikaliteten fördärvas. den lilla hunden och den stora katten har samma distribition. den lilla hunden och det stora djuret har olika distribition: Den lilla hunden är snäll. *Det stora djuret är snäll. 33 34 Fraser/konstituenter: syntaktiska kategorier Grundprincip: Fraser med samma distribution tillhör samma kategori. Fraser med olika distribution tillhör olika kategorier. Vi måste kunna skilja på den lilla hunden och det stora djuret kategorimässigt. Vi använder ofta också vidare kategorier: Begreppet nominalfras täcker in många olika nominalfraser som vi måste kunna skilja på. Konstituens Frasstrukturgrammatikens abstrakta del-helhetsbegrepp: konstituens. Enkla konstituenter: (typiskt) ord. Sammansatta konstituenter: fraser. omedelbar vs medelbar konstituens (mödrar dominerar döttrar) konstituensen placerar noderna i en trädstruktur Visas som utritad graf: omedelbar konstituens blir streck eller genom bracketing : [i [lådan [på [vinden]]]] 35 36 Linjär precedens = grammatikens abstrakta linjära ordning, (ordföljd och frasföljd) motsvarar före efter i tal Syntaxträd (med kategorietiketter) S VP motsvarar vänster höger i skrift (Glöms lätt bort, eftersom man fångar informationen gratis genom talets flöde i tiden och skriftens riktning på pappret.) det en n katt v såg det flera n hundar 37 38 Grammatisk beskrivning av noder Noderna svarar mot ord, fraser, satser och meningar. Vi måste knyta en beskrivning av det språkliga uttrycket till varje nod. Minimalt: en kategorisymbol (som i kontextfri grammatik) Mer utvecklat: Strukturerade beskrivningar, t.ex. särdragsstrukturer. Syntaxträd, vanliga begränsningar Syntaxträd brukar definieras av följande begränsningar, som kommer att underlätta maskinell hantering: Omedelbara konstituensen (OK) ger just en trädstruktur (utifrån ett ändligt antal noder). Träd (typ av graf): En nod har ingen moder; alla andra har precis en; ingen cirkularitet. (Noder som saknar döttrar kallas löv.) Linjär precedens överensstämmer med OK: Varje fras är linjärt kontinuerlig. (Inga korsande grenar.) Precis en kategori per nod. 39 40

Språk och grammatik i formell bemärkelse i formell, matematisk mening (Chomsky). Ett språk är en mängd strängar En grammatik definierar ett språk. En grammatik definierar en mängd syntaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi kan läsa av strängen ur trädet). Detta är perspektivet i matematisk lingvistik. Olika typer av formell grammatik Det finns olika typer av grammatiker som kan definiera olika klasser av oändliga språk, t.ex. Reguljära uttryck Kontextfria grammatiker (CFG) Det finns andra grammatiktyper som analyseras inom matematiska lingvistiken. Chomskyhierarkin är den mest kända uppställningen. 41 42 Chomskyhierarkin (viss namedropping ) Avser klasser av automater, grammatiker och språk. typ automat grammatik språk 0 Turingmaskin obegränsad rekursivt enumerabla 1 linjärt begränsad a. kontextkänslig kontextkänsliga 2 stackmaskin kontextfri kontextfria 3 ändlig a. linjär reguljära (reguljära uttryck) 0 3: Fallande beräkningsmässig styrka, ökande uttrycksmässiga begränsningar, mindre klasser av språk. Obegränsad grammatik, typ 0 En obegränsad grammatik (omskrivningssystem) är en kvadrupel N,T,P,Σ, där N är en mängd icke-terminaler (kategorisymboler), T är en mängd terminaler (ord), P är en mängd produktioner och Σ är en startsymbol. En produktion är av formen α β, där α är en icke-tom sträng över N T (terminaler och icke-terminaler) och β är en sträng över N T. 43 44 Grammatiker härledning språk Givet ett omskrivningssystem N,T,P,Σ kan man härleda: Strängen Σ (sträng av ensam startsymbol). Givet att α β P och att en sträng xαy (över N T) kan härledas (där x och y är godtyckliga strängar över N T ), så kan xβy härledas. Ett omskrivningssystem definierar det språk (i Chomskys mening) som består av alla de strängar av icke-terminaler som kan härledas. Varje språk i Chomskyhierarkin kan definieras på detta sätt. (Typ 0.) Begränsade grammatiktyper, typ 1 Givet definitionen av omskrivningssystem kan vi ställa hårdare krav på produktionerna. Typ 1, kontextkänslig grammatik Enbart produktioner av typen X 1 CX 2 X 1 βx 2, där C N (d.v.s. är en icke-terminal), X 1,X 2 N T {ε} (d.v.s. är en terminal, icke-terminal eller tomma strängen). Alternativt begrepp: Enbart produktioner av typen α β, där β längre än eller lika lång som α. Annan sorts grammatik men samma styrka. 45 46 Begränsade grammatiktyper, typ 2 Givet definitionen av omskrivningssystem kan vi ställa änn hårdare krav på produktionerna. Typ 2, kontextfri grammatik Enbart produktioner av typen C β, där där C N (d.v.s. är en icke-terminal). Begränsade grammatiktyper, typ 3 Givet ett definitionen av omskrivningssystem kan vi ställa hårdare krav på produktionerna. Typ 3, högerlinjär grammatik. Enbart produktioner av typen C 1 tc 2 och C 1 t, där C 1,C 2 N (d.v.s är icke-terminaler) och t T (d.v.s. är en terminal). Alternativt begrepp: Spegelvända begreppet vänsterlinjär grammatik ger samma beräkningsmässiga styrka. 47 48

Reguljära uttryck: semantik (repetition) Reguljära uttryck är ett annat sätt att definiera språk av typ 3 (s.k. reguljära språk). Basuttryck: D(ε) = {ε}. Om s Σ, där Σ är alfabetet, så D(s) = {s}. Konkatenering (ibland skrivs mer explicit R 1 R 2 istället för R 1 R 2 ): D(R 1 R 2 ) = {xy x D(R 1 ) och y D(R 2 )}. Reguljära uttryck: semantik (repetition) Union (alternativitet) (ibland skrivs R 1 R 2 istället för R 1 R 2 ) D(R 1 R 2 ) = {x x D(R 1 ) eller x D(R 2 )}. Kleenehölje (godtycklig självkonkatenering) D(R ) = {x 1 x 2...x n n 0 och x i D(R)} Förkortade skrivsätt: R + för RR. (R) (optionalitet i SWB 2.2.2) för R ε. 49 50 Kontextfri grammatik (CFG) träd För en CFG gäller att ett träd tillåts av omm: Rotnoden (den utan moder) är märkt med grammatikens startsymbol. Varje modernod med dotternoder (=lokalt träd) matchar en regel i grammatiken. Lövnoderna (lexikala, terminala) matchar lexikoningångar. En sträng tillåts av grammatiken om det finns ett motsvarande träd. det en Syntaxträd, regler, lexikon n katt S v såg VP det flera n hundar S VP det n VP v det en n katt v såg det flera n hundar 51 52 CFG, ännu mer formellt Vanligt sätt att definiera en CFG formellt: En CFG är en kvadrupel N, T, P, S, där N är mängden icke-terminaler (kategorisymboler), T är mängden terminaler (ord), P är mängden av regler (inklusive lexikoningångar) och Σ är startsymbol. En CFG definierar en mängd träd och en mängd strängar icke-terminaler (alltså ett språk i Chomskys mening). CFG, ännu mer formellt, exempel Exempel på en CFG, N,T,P,Σ (utifrån tidigare träd): N = {S,, VP det, n, v} T = {en, flera, hundar, katt, såg} P = { S VP, det n, VP v, det en, n katt, v såg, det flera, n hundar } Σ =S 53 54 Syntaxträd, regler, lexikon S VP Han v såg dem Han S v såg dem Teori och data En vetenskaplig teori formuleras normalt genom generella principer. (De gäller t.ex. modern svenska.) Konsekvenser av teorin kallas teorem. Dessa kan vara partikulära (gälla enskilda fall, t.ex. en enskild sats). Data: fakta om verkligheten som vi kan samla ihop genom att observera den. Eller (typiskt i grammatiken) genom att konsultera våra intuitioner. Exempelvis: En hund skäller är en grammatisk sats på svenska. 55 56

Formalisering i grammatiken Axiomatisering: axiom och härledningsregler. Det blir helt uttryckligt vilka teorins konsekvenser (teorem) är. Önskemål: Systematik: Teorin skall vara enkel, begriplig och överskådlig. Parsing och generering utifrån en grammatik bör vara implementerbart. Bra algoritmer bör finnas. Grammatikalitetsdata Data om vilka ordsekvenser som är grammatiskt OK (grammatiska) på ett språk. Om man kan ett språk så har man intuitioner om detta. Dessa blir data mot vilka grammatiker kan bedömas. Metodproblem: Kan vanligt folk skilja mellan grammatiska och andra felaktigheter? 57 58 Hypotetisk-deduktiv metod (1) Hypotetisk-deduktiv metod är en grundkomponent i vetenskapligt tänkande. Man formulerar en teori. Prövar det teorin säger mot verkligheten (data). Man avvisar (reviderar) teorin om den inte stämmer. En teori som stämmer kan betraktas som vetenskapligt hållbar om man prövat den väl, d.v.s. letat ordentligt efter potentiellt falsifierande data. Hypotetisk-deduktiv metod (2) Framställningen i Sag, Wasow och Bender följer ofta hypotetisk-deduktiva tankebanor. En teori (grammatik) ställs upp; konsekvenserna bedöms och teorin avvisas. En ny teori (grammatik) ställs upp, och utsätts för samma granskning. Vitsen är att det skall framgå VARFÖR olika komponenter i teorierna behövs. 59 60 Hypotetisk-deduktiv metod (3) Ställ upp en teori (hypotes, som skall prövas). Pröva teorin(s teorem) mot data. Stämmer den? NEJ: Revidera teorin (ställ upp en ny hypotes) och prova den på samma sätt. JA: Fortsätt leta efter data och pröva teorin mot dem. (Man kan ju aldrig bli säker på att teorin är OK, då det hela tiden kan komma nya data.) Eller var för tillfället nöjd med teorin. Formell grammatik historia (1) Formalisering inom logiken, sent 1800-tal (Frege, m.fl.). Kategorialgrammatik (Ajdukiewicz 1935, Bar-Hillel 1953) Immediate constituency, IC-analys, 1940-talet. Amerikansk lingvistik. Noam Chomsky mitten av 1950-talet: Transformationsgrammatik. Syntactic Structures 1957. 61 62 Formell grammatik historia (2) Chomskyan revolution stor förändring av språkvetenskapen. Formell grammatik får en central ställning. Modern lingvistik : 1960-talet. Många olika skolor och teorier inom FG etableras. Datorimplementationer datorlingvistik: 1960-talet och framåt. Rik utveckling. De senaste decennierna: Formell grammatik kombineras med korpuslingvistik och maskininlärning. Tillämpningsorienterade perspektiv inom språkteknologin. 63