Datorligvistisk grammatik I (OH-serie 1) Mats Dahllöf Istitutioe för ligvistik och filologi 060905 (Med ej visade bilder!) LEKTION 1: iehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språktekologisk relevas. Grammatiska begrepp (viss repetitio) Frasstrukturaalys och CFG (repetitio). 1 2 Grammatikes delar (repetitio) FONOLOGI ljudförrå, hur ljude får kombieras (footax) MORFOLOGI strukture iom ord, hur morfer bildar ord SYNTAX strukture iom fraser(, satser och meigar) hur orde bildar större eheter Grammatik vs sematik (repetitio) Relativt svår distiktio, teoretiskt sett GRAMMATIK (form) abstrakt form, grammatikalitet SEMANTIK (iehåll) språkets relatio till verklighete, (syftig/referes) meigsfullhet och -löshet, sat och falskt 3 4 Formell vs traditioell grammatik Tedeser (me mkt gemesamt, olika avädig): formell grammatik traditioell grammatik precisio vaghet systematik heterogeitet explicithet implicithet veteskaplig, empirisk ofta preskriptiv ofta implemeterbar ej implemeterbar 1900-talssak reda de gamla grekera Formaliserig i grammatike Axiomatiserig: axiom och härledigsregler. Det blir helt uttryckligt vilka teoris kosekveser (teorem) är. Öskemål: Systematik: Teori skall vara ekel, begriplig och överskådlig. Parsig och geererig utifrå e grammatik bör vara implemeterbart. Bra algoritmer bör fias. 5 6 Teori och data E veteskaplig teori formuleras ormalt geom geerella priciper. (De gäller t.ex. moder sveska.) Kosekveser av teori kallas teorem. Dessa ka vara partikulära (gälla eskilda fall, t.ex. e eskild sats). Data: fakta om verklighete som vi ka samla ihop geom att observera de. Eller (typiskt i grammatike) geom att kosultera våra ituitioer. Exempelvis: E hud skäller är e grammatisk sats på sveska. Hypotetisk-deduktiv metod (1) Hypotetisk-deduktiv metod är e grudkompoet i veteskapligt täkade. Ma formulerar e teori. Prövar teori säger mot verklighete (data). Ma avvisar (reviderar) teori om de ite stämmer. E teori som stämmer ka betraktas som veteskapligt hållbar om ma prövat de väl, d.v.s. letat ordetligt efter potetiellt falsifierade data. 7 8
Hypotetisk-deduktiv metod (2) Framställige i Sag, Wasow och Beder följer ofta hypotetisk-deduktiva takebaor. E teori (grammatik) ställs upp; kosekvesera bedöms och teori avvisas. E y teori (grammatik) ställs upp, och utsätts för samma graskig. Vitse är att skall framgå VARFÖR olika kompoeter i teoriera behövs. Hypotetisk-deduktiv metod (3) Ställ upp e teori (hypotes, som skall prövas). Pröva teori(s teorem) mot data. Stämmer de? NEJ: Revidera teori (ställ upp e y hypotes) och prova de på samma sätt. JA: Fortsätt leta efter data och pröva teori mot dem. (Ma ka ju aldrig bli säker på att teori är OK, då hela tide ka komma ya data.) Eller var för tillfället öjd med teori. 9 10 Grammatikalitetsdata Data om vilka ordsekveser som är grammatiskt OK (grammatiska) på ett språk. Om ma ka ett språk så har ma ituitioer om ta. Dessa blir data mot vilka grammatiker ka bedömas. Metodproblem: Ka valigt folk skilja mella grammatiska och adra felaktigheter? Grammatikalitetsdata, exempel Sveska OK: Ho ser på hoom. Ho ser hoom. Hoom ser ho. Sveska ite OK: *Ho ser hoom på. *Hee ser hoom. *Ser hoom ho. 11 12 Korpusdata Korpus: stor samlig med autetiska språkexempel (texter eller samtal), visar hur folk faktiskt aväder språk (represetativitet). Detta är kaske viktigare (för e ligvist/språktekolog) ä fråga om grammatikalitet. Korpusdata ka äve avslöja relativa frekveser hos olika grammatiska feome. E korpus iehåller säkert ogrammatiska saker. Formell grammatik historia (1) Formaliserig iom logike, set 1800-tal (Frege, m.fl.). Kategorialgrammatik (Ajdukiewicz 1935, Bar-Hillel 1953) Immediate costituecy, IC-aalys, 1940-talet. Amerikask ligvistik. Noam Chomsky mitte av 1950-talet: Trasformatiosgrammatik. Sytactic Structures 1957. 13 14 Formell grammatik historia (2) Chomskya revolutio stor förädrig av språkveteskape. Formell grammatik får e cetral ställig. Moder ligvistik : 1960-talet. Måga olika skolor och teorier iom FG etableras. Datorimplemetatioer datorligvistik: 1960-talet och framåt. Rik utvecklig. Se seaste deceiera: Formell grammatik kombieras med korpusligvistik och statistiska metoder. Tillämpigsorieterade perspektiv iom språktekologi. Språktekologisk relevas (1) Ma behöver aalysera grammatisk struktur i måga språktekologiska tillämpigar. Grammatik-, stavigs- och stilkotroll (givetvis). Iformatiossökig och -extraktio. Maskiöversättig: aalys av källspråket. Talsytes (itoatio, disambiguerig, etc). 15 16
Språktekologisk relevas (2) Grammatik är äve viktigt i språktekologisk geererig av yttrade/text: Maskiöversättig: geererig till målspråket. Dialogsystem: geerera yttrade. Pedagogiska program: geerera problem. Grammatik språk i formell, matematisk meig (Chomsky). Ett språk är e mägd strägar E grammatik defiierar ett språk. E grammatik defiierar e mägd sytaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi ka läsa av sträge ur trä). 17 18 Grammatikalitet Ett aturligt språk erbjuder e oädlighet av (grammatiska) möjligheter: Måga grammatiska strägar kommer aldrig att avädas. Måga grammatiska strägar är sematisk sett udda (och därför oavädbara). Måga grammatiska strägar är så komplexa att ma ite ka hålla reda på deras struktur. Alltså: grammatisk avädbar (i språket) (Chomsky). Morfem (repetitio) Grammatikes mista eheter: de mista betydelsebärade ehetera. (Jfr: foem: de mista betydelseskiljade ehetera.) Vissa morfem ka stå som ord (fria morfem), t.ex. hus, semester, med, se, etc. Adra morfem ka ite (buda morfem), t.ex. (hus)lig, (semester), (se)r, etc. 19 20 Ord, lexem, ordformer (repetitio) Ord: teoretiskt gaska svåra typer av ehet. Självklar edast för vissa skriva språk. Ordförekomster: grammatiskt sett hårt sammabuda eheter. Betoig i uttal. Lexem: ett uppslagsord (abstrakt ehet). T.ex. verbet älska, substativet bord. Böjigsform: Mer kokret form ett lexem ka ata. Former av älska: älska (ifitiv), älskar (preses), älskade (preses particip), o.s.v. 21 Ord och morfem (repetitio) Fria morfem bildar ordformer. Adra ordformer är sammasatta, kombiatiostyper: Böjig (iom ett lexem), t.ex. hus-e-s, läs-te-s. Avledig (ytt lexem frå aat), t.ex. läs-lig, läs-ig, hus-lig. (Avlett lexem ka i si tur böjas.) Sammasättig (två lexem kombieras till ett ytt), t.ex. husbåt, gulgö, citropaj. (Sammasatt lexem ka i si tur böjas.) 22 Fraser/kostitueter (repetitio) Eheter som häger ihop grammatiskt. Teoretisk motivatio: fraser av ett slag ka förekomma i olika kotexter. (Ega eheter av struktur.) Exempel: De lilla hude skäller. (som subjekt) Lisa köpte de lilla hude. (som objekt) Lisa tittade på de lilla hude. (som prepositios rektio) Beskrivige av (olika slag av) omialfraser måste kua återavädas i olika sammahag. 23 Fraser/kostitueter: egeskaper Egeskaper som ofta talar för frasstatus: (ex. Lisa köpte de lilla hude.) Ka flyttas. De lilla hude var som Lisa köpte. Ka befrågas. Vad köpte Lisa? De lilla hude. Ka samordas. Lisa köpte de lilla hude och de stora katte. Sematike ka stödja (och ligger bakom) våra ituitioer om frasstatus. 24
Fraser/kostitueter: distributio Distributio: Vilka grammatiska satskotexter ett uttryck ka förekomma i. Om två fraser har olika distribitio så fis grammatiska satser i vilka ea uttrycket förekommer och där ite ka bytas mot adra uta att grammatikalitete fördärvas. de lilla hude och de stora katte har samma distribitio. de lilla hude och stora djuret har olika distribitio: De lilla hude är säll. *Det stora djuret är säll. Fraser/kostitueter: sytaktiska kategorier Grudpricip: Fraser med samma distribitio tillhör samma kategori. Fraser med olika distributio tillhör olika kategorier. Vi måste kua skilja på de lilla hude och stora djuret kategorimässigt. Vi aväder ofta också vidare kategorier: Begreppet omialfras täcker i måga olika omialfraser som vi måste kua skilja på. 25 26 Kostitues Sytaxes abstrakta del-helhetsbegrepp: kostitues. Ekla kostitueter: (typiskt) ord. Sammasatta kostitueter: fraser. omedelbar vs medelbar kostitues (mödrar domierar döttrar) kostituese placerar odera i e trädstruktur Visas som utritad graf: omedelbar kostitues blir streck eller geom bracketig : [i [låda [på [vide]]]] Lijär precedes = grammatikes abstrakta lijära ordig, (ordföljd och frasföljd) motsvarar före-efter i tal motsvarar väster-höger i skrift (Glöms lätt bort, eftersom ma fågar iformatioe gratis geom talets flöde i tide och skriftes riktig på pappret.) 27 28 Sytaxträd (med kategorietiketter) Grammatisk beskrivig av oder S Nodera svarar mot ord, fraser, satser och meigar. VP Vi måste kyta e beskrivig av språkliga uttrycket till varje od. e katt v såg Miimalt: e kategorisymbol (som i kotextfri grammatik) Mer utvecklat: Strukturerade beskrivigar, t.ex. särdragsstrukturer. flera hudar 29 30 Träd, logiska begräsigar, etc. Omedelbara kostituese (OK) ger just e trädstruktur (utifrå ett ädligt atal oder). (Träd (typ av graf): E od har ige moder; alla adra har precis e; ige cirkularitet.) Lijär precedes överesstämmer med OK. Alla döttrar ordas lijärt på rätt sätt. Precis e beskrivig per od. Noder som sakar döttrar kallas löv. Grammatik träd: typisk relatio För e kotextfri grammatik (CFG) gäller att ett träd tillåts av grammatike omm: Rotode (de uta moder) är märkt med grammatikes startsymbol. Varje moderod med dotteroder (=lokalt träd) matchar e regel i grammatike. Lövodera (lexikala, termiala) matchar lexikoigågar. 31 32
Sytaxträd, regler, lexiko CFG, äu mer formellt e katt S v såg VP flera hudar S VP VP v e katt v såg flera hudar Valigt sätt att defiiera e CFG formellt: E CFG är e kvadrupel N,T,P,S, där N är mägde icke-termialer (kategorisymboler), T är mägde termialer (ord), P är mägde av regler (iklusive lexikoigågar) och Σ är startsymbol. E CFG defiierar e mägd träd och e mägd strägar icke-termialer (alltså ett språk i Chomskys meig). 33 34 CFG, äu mer formellt, exempel Exempel på e CFG, N,T,P,Σ (utifrå tidigare träd): N = {S,, VP,, v} T = {e, flera, hudar, katt, såg} P = { S VP,, VP v, e, katt, v såg, flera, hudar } Σ =S 35 Parsig två begrepp Parsig egelska or för satslösig. Matematisk bemärkelse: Räka ut e strägs aalys (evetuellt träd) givet e grammatik. Empirisk/språktekologiskt praktisk bemärkelse: Räka ut de sytaktiska strukture hos aturligt förekommade språk. Vilke sorts språk? Hur fullstädigt? Med vilka begrepp? Med vilke grad av korrekthet/precisio/recall för olika aspekter? Viktigt: robusthet, haterig av ogrammatiskt material. 36 Parsigalgoritmer (1) Algoritmer: Mekaiska (effektiva) procedurer för att lösa giva problem, eller (mer tekiskt), beräka fuktioer. Alltså: De abstrakta pricipe bakom ett program. (Så att samma algoritm ka implemeteras på olika sätt och i olika programspråk.) Parsig i tekisk bemärkelse (och i sveska): sytaktisk aalys i dator, både av aturligt och artificiellt språk. Parsigalgoritmer (2) Parsigalgoritm: E algoritm som givet e typ av grammatik, och e sträg av symboler räkar ut e mägd aalyser (typiskt sytaxträd) som grammatike tilldelar sträge. Olika urval aalyser: alla (om grammatike tillåter ambiguitet), bästa (utifrå ågo ragordig), e eda, etc. Recogitio är ma bara får ett ja eller ej till fråga om grammatike ka geerera sträge. 37 38