Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys Fraser. Huvuden bestämningar. Svenskans ord (SUC s etiketter) Mats Dahllöf Institutionen för lingvistik och filologi Januari 2012 Diagnostiskt prov 1 2 Kursen Grundligt översedd 2010 utifrån student- och lärarsynpunkter. (Efter er: annan fördelning av grammatiken över kurser.) Mer fokus på kopplingen till traditionell grammatik. Särdragsgrammatik mer elementärt. Särdragsgrammatikverktyg: DCG/Prolog. (Välj gärna annat själva.) Ny examinationsmodell. Uppdaterad kurslitteratur. Kursförloppet snabb återkoppling bra! 3 Lärandemål Efter avslutad kurs skall studenten för att förtjäna betyget Godkänd minst kunna: (1) redogöra för grammatikanalysens relevans för de viktigaste språkteknologiska delområdena; (2) analysera meningar på svenska och engelska i termer av frasstruktur och i viss mån värdera alternativa analysmöjligheter; (3) analysera den syntaktiska strukturen hos meningar på svenska och engelska i termer av grammatisk valens; 4
Lärandemål, forts. (4) analysera meningar på svenska och engelska i termer av dependensrelationer och i viss mån värdera alternativa analysmöjligheter i förhållande till varandra; (5) formulera kontextfria grammatiker för syntaktisk analys av fragment av svenska och engelska och i viss mån värdera alternativa formuleringar; (6) redogöra för hur en särdragsgrammatikformalism kan användas för att formalisera t.ex. kategoritilldelning, valensbindning, kongruens och kasusstyrning; (7) hantera något datorverktyg för arbete med formella grammatiker. 5 Grammatiska grundinsikter Lärandemålen förutsätter allmänna grammatiska grundinsikter (typ skolgrammatik med analytisk förståelse). Både morfologi och syntax. För en språkteknolog (eller annan språkvetare) är detta grundkunskaper. Man bör ha mycket god förmåga att analysera svenska och engelska (i princip all text, allt tal). Man skall kunna motivera analyser. (Semantik mycket svårare.) 6 Grammatikens delar FONOLOGI/ORTOGRAFI ljudförrådet, hur ljuden får kombineras (fonotax) grafemförrådet, hur grafem får kombineras (grafotax) MORFOLOGI strukturen inom ord, hur morfer bildar ord SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar större enheter Grammatik vs semantik Relativt svår distinktion, teoretiskt sett GRAMMATIK (form) abstrakt form, grammatikalitet SEMANTIK (innehåll) språkets relation till verkligheten, (syftning/referens) meningsfullhet och -löshet, sant och falskt, logik. Distinktionen kommer alltid att ha ett mått av vaghet och godtycke. Språkteknologer har i allmänhet en instrumentalistisk syn på uppdelningen. 7 8
Grammatisk analys i språkteknologin Grammatiken kan ses som ett första steg i förståelsen av språk som språk. Grammatiken ger en grovhuggen bild av innehållet. Relevant för i stort sett alla delområden inom ST: Man kan nästan säga att det är känslighet för grammatisk struktur som definierar språkteknologi. Språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. Grammatik-, stavnings- och stilkontroll (givetvis). Informationssökning och -extraktion. Maskinöversättning: analys av källspråket. Talsyntes (intonation, disambiguering, etc). 9 10 Språkteknologisk relevans (2) Grammatik är även viktigt i språkteknologisk generering av yttranden/text: Maskinöversättning: generering till målspråket måste t.ex. repektera ordföljdsprinciper, kongruens och valens. Dialogsystem: generera yttranden. Pedagogiska program: generera problem. Grammatisk analys ur ST-perspektiv Hur skall analysen representeras formellt? Vilken grundtyp är det? (Dependenser? Frasstrukturer? Eller?) Hur skall analysen se ut? Teorin om språket ifråga. Annotationsmanual för mänskliga uppmärkare. Hur kan vi automatiskt tilldela texter sådan här analys? (Parser.) Som bygger på inlärning? Som bygger på handskrivna regler? 11 12
Grammatik: deskriptiv eller normativ Lingvister brukar framhålla att grammatiken skall var deskriptiv och beskriva hur folk använder språk. Grammatik används också för normativa syften. Den säger hur man bör uttrycka sig (för att tala/skriva korrekt). (Språkteknologi språkgranskning.) I båda fallen utgår man ofta från vårdad prosa och glömmer andra typer av text och tal. Grammatik: möjligheter eller språkbruk En del grammatikteori lyfter fram studiet av språkets möjligheter ur grammatisk synvinkel. Vad går att säga (t.ex. på korrekt svenska)? Grammatikalitet är då ett viktigt begrepp. Chomsky-traditionen: Människor har mentala grammatiker som ligger bakom språkbruket. (Kategoriska regler.) En annan inriktning är att fokusera på hur faktisk språkanvändning ser ut: Vad är det som förekommer? Relativa frekvenser är då kanske mer intressanta än grammatikalitet/korrekthet på ett mer abstrakt plan. (Mer eller mindre sannolika strukturer.) 13 14 Korpusar, en typ av datasamlingar Korpus: stor samling med autentiska språkexempel (texter eller samtal), visar hur folk faktiskt använder språk (representativitet). Detta är kanske viktigare (för en lingvist/språkteknolog) än frågan om grammatikalitet. Korpusdata kan även avslöja relativa frekvenser hos olika grammatiska fenomen. En korpus innehåller förmodligen (normativt sett) ogrammatiska saker. Trädbanker, en typ av korpusar En korpus med syntaktisk uppmärkning kallar man för en trädbank, då det ofta handlar om något slags syntaxträd. Den kan t.ex. användas för träning av maskininlärningsbaserade modeller eller för utvärdering. Bra trädbanker är dyra. (Varför?) Det är alltså viktigt vilken sorts syntaktisk uppmärkning man arbetar med. Konvertering från en typ av uppmärkning till en annan blir ofta en viktig fråga när man skall kombinera trädbanksdata. 15 16
Grammatikalitet Ett naturligt språk erbjuder en oändlighet av (grammatiska) möjligheter: Många grammatiska strängar kommer aldrig att användas. Många grammatiska strängar är semantisk sett udda (och därför oanvändbara). Många grammatiska strängar är så komplexa att man inte kan hålla reda på deras struktur. Alltså: grammatisk användbar (i språket) (Chomsky). Grammatikalitetsdata, exempel Svenska OK: Hon ser på honom. Hon ser honom. Honom ser hon. Svenska inte OK: *Hon ser honom på. *Henne ser honom. *Ser honom hon. Grammatiska intuitioner 17 18 Ord, lexem, ordformer Ord: teoretiskt sett ganska svår typ av enhet. Grammatiskt sett hårt sammanbundna enheter. Böjning. Betoning. Självklar endast för vissa skrivna språk. Och inte ens då: isn t. t.ex.. Ordförekomst/löpord: Konkreta förekomster i text eller tal. Förekomster kan taggas som instanser av olika sorters ordtyper. Morfologi Man brukar räkna med tre slag av morfologiska processer : Böjning: Inom samma lemma. Följer regelbundna mönster. Semantiskt förutsägbart. hus huset, vara är. Avledning: Ger nytt lemma m.h.a. affix. Formellt och semantiskt mindre förutsägbart. (Lexikalisering.) hus huslig, prata pratig. Sammansättning: Ger nytt lemma av två givna. Semantik inte helt förutsägbar. (Lexikalisering.) Mycket produktivt i svenskan. 19 20
Ordtyper, olika begrepp Graford: definieras av teckensekvens. (Bestäms av tokenisering.) Versal/gemen kan neutraliseras. Lemma: ett uppslagsord (abstrakt enhet) med samma ordklass- och böjningsmönster. T.ex. lägger/lade; skärm/skärmen. ( Lemmatisering.) Lexem: en bestämd betydelse knuten till ett lemma. ( Word sense disambiguation.) Böjningsform: Ett lemma (eller lexem) med specificerad böjning. Former av älska: älska (infintiv), älskar (presens), älskande (presens particip), o.s.v. Morfem Grammatikens minsta enheter: de minsta betydelsebärande enheterna. (Jfr: fonem: de minsta betydelseskiljande enheterna.) Vissa morfem kan stå som ord (fria morfem), t.ex. hus, semester, med, se, etc. Andra morfem kan inte det (bundna morfem), t.ex. (hus)lig, (semester)n, (se)r, etc. Uttryck som rimligen är morfem ur samtida synvinkel kan vara sammansatta ur tidigare språkstadiers synvinkel (hemlig, portfölj). 21 22 Syntax, två beskrivningssätt Frasstruktur: Syntaktiskt sammanhängande ordsekvenser bildar fraser. Fraser kan vara konstituenter i (större) fraser. Fraserna är syntaktiska entiteter utöver orden (egna noder i frasstrukturträd). Fraserna beskrivs som tillhöriga kategorier. Dependensstruktur: Syntaxen beskrivs i termer av relationer (dependenser) mellan ord, där ena ordet är överordnat. Ofta på ett sådant sätt att vi får trädstrukturer. Fraser motsvarar då dependensdelträd. Dessa kan både kompletteras med mer information eller göras mer avskalade. 23 Dependensanalys, exempel art subj dobj art w 0 w 1 w 2 w 3 w 4 En student läste en bok 24
Motsvarande frasstruktur, platt S S Motsvarande frasstruktur, med VP-nod under S-nod S NP vtr NP NP VP det n läste det n det n vtr NP en student en bok en student läste det n Dependensträdet motsvarar närmast ett sådant här frasstrukturträd. en bok Med frasstruktur kan vi införa rikare struktur, t.ex. en VP-nod av vanlig typ. 25 26 Dependens kontra frasstruktur Om vi har information i varje fras om vilken konstituent som är huvud, så kan vi konstruera ett dependensträd utifrån ett frasstrukturträd. (Dependensetiketter kan härledas på olika sätt.) Frasstrukturanalys tillåter rikare struktur (noder även utöver orden) (illustreras av exemplen). Detta kan vara en nackdel i språkteknologiska sammanhang, p.g.a. att det ger fler alternativ och mer utrymme för ambiguitet. Fraser/konstituenter principer Enheter som hänger ihop grammatiskt. Teoretisk motivation: fraser av en viss kategori kan förekomma i olika kontexter. (Egna enheter/moduler av struktur.) Exempel: Den lilla hunden skäller. (som subjekt) Lisa köpte den lilla hunden. (som objekt) Lisa tittade på den lilla hunden. (som prepositions rektion) Beskrivningen av (olika slag av) nominalfraser kan alltså återanvändas i olika kontexter. 27 28
Kriterier som stödjer att något är en fras I grammatiken handlar det ofta om att tillämpa olika kriterier för att stödja eller vederlägga en viss analys. Olika kriterier kan ge olika utfall och analysen av ett visst fenomen kan vara mindre självklar. Man måste då kanske bestämma sig för ett visst synsätt. Kriterier/tester för fras-skap Semantiken måste ofta stödja (och ligger bakom) våra intuitioner om frasstatus. Exempel: Lisa köpte den lilla hunden. KRITERIUM: En fras kan typiskt återanvändas (med bibehållen betydelse) i olika kontexter. Jag såg den lilla hunden genom fönstret. Specialfall: Den hänger ihop när man modifierar ordföljden i en mening. Den lilla hunden var det som Lisa köpte. 29 30 Kriterier/tester för fras-skap, forts. Exempel: Lisa köpte den lilla hunden. KRITERIUM: En fras kan ofta ersättas av en kortare fras eller ett enda ord (med samma sorts betydelse). Lisa köpte hunden. Lisa köpte den. KRITERIUM: kongruens har en fras räckvidd. Lisa köpte en liten hund. Lisa köpte ett litet djur. Lisa köpte de små hundarna. Kriterier/tester för fras-skap, forts. Exempel: Lisa köpte den lilla hunden. KRITERIUM: Två fraser av samma kategori kan samordnas och bilda en samordning av samma kategori. Lisa köpte den lilla hunden och den stora katten. KRITERIUM: En fras kan befrågas (byt ut mot frågeord och arrangera till frågeordföljd) och ges som svar på frågan. Vad köpte Lisa? Den lilla hunden. 31 32
Huvud bestämning Många fraser innehåller ett ord (huvudet) som är den centrala enheten. Övriga delar av frasen ingår i den genom sina kopplingar till huvudet och räknas som bestämningar. Endocentriska konstruktioner har huvud. Exocentriska konstruktioner har inget huvud. Huvud, kriterier När vi bedömer vad som är huvud respektive bestämning så utgår vi från ett antal kriterier. Dessa kriterier är ibland ganska vaga. Deras utfall kan därför bli obestämt. Det finns alltså ofta ett spelrum för personligt tycke och smak när vi utser huvuden och bestämningar. Om vi skall utföra systematiska analyser behöver vi nog en annotationsmanual, där vi listar våra bedömningar för olika typer av konstruktioner. (Exempel [för danska], se: Kromann et al.http://www.treebank.dk.) 33 34 Huvud, typiska egenskaper (1) Huvudet är typiskt obligatoriskt. Bestämningar kan ofta strykas; eventuellt krävs då omböjning av huvudet. Exempel (att bedöma i lämpliga meningskontexter): nu när som helst nu den gröna bilen därborta bilen en fin bil bilen han som står i hörnet han påfallande söt i smaken söt Huvud, typiska egenskaper (2, ex 1) Huvuddotterns kategori bestämmer hela frasens kategori. Exempel (inte så strikta vad gäller antalet generationer ): Substantiv (nomen) och pronomen ger nominalfras. den gröna bilen därborta han som står i hörnet Verb ger verbfras eller sats. (De) sover ofta oroligt (Hon) gav honom en bok 35 36
Huvud, typiska egenskaper (2, ex 2) Huvuddotterns kategori bestämmer hela frasens kategori. Fler exempel: Adjektiv ger adjektivfras påfallande söt i smaken Preposition ger prepositionsfras. på vinden Adverb ger adverbfras. mycket fort nu när som helst Huvud, typiska egenskaper (2, tillägg) Huvudordets böjning bestämmer ofta (inte alltid) motsvarande egenskap hos frasen. Exempel: Adjektivets kongruensegenskaper ger adjektivfrasens kongruensegenskaper mycket surt i smaken Bestämt substantiv ger alltid bestämd nominalfras den gula bilen (men obestämt substantiv kan vara huvud i bestämd nominalfras, som min bil) Verb i infinitiv är huvud i infinitiv(verb)fras. 37 38 Huvud, typiska egenskaper (3) Huvudet är semantiskt sett det avgörande ledet. Exempel: det regnar lite... handlar primärt om att det regnar den gröna bilen därborta... måste vara en bil påfallande söt i smaken... söt (smak) är det avgörande Huvud, typiska egenskaper (4) Huvudet väljer (kräver/tillåter) bestämningar, utifrån sin valens. Exempel: Hon ger honom en bok. *Hon ger honom. Verbet kräver två objekt, vilket de flesta verb inte gör. professor i lingvistik *person i lingvistik Substantivet accepterar en bestämning, som bara kan kopplas till ett fåtal substantiv. 39 40
Huvud, typiska egenskaper (5) Bestämningens morfologiska form beror på huvudets inverkan (kongruens/styrning). Exempel: Hon ger honom en bok. (kasusstyrning) *Hon ger han en bok. ett fint hus (kongruens) *ett fint hus Huvud, typiska egenskaper (6) Bestämningarnas linjära följd beror på deras relation till huvudet. Exempel: Igår gav hon honom en bok. (Satsscheman för svenska utgår från satsdelar som bestämningar till verbet.) 41 42 Samordning/koordination/paratax en typ av konstruktion (exocentrisk/ huvudlös ) Jämställda led kopplas samman, med konjunktion(er). Helhetens kategori sammanfaller med de samordnade ledens kategori. De samordnade leden är semantiskt jämställda. [[det gröna äpplet] och [den röda paprikan]] (NP) [det [regnar och blåser]] (VP) [[Pelle sover] och [Lisa är vaken]] (S) Samordning, schematisk frasstruktur X X konjunktion X X: Nästan vilken kategori som helst. Vissa grammatiska drag kan ändras: en hund och en katt blir pluralis. 43 44
Underordning/subordination/hypotax en typ av konstruktion motsats till samordning. Ett led är överordnat, huvudet (huvudord/huvudfras). Huvudets systrar är underordnade, och kallas bestämningar. Underordning, schematisk bild X 1 F X 0 E X 0 och X 1 besläktade kategorier (olika nivå ). F och E: Fram-, resp. efterställda bestämningar. E och F ingen, en, eller flera döttrar. 45 46 Orden i svenskan: översikt genom SUC SUC s ordklasstaggar (22 st.) och böjningsetiketter ger en översikt över ur syntaxens synvinkel viktiga distinktioner mellan svenskans ord och över deras böjningssätt. Taggarna utformade för att ge en rimlig grad av finkorninghet. För grovt: vi går miste om potentiellt värdefull information. För fint: Materialet blir mer svårtaggat. Riskerna för inkonsekvenser och felaktigheter ökar. Orden i svenskan: översikt genom SUC Detta bör ni kunna redogöra för och tillämpa på godtycklig text: Vilka kriterier kännetecknar en ordklass- eller böjningskategori? (Friska upp och skärpa grammatikinsikterna.) Hur böjs orden inom en viss ordklasskategori? (Ofta viktigt som kriterium för kategoritillhörighet.) Är det en öppen eller sluten klass? I vilka syntaktiska sammanhang ingår ord av de olika typerna? (Inklusive: Vilka valensmöjligheter finns?) 47 48
SUC s ordklasser (22 st.) (1: direkt verb-relaterade) Tematiskt grupperade (av mig). Skolans nio klassiska ordklasser i fetstil. SUC-förkortning kategori exempel VB Verb kasta IE Infinitivmärke att PC Particip utsänd PL Partikel ut (Källa: Sofia Gustafson-Capková and Britt Hartmann (2006) Manual of the Stockholm Umeå Corpus version 2.0.) SUC s ordklasser (22 st.) (2: nominala) NN Substantiv skrivbord PM Egennamn Mats PN Pronomen hon PS Possessivt pronomen hennes HP Frågande/relativt pronomen som HS Frågande/relativt possessivt pronomen vars DT Determinerare denna HD Frågande/relativ determinerare vilken 49 50 SUC s ordklasser (22 st.) (3) JJ Adjektiv glad AB Adverb inte HA Frågande/relativt adverb när Avledningen av ett adverb från ett adjektiv liknar böjning. Typ: Sången är fin. (adjektiv, singularis, obestämt, utrum) Stycket är fint. (adjektiv, singularis, obestämt, neutrum) De sjunger fint. (adverb) SUC s ordklasser (22 st.) (4) KN Konjunktion och SN Subjunktion att PP Preposition av (Räkneord) RG Grundtal tre RO Ordningstal tredje IN Interjektion ja UO Utländskt ord the 51 52
SUC s böjningskategorier (1) Genus DT, HD, HP, JJ, NN, PC, PN, PS, (RG, RO) UTR utrum (tavla) NEU neutrum (bordet) MAS maskulinum (neutrale) Numerus DT, HD, HP, JJ, NN, PC, PN, PS, (RG, RO) SIN singularis (tavla) PLU pluralis (tavlor) SUC s böjningskategorier (2) Bestämdhet DT, (HD, HP, HS), JJ, NN, PC, PN, (PS, RG, RO) IND obestämd (tavlor) DEF bestämd (tavlorna) Kasus JJ, NN, PC, PM, (RG, RO) NOM nominativ (tavlorna) GEN genitiv (tavlornas) Pronomenform PN SUB subjektsform (hon) OBJ objektsform (henne) 53 54 SUC s böjningskategorier (3) Tempus VB (förstås i vid bemärkelse) PRS presens (jagar) PRT preteritum (jagade) SUP supinum (jagat) INF infinitiv (infinite?) (jaga) Diates (voice) VB AKT aktiv SFO s-form (passiv eller deponens) SUC s böjningskategorier (4) Modus VB KON konjunktiv (subjunctive) (vore) indikativ ej utmärkt (är) Participform PC PRS presens particip (jagande) PRF perfekt particip (jagad) (Not: Presens och perfekt är ganska missvisande ord i relation till participen. Handlar snarare om diates än tempus.) 55 56
SUC s böjningskategorier (5) Komparationsgrad AB, JJ POS positiv (fort) KOM komparativ (fortare) SUV superlativ (fortast) Sammansatt alla ordklasser SMS sammansatt (datorskärm) ej sammansatt ej utmärkt (tavla) 57