Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten för att förtjäna betyget Godkänd minst kunna följande i relation till svenska eller engelska: (1) redogöra för relevansen av grammatisk analys för några viktiga språkteknologiska delområden; (2) definiera och/eller förklara ordkategoribegrepp och böjningskategorier som är aktuella i relation till aktuellt språk och diskutera sådana begreppsuppsättningar ur språkteknologiskt perspektiv; 1 2 Lärandemål, forts. (3) analysera och ange godtyckliga ordformer (i ett textsammanhang) i termer av grundform, ordklass och böjningkategorier; (4) göra av grammatiska resonemang underbyggda analyser godtyckliga meningar (i ett textsammanhang) genom att ange de ingående ordens och frasernas syntaktiska funktioner i termer av traditionella satslösningsbegrepp och därvid urskilja viktiga typer av fraser, huvud och bisatser; Lärandemål, forts. (5) tillämpa frasstrukturanalys för svenska meningar och formulera kontextfria grammatiker för elementära fragment av svenska; (6) redogöra för begreppet dependens samt uttrycka och motivera satslösningsbaserade analyser av meningar som dependensträd; (7) redogöra för användningen av annotationsmanualer i relation till språkteknologiska data. 3 4
Grammatiska grundinsikter Lärandemålen förutsätter allmänna grammatiska grundinsikter. Traditionell skolgrammatik med djupare analytisk förståelse. Både morfologi och syntax. För en språkteknolog (eller annan språkvetare) är detta viktiga grundkunskaper. Examination salstentamen Följer lärandemålen, förstås. Kunna svara på vissa elementära frågor. Applicera analys på autentisk text. Kunna exemplifiera utifrån grammatisk beskrivning. Man bör ha mycket god förmåga att analysera svenska eller engelska (i princip all normal text, allt tal). Man skall kunna motivera analyser med grammatiska resonemang. 5 6 Grammatikens delar FONOLOGI/ORTOGRAFI ljudförrådet, hur ljuden får kombineras (fonotax) grafemförrådet, hur grafem får kombineras (grafotax) MORFOLOGI strukturen inom ord, hur morfer bildar ord SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar större enheter Grammatik vs semantik Relativt svår distinktion, teoretiskt sett GRAMMATIK (form) abstrakt form, grammatikalitet SEMANTIK (innehåll) språkets relation till verkligheten, (syftning/referens) meningsfullhet och -löshet, sant och falskt, logik. Distinktionen kommer alltid att ha ett mått av vaghet och godtycke. Språkteknologer har i allmänhet en instrumentalistisk syn på uppdelningen. 7 8
Grammatisk analys i språkteknologin Grammatiken kan ses som ett första steg i förståelsen av språk som språk. Grammatiken ger en grovhuggen bild av innehållet. Relevant för i stort sett alla delområden inom språkteknologin: Man kan nästan säga att det är känslighet för grammatisk struktur som definierar språkteknologi. Språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. Grammatik-, stavnings- och stilkontroll (givetvis). Informationssökning och -extraktion. Maskinöversättning: analys av källspråket. Talsyntes (intonation, disambiguering, etc). 9 10 Språkteknologisk relevans (2) Grammatik är även viktigt i språkteknologisk generering av yttranden/text: Maskinöversättning: generering till målspråket måste t.ex. repektera ordföljdsprinciper, kongruens och valens. Dialogsystem: generera yttranden. Pedagogiska program: generera problem. Grammatisk analys ur ST-perspektiv Hur skall analysen representeras formellt? Vilken grundtyp är det? (Dependenser? Frasstrukturer? Eller?) Hur skall analysen se ut? Teorin om språket ifråga. Annotationsmanual för mänskliga uppmärkare. Hur kan vi automatiskt tilldela texter sådan här analys? (Parser.) Som bygger på inlärning? Som bygger på handskrivna regler? 11 12
Grammatik: deskriptiv eller normativ Lingvister brukar framhålla att grammatiken bör vara deskriptiv och beskriva hur folk använder språk. Grammatik används också för normativa syften. Den säger hur man bör uttrycka sig (för att tala/skriva korrekt). (Språkteknologi språkgranskning.) I båda fallen utgår man ofta från vårdad prosa och glömmer andra typer av text och tal. Grammatikalitetsdata, exempel Svenska meningar som är OK: Hon ser på honom. Hon ser honom. Honom ser hon. Svenska meningar som inte är OK: *Hon ser honom på. *Henne ser honom. *Ser honom hon. Grammatiska intuitioner 13 14 Ord, lexem, ordformer Ord: teoretiskt sett ganska svår typ av enhet. Grammatiskt sett hårt sammanbundna enheter. Böjning. Betoning. Självklar endast för vissa skrivna språk. Och inte ens då: isn t. t.ex.. Ordförekomst/löpord: Konkreta förekomster i text eller tal. Förekomster kan taggas som instanser av olika sorters ordtyper. Ordtyper, olika begrepp Graford: definieras av teckensekvens. (Bestäms av tokenisering.) Versal/gemen kan neutraliseras. Lemma: ett uppslagsord (abstrakt enhet) med samma ordklass- och böjningsmönster. T.ex. lägger/lade; skärm/skärmen. ( Lemmatisering.) Lexem: en bestämd betydelse knuten till ett lemma. ( Word sense disambiguation.) Böjningsform: Ett lemma (eller lexem) med specificerad böjning. Former av älska: älska (infintiv), älskar (presens), älskande (presens particip), o.s.v. 15 16
Ord måste analyseras i en kontext (1) Vad får man lägga ut på webben? (2) En som har får som ja känner ska klippa dom på torsdag. Samma graford: får. Olika lemma (och därmed lexem och börjningsform). (1) Presens, aktiv, av verbet få. (2) Plural, obestämd, grundkasus av substantivet får. Morfologi Tre huvudsakliga typer av morfologiska processer : Böjning: Inom samma lemma. Följer regelbundna mönster. Semantiskt förutsägbart. hus huset, vara är. Avledning: Ger nytt lemma m.h.a. affix. hus huslig, prata pratig. Lexikalisering. Form och semantik mindre förutsägbart. Sammansättning: Ger nytt lemma av två givna. Mycket produktivt i svenskan. Lexikalisering. Semantik inte helt förutsägbar. 17 18 Bestämma ordklass Tre typer av kriterier: Böjning. Ofta det mest avgörande. Syntax: (potentiella) relationer till andra ord. Semantik: typ av betydelse. Ofta svårtillämpat. Ordklasser, böjning, översikt Substantiv, verb, adjektiv: relativt regelbundna uppsättningar böjningsformer. Pronomen: varierande grupp lexem, varierande beteende. Artiklar: liten grupp lexem, kongruens. Adverb: varierande grupp lexem, vissa uppvisar komparationsböjning. 19 20
Ordklasser, böjning, översikt II Räkneord: grundtal och ordningstal, viss kongruens; oändligt många, men lätta att överblicka (en, två, tre..., och första, andra, tredje... ). Particip: adjektiviska former av verb. Perfekt particip kongruensböjs. Prepositioner, verbpartiklar, konjunktioner, subjunktioner, infinitivmärke, interjektioner böjs inte. Räknebara substantiv i svenskan (8 former) obestämd form bestämd form numerus: singular bil(s) bilen(s) hus huset(s) numerus: plural bilar(s) bilarna(s) hus husen(s) Med s så blir det kasus genitiv; annars grundkasus. De två formerna sammanfaller ibland, t.ex. hus. 21 22 Icke-räknebara substantiv i svenskan (4 former) Substantiv som smör och vrede är svåra att kombinera med räkning och plural. obestämd form bestämd form numerus: smör(s) smöret(s) neutral /singular vrede(s) vreden(s) Genus Substantiv tillhör ett av två genus i svenskan. Egenskap på lexemnivå. Avspeglas i böjningen, men modifieras inte. utrum, t.ex. bil och vrede. neutrum, t.ex. hus och smör. Genus avspeglas i kongruensböjning i singular. Även för adjektiv, artiklar, pronomen. Med s så blir det kasus genitiv; annars grundkasus. 23 24
Egennamn i svenskan (2 former) Egennamn med s blir det kasus genitiv; annars grundkasus, t.ex. Stockholm och Stockholms; Anders Borg och Anders Borgs; Anders och Anders (formerna sammanfaller). Egennamn är vanligtvis i singular; ett fåtal är i plural, t.ex. Pyrenéerna. Verb i svenskan (ofta max 13 former) neutral /aktiv form s-form/passiv form infinitiv jaga jagas tempus: presens jagar jagas tempus: preteritum jagade jagades supinum jagat jagats imperativ jaga presens particip jagande(s) perfekt particip jagad, jagat, jagade 25 26 Verb i svenskan (ofta max 13 former) neutral /aktiv form s-form/passiv form infinitiv läsa läsas tempus: presens läser läses tempus: preteritum läste lästes supinum läst lästs imperativ läs presens particip läsande(s) perfekt particip läst, läst, lästa Kopulaverbet vara neutral /aktiv form s-form/passiv form infinitiv vara tempus: presens är tempus: preteritum var supinum varit imperativ var presens particip varande perfekt particip 27 28
Verb i svenskan, mer Passiv bara för transitiva verb, d.v.s som tar objekt. Talspråkliga presens particip: jagandes, läsandes. Modus indikativ (vanligt påståendemodus), konjunktiv (som vore) och imperativ (se Josefsson). Men det är mer naturligt att se imperativ som en separat finit form för modern svenska. Den måste vara framtidsorienterad (och aktiv) p.g.a. sin semantik. Adjektiv i svenskan Komparation (med de olika kongruensformerna) positiv komparativ superlativ stor, stort, större störst, största, stora, store störste dålig, dåligt, värre värst, värsta, dåliga, dålige värste Oböjliga adjektiv finns, t.ex. nuvarande och släkt. 29 30 En del adverb kompareras; aldrig kongruens positiv komparativ superlativ fort fortare fortast dåligt värre värst Notera: Lejonet rörde sig snabbt (adverb). (Josefsson, s. 85.) Ett snabbt lejon Lejonet var snabbt (adjektiv). De snabba lejonen Lejonen var snabba (adjektiv). FLER TYPER AV ADVERB FINNS! Pronomen Etymologi: i stället för nomen (substantiv). Hjälpord för referens. Relativt komplicerad ordklass vad gäller böjning, syntaktisk användning och semantik. Semantisk huvudindelning: Definita (bestämda) pronomen Indefinita (obestämda) pronomen Syntax: Vissa hör ihop med substantiv och kongruensböjs, andra används obundet. 31 32
Definita (bestämda) pronomen Personliga (anaforiska) pronomen: jag, mig, du, dig, etc. Possessiva pronomen: min, din, etc. Reflexivt pronomen: sig Reflexivt och possessivt pronomen: sin Demonstrativa pronomen: denna, detta, etc. Determinativa pronomen: typ Den som är satt i skuld är icke fri. Indefinita pronomen Kvantitativa pronomen: någon, varje, alla, många, etc. Interrogativa (frågande) pronomen: vem, vad, hurdan (som fungerar som ett pro-adjektiv). (Ord som när, var, vart, varifrån, hur, varför är interrogativa adverb.) Relationella pronomen: samma, annan, nästa, sista, egen, enda, etc. Relativa pronomen: som, vars, etc. (I relativa bisatser.) 33 34