Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. Grammatik-, stavnings- och stilkontroll (givetvis). Måste fånga alla distinktioner man vi kontrollera, t.ex. böjning hos ord, kongruens, transitivitet, ordföljd (t.ex. inom satser satsdelar, BIFF-regeln, etc.) Informationssökning och -extraktion: T.ex. om vi hittar verbhandlingar Vem är subjekt? Vad är direkt objekt? När händer det? Var händer det? Etc. 1 2 Lite mer om språkteknologisk relevans (2) Maskinöversättning: Analys av källspråket bör dra så mycket nytta som möjligt av grammatiken för att fånga innehållet: Relevanta saker: Vad bestämmer vad? Fras blir fras. Satsdelar Generering till målspråket måste t.ex. repektera ordföljdsprinciper, kongruens och valens. Svenska: Jag gav honom boken. Franska: Je lui ai donné le livre. Språkteknologi grammatiska begrepp Grammatisk analys bygger på begreppsuppsättningar, för t.ex. ordkategorier, böjningsinformation, fras- och satskategorier och grammatiska funktioner. Dessa begrepp och begreppsuppsättningar varierar: Definitionen av enskilda begrepp kan variera. Uppsättningen begrepp som används kan variera. Detta gäller grammatikböcker, grammatikteorier och språkteknologiska system och data. 3 4
Språkteknologi grammatiska begrepp Grammatiska analyser kommer ursprungligen från mänskliga bedömningar. Det är viktigt att människorna som gör analyserna kan göra dem så konsekvent som möjligt. Reliabilitet i vilken grad exemplen får samma analys oavsett när och av vem analysen görs. Reliabilitet kan mätas och behöver kontrolleras i stora annoteringsprojekt. Vaga och svårbedömda begrepp ger sämre reliabilitet Språkteknologi grammatiska begrepp Människor som skall göra grammatiska analyser för ST-ändamål behöver vägledas av en annotationsmanual som anger vilka begrepp som skall användas, definitioner av dessa, exempel och diskussion av besvärliga fall. Man behöver även kontrollera korrekthet överensstämmelsen med ett facit, en guldstandard, både för mänskliga bedömare och automatiska system. Korrekthet andelen korrekta analyser av totala antalet analyser. 5 6 Språkteknologi grammatiska begrepp Om vi vill kontrollera ett systems eller en bedömares hantering av en viss efterfrågad egenskap, E (och har sanningen i form av en guldstandard): Precision: Andelen av utpekanden av E som är korrekta. (T.ex. Om man pekar ut 40 prepositioner och 30 av dessa är verkliga prepositioner 75 % precision.) Täckning (recall): Andelen verkliga E som pekas ut. (T.ex. Om 30 utpekade prepositioner är verkliga här kan vi strunta i om 10 är falskt utpekade av 50 verkliga prepositioner 60 % täckning.) Korstabell confusion matrix Utfall för en binär klassificering. Påhittat exempel med begreppet preposition och totalt 260 ord. utpekade objekt ej utpekade objekt taggade som prep inte taggade som prep verkliga exempel sanna positiva falska negativa verkliga prepositioner 30 20 verkliga icke-exempel falska positiva sanna negativa ord av andra ordklasser 10 200 7 8
Begrepps finkornighet Jämför (med utgångspunkt i Josefsson, s. 139), adverbial, TSRO-adverbial (i motsats till satsadverbial), rumsadverbial, positionsadverbial/riktningsadverbial ordning från mer generella begrepp (mindre informationsrika) till mer specifika begrepp (mer informationsrika). Ökad specificitet hos analysen subtilare bedömningar och mer utrymme för fel. Val av begreppsuppsättningar, maskininlärning och ST Hur mycket/vilken information i den grammatiska analysen är värdefull? Empirisk fråga. Ökad specificitet hos begrepp färre exempel för maskininlärning att arbeta på. (T.ex. fler adverbial än riktningsadverbial.) Ökad specificitet hos begrepp ytterligare utrymme för fel (som sagt). En maskininlärningtillämpning kan kanske hitta information på annat sätt än i grammatiska etiketter. 9 10 Anpassa data för ST-arbete Grammatisk uppmärkning dyr man vill återanvända befintliga data med befintliga uppmärkningar. Exempel: Ordkategorier i Stockholm Umeå Corpus (SUC), för svenska. Lätt gå från mer specifika till mindre specifika etiketter. T.ex. samla olika typer av adverbial under en etikett adverbial. Kanske krävs mer sofistikerad översättning mellan befintliga och önskade kategorier. Orden i svenskan: översikt genom SUC SUC s ordklasstaggar (22 st.) och böjningsetiketter ger en översikt över ur syntaxens synvinkel viktiga distinktioner mellan svenskans ord och över deras böjningssätt. Taggarna utformade för att ge en rimlig grad av finkorninghet. För grovt: vi går miste om potentiellt värdefull information. För fint: Materialet blir mer svårtaggat. Riskerna för inkonsekvenser och felaktigheter ökar. 11 12
Orden i svenskan: översikt genom SUC Påmminnelse: Detta bör ni kunna redogöra för och tillämpa på godtycklig text: Vilka kriterier kännetecknar en ordklass- eller böjningskategori? (Friska upp och skärpa grammatikinsikterna.) Hur böjs orden inom en viss ordklasskategori? (Ofta viktigt som kriterium för kategoritillhörighet.) Är det en öppen eller sluten klass? I vilka syntaktiska sammanhang ingår ord av de olika typerna? SUC s ordklasser (22 st.) (1: direkt verb-relaterade) Tematiskt grupperade (av mig). Skolans nio klassiska ordklasser i fetstil. SUC-förkortning kategori exempel VB Verb kasta IE Infinitivmärke att PC Particip utsänd PL Partikel ut (Källa: Sofia Gustafson-Capková and Britt Hartmann (2006) Manual of the Stockholm Umeå Corpus version 2.0.) 13 14 SUC s ordklasser (22 st.) (2: nominala) NN Substantiv skrivbord PM Egennamn Mats PN Pronomen hon PS Possessivt pronomen hennes HP Frågande/relativt pronomen som HS Frågande/relativt possessivt pronomen vars DT Determinerare denna HD Frågande/relativ determinerare vilken SUC s ordklasser (22 st.) (3) JJ Adjektiv glad AB Adverb inte HA Frågande/relativt adverb när Avledningen av ett adverb från ett adjektiv liknar böjning. Typ: Sången är fin. (adjektiv, singular, obestämt, utrum) Stycket är fint. (adjektiv, singular, obestämt, neutrum) De sjunger fint. (adverb) 15 16
SUC s ordklasser (22 st.) (4) KN Konjunktion och SN Subjunktion att PP Preposition av (Räkneord) RG Grundtal tre RO Ordningstal tredje IN Interjektion ja UO Utländskt ord the SUC s böjningskategorier (1) Genus DT, HD, HP, JJ, NN, PC, PN, PS, (RG, RO) UTR utrum (tavla) NEU neutrum (bordet) MAS maskulinum (neutrale) Numerus DT, HD, HP, JJ, NN, PC, PN, PS, (RG, RO) SIN singular (tavla) PLU plural (tavlor) 17 18 SUC s böjningskategorier (2) Bestämdhet DT, (HD, HP, HS), JJ, NN, PC, PN, (PS, RG, RO) IND obestämd (tavlor) DEF bestämd (tavlorna) Kasus JJ, NN, PC, PM, (RG, RO) NOM nominativ (tavlorna) GEN genitiv (tavlornas) Pronomenform PN SUB subjektsform (hon) OBJ objektsform (henne) SUC s böjningskategorier (3) Tempus VB (förstås i vid bemärkelse) PRS presens (jagar) PRT preteritum (jagade) SUP supinum (jagat) INF infinitiv (infinite?) (jaga) Diates (voice) VB AKT aktiv SFO s-form (passiv eller deponens) 19 20
SUC s böjningskategorier (4) Modus VB KON konjunktiv (subjunctive) (vore) indikativ ej utmärkt (är) Participform PC PRS presens particip (jagande) PRF perfekt particip (jagad) (Not: Presens och perfekt är ganska missvisande ord i relation till participen. Handlar snarare om diates än tempus.) SUC s böjningskategorier (5) Komparationsgrad AB, JJ POS positiv (fort) KOM komparativ (fortare) SUV superlativ (fortast) Sammansatt alla ordklasser SMS sammansatt (datorskärm) ej sammansatt ej utmärkt (tavla) 21 22