Grammatik för språkteknologer

Relevanta dokument
PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Grammatik för språkteknologer

Datorlingvistisk grammatik

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Grammatik för språkteknologer

Lingvistiskt uppmärkt text

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

ORDKLASSERNA I. Ett sätt att sortera våra ord

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ord och morfologi. Morfologi

Grammatik skillnader mellan svenska och engelska

Grammatik för språkteknologer

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Ordklasser och satsdelar

Några skillnader mellan svenska och engelska

SUBSTANTIV = namn på saker, personer, känslor

Facit för diagnostiska provet i grammatik

Några skillnader mellan svenska och engelska

ORDKLASSERNA I SVENSKA SPRÅKET

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Svensk minigrammatik

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Datorlingvistisk grammatik

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Grammatik för språkteknologer

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Lingvistiskt uppmärkt text

Fraser, huvuden och bestämningar

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT09 Dag 3

Grammatikprov åk 8 ORDKLASSER

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Grammatisk teori II Attributvärdesgrammatik

Datorlingvistisk grammatik

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Träningshäfte ordklasser facit

Satslära introduktion

grammatik Ordklasser, nominalfraser, substantiv

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Svenska språket. Grammatik.

Svenskans struktur, 7,5 hp Tentamensexempel 1

Morfologi, Ordklasser och Satsdelar

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Ordklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

PAROLE TAGSET <

ANDREAS ISSA SVENSKA SPRÅKET

Elementa i Allmän grammatik

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Världens språk, 7,5hp vt 2012

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Mål idag. Mål. Läsa och öva 9/9/2013. F5: Grammatik Syntax I Ordklasser

729G09 Språkvetenskaplig databehandling

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Träningshäfte ordklasser (Venus)

Elementära verktyg för korpusbearbetning

Morfologi. Inom morfologin studerar man ords olika form, dess inre struktur, hur ord bildas samt indelning i olika klasser

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Språk, datorer och textbehandling

LATIN I,1, DELKURS 1

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Svenska Rum 2: Grammatikövningar

Tekniker för storskalig parsning

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Två unga, snabba sniglar

Deutsche Grammatik, Siebte Klasse

Fyll i ditt namn, adress och telefonnummer: Namn: Adress: Tfn:

Så, ska det taggas som adverb?

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen).

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Karp. Övningar Språkbankens höstworkshop oktober 2017

Först lite rester...

!!! Några verb är oregelbundna vara är var!!!

Harry Potter och De Vises Sten, den spännande ungdomsboken, skriven av den engelska författaren J.K. Rowling, har blivit en succé över hela världen.

PROV ORDKLASSER SV Förklara vad ett konkret substantiv är och ge två exempel (3p)

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Välkommen till den första delkursen i svenska!

Datorlingvistisk grammatik

SPRÅKVETENSKAP OCH ORDKLASSER

Läs s , 28 samt G1 (s. 219) om ordklasser och G2 (s. 220) samt separat dokument om satsdelar (i studiehandledningen).

Svenska - Läxa ORD att kunna förklara

Ulla Britta Persson. facit

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden

Förord KERSTIN BALLARDINI

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

DEL 1 Svara på svenska, men med exempel på somaliska. 4 stycken: yaal, ooyin, reduplikation, o

Transkript:

Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. Grammatik-, stavnings- och stilkontroll (givetvis). Måste fånga alla distinktioner man vi kontrollera, t.ex. böjning hos ord, kongruens, transitivitet, ordföljd (t.ex. inom satser satsdelar, BIFF-regeln, etc.) Informationssökning och -extraktion: T.ex. om vi hittar verbhandlingar Vem är subjekt? Vad är direkt objekt? När händer det? Var händer det? Etc. 1 2 Lite mer om språkteknologisk relevans (2) Maskinöversättning: Analys av källspråket bör dra så mycket nytta som möjligt av grammatiken för att fånga innehållet: Relevanta saker: Vad bestämmer vad? Fras blir fras. Satsdelar Generering till målspråket måste t.ex. repektera ordföljdsprinciper, kongruens och valens. Svenska: Jag gav honom boken. Franska: Je lui ai donné le livre. Språkteknologi grammatiska begrepp Grammatisk analys bygger på begreppsuppsättningar, för t.ex. ordkategorier, böjningsinformation, fras- och satskategorier och grammatiska funktioner. Dessa begrepp och begreppsuppsättningar varierar: Definitionen av enskilda begrepp kan variera. Uppsättningen begrepp som används kan variera. Detta gäller grammatikböcker, grammatikteorier och språkteknologiska system och data. 3 4

Språkteknologi grammatiska begrepp Grammatiska analyser kommer ursprungligen från mänskliga bedömningar. Det är viktigt att människorna som gör analyserna kan göra dem så konsekvent som möjligt. Reliabilitet i vilken grad exemplen får samma analys oavsett när och av vem analysen görs. Reliabilitet kan mätas och behöver kontrolleras i stora annoteringsprojekt. Vaga och svårbedömda begrepp ger sämre reliabilitet Språkteknologi grammatiska begrepp Människor som skall göra grammatiska analyser för ST-ändamål behöver vägledas av en annotationsmanual som anger vilka begrepp som skall användas, definitioner av dessa, exempel och diskussion av besvärliga fall. Man behöver även kontrollera korrekthet överensstämmelsen med ett facit, en guldstandard, både för mänskliga bedömare och automatiska system. Korrekthet andelen korrekta analyser av totala antalet analyser. 5 6 Språkteknologi grammatiska begrepp Om vi vill kontrollera ett systems eller en bedömares hantering av en viss efterfrågad egenskap, E (och har sanningen i form av en guldstandard): Precision: Andelen av utpekanden av E som är korrekta. (T.ex. Om man pekar ut 40 prepositioner och 30 av dessa är verkliga prepositioner 75 % precision.) Täckning (recall): Andelen verkliga E som pekas ut. (T.ex. Om 30 utpekade prepositioner är verkliga här kan vi strunta i om 10 är falskt utpekade av 50 verkliga prepositioner 60 % täckning.) Korstabell confusion matrix Utfall för en binär klassificering. Påhittat exempel med begreppet preposition och totalt 260 ord. utpekade objekt ej utpekade objekt taggade som prep inte taggade som prep verkliga exempel sanna positiva falska negativa verkliga prepositioner 30 20 verkliga icke-exempel falska positiva sanna negativa ord av andra ordklasser 10 200 7 8

Begrepps finkornighet Jämför (med utgångspunkt i Josefsson, s. 139), adverbial, TSRO-adverbial (i motsats till satsadverbial), rumsadverbial, positionsadverbial/riktningsadverbial ordning från mer generella begrepp (mindre informationsrika) till mer specifika begrepp (mer informationsrika). Ökad specificitet hos analysen subtilare bedömningar och mer utrymme för fel. Val av begreppsuppsättningar, maskininlärning och ST Hur mycket/vilken information i den grammatiska analysen är värdefull? Empirisk fråga. Ökad specificitet hos begrepp färre exempel för maskininlärning att arbeta på. (T.ex. fler adverbial än riktningsadverbial.) Ökad specificitet hos begrepp ytterligare utrymme för fel (som sagt). En maskininlärningtillämpning kan kanske hitta information på annat sätt än i grammatiska etiketter. 9 10 Anpassa data för ST-arbete Grammatisk uppmärkning dyr man vill återanvända befintliga data med befintliga uppmärkningar. Exempel: Ordkategorier i Stockholm Umeå Corpus (SUC), för svenska. Lätt gå från mer specifika till mindre specifika etiketter. T.ex. samla olika typer av adverbial under en etikett adverbial. Kanske krävs mer sofistikerad översättning mellan befintliga och önskade kategorier. Orden i svenskan: översikt genom SUC SUC s ordklasstaggar (22 st.) och böjningsetiketter ger en översikt över ur syntaxens synvinkel viktiga distinktioner mellan svenskans ord och över deras böjningssätt. Taggarna utformade för att ge en rimlig grad av finkorninghet. För grovt: vi går miste om potentiellt värdefull information. För fint: Materialet blir mer svårtaggat. Riskerna för inkonsekvenser och felaktigheter ökar. 11 12

Orden i svenskan: översikt genom SUC Påmminnelse: Detta bör ni kunna redogöra för och tillämpa på godtycklig text: Vilka kriterier kännetecknar en ordklass- eller böjningskategori? (Friska upp och skärpa grammatikinsikterna.) Hur böjs orden inom en viss ordklasskategori? (Ofta viktigt som kriterium för kategoritillhörighet.) Är det en öppen eller sluten klass? I vilka syntaktiska sammanhang ingår ord av de olika typerna? SUC s ordklasser (22 st.) (1: direkt verb-relaterade) Tematiskt grupperade (av mig). Skolans nio klassiska ordklasser i fetstil. SUC-förkortning kategori exempel VB Verb kasta IE Infinitivmärke att PC Particip utsänd PL Partikel ut (Källa: Sofia Gustafson-Capková and Britt Hartmann (2006) Manual of the Stockholm Umeå Corpus version 2.0.) 13 14 SUC s ordklasser (22 st.) (2: nominala) NN Substantiv skrivbord PM Egennamn Mats PN Pronomen hon PS Possessivt pronomen hennes HP Frågande/relativt pronomen som HS Frågande/relativt possessivt pronomen vars DT Determinerare denna HD Frågande/relativ determinerare vilken SUC s ordklasser (22 st.) (3) JJ Adjektiv glad AB Adverb inte HA Frågande/relativt adverb när Avledningen av ett adverb från ett adjektiv liknar böjning. Typ: Sången är fin. (adjektiv, singular, obestämt, utrum) Stycket är fint. (adjektiv, singular, obestämt, neutrum) De sjunger fint. (adverb) 15 16

SUC s ordklasser (22 st.) (4) KN Konjunktion och SN Subjunktion att PP Preposition av (Räkneord) RG Grundtal tre RO Ordningstal tredje IN Interjektion ja UO Utländskt ord the SUC s böjningskategorier (1) Genus DT, HD, HP, JJ, NN, PC, PN, PS, (RG, RO) UTR utrum (tavla) NEU neutrum (bordet) MAS maskulinum (neutrale) Numerus DT, HD, HP, JJ, NN, PC, PN, PS, (RG, RO) SIN singular (tavla) PLU plural (tavlor) 17 18 SUC s böjningskategorier (2) Bestämdhet DT, (HD, HP, HS), JJ, NN, PC, PN, (PS, RG, RO) IND obestämd (tavlor) DEF bestämd (tavlorna) Kasus JJ, NN, PC, PM, (RG, RO) NOM nominativ (tavlorna) GEN genitiv (tavlornas) Pronomenform PN SUB subjektsform (hon) OBJ objektsform (henne) SUC s böjningskategorier (3) Tempus VB (förstås i vid bemärkelse) PRS presens (jagar) PRT preteritum (jagade) SUP supinum (jagat) INF infinitiv (infinite?) (jaga) Diates (voice) VB AKT aktiv SFO s-form (passiv eller deponens) 19 20

SUC s böjningskategorier (4) Modus VB KON konjunktiv (subjunctive) (vore) indikativ ej utmärkt (är) Participform PC PRS presens particip (jagande) PRF perfekt particip (jagad) (Not: Presens och perfekt är ganska missvisande ord i relation till participen. Handlar snarare om diates än tempus.) SUC s böjningskategorier (5) Komparationsgrad AB, JJ POS positiv (fort) KOM komparativ (fortare) SUV superlativ (fortast) Sammansatt alla ordklasser SMS sammansatt (datorskärm) ej sammansatt ej utmärkt (tavla) 21 22