Grammatik för språkteknologer

Relevanta dokument
Grammatik för språkteknologer

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Datorlingvistisk grammatik

Grammatik för språkteknologer

ORDKLASSERNA I. Ett sätt att sortera våra ord

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Grammatik för språkteknologer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Några skillnader mellan svenska och engelska

Grammatik skillnader mellan svenska och engelska

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser och satsdelar

SUBSTANTIV = namn på saker, personer, känslor

Facit för diagnostiska provet i grammatik

Några skillnader mellan svenska och engelska

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Datorlingvistisk grammatik

ORDKLASSERNA I SVENSKA SPRÅKET

grammatik Ordklasser, nominalfraser, substantiv

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Svensk minigrammatik

Världens språk, 7,5hp vt 2012

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Grammatisk teori II Attributvärdesgrammatik

Svenskans struktur, 7,5 hp Tentamensexempel 1

Grammatik för språkteknologer

Datorlingvistisk grammatik

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Ordklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser

Lingvistiskt uppmärkt text

Fraser, huvuden och bestämningar

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Mål idag. Mål. Läsa och öva 9/9/2013. F5: Grammatik Syntax I Ordklasser

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

SPRÅKVETENSKAP OCH ORDKLASSER

Elementa i Allmän grammatik

Träningshäfte ordklasser (Venus)

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Semantik och pragmatik

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Svenska språket. Grammatik.

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Träningshäfte ordklasser facit

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grammatikprov åk 8 ORDKLASSER

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Morfologi. Inom morfologin studerar man ords olika form, dess inre struktur, hur ord bildas samt indelning i olika klasser

Lingvistiska grundbegrepp

Datorlingvistisk grammatik

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Grim. Några förslag på hur du kan använda Grim. Version 0.8

ENGELSKA. Årskurs Mål att uppnå Eleven skall:

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Harry Potter och De Vises Sten, den spännande ungdomsboken, skriven av den engelska författaren J.K. Rowling, har blivit en succé över hela världen.

Satslära introduktion

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT09 Dag 3

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Välkommen till den första delkursen i svenska!

Morfologi, Ordklasser och Satsdelar

Två unga, snabba sniglar

Ord och morfologi. Morfologi

Svenskans struktur, 7,5 hp Tentamensexempel 3

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Ord, ordbildning och ordklasser

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Lexikon: ordbildning och lexikalisering

Först lite rester...

Kursplan A. Svenska kursenheten

Kursbeskrivning med litteraturlista HT-13

PROV ORDKLASSER SV Förklara vad ett konkret substantiv är och ge två exempel (3p)

1 Vilka ord är substantiv? Läs texten.

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Tekniker för storskalig parsning

729G09 Språkvetenskaplig databehandling

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

Har adjektivets a och e former någon reell betydelse i dagens svenska? Om den så kallade sexusböjningen. Theres Brännmark Grammatikdagen 17 mars 2017

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Institutionen för lingvistik och filologi HT 2009

LATIN A ALLMÄN GRAMMATIK I. Ordklasser

(Denna översikt baseras mycket på den framtida nyutgåvan av Östen Dahls Grammatik)

STOCKHOLMS UNIVERSITET SPRÅKVETENSKAPLIGA ELEMENTA FÖR ORIENTALISTER

!!! Några verb är oregelbundna vara är var!!!

Svenska Akademien har ökat takten i. En ny bild av svenska språket NY GRAMMATIK JAN ANWARD

Svenska - Läxa ORD att kunna förklara

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Svensk Grammatik. Ordklasser. Av Jerry Andersson

Språkteknologi och Open Source

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen).

Transkript:

Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1

Lärandemål Efter avslutad kurs skall studenten för att förtjäna betyget Godkänd minst kunna följande i relation till svenska eller engelska: (1) redogöra för relevansen av grammatisk analys för några viktiga språkteknologiska delområden; (2) definiera och/eller förklara ordkategoribegrepp och böjningskategorier som är aktuella i relation till aktuellt språk och diskutera sådana begreppsuppsättningar ur språkteknologiskt perspektiv; 2

Lärandemål, forts. (3) analysera och ange godtyckliga ordformer (i ett textsammanhang) i termer av grundform, ordklass och böjningkategorier; (4) göra av grammatiska resonemang underbyggda analyser godtyckliga meningar (i ett textsammanhang) genom att ange de ingående ordens och frasernas syntaktiska funktioner i termer av traditionella satslösningsbegrepp och därvid urskilja viktiga typer av fraser, huvud och bisatser; 3

Lärandemål, forts. (5) tillämpa frasstrukturanalys för svenska meningar och formulera kontextfria grammatiker för elementära fragment av svenska; (6) redogöra för begreppet dependens samt uttrycka och motivera satslösningsbaserade analyser av meningar som dependensträd; (7) redogöra för användningen av annotationsmanualer i relation till språkteknologiska data. 4

Grammatiska grundinsikter Lärandemålen förutsätter allmänna grammatiska grundinsikter. Traditionell skolgrammatik med djupare analytisk förståelse. Både morfologi och syntax. För en språkteknolog (eller annan språkvetare) är detta viktiga grundkunskaper. Man bör ha mycket god förmåga att analysera svenska eller engelska (i princip all normal text, allt tal). Man skall kunna motivera analyser med grammatiska resonemang. 5

Examination salstentamen Följer lärandemålen, förstås. Kunna svara på vissa elementära frågor. Applicera analys på autentisk text. Kunna exemplifiera utifrån grammatisk beskrivning. 6

Grammatikens delar FONOLOGI/ORTOGRAFI ljudförrådet, hur ljuden får kombineras (fonotax) grafemförrådet, hur grafem får kombineras (grafotax) MORFOLOGI strukturen inom ord, hur morfer bildar ord SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar större enheter 7

Grammatik vs semantik Relativt svår distinktion, teoretiskt sett GRAMMATIK (form) abstrakt form, grammatikalitet SEMANTIK (innehåll) språkets relation till verkligheten, (syftning/referens) meningsfullhet och -löshet, sant och falskt, logik. Distinktionen kommer alltid att ha ett mått av vaghet och godtycke. Språkteknologer har i allmänhet en instrumentalistisk syn på uppdelningen. 8

Grammatisk analys i språkteknologin Grammatiken kan ses som ett första steg i förståelsen av språk som språk. Grammatiken ger en grovhuggen bild av innehållet. Relevant för i stort sett alla delområden inom språkteknologin: Man kan nästan säga att det är känslighet för grammatisk struktur som definierar språkteknologi. 9

Språkteknologisk relevans (1) Man behöver analysera grammatisk struktur i många språkteknologiska tillämpningar. Grammatik-, stavnings- och stilkontroll (givetvis). Informationssökning och -extraktion. Maskinöversättning: analys av källspråket. Talsyntes (intonation, disambiguering, etc). 10

Språkteknologisk relevans (2) Grammatik är även viktigt i språkteknologisk generering av yttranden/text: Maskinöversättning: generering till målspråket måste t.ex. repektera ordföljdsprinciper, kongruens och valens. Dialogsystem: generera yttranden. Pedagogiska program: generera problem. 11

Grammatisk analys ur ST-perspektiv Hur skall analysen representeras formellt? Vilken grundtyp är det? (Dependenser? Frasstrukturer? Eller?) Hur skall analysen se ut? Teorin om språket ifråga. Annotationsmanual för mänskliga uppmärkare. Hur kan vi automatiskt tilldela texter sådan här analys? (Parser.) Som bygger på inlärning? Som bygger på handskrivna regler? 12

Grammatik: deskriptiv eller normativ Lingvister brukar framhålla att grammatiken bör vara deskriptiv och beskriva hur folk använder språk. Grammatik används också för normativa syften. Den säger hur man bör uttrycka sig (för att tala/skriva korrekt). (Språkteknologi språkgranskning.) I båda fallen utgår man ofta från vårdad prosa och glömmer andra typer av text och tal. 13

Grammatikalitetsdata, exempel Svenska meningar som är OK: Hon ser på honom. Hon ser honom. Honom ser hon. Svenska meningar som inte är OK: *Hon ser honom på. *Henne ser honom. *Ser honom hon. Grammatiska intuitioner 14

Ord, lexem, ordformer Ord: teoretiskt sett ganska svår typ av enhet. Grammatiskt sett hårt sammanbundna enheter. Böjning. Betoning. Självklar endast för vissa skrivna språk. Och inte ens då: isn t. t.ex.. Ordförekomst/löpord: Konkreta förekomster i text eller tal. Förekomster kan taggas som instanser av olika sorters ordtyper. 15

Ordtyper, olika begrepp Graford: definieras av teckensekvens. (Bestäms av tokenisering.) Versal/gemen kan neutraliseras. Lemma: ett uppslagsord (abstrakt enhet) med samma ordklass- och böjningsmönster. T.ex. lägger/lade; skärm/skärmen. ( Lemmatisering.) Lexem: en bestämd betydelse knuten till ett lemma. ( Word sense disambiguation.) Böjningsform: Ett lemma (eller lexem) med specificerad böjning. Former av älska: älska (infintiv), älskar (presens), älskande (presens particip), o.s.v. 16

Ord måste analyseras i en kontext (1) Vad får man lägga ut på webben? (2) En som har får som ja känner ska klippa dom på torsdag. Samma graford: får. Olika lemma (och därmed lexem och börjningsform). (1) Presens, aktiv, av verbet få. (2) Plural, obestämd, grundkasus av substantivet får. 17

Morfologi Tre huvudsakliga typer av morfologiska processer : Böjning: Inom samma lemma. Följer regelbundna mönster. Semantiskt förutsägbart. hus huset, vara är. Avledning: Ger nytt lemma m.h.a. affix. hus huslig, prata pratig. Lexikalisering. Form och semantik mindre förutsägbart. Sammansättning: Ger nytt lemma av två givna. Mycket produktivt i svenskan. Lexikalisering. Semantik inte helt förutsägbar. 18

Bestämma ordklass Tre typer av kriterier: Böjning. Ofta det mest avgörande. Syntax: (potentiella) relationer till andra ord. Semantik: typ av betydelse. Ofta svårtillämpat. 19

Ordklasser, böjning, översikt Substantiv, verb, adjektiv: relativt regelbundna uppsättningar böjningsformer. Pronomen: varierande grupp lexem, varierande beteende. Artiklar: liten grupp lexem, kongruens. Adverb: varierande grupp lexem, vissa uppvisar komparationsböjning. 20

Ordklasser, böjning, översikt II Räkneord: grundtal och ordningstal, viss kongruens; oändligt många, men lätta att överblicka (en, två, tre..., och första, andra, tredje... ). Particip: adjektiviska former av verb. Perfekt particip kongruensböjs. Prepositioner, verbpartiklar, konjunktioner, subjunktioner, infinitivmärke, interjektioner böjs inte. 21

Räknebara substantiv i svenskan (8 former) obestämd form bestämd form numerus: singular bil(s) bilen(s) hus huset(s) numerus: plural bilar(s) bilarna(s) hus husen(s) Med s så blir det kasus genitiv; annars grundkasus. De två formerna sammanfaller ibland, t.ex. hus. 22

Icke-räknebara substantiv i svenskan (4 former) Substantiv som smör och vrede är svåra att kombinera med räkning och plural. obestämd form bestämd form numerus: smör(s) smöret(s) neutral /singular vrede(s) vreden(s) Med s så blir det kasus genitiv; annars grundkasus. 23

Genus Substantiv tillhör ett av två genus i svenskan. Egenskap på lexemnivå. Avspeglas i böjningen, men modifieras inte. utrum, t.ex. bil och vrede. neutrum, t.ex. hus och smör. Genus avspeglas i kongruensböjning i singular. Även för adjektiv, artiklar, pronomen. 24

Egennamn i svenskan (2 former) Egennamn med s blir det kasus genitiv; annars grundkasus, t.ex. Stockholm och Stockholms; Anders Borg och Anders Borgs; Anders och Anders (formerna sammanfaller). Egennamn är vanligtvis i singular; ett fåtal är i plural, t.ex. Pyrenéerna. 25

Verb i svenskan (ofta max 13 former) neutral /aktiv form s-form/passiv form infinitiv jaga jagas tempus: presens jagar jagas tempus: preteritum jagade jagades supinum jagat jagats imperativ jaga presens particip jagande(s) perfekt particip jagad, jagat, jagade 26

Verb i svenskan (ofta max 13 former) neutral /aktiv form s-form/passiv form infinitiv läsa läsas tempus: presens läser läses tempus: preteritum läste lästes supinum läst lästs imperativ läs presens particip läsande(s) perfekt particip läst, läst, lästa 27

Kopulaverbet vara neutral /aktiv form s-form/passiv form infinitiv vara tempus: presens är tempus: preteritum var supinum varit imperativ var presens particip varande perfekt particip 28

Verb i svenskan, mer Passiv bara för transitiva verb, d.v.s som tar objekt. Talspråkliga presens particip: jagandes, läsandes. Modus indikativ (vanligt påståendemodus), konjunktiv (som vore) och imperativ (se Josefsson). Men det är mer naturligt att se imperativ som en separat finit form för modern svenska. Den måste vara framtidsorienterad (och aktiv) p.g.a. sin semantik. 29

Adjektiv i svenskan Komparation (med de olika kongruensformerna) positiv komparativ superlativ stor, stort, större störst, största, stora, store störste dålig, dåligt, värre värst, värsta, dåliga, dålige värste Oböjliga adjektiv finns, t.ex. nuvarande och släkt. 30

En del adverb kompareras; aldrig kongruens positiv komparativ superlativ fort fortare fortast dåligt värre värst Notera: Lejonet rörde sig snabbt (adverb). (Josefsson, s. 85.) Ett snabbt lejon Lejonet var snabbt (adjektiv). De snabba lejonen Lejonen var snabba (adjektiv). FLER TYPER AV ADVERB FINNS! 31

Pronomen Etymologi: i stället för nomen (substantiv). Hjälpord för referens. Relativt komplicerad ordklass vad gäller böjning, syntaktisk användning och semantik. Semantisk huvudindelning: Definita (bestämda) pronomen Indefinita (obestämda) pronomen Syntax: Vissa hör ihop med substantiv och kongruensböjs, andra används obundet. 32

Definita (bestämda) pronomen Personliga (anaforiska) pronomen: jag, mig, du, dig, etc. Possessiva pronomen: min, din, etc. Reflexivt pronomen: sig Reflexivt och possessivt pronomen: sin Demonstrativa pronomen: denna, detta, etc. Determinativa pronomen: typ Den som är satt i skuld är icke fri. Relativa pronomen: som, vars, etc. (I relativa bisatser.) 33

Indefinita pronomen Kvantitativa pronomen: någon, varje, alla, många, etc. Interrogativa (frågande) pronomen: vem, vad, hurdan (som fungerar som ett pro-adjektiv). (Ord som när, var, vart, varifrån, hur, varför är interrogativa adverb.) Relationella pronomen: samma, annan, nästa, sista, egen, enda, etc. 34