Datorlingvistisk grammatik I

Relevanta dokument
Grammatik för språkteknologer

Kontextfri grammatik (CFG)

Frasstrukturgrammatik

Parsningsalgoritmer. Parsningsalgoritmer: inledning. OH-serie 1: introduktion. Parsningalgoritmer I. Algoritmer. Vad är parsning? Vad är en algoritm?

Frasstrukturgrammatik

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Datorlingvistisk grammatik

Systemdesign fortsättningskurs

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

REGULJÄRA SPRÅK (8p + 6p) 1. DFA och reguljära uttryck (6 p) Problem. För följande NFA över alfabetet {0,1}:

DEL I. Matematiska Institutionen KTH

Genomsnittligt sökdjup i binära sökträd

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Föreläsning G04: Surveymetodik

Datastrukturer och algoritmer

Digital signalbehandling Fönsterfunktioner

Egna funktioner. Vad är sin? sin är namnet på en av många inbyggda funktioner i Ada (och den återfinns i paketet Ada.Numerics.Elementary_Functions)

Analys av algoritmer. Beräkningsbar/hanterbar. Stora Ordo. O(definition) Datastrukturer och algoritmer. Varför analysera algoritmer?

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Inledande matematisk analys (TATA79) Höstterminen 2016 Föreläsnings- och lekionsplan

Lösningar och kommentarer till uppgifter i 1.1

Databaser - Design och programmering. Programutveckling. Programdesign, databasdesign. Kravspecifikation. ER-modellen. Begrepps-modellering

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

vara ett polynom där a 0, då kallas n för polynomets grad och ibland betecknas n grad( P(

SveTys. Affärskultur i Tyskland. Vad är det? Och vad ska jag tänka på?

Datorövning 2 Fördelningar inom säkerhetsanalys

101. och sista termen 1

Mätbar vetskap om nuläget och tydliga målbilder om framtiden. Genomför en INDICATOR självvärdering och nulägesanalys inom tre veckor

MARKNADSPLAN Kungälvs kommun

Borel-Cantellis sats och stora talens lag

Fakta om plast i havet

Räkning med potensserier

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Kompletterande kurslitteratur om serier

1. Hur gammalt är ditt barn?

Remiss Remissvar lämnas i kolumnen Tillstyrkes term och Tillstyrkes def(inition) och eventuella synpunkter skrivs i kolumnen Synpunkter.

Förfrågan till Klockarens redaktörer

Tentamen i Elektronik, ESS010, del 2 den 14 dec 2009 klockan 14:00 19:00.

Identfiera orsaker och ge förslag på åtgärder och resultatmått Åtgärdstyp Ska risken åtgärdas genom att orsaken: Bakomliggande orsaker

1. Hur gammalt är ditt barn?

z Teori z Hypotesgenerering z Observation (empirisk test) z Bara sanningen : Inga falska teser z Hela sanningen : Täcker alla sanna teser

Tommy Färnqvist, IDA, Linköpings universitet

MS-A0409 Grundkurs i diskret matematik I

2. Konfidensintervall för skillnaden mellan två proportioner.

H1009, Introduktionskurs i matematik Armin Halilovic POLYNOM, POLYNOMDIVISION, ALGEBRAISKA EKVATIONER, PARTIALBRÅKSUPPDELNING. vara ett polynom där a

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

IAB Sverige Juni 2017

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

RESTARITMETIKER. Avsnitt 4. När man adderar eller multiplicerar två tal som t ex

Uppgifter 3: Talföljder och induktionsbevis

Doktorandernas uppfattningar om sin forskarutbildning vid Uppsala universitet

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

. Mängden av alla möjliga tillstånd E k kallas tillståndsrummet.

Allmänna avtalsvillkor för konsument

1. Test av anpassning.

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

Tentamen 19 mars, 8:00 12:00, Q22, Q26

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Armin Halilovic: EXTRA ÖVNINGAR

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Korrelationens betydelse vid GUM-analyser

tullinge FLEMINGSBERG TULLINGE Kommunens avsikter för Tullinge som helhet

b 1 och har för olika värden på den reella konstanten a.

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Föreläsning F3 Patrik Eriksson 2000

Tentamen Metod C vid Uppsala universitet, , kl

Introduktion till statistik för statsvetare

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

7 Sjunde lektionen. 7.1 Digitala filter

Tentamen i Kunskapsbaserade system, 5p, Data 3

Utlandskyrkans krisberedskap

Ekvationen (ekv1) kan beskriva en s.k. stationär tillstånd (steady-state) för en fysikalisk process.

Tenta i MVE025/MVE295, Komplex (matematisk) analys, F2 och TM2/Kf2

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Inledande matematisk analys. 1. Utred med bevis vilket eller vilka av följande påståenden är sana:

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Föreläsning 10: Kombinatorik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Jag läser kursen på. Halvfart Helfart

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

Hambley avsnitt 12.7 (även 7.3 för den som vill läsa lite mer om grindar)

(a) om vi kan välja helt fritt? (b) om vi vill ha minst en fisk av varje art? (c) om vi vill ha precis 3 olika arter?

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Anvisningar för inrättande av utbildningsprogram vid Humanistiska fakulteten

Visst kan man faktorisera x 4 + 1

Trigonometriska polynom

Design mönster. n n n n n n. Command Active object Template method Strategy Facade Mediator

Tentamen i Sannolikhetsteori III 13 januari 2000

Föreläsning G70 Statistik A

PTKs stadgar. Fastställda vid stämman

Föreläsningar 7,8 sept 24, sept 26 v 39). delvis DD Chapter 6.

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Induktion och Binomialsatsen. Vi fortsätter att visa hur matematiska påståenden bevisas med induktion.

Databaser - Design och programmering. Databasdesign. Funktioner. Relationsmodellen. Relationsmodellen. Funktion = avbildning (mappning) Y=X 2

TRIBECA Finansutveckling

Transkript:

Datorligvistisk grammatik I (OH-serie 1) Mats Dahllöf Istitutioe för ligvistik och filologi 060905 (Med ej visade bilder!) LEKTION 1: iehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språktekologisk relevas. Grammatiska begrepp (viss repetitio) Frasstrukturaalys och CFG (repetitio). 1 2 Grammatikes delar (repetitio) FONOLOGI ljudförrå, hur ljude får kombieras (footax) MORFOLOGI strukture iom ord, hur morfer bildar ord SYNTAX strukture iom fraser(, satser och meigar) hur orde bildar större eheter Grammatik vs sematik (repetitio) Relativt svår distiktio, teoretiskt sett GRAMMATIK (form) abstrakt form, grammatikalitet SEMANTIK (iehåll) språkets relatio till verklighete, (syftig/referes) meigsfullhet och -löshet, sat och falskt 3 4 Formell vs traditioell grammatik Tedeser (me mkt gemesamt, olika avädig): formell grammatik traditioell grammatik precisio vaghet systematik heterogeitet explicithet implicithet veteskaplig, empirisk ofta preskriptiv ofta implemeterbar ej implemeterbar 1900-talssak reda de gamla grekera Formaliserig i grammatike Axiomatiserig: axiom och härledigsregler. Det blir helt uttryckligt vilka teoris kosekveser (teorem) är. Öskemål: Systematik: Teori skall vara ekel, begriplig och överskådlig. Parsig och geererig utifrå e grammatik bör vara implemeterbart. Bra algoritmer bör fias. 5 6 Teori och data E veteskaplig teori formuleras ormalt geom geerella priciper. (De gäller t.ex. moder sveska.) Kosekveser av teori kallas teorem. Dessa ka vara partikulära (gälla eskilda fall, t.ex. e eskild sats). Data: fakta om verklighete som vi ka samla ihop geom att observera de. Eller (typiskt i grammatike) geom att kosultera våra ituitioer. Exempelvis: E hud skäller är e grammatisk sats på sveska. Hypotetisk-deduktiv metod (1) Hypotetisk-deduktiv metod är e grudkompoet i veteskapligt täkade. Ma formulerar e teori. Prövar teori säger mot verklighete (data). Ma avvisar (reviderar) teori om de ite stämmer. E teori som stämmer ka betraktas som veteskapligt hållbar om ma prövat de väl, d.v.s. letat ordetligt efter potetiellt falsifierade data. 7 8

Hypotetisk-deduktiv metod (2) Framställige i Sag, Wasow och Beder följer ofta hypotetisk-deduktiva takebaor. E teori (grammatik) ställs upp; kosekvesera bedöms och teori avvisas. E y teori (grammatik) ställs upp, och utsätts för samma graskig. Vitse är att skall framgå VARFÖR olika kompoeter i teoriera behövs. Hypotetisk-deduktiv metod (3) Ställ upp e teori (hypotes, som skall prövas). Pröva teori(s teorem) mot data. Stämmer de? NEJ: Revidera teori (ställ upp e y hypotes) och prova de på samma sätt. JA: Fortsätt leta efter data och pröva teori mot dem. (Ma ka ju aldrig bli säker på att teori är OK, då hela tide ka komma ya data.) Eller var för tillfället öjd med teori. 9 10 Grammatikalitetsdata Data om vilka ordsekveser som är grammatiskt OK (grammatiska) på ett språk. Om ma ka ett språk så har ma ituitioer om ta. Dessa blir data mot vilka grammatiker ka bedömas. Metodproblem: Ka valigt folk skilja mella grammatiska och adra felaktigheter? Grammatikalitetsdata, exempel Sveska OK: Ho ser på hoom. Ho ser hoom. Hoom ser ho. Sveska ite OK: *Ho ser hoom på. *Hee ser hoom. *Ser hoom ho. 11 12 Korpusdata Korpus: stor samlig med autetiska språkexempel (texter eller samtal), visar hur folk faktiskt aväder språk (represetativitet). Detta är kaske viktigare (för e ligvist/språktekolog) ä fråga om grammatikalitet. Korpusdata ka äve avslöja relativa frekveser hos olika grammatiska feome. E korpus iehåller säkert ogrammatiska saker. Formell grammatik historia (1) Formaliserig iom logike, set 1800-tal (Frege, m.fl.). Kategorialgrammatik (Ajdukiewicz 1935, Bar-Hillel 1953) Immediate costituecy, IC-aalys, 1940-talet. Amerikask ligvistik. Noam Chomsky mitte av 1950-talet: Trasformatiosgrammatik. Sytactic Structures 1957. 13 14 Formell grammatik historia (2) Chomskya revolutio stor förädrig av språkveteskape. Formell grammatik får e cetral ställig. Moder ligvistik : 1960-talet. Måga olika skolor och teorier iom FG etableras. Datorimplemetatioer datorligvistik: 1960-talet och framåt. Rik utvecklig. Se seaste deceiera: Formell grammatik kombieras med korpusligvistik och statistiska metoder. Tillämpigsorieterade perspektiv iom språktekologi. Språktekologisk relevas (1) Ma behöver aalysera grammatisk struktur i måga språktekologiska tillämpigar. Grammatik-, stavigs- och stilkotroll (givetvis). Iformatiossökig och -extraktio. Maskiöversättig: aalys av källspråket. Talsytes (itoatio, disambiguerig, etc). 15 16

Språktekologisk relevas (2) Grammatik är äve viktigt i språktekologisk geererig av yttrade/text: Maskiöversättig: geererig till målspråket. Dialogsystem: geerera yttrade. Pedagogiska program: geerera problem. Grammatik språk i formell, matematisk meig (Chomsky). Ett språk är e mägd strägar E grammatik defiierar ett språk. E grammatik defiierar e mägd sytaktiska strukturer (t.ex. träd) och därmed ett språk (eftersom vi ka läsa av sträge ur trä). 17 18 Grammatikalitet Ett aturligt språk erbjuder e oädlighet av (grammatiska) möjligheter: Måga grammatiska strägar kommer aldrig att avädas. Måga grammatiska strägar är sematisk sett udda (och därför oavädbara). Måga grammatiska strägar är så komplexa att ma ite ka hålla reda på deras struktur. Alltså: grammatisk avädbar (i språket) (Chomsky). Morfem (repetitio) Grammatikes mista eheter: de mista betydelsebärade ehetera. (Jfr: foem: de mista betydelseskiljade ehetera.) Vissa morfem ka stå som ord (fria morfem), t.ex. hus, semester, med, se, etc. Adra morfem ka ite (buda morfem), t.ex. (hus)lig, (semester), (se)r, etc. 19 20 Ord, lexem, ordformer (repetitio) Ord: teoretiskt gaska svåra typer av ehet. Självklar edast för vissa skriva språk. Ordförekomster: grammatiskt sett hårt sammabuda eheter. Betoig i uttal. Lexem: ett uppslagsord (abstrakt ehet). T.ex. verbet älska, substativet bord. Böjigsform: Mer kokret form ett lexem ka ata. Former av älska: älska (ifitiv), älskar (preses), älskade (preses particip), o.s.v. 21 Ord och morfem (repetitio) Fria morfem bildar ordformer. Adra ordformer är sammasatta, kombiatiostyper: Böjig (iom ett lexem), t.ex. hus-e-s, läs-te-s. Avledig (ytt lexem frå aat), t.ex. läs-lig, läs-ig, hus-lig. (Avlett lexem ka i si tur böjas.) Sammasättig (två lexem kombieras till ett ytt), t.ex. husbåt, gulgö, citropaj. (Sammasatt lexem ka i si tur böjas.) 22 Fraser/kostitueter (repetitio) Eheter som häger ihop grammatiskt. Teoretisk motivatio: fraser av ett slag ka förekomma i olika kotexter. (Ega eheter av struktur.) Exempel: De lilla hude skäller. (som subjekt) Lisa köpte de lilla hude. (som objekt) Lisa tittade på de lilla hude. (som prepositios rektio) Beskrivige av (olika slag av) omialfraser måste kua återavädas i olika sammahag. 23 Fraser/kostitueter: egeskaper Egeskaper som ofta talar för frasstatus: (ex. Lisa köpte de lilla hude.) Ka flyttas. De lilla hude var som Lisa köpte. Ka befrågas. Vad köpte Lisa? De lilla hude. Ka samordas. Lisa köpte de lilla hude och de stora katte. Sematike ka stödja (och ligger bakom) våra ituitioer om frasstatus. 24

Fraser/kostitueter: distributio Distributio: Vilka grammatiska satskotexter ett uttryck ka förekomma i. Om två fraser har olika distribitio så fis grammatiska satser i vilka ea uttrycket förekommer och där ite ka bytas mot adra uta att grammatikalitete fördärvas. de lilla hude och de stora katte har samma distribitio. de lilla hude och stora djuret har olika distribitio: De lilla hude är säll. *Det stora djuret är säll. Fraser/kostitueter: sytaktiska kategorier Grudpricip: Fraser med samma distribitio tillhör samma kategori. Fraser med olika distributio tillhör olika kategorier. Vi måste kua skilja på de lilla hude och stora djuret kategorimässigt. Vi aväder ofta också vidare kategorier: Begreppet omialfras täcker i måga olika omialfraser som vi måste kua skilja på. 25 26 Kostitues Sytaxes abstrakta del-helhetsbegrepp: kostitues. Ekla kostitueter: (typiskt) ord. Sammasatta kostitueter: fraser. omedelbar vs medelbar kostitues (mödrar domierar döttrar) kostituese placerar odera i e trädstruktur Visas som utritad graf: omedelbar kostitues blir streck eller geom bracketig : [i [låda [på [vide]]]] Lijär precedes = grammatikes abstrakta lijära ordig, (ordföljd och frasföljd) motsvarar före-efter i tal motsvarar väster-höger i skrift (Glöms lätt bort, eftersom ma fågar iformatioe gratis geom talets flöde i tide och skriftes riktig på pappret.) 27 28 Sytaxträd (med kategorietiketter) Grammatisk beskrivig av oder S Nodera svarar mot ord, fraser, satser och meigar. VP Vi måste kyta e beskrivig av språkliga uttrycket till varje od. e katt v såg Miimalt: e kategorisymbol (som i kotextfri grammatik) Mer utvecklat: Strukturerade beskrivigar, t.ex. särdragsstrukturer. flera hudar 29 30 Träd, logiska begräsigar, etc. Omedelbara kostituese (OK) ger just e trädstruktur (utifrå ett ädligt atal oder). (Träd (typ av graf): E od har ige moder; alla adra har precis e; ige cirkularitet.) Lijär precedes överesstämmer med OK. Alla döttrar ordas lijärt på rätt sätt. Precis e beskrivig per od. Noder som sakar döttrar kallas löv. Grammatik träd: typisk relatio För e kotextfri grammatik (CFG) gäller att ett träd tillåts av grammatike omm: Rotode (de uta moder) är märkt med grammatikes startsymbol. Varje moderod med dotteroder (=lokalt träd) matchar e regel i grammatike. Lövodera (lexikala, termiala) matchar lexikoigågar. 31 32

Sytaxträd, regler, lexiko CFG, äu mer formellt e katt S v såg VP flera hudar S VP VP v e katt v såg flera hudar Valigt sätt att defiiera e CFG formellt: E CFG är e kvadrupel N,T,P,S, där N är mägde icke-termialer (kategorisymboler), T är mägde termialer (ord), P är mägde av regler (iklusive lexikoigågar) och Σ är startsymbol. E CFG defiierar e mägd träd och e mägd strägar icke-termialer (alltså ett språk i Chomskys meig). 33 34 CFG, äu mer formellt, exempel Exempel på e CFG, N,T,P,Σ (utifrå tidigare träd): N = {S,, VP,, v} T = {e, flera, hudar, katt, såg} P = { S VP,, VP v, e, katt, v såg, flera, hudar } Σ =S 35 Parsig två begrepp Parsig egelska or för satslösig. Matematisk bemärkelse: Räka ut e strägs aalys (evetuellt träd) givet e grammatik. Empirisk/språktekologiskt praktisk bemärkelse: Räka ut de sytaktiska strukture hos aturligt förekommade språk. Vilke sorts språk? Hur fullstädigt? Med vilka begrepp? Med vilke grad av korrekthet/precisio/recall för olika aspekter? Viktigt: robusthet, haterig av ogrammatiskt material. 36 Parsigalgoritmer (1) Algoritmer: Mekaiska (effektiva) procedurer för att lösa giva problem, eller (mer tekiskt), beräka fuktioer. Alltså: De abstrakta pricipe bakom ett program. (Så att samma algoritm ka implemeteras på olika sätt och i olika programspråk.) Parsig i tekisk bemärkelse (och i sveska): sytaktisk aalys i dator, både av aturligt och artificiellt språk. Parsigalgoritmer (2) Parsigalgoritm: E algoritm som givet e typ av grammatik, och e sträg av symboler räkar ut e mägd aalyser (typiskt sytaxträd) som grammatike tilldelar sträge. Olika urval aalyser: alla (om grammatike tillåter ambiguitet), bästa (utifrå ågo ragordig), e eda, etc. Recogitio är ma bara får ett ja eller ej till fråga om grammatike ka geerera sträge. 37 38