Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Relevanta dokument
Ord och morfologi. Morfologi

Grammatik för språkteknologer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Lingvistiskt uppmärkt text

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Datorlingvistisk grammatik

Grammatisk teori II Attributvärdesgrammatik

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Ordklasser och satsdelar

ORDKLASSERNA I. Ett sätt att sortera våra ord

729G09 Språkvetenskaplig databehandling

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatik för språkteknologer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatik för språkteknologer

Lingvistiskt uppmärkt text

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

ORDKLASSERNA I SVENSKA SPRÅKET

SUBSTANTIV = namn på saker, personer, känslor

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Facit för diagnostiska provet i grammatik

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Datorlingvistisk grammatik

Svensk minigrammatik

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Frasstrukturgrammatik

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Tekniker för storskalig parsning

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Fraser, huvuden och bestämningar

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Datorlingvistisk grammatik

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Svenska språket. Grammatik.

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Grammatik skillnader mellan svenska och engelska

Först lite rester...

Grammatikprov åk 8 ORDKLASSER

grammatik Ordklasser, nominalfraser, substantiv

Träningshäfte ordklasser facit

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Grammatisk teori III Praktisk analys

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT09 Dag 3

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Datorlingvistisk grammatik

Förord KERSTIN BALLARDINI

Grammatik för språkteknologer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Världens språk, 7,5hp vt 2012

Några skillnader mellan svenska och engelska

Satslära introduktion

Träningshäfte ordklasser (Venus)

Syntax Fras, sats, mening

Grundläggande syntaktiska funktioner och roller

Några skillnader mellan svenska och engelska

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Morfologi, Ordklasser och Satsdelar

ANDREAS ISSA SVENSKA SPRÅKET

Lingvistiska grundbegrepp

Ordklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser

Svenskans struktur, 7,5 hp Tentamensexempel 1

PAROLE TAGSET <

Harry Potter och De Vises Sten, den spännande ungdomsboken, skriven av den engelska författaren J.K. Rowling, har blivit en succé över hela världen.

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Tekniker för storskalig parsning

Fyll i ditt namn, adress och telefonnummer: Namn: Adress: Tfn:

Tenta i Lingvistik 729G08 ht10 ( )

Välkommen att träna skriva!

Korpuslingvistik vt 2007

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Perl. ~ Redovisning. Alla filer som behövs för att lösa uppgifterna finns dels på ~martin/pubperl/ på mumin, samt på

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Språkteknologi. Språkteknologi

Språk, datorer och textbehandling

Ordföljd. Påstående. Fråga med frågeord (verbet på plats 2) Ja- / nejfråga (verbet först) Uppmaning = imperativ (verbet först)

Att analysera andraspråkstexter

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Ulla Britta Persson. facit

1 Vilka ord är substantiv? Läs texten.

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Elementära verktyg för korpusbearbetning

Datum: Date: Provkodr: KTR1 Exam code:

Transkript:

Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer finns mellan orden? Formella beskrivningar av ett språk: Ändliga automater? Grammatiker, speciellt: Kontextfri grammatik, bygger på konstituenter som t.ex. nominalfras, verbfras, osv. Dependensgrammatik, bygger på satsdelar (funktioner) 1

9/7/2011 Tillhör språket? Köpte Rune sin nya klocka i lördags? Köpte Rune i lördags sin nya klocka? Köpte i lördags Rune sin nya klocka? Hon slog han på truten. Jag hörde inte låten förens igår. Han hade en nära döden upplevelse. Kalle är bättre än mig. Stina gick ända tills skolan. Syntax innebörd Twas brillig, and the slithy toves Did gyre and gimblein the wabe: All mimsywere the borogoves, And the mome raths outgrabe. Beware the Jabberwock, my son! The jaws that bite, the claws that catch! Beware the Jubjub bird, and shun The frumious Bandersnatch! He took his vorpalsword in hand: Long time the manxomefoe he sought So rested he by the Tumtumtree, And stood awhile in thought. Lewis Carroll utdrag ur Jabberwocky 2

Ordklasser / kategorier Ord delas upp i kategorier eller ordklasser(pos, parts-of-speech, taggar) efter sina morfologiska och syntaktiska egenskaper. T.ex. substantiv kan förekomma efter determinerare (ett päron) sättas i genitiv-form (päronets, Kalles, IBMs) sättas i plural-form (med vissa undantag, t.ex. snö) Finns ingen allmänt accepterad mängd kategorier men flera standarder, t.ex. SUC (Stockholm Umeå Corpus) Kategorier i SUC (öppna) Kod Kategori Exempel NN Substantiv päron PM Egennamn Kalle JJ Adjektiv grön AB Adverb ofta VB Verb springa PC Particip slängd IN Interjektion aj UO Utländskt ord the 3

Kategorier i SUC (slutna) DT Determinerare denna HA Frågande/relativt adverb när HD Frågande/relativ determinerare vilken HP Frågande/relativt pronomen vem, som HS Frågande/relativt poss. pron. vems, vars IE Infinitivmärke att KN Konjunktion och PL Partikel på PN Pronomen han PP Preposition under PS Possessivt pronomen din RG Grundtal fyra RO Ordningstal fjärde SN Subjunktion att Ordklasser / kategorier Kategorier är naturliga byggstenar i beskrivningar av språk Ord av samma kategori kan förekomma på samma plats i en sats (med vissa undantag): Det sitter en flugapå väggen Det sitter en rädslapå väggen Syntaktiskt rätt även om innebörden är oklar Men även en grupp av ord kan ha samma roll: 4

Konstituenter En grupp av ord som kan sägas agera som en enhet T.ex. en nominalfras: flickan började gråta den lilla flickan började gråta den lilla flickan i den röda kappan började gråta den lilla flickan i den röda kappan vars föräldrar var lärare började gråta De markerade fraserna ovan kan förekomma i samma kontexter Konstituenter Finns ingen allmän accepterad uppsättning konstituenter precis som med kategorier därför finns det många olika grammatiska teorier och alternativa formaliseringar av samma data 5

Kontextfria grammatiker Andra namn: CFG, frasstrukturgrammatik, Backus-Naur Form (BNF) består av: terminaler (ord, i vårt fall) icke-terminaler (konstituenter, i vårt fall) regler på formen A α, där αär en sekvens av terminaler och icke-terminaler Kontextfria grammatiker: Exempel S NP VP S VP VP VB VP VB PP PP P NP NP PM NP NN PM Kalle NN regnet V springer P i Kalle springer i regnet springer i regnet regnet springer i Kalle 6

Syntaxträd S NP VP PM VB PP Kalle springer P i NP NN regnet [S [NP [PM Kalle]] [VP [VB springer] [PP [P i] [NP [NN regnet]]] Övning En vanlig mening från SUC-korpuset: Viktigaste redskapen vid ympning är annars papper och penna. Med kategorier: Viktigaste (JJ)redskapen (NN) vid (PP) ympning (NN) är (VB) annars (AB) papper (NN) och (KN) penna (NN). Konstruera ett syntaxträd för denna mening! (Hitta på troliga grammatikregler) 7

Övning Utöka meningen så här: Viktigaste redskapen vid ympning är annars papper och penna, menade han. Med kategorier: Viktigaste (JJ)redskapen (NN) vid (PP) ympning (NN) är (VB) annars (AB) papper (NN) och (KN) penna (NN)MIDmenade (VB) han (PN). Hur skulle du bygga på syntaxträdet i föregående övning? Parsning Parsning processen att utifrån en mening och en grammatik konstruera ett eller flera syntaxträd. Varje syntaxträd svarar mot en tolkning av meningen. Finns många olika parsnings-algoritmer. Mer om detta i föreläsning 7 (Mats W) 8

Kongruens Man vill även kunna kontrollera kongruens: den svarta svanen / det svart svanen Inte helt okomplicerat alla gånger: Howyou canclaimthat Bolton canbeat Manchester United with all their well-payed superstars surprises me. För detta krävs att man håller reda på alla ords särdrag. Särdrag i SUC Särdrag Värde Förklaring Kategorier Genus UTR utrum DTHD HP JJ NN PC PN PS RG RO NEU neutrum MAS maskulinum Numerus SIN singular DTHD HP JJ NN PC PN PS RG RO PLU plural Species IND indefinit DTHD HP JJ NN PC PN PS RG RO DEF definit Kasus NOM nominativ JJ NN PC PM RG RO GEN genitiv Tempus PRS presens VB PRT preteritum SUP supinum INF infinitiv 9

Särdrag i SUC (2) Särdrag Värde Förklaring Kategorier Diates AKT aktivum VB SFO S-form Modus KON konjunktiv VB PRS presens PC PRF perfekt Grad POS positiv AB JJ Participform Pronomenform KOM SUV komparativ superlativ SUB subjektsform PN OBJ objektsform? SMS sammansättn. Alla Exempel Det DTNEU SIN DEF är VB PRE AKT ingen PN UTRSIN IND SUB/OBJ slump NN UTR SIN IND NOM att KN den PN UTR SIN IND SUB/OBJ kallas VB PRE SFO för PP världens NN UTR SIN DEF GEN vackraste JJ SUV UTR/NEU SIN/PLU IND/DEF NOM sjöresa NN UTR SIN IND NOM Fråga: Vilka ord kongruerar med varandra? 10

Kongruens Hur kan vi koda kongruens i en kontextfri grammatik? NP DT JJ N tillåter den svarta svanen *det svarta svanen *det svart svan osv Verbens subkategorisering Johan nös. VP V *Johan nös en nyckel. Kalle lade en nyckel på bordet. *Kalle lade. *Kalle lade en nyckel. Kalle gav honom ett paket. Kalle gav ett paket. *Kalle gav honom. Eva påstod att han hade ljugit. *Eva påstod *Eva påstod ett påstående. VP V NP PP VP V NP NP VP V NP VP V att S 11

Verbens subkategorisering Alla verb kan inte förekomma i alla VP-regler: *Johan nös en nyckel. *Kalle lade en nyckel. *Eva påstod ett påstående. Vi kan subkategorisera verben efter vilka VP-regler de kan förekomma i. Generalisering av transitivt/intransitivt verb Moderna grammatiker kan ha tiotals eller hundratals klasser av verb. Subkategorisering av verb kan hanteras på samma sätt som kongruens Övning Konstruera fem VP-regler för verbet berätta. Konstruera en VP-regelsom intefunkar för verbet berätta. 12

Alltså: Med kontextfria grammatiker kan vi hantera många (alla?) syntaktiska fenomen Men det finns problem: t.ex. kongruens, subkategorisering kan hanteras inom formalismen, men grammatikerna blir ofta stora Finns bättre lösningar (t.ex. unifieringsgrammatik, kap 15 i boken). mer kraftfulla än kontextfria grammatiker (högre i Chomsky-hierarkin) Ändliga automater? Räcker det inte med ändliga automater? Nej, pga rekursion som inte är höger-rekursion: S ifs thens S eithers or S S NP VP NP DT NN NP NN VP VB NN VP VB NN boy girl ice-cream candy VB eats 13

Dependensgrammatiker En dependensgrammatikfokuserar på ordens funktioner snarare än vilka konstituenter de ingår i. subjekt, direkt objekt, indirekt objekt, modifierare, alltså satsdelar Utgår från (huvud-)verbet i satsen Binära relationer mellan ord inga relationer mellan fraser och ord Enklare att behandla friare ordföljd Dependensgrammatiker nmod obj pcompl nmod subj adv nmod nmod nmod DT RG NN VB AB DT NN PP PS NN De två bröderna fick aldrig någon fisk på sin fisketur 14

Dependensgrammatiker En dependensrelation är en assymetrisk relation mellan ett huvud(-ord) och en modifierare. Ett ord kan vara huvud i flera relationer Ett ord kan bara vara modifierare i en relation Ett ord, roten, kan inte vara modifierare överhuvudtaget. Mängden av alla dependensrelationer utgör ett dependensträd. Syntaktiska funktioner Subjekt Direkt objekt Indirekt objekt Prepositionskomplement Predikativkomplement ( predikatsfyllnad ) Olika adverbial Modifierare (typ PP) 15

Övning En vanlig mening från SUC-korpuset: Viktigaste redskapen vid ympning är annars papper och penna. Med kategorier: Viktigaste (JJ)redskapen (NN) vid (PP) ympning (NN) är (VB) annars (AB) papper (NN) och (KN) penna (NN). Konstruera ett dependensträdför denna mening! Jämförelse Kontextfri gram. Dependensgram. Noder Syntaktiska funktioner Ordföljd Konstituenteroch ord Nej Ord Ja Bestäms av regler Inga krav Lexikon Mindre Större Regelmängd Många regler Färre regler 16

Trädbanker En trädbankär ett korpus där varje mening har ett associerat syntaxträd. Kan användas till: att inducera fram en grammatik från exempel för utvärdering av parsnings-algoritmer som empiriskt material för lingvister som indata för maskininlärning Penn Treebank Svensk Trädbank Svensk Trädbank 17

Svensk Trädbank 18