Ord och morfologi. Morfologi

Relevanta dokument
Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Ord och morfologi. Morfologi

Grammatik för språkteknologer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Grammatik för språkteknologer

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Lingvistiskt uppmärkt text

ORDKLASSERNA I. Ett sätt att sortera våra ord

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Ordklasser och satsdelar

SUBSTANTIV = namn på saker, personer, känslor

ORDKLASSERNA I SVENSKA SPRÅKET

Datorlingvistisk grammatik

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Grammatisk teori II Attributvärdesgrammatik

grammatik Ordklasser, nominalfraser, substantiv

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Lingvistiskt uppmärkt text

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Grammatik för språkteknologer

Tekniker för storskalig parsning

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Svenska språket. Grammatik.

Träningshäfte ordklasser facit

Facit för diagnostiska provet i grammatik

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

Grammatikprov åk 8 ORDKLASSER

Svensk minigrammatik

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Grammatik skillnader mellan svenska och engelska

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

729G09 Språkvetenskaplig databehandling

Först lite rester...

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Datorlingvistisk grammatik

!!! Några verb är oregelbundna vara är var!!!

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Världens språk, 7,5hp vt 2012

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Träningshäfte ordklasser (Venus)

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Lingvistiska grundbegrepp

Några skillnader mellan svenska och engelska

Svenska - Läxa ORD att kunna förklara

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

1 Vilka ord är substantiv? Läs texten.

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Några skillnader mellan svenska och engelska

Instuderingsmaterial: Adjektiv, Substantiv och Verb

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

12 Programstege Substantiv

Harry Potter och De Vises Sten, den spännande ungdomsboken, skriven av den engelska författaren J.K. Rowling, har blivit en succé över hela världen.

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Svensk grammatik Ordklasser!

Grundläggande textanalys. Joakim Nivre

Karp. Övningar Språkbankens höstworkshop oktober 2016

PROV ORDKLASSER SV Förklara vad ett konkret substantiv är och ge två exempel (3p)

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Datorlingvistisk grammatik

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Ordklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Olika sorters ord ordklasser

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Förord KERSTIN BALLARDINI

Svenskans struktur, 7,5 hp Tentamensexempel 1

Obesvarade frågor från F1

Institutionen för lingvistik och filologi HT 2009

Sfi-läromedel ur ett processbarhetsperspektiv

SPRÅKVETENSKAP OCH ORDKLASSER

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Karp. Övningar Språkbankens höstworkshop oktober 2017

LATIN I,1, DELKURS 1

Frasstrukturgrammatik

Lexikon: ordbildning och lexikalisering

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Fraser, huvuden och bestämningar

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT09 Dag 3

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Transkript:

Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande innehållsbärande enheten affix:små enheter som läggs till stammen för att signalera olika grammatiska funktioner Affix kan i sin tur delas upp i prefix(be-tänka), suffix (bord-et), infix(korru-m-pera), cirkumfix(geag-t) 1

Morfologi Ord kan böjasför att signalera grammatisk information: stol, stols, stolen, stolens, stolar, stolars, stolarna, stolarnas Ord kan också avledasoch skapa nya ord, eventuellt av en annan ordklass: motiv motivera motivering Ord kan sättas sammantill nya ord: distrikt + sköterska + mottagning distriktssköterskemottagning Böjningsmorfologi stam päronens suffix som signalerar plural och definit form suffix som signalerar genitiv Grammatisk info: nn.neu.plu.def.gen Morfologisk analys: ytform stam + grammatisk info Morfologisk generering: stam + morfologisk info ytform 2

Morfologisk analys Att utifrån ett ord identifiera dess stam och grammatiska information. Kan man inte lagra alla former av ett ord i ett lexikon? Jo, ibland (t.ex. taligenkänning). Men oftast inte, pga sammansatta ord, förkortningar, nybildning av ord, avledningar, låneord, namn. Vissa språk (t.ex. finska) har en mycket invecklad morfologi och en otrolig mängd olika ordformer. Morfologisk analys Varför är det viktigt? Stavningskontroll Grammatisk kontroll def den svarta svanen utr Informationssökning bättre resultat om man söker på alla former av ett ord 3

Substantiv Substantiv har följande parametrar: genus: utrum(stol), neutrum(bord) species: indefinit(stol), definit(stolen) numerus: singular(stol), plural(stolar) kasus: genitiv(stolens) eller nominativ Inte hela sanningen; finns olika pluralmönster apelsin, äpple, päron, häst, pojke, flicka, gås, stimulus, Verb Regelbundna verb: cykla, cyklar, cyklade, cyklat, cyklande, cyklandes springa, springer, sprang, sprungit, springande, springandes Oregelbundna verb: vara, är, var, varit, varande, varandes Äldre svenska har många fler verbformer: äro, ären, voro, vorit, vore, vare, finge, ginge, ett fåtal av dessa lever kvar (t.ex. vore) Många språk har många fler verbformer: spanska 50, klassisk grekiska 350, turkiska 2 miljoner(!) 4

Adjektiv Kan kompareras: spännande mer spännande mest spännande (analytisk) fin finare finast (syntetisk agglutinerande) låg lägre lägst (syntetisk flekterande) Avledningar Svenska (och engelska) har enkel böjningsmorfologi jämfört med andra språk. Hur är det med avledningar? -era: motiv, motivera [nn vb] -are: jaga, jagare, (jägare) [vb nn] -ing: motivera, motivering [vb nn] -het: god, godhet [adj nn] o-: trolig, otrolig [adj adj] -bar: äta, ätbar [vb adj] Flera steg: station stationera stationering 5

Sammansättningar Svenska kan bilda långa sammansatta ord: distriktssköterskemottagning Några klurigheter: foge: distriktssköterska vokalbyte: sköterskemottagning vokal försvinner: läkarmottagning Efterledet bestämmer tolkningen (båtmotor motorbåt) polismisshandel kvinnomisshandel strumpbyxor? Lexikaliserade sammansättningar: handboll Andra språk Tyska: Lebensversicherungsgesellschaftsangestellter livförsäkringsbolagsanställd Grönländska: iglukpisuktunga iglu = hus, kpi = bygga, suk = (jag) vill, tu = själv, nga = mig Finska: järjestelmättömyydellänsäkäänköhän inte ens med sin brist på ordning 6

Morfologi och ändliga automater Vi vill koda all denna morfologiska information med ändliga automater: acceptera korrekta ord förkasta inkorrekta ord göra detta på ett sätt som inte kräver att vi listar alla ordformer i språket Detta krävs: lexikon: alla stammar och affix morfotax: ordning på affix (päronens, *päronsen) stavningsregler för vokalförändring (sköterskemottagning) Svenskt plural Vi provar göra en automat som accepterar svenska substantiv i plural: stolar, stolarna, stolars, stolarnas klockor, klockorna, apelsiner, apelsinerna, bord, borden, böcker, böckerna, gäss, gässen Stam + suffix funkar för stol, klocka, apelsin, bord Bok, gås måste specialbehandlas eftersom stammen förändras 7

Plural: Försök 1 stam, reg nn -ar, -or, -er, -n, ε oreg nn, indef plur -na, -en -na, -en Plural: Försök 1 flick stam, reg nn or -ar, -or, -er, -n, ε oreg nn, indef plur -na, -en s na -na, -en Notera att automaten förkastar *flicknaors, *flicksorna, *flicks, *ornasflick, osv. 8

Plural: Försök 1 bord stam, reg nn ε -ar, -or, -er, -n, ε oreg nn, indef plur -na, -en s en -na, -en Plural: Försök 1 stam, reg nn -ar, -or, -er, -n, ε oreg nn, indef plur gäss en -na, -en s -na, -en Automaten klarar även oregelbundna substantiv. Men vad är det för fel? 9

Lemmatisering Vid informationssökningvill man även söka på böjningsformer av sökorden cykel, cykla, cykling, osv Vid lemmatisering ersätts varje ord med sitt lemma (grundform) Pojkarnas bilar hade olika färger pojke bil ha olik färg Detta kräver morfologisk analys Stemming För språk med enkel morfologi (t.ex. engelska) är det inte alltid nödvändigt med morfologisk analys Onödigt att veta att foxes är plural av fox Stemming hugg av morfem för morfem Resurssnålt inget lexikon krävs Framför allt användbart i informationssökning (lab 6) 10

Sammanfattning Ett språks morfologibeskriver hur ord böjs, avleds, sätts samman, och nybildas. Morfologisk processning viktigt steg i många applikationer igenkänning av korrekta ord analys från ytform till stam + grammatisk info generering andra hållet Komplicerad morfologi kan beskrivas med ändliga automater I enklare tillämpningar duger det med stemming Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DD2418 Språkteknologi Johan Boye 11

Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer finns mellan orden? Formella beskrivningar av ett språk: Ändliga automater? Grammatiker, speciellt: Kontextfri grammatik, bygger på konstituenter som t.ex. nominalfras, verbfras, osv. Dependensgrammatik, bygger på satsdelar (funktioner) Tillhör språket? Köpte Rune sin nya klocka i lördags? Köpte Rune i lördags sin nya klocka? Köpte i lördags Rune sin nya klocka? Hon slog han på truten. Jag hörde inte låten förens igår. Han hade en nära döden upplevelse. Kalle är bättre än mig. Stina gick ända tills skolan. 12

Ordklasser / kategorier Ord delas upp i kategorier eller ordklasser(pos, parts-ofpeech, taggar) efter sina morfologiska och syntaktiska egenskaper. T.ex. substantiv kan förekomma efter determinerare (ett päron) sättas i genitiv-form(päronets) sättas i plural-form (med vissa undantag, t.ex. snö) Finns ingen allmänt accepterad mängd kategorier men flera standarder, t.ex. SUC (Stockholm Umeå Corpus) Kategorier i SUC (öppna) Kod Kategori Exempel NN Substantiv päron PM Egennamn Kalle JJ Adjektiv grön AB Adverb ofta VB Verb springa PC Particip slängd IN Interjektion aj UO Utländskt ord the 13

Kategorier i SUC (slutna) DT Determinerare denna HA Frågande/relativt adverb när HD Frågande/relativ determinerare vilken HP Frågande/relativt pronomen vem, som HS Frågande/relativt poss. pron. vems, vars IE Infinitivmärke att KN Konjunktion och PL Partikel på PN Pronomen han PP Preposition under PS Possessivt pronomen din RG Grundtal fyra RO Ordningstal fjärde SN Subjunktion att Ordklasser / kategorier Kategorier är naturliga byggstenar i beskrivningar av språk Ord av samma kategori kan förekomma på samma plats i en sats (med vissa undantag): Det sitter en flugapå väggen Det sitter en rädslapå väggen Syntaktiskt rätt även om innebörden är oklar Men även en grupp av ord kan ha samma roll: 14

Konstituenter En grupp av ord som kan sägas agera som en enhet T.ex. en nominalfras: flickan började gråta den lilla flickan började gråta den lilla flickan i den röda kappan började gråta den lilla flickan i den röda kappan vars föräldrar var lärare började gråta De markerade fraserna ovan kan förekomma i samma kontexter Konstituenter Finns ingen allmän accepterad uppsättning konstituenter precis som med kategorier därför finns det många olika grammatiska teorier och alternativa formaliseringar av samma data 15

Kontextfria grammatiker Andra namn: CFG, frasstrukturgrammatik, Backus-Naur Form (BNF) består av: terminaler (ord, i vårt fall) icke-terminaler (konstituenter, i vårt fall) regler på formen A α, där αär en sekvens av terminaler och icke-terminaler Kontextfria grammatiker: Exempel S NP VP S VP VP VB VP VB PP PP P NP NP PM NP NN PM Kalle NN regnet V springer P i Kalle springer i regnet springer i regnet regnet springer i Kalle 16

Syntaxträd S NP VP PM VB PP Kalle springer P i NP NN regnet [S [NP [PM Kalle]] [VP [VB springer] [PP [P i] [NP [NN regnet]]] Övning En vanlig mening från SUC-korpuset: Viktigaste redskapen vid ympning är annars papper och penna. Med kategorier: Viktigaste (JJ)redskapen (NN) vid (PP) ympning (NN) är (VB) annars (AB) papper (NN) och (KN) penna (NN). Konstruera ett syntaxträd för denna mening! (Hitta på troliga grammatikregler) 17

Parsning Parsning processen att utifrån en mening och en grammatik konstruera ett eller flera syntaxträd. Varje syntaxträd svarar mot en tolkning av meningen. Finns många olika parsnings-algoritmer. Mer om detta i föreläsning 7 (Mats W) Kongruens Man vill även kunna kontrollera kongruens: den svarta svanen / det svart svanen Inte helt okomplicerat alla gånger: How you can claim that Bolton can beat Manchester United with all their well-payed superstars surprises me. För detta krävs att man håller reda på alla ords särdrag. 18

Särdrag i SUC Särdrag Värde Förklaring Kategorier Genus UTR utrum DTHD HP JJ NN PC PN PS RG RO NEU neutrum MAS maskulinum Numerus SIN singular DTHD HP JJ NN PC PN PS RG RO PLU plural Species IND indefinit DTHD HP JJ NN PC PN PS RG RO DEF definit Kasus NOM nominativ JJ NN PC PM RG RO GEN genitiv Tempus PRS presens VB PRT preteritum SUP supinum INF infinitiv Särdrag i SUC (2) Särdrag Värde Förklaring Kategorier Diates AKT aktivum VB SFO S-form Modus KON konjunktiv VB PRS presens PC PRF perfekt Grad POS positiv AB JJ Participform Pronomenform KOM SUV komparativ superlativ SUB subjektsform PN OBJ objektsform? SMS sammansättn. Alla 19

Exempel Det DTNEU SIN DEF är VB PRE AKT ingen PN UTRSIN IND SUB/OBJ slump NN UTR SIN IND NOM att KN den PN UTR SIN IND SUB/OBJ kallas VB PRE SFO för PP världens NN UTR SIN DEF GEN vackraste JJ SUV UTR/NEU SIN/PLU IND/DEF NOM sjöresa NN UTR SIN IND NOM Fråga: Vilka ord kongruerar med varandra? Kongruens Hur kan vi koda kongruens i en kontextfri grammatik? NP DT JJ N tillåter den svarta svanen *det svarta svanen *det svart svan osv 20

Verbens subkategorisering Johan nös. VP V *Johan nös en nyckel. Kalle lade en nyckel på bordet. *Kalle lade. *Kalle lade en nyckel. Kalle gav honom ett paket. Kalle gav ett paket. *Kalle gav honom. Eva påstod att han hade ljugit. *Eva påstod *Eva påstod ett påstående. VP V NP PP VP V NP NP VP V NP VP V att S Verbens subkategorisering Alla verb kan inte förekomma i alla VP-regler: *Johan nös en nyckel. *Kalle lade en nyckel. *Eva påstod ett påstående. Vi kan subkategorisera verben efter vilka VP-regler de kan förekomma i. Generalisering av transitivt/intransitivt verb Moderna grammatiker kan ha tiotals eller hundratals klasser av verb. Subkategorisering av verb kan hanteras på samma sätt som kongruens 21

Alltså: Med kontextfria grammatiker kan vi hantera många (alla?) syntaktiska fenomen Men det finns problem: t.ex. kongruens, subkategorisering kan hanteras inom formalismen, men grammatikerna blir ofta stora Finns bättre lösningar (t.ex. unifieringsgrammatik, kap 15 i boken). mer kraftfulla än kontextfria grammatiker (högre i Chomsky-hierarkin) 22