Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Relevanta dokument
Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Ord och morfologi. Morfologi

Ord och morfologi. Morfologi

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiskt uppmärkt text

Grammatik för språkteknologer

Grammatik för språkteknologer

Lingvistiska grundbegrepp

Bootstrapping för substantivtaggning

Grammatik för språkteknologer

Grundläggande textanalys. Joakim Nivre

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Lingvistiskt uppmärkt text

Tekniker för storskalig parsning

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

grammatik Ordklasser, nominalfraser, substantiv

Grundläggande textanalys, VT2012

Karp. Övningar Språkbankens höstworkshop oktober 2016

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Lexikon: ordbildning och lexikalisering

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Datorlingvistisk grammatik

ORDKLASSERNA I SVENSKA SPRÅKET

Statistisk grammatikgranskning

Karp. Övningar Språkbankens höstworkshop oktober 2017

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Svenska - Läxa ORD att kunna förklara

SUBSTANTIV = namn på saker, personer, känslor

729G09 Språkvetenskaplig databehandling

Världens språk, 7,5hp vt 2012

Träningshäfte ordklasser facit

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Obesvarade frågor från F1

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Lingvistik III Morfem och morfologi. 729G49 10 April

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Grammatik för språkteknologer

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Språkgranskningsverktyg. Grammatikkontroll i Word

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Ordbildning/morfologi

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Svenskans struktur, 7,5 hp Tentamensexempel 3

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Ordklasser och satsdelar

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Ordförråd och Ordbildning

Flera nivåer i språkets uppbyggnad

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Arbetsplan i Thailändska

Korpuslingvistik vt 2007

Extramaterial 3 Morfologi

Språktypologi och språksläktskap

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Grundläggande textanalys, VT2013

Svenskans struktur, 7,5 hp Tentamensexempel 1

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Språkpsykologi/psykolingvistik

Institutionen för lingvistik och filologi HT 2009

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Automatisk morfologisk segmentering för svenska substantiv

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Svenska förkortningar Utskrivbar övning från Glosor.eu

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Parsningens olika nivåer

Innehållsförteckning till Svenska Online. Adress: Uppdaterat

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Grammatisk teori II Attributvärdesgrammatik

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Träningshäfte ordklasser (Venus)

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Datum: Date: Provkodr: KTR1 Exam code:

Instuderingsmaterial: Adjektiv, Substantiv och Verb

Några skillnader mellan svenska och engelska

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Språkteknologi och Open Source

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Tekniker för storskalig parsning

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Svensk minigrammatik

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Transkript:

Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap om ordens morfologi (nästan). Är och var kommer från ordet vara vaar är ett stavfel i svenska språket Kan man inte lägga alla ord i en lexikonfil? Finskt exempel Täckningsexempel Nybildning, t.ex. låneord, namn och sammansättningar Vad är ett ord (idag vs. i dag) Graford omges av mellanslag, behöver inte tillhöra språket Lemma grundform, inbegriper alla ordformer av ordet inom en ordklass Lexem lexikonord, tillhör språket. Ett lexem flera graford Ordformer olika former av samma lemma Token en enhet med språkligt innehåll (tokenisering), ord, förkortningar, Grundläggande begrepp Morfem: te/de men äv. häst och ligg Stam: skilj, naturreservat Rotmorfem: skilj, natur+reservat Lemma: flicka Affix: -or, -be, -m-, ge-*-t Prefix: -be betänka, för- fördriva Suffix: -or flickor Infix: -m- korrumpera (korruption) Lemma, lexem och stam herre ORDLED: herr-en LEXEM 1. respekterad man LEXEM 2. överordnad (förnäm) person (av manligt kön) med oinskränkt bestämmanderätt 6

Böjningsmorfologi och avledningsmorfologi Böjningsmorfologi böjer lexem bil --> bilar, bilarna Avledningsmorfologi skapar nya lexem: godhet, författandet Stamförändringar Springa sprang sprungit (starka verb) OMLJUD: man:män, son:söner AVLJUD: i:a:u springa y:ö:u flyga flög flugit REDUPLIKATION (fördubbling): (latin) currit han springer, cu-currit han sprang/har sprungit STAMBYTE: är varit, liten-små-mindre Morfologisk typologi Analytiska Isolerande språk (vietnamesiska) övervägande fria morfem Syntetiska språk kombinerar morfem: Flekterande (svenska) sammansmälta morfem med mera variation. Agglutinerande (finska, turkiska) tydligt urskiljbara morfem (se exempel). Exempel från en grönländsk dialekt iglukpisuktunga = iglu = hus kpi = bygga suk = (jag) vill tu = själv nga = mig 10 Ordbildningsexempel järjestelmättömyydellänsäkäänköhän järki =förnuft, förstånd järjestää=ordna, arrangera järjestellä=ordna, arrangera (durativt, iterativt) järjestelmä = system (det man fått då man ordnat och ordnat!) järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -ttöm av tön, -ttömän: negerande ändelse, -lös: systemlös -yyde, av -yys, -yyden: substantivderivation, -het: systemlöshet -llä:kasusändelsen i ordet: med,på: med systemlöshet -nsä:possessivsuffix 3p: med sin systemlöshet

järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -kään:negerande ändelse: inte ens: inte ens med sin systemlöshet -kö: frågepartikel: inte ens med sin systemlöshet? hän:affirmativ artuikel: väl, men ju, nog: inte ens med sin systemlöshet, väl? spännande Analytisk och syntetisk mer spännande mest spännande analytisk fin finare finast syntetisk, agglutinerande låg lägre lägst syntetisk, flekterande Sammansättningar i svenskan Sammansättningar i svenskan Sammansättningar: minst två fria morfem Lexikaliserade (finns i SAOL) äppelträd, polisbil Nybildningar Språkteknologi+klubben halk+trattar båtmotor -- motorbåt (determinativa, efterledet bestämmer tolkningen) polismisshandel kvinnomisshandel Blågul, gulblå (kopulativa, samordnade led) strumpbyxor? Slutna klasser prepositioner PP: på, i, för determinerare DT: den, en, det pronomen PN: den, en, det konjunktioner KN: och, eller, men subjunktioner SN: om, som räkneord RG: ett, 1, 2023 possessiv PS: min, ditt, hennes Öppna klasser substantiv NN: bilen, hund egennamn PM: Kalle, Volvo adjektiv JJ: gul, bäst adverb AB: mycket, igår verb VB: spela, springa particip PC: kastad, sjungande

Ordklassfördelning i en svensk korpus (SUC, 1 milj. ord) Förekomster Typer Substantiv 26.64 % 64.59 % Verb 17.03 % 10.44 % Pron 16.45 % 0.15 % Prep 11.40 % 0.10 % Adv 9.78 % 1.54 % Adj 7.52 % 17.35 % Konj 7.38 % 0.05 % Automatisk morfologisk analys/ parsning och generering Målsättningar? Datareducerande Ger böjningsinformation Morfologiskt komplicerade språk Analys och generering i samma system Språkvetenskaplig beskrivning Utgångspunkter Text Tokensering, inkl. dela upp i meningar Morfologisk processning/analys Stemming Regler, inget lexikon Mycket resurssnålt Främsta tillämpning: informationssökning Programmet tar bort morfem för morfem 21 Regelspråk för stemming # Kommentar ^ Negation slut vänster-kontext $ ordslut -> skriver om vänster till höger ; regelslut ^vänsterkontext morfem$->ersättning; Regler tillämpas i tre steg Två exempelregler arna$->; ning$->; jämför: blåsning tidning tillagning 23 24

Regler steg 1 Regler steg 2 Regler steg 3 Mer kontroll ^tid ning$->; Regler tillämpas toppen-ner, endast en tillämpning i varje steg. Alla regeldelar är optionella utom -> och ; 25 26 Stemming versus lemmatisering Behövs det ett lexikon? Stemming: banan (stam=ban) banan (stam=ban) Lemmatisering: banan (lemma=bana) banan(lemma=banan) Många träffar eller relevanta träffar? Analys och generering Analys: Indata: bilen Utdata: bil NN UTR Generering: Indata: bil NN UTR Utdata: bilen Viktiga byggstenar för automatisk morfologisk analys och generering Lexikon: listor med stammar och affix och inte minst särdrag. Morfotax: regler för i vilken ordning morfemen får sättas samman. (ändliga automater) Ortografiska regler: för allomorfer och fonologisk hänsyn, t.ex fågel - fåglar (ändliga transduktorer) Alla former i lexikon? bil nn.utr.sin.ind.nom bils nn.utr.sin.ind.gen bilen nn.utr.sin.def.nom bilens nn.utr.sin.def.gen bilar nn.utr.plu.ind.nom bilars nn.utr.plu.ind.gen bilarna nn.utr.plu.def.nom bilarnas nn.utr.plu.def.gen häst nn.utr.sin.ind.nom 30

Ändlig automat ett alfabet (lexikon) en uppsättning tillstånd en uppsättning tillståndsövergångar associerade med en symbol ur alfabetet används för att acceptera ord vi får ingen analys Ändlig transduktor kan ses som en automat med ett läsband och ett skrivband. Def: dess alfabet är definerat som par av symboler a:b, där a kommer från ett alfabet och b från ett annat. Vi kan använda den för att acceptera ord men också ge dem en analys. 31 32 Tillstånd Morfem Aktion Utdata 0 pojk gå till 1 pojke NN UTR 0 spik gå till 1 spik NN UTR 1 gå till 2 1 e gå till 2 1 ar gå till 3 2 gå till 4 2 en gå till 4 3 gå till 4 3 na gå till 4 4 gå till 5 4 s gå till 5 5 # gå till 6 bil --> bil r1 hus --> hus r5 1 s en ens ar M ars arna arnas 5 et ets en ens 6 stop 33 34 Tvånivåmodellen (TWOL) Kimmo Koskenniemi (1983) Två nivåer: Lexikal (abstrakt) och Ortografisk (verklig). Kan implementeras med ändliga transduktorer. Utvecklades först med finska i tankarna. Nu implementerad för många språk, t.ex. svenska Swetwol. Par av språkliga nivåer Lexical f o x +N +PL Intermediat e f o x ^ s # Surface f o x e s

Statistiska metoder Statistisk suffixanalys, kräver taggad korpus Man får alltid ett (hyfsat) svar i ett regelbaserat system saknas det kanske regler, eller så är de heuristiska reglerna för grova. Svårare med generering Billigt, men risk för skräp Hur ser språket ut i en vanlig text på 1500 ord? reda 3 sida 1 hemsida 1 enda 1 hända 1 använda 6 förbjuda 1 omfatta 1 om 24 område 1 omtalad 1 opinion 5 opinionsmätning 4 opinionsteknik 1 opinionsundersökning 5 att 48 är 39 på 38 som 36 det 33 i 33 och 30 om 30 av 26 en 26 för 22 ett 19 till 18 de 16 har 15 vi 15 den 12 hur 12 inte 11 eurobarometer 10 38 vara varit är Är var vara verb 45.0 en En ett en determinerare 43.0 på på På preposition 37.0 i i I preposition 29.0 och och Och konjunktion 29.0 att att Att infinitivmärke 28.0 det det Det DET pronomen 27.0 av av preposition 24.0 om om OM Om preposition 24.0 som som pronomen 21.0 att att Att subjunktion 20.0 för för preposition 20.0 den den det Den de determinerare 19.0 ha har HAR ha verb 17.0 vi vi oss VI pronomen 17.0 till till preposition 16.0 opinionsmätning Opinionsmätningar Opinionsmätningarna opinionsmätningar Opinionsmätningarnas opinionsmätningarnas opinionsmätningarna substantiv 14.0 39 Marsianerna!nn.utr.plu.def.nom hade!!!! vb.prt.akt.aux!! alla!!!!! pn.utr/neu.plu.ind.sub/obj ganska!!! ab gröna!!!! jj.pos.utr/neu.plu.ind/def.nom långa!!!! jj.pos.utr/neu.plu.ind/def.nom fingrar!!! nn.neu.plu.ind.nom".!!!!!! mad 40 Man vinner kunskap om språkets användning med statistik -ar substantiv, utr, plu, ind, nom 60 % -ar verb, prs, akt 40 % Webbtips http://www2.lingsoft.fi/cgi-bin/swetwol SWETWOL Skriv ett ord på svenska (i vilken böjningsform som helst). Ord: Ordets analys: "<för>"! "föra" V ACT PRES! "föra" V ACT IMP! "för" N UTR EF SG! "för" <CLB> CC! "för" ADV (@AD> @ADVL)! "för" PREP http://snowball.tartarus.org/