Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Relevanta dokument
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Ord och morfologi. Morfologi

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grammatik för språkteknologer

grammatik Ordklasser, nominalfraser, substantiv

Ord och morfologi. Morfologi

Korpuslingvistik vt 2007

Lexikon: ordbildning och lexikalisering

Grammatik för språkteknologer

Lingvistik III Morfem och morfologi. 729G49 10 April

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Tekniker för storskalig parsning

Institutionen för lingvistik och filologi HT 2009

Grammatik för språkteknologer

Språkpsykologi/psykolingvistik

Grundläggande textanalys. Joakim Nivre

Språktypologi och språksläktskap

Flera nivåer i språkets uppbyggnad

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Automatisk morfologisk segmentering för svenska substantiv

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Grundläggande textanalys, VT2012

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

Lingvistik III - Morfem och morfologi

Lingvistiska grundbegrepp

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

12 Programstege Substantiv

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Ordförråd och Ordbildning

Grundläggande textanalys, VT2013

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1

SUBSTANTIVETS PLURALFORMER I FINSKSPRÅKIGA GYMNASISTERS UPPSATSER. Saila Tullinen

9/2/2013. Lingvistik 1: föreläsning 3. Mål. Grammatik: Ordbildning / Morfologi. Therese Lindström Tiedemann

Världens språk, 7,5hp vt 2012

Läs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Ordklasser och satsdelar

Lyssna, Skriv och Läs!

Obesvarade frågor från F1

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Några skillnader mellan svenska och engelska

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Institutionen för lingvistik och filologi HT 2007

Extramaterial 3 Morfologi

Tekniker för storskalig parsning

Datorlingvistisk grammatik

EXEMPELSIDOR SPELBOKEN

Ordbildning/morfologi

Kognitiv Psykologi HT11 Språk, föreläsning 1

ORDKLASSERNA I. Ett sätt att sortera våra ord

Läs s , 28 samt G1 (s. 219) om ordklasser och G2 (s. 220) samt separat dokument om satsdelar (i studiehandledningen).

Tekniker för storskalig parsning

Språkteknologi och Open Source

Det sätt på vilket vuxna talar till barn. Även barn lär sig detta och talar så till yngre barn. - förlängning och betoning av semantiskt viktiga ord

Grammatik skillnader mellan svenska och engelska

Några skillnader mellan svenska och engelska

Grammatik för språkteknologer

fem olika sätt fem olika grupper obestämd form bestämd form Den bestämda formen

tentaplugg.nu av studenter för studenter

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Tekniker för storskalig parsning: Grundbegrepp

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Grammatisk teori II Attributvärdesgrammatik

Lingvistiskt uppmärkt text

Svenskans struktur, 7,5 hp Tentamensexempel 1

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Ordböjning morfologisk utveckling

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Semantik och pragmatik

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Introduktion i lingvistik 6

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

En byggmodell över språket fonemet morfemet

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Ansvarig lärare: Jörgen Larsson Mariann Bourghardt Telefonnummer:

Språkgranskningsverktyg. Grammatikkontroll i Word

Innehållsförteckning till Svenska Online. Adress: Uppdaterat

Svenskans struktur, 7,5 hp Tentamensexempel 3

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Morgan Nilsson. A L L M ƒ N G R A M M A T I K

Jonas Löfström Språkdata Göteborgs universitet DOLDA ORDBILDNINGSMÖNSTER. LEXIKOLOGI

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?


Kardía. fåglar en sol. ett berg en gungställning. ett träd. en bro. gräs. en å. Substantiv. Hanna Hägerland

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Flerordsenheter: Så många frågor, så få svar

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

!!! Några verb är oregelbundna vara är var!!!

Transkript:

Morfologi 2002 Ola Knutsson knutsson@nada.kth.se Innehåll Ord och ordbildning Enkel morfologisk analys Tvånivå-modellen Statistisk morfologisk analys När är det bra med morfologi? Morfologisk parsning Parsning = att känna igen indata och tilldela indata någon sorts struktur Morfologisk parsning? Begreppet parsning har ofta varit synonymt med syntaktisk parsning, men parsning kan göras på flera nivåer. En syntaktisk parser behöver en morfologisk parser. Varför? Varför morfologisk analys? Svenska språket innehåller många ordformer Engelskan har mycket färre böjningsformer, men många avledningar: compute computer, computerize, computerization, recomputerize, noncomputerized Kan man inte bara köpa de här systemen och plugga in? Ja, om man är rik Att bygga lexikon har kräver ofta mycket manuellt arbete. Ordanalysen behövs nästan i alla språksystem Det dyker ständigt upp nya ord Vi kan skapa nya ord genom sammansättningar 1

Ordbildning och ordböjning Grammatik: Morfologi Syntax Morfologi är läran om ords former och bildning Hur man kombinerar orddelar (morfem) för att bilda hela ord. Några angränsande begrepp: Fonem: språkljudsenhet med betydelsebärande funktion Fonetik: språkljudens produktion, perception och akustik Fonologi:språkljuden som funktionellt system Fonotax: språkets regler för hur språkljud (fonem) kombineras till stavelser Vad är ett ord? Graford omges av mellanslag och andra skiljetecken, ordet behöver inte tillhöra språket Problem: i dag - idag Lexem abstrakt ordenhet (lexikonord), tillhör språket, ett lexem flera graford: New York; cyklar - cyklade Ordformer olika former av samma ord Token en enhet med språkligt innehåll (tokenisering) Morfem Morfem språkets minsta betydelsebärande enhet (HÄLL+DE) Morf morfemförekomst(häll+de) Allomorfer varianter på samma morfem (häll+de, köp+te), preteritumändelse, nyckle-nyckl Antal bokstäver i mamma? Förekomster Typer Ljud FON FONEM Bokstäver GRAF GRAFEM Morfem MORF MORFEM Ord GRAFORD LEXEM Stam gemensam ordstam (häll) Lemma (hälla) Lexikalt morfem har självständigt betydelseinnehåll Grammatiskt morfem har grammatisk betydelse Fria morfem BIL Bundna morfem (affix) kan inte stå självständigt Fritt grammatiskt morfem -DEN 2

Ordbygge morf+o+logi = form+fogemorfem+lära stam affix cykla -r cykla -de cykla -t cykla -nde Stam och affix Stam: flick Affix: -or, be-, -m- ge-*-t Suffix: -or flickor Prefix: be- betänka, för- fördriva Infix: -m- korrumpera Circumfix: ge-sag-t Stamförändringar Springa sprang sprungit (starka verb) OMLJUD: man:män, son:söner AVLJUD: i:a:u springa y:ö:u flyga flög flugit REDUPLIKATION (fördubbling): (latin) currit han springer, cu-currit han sprang/har sprungit STAMBYTE: är varit, liten-små-mindre Indelning av morfologin Böjningsmorfologi - böjer lexem cykla, cyklar, cyklade, cyklat Avledningsmorfologi skapar nya lexem god-het Morfologisk typologi Analytiska Isolerande språk (vietnamesiska) övervägande fria morfem Syntetiska språk kombinerar morfem: polysyntektiska. 1. Flekterande (svenska) sammansmälta morfem med mycket variation. 2. Agglutinerande (finska) tydligt urskiljbara morfem (se exempel) 3

Analytisk och syntetisk Suffix eller prefix? spännande fin mer spännande finare mest spännande finast analytisk syntetisk, agglutinerande Suffix är vanligare än prefix i världens språk Infix är mycket ovanligt, i svenskan mest i latinska låneord låg lägre lägst syntetisk, flekterande Ordbildningsexempel järjestelmättömyydellänsäkäänköhän järki =förnuft, förstånd järjestää=ordna, arrangera järjestellä=ordna, arrangera (durativt, iterativt) järjestelmä = system (det man fått då man ordnat och ordnat!) järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -ttöm av tön, -ttömän: negerande ändelse, -lös: systemlös -yyde, av -yys, -yyden: substantivderivation, -het: systemlöshet -llä:kasusändelsen i ordet: med,på: med systemlöshet -nsä:possessivsuffix 3p: med sin systemlöshet järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -kään:negerande ändelse: inte ens: inte ens med sin systemlöshet -kö: frågepartikel: inte ens med sin systemlöshet? hän:affirmativ artuikel: väl, men ju, nog: inte ens med sin systemlöshet, väl? Ordbildning Prefix+rot+suffix (be+ställ+de) Böjning de Avledning ning Sammansättning - förtur+s+beställning Fogförändringar: flick+cykel, gatu+korsning 4

Produktiv ordbildning II Produktiv ordbildning I Produktiva avledningsändelser: Prefix: för- förlägga Suffix: -ning läggning Avledning byter ofta ordklass Sammansättningar: minst två fria morfem Lexikaliserade (finns i SAOL) äppelträd, polisbil Nybildningar Språkteknologi+klubben halk+trattar Sammansättningar II Determinativ: efterleden bestämmer tolkningen: badhus Kopulativ: blågul=blå och gul, leden är samordnade, strumpbyxor Böjning Konjugationer verbens böjningsmönster Tempus(nutid, dåtid, framtid?) Diates(aktiv, passiv) mat-a mat-ar, -as mat-ade, ades har/hade mat-at, -ats mat-ande, andes Deklinationer substantivens böjningsmönster (numerus, species, kasus) I: neutrum, äpple:äpplen, hus:hus II: -are lärare:lärare III: utrumord a, flick-a,-an,-or IV: utrumord, obetonat e, pojke:pojkar V: andra utrum ord: -er, -or, -r.specialfall och undantagsregler Morfotax Hur används morfemet och vilka grannar får det ha? Det regelsystem som styr detta kallas morfotax. Hund+ar+na+s inte hund+ar+s+na 5

Taggar från Stockhom-Umeå- Corpus (SUC) SIN PLU IND DEF NOM GEN singular plural indefinit definit nominativ genitiv Bilen <bil NN UTR SIN DEF NOM> Ordform bil bils bilen bilens bilar bilars bilarna bilarnas Ordparadigm Lexem Num Spec BIL SIN IND BIL SIN IND BIL SIN DEF BIL SIN DEF BIL PLU IND BIL PLU IND BIL PLU DEF BIL PLU DEF Kas NOM GEN NOM GEN NOM GEN NOM GEN Automatisk morfologisk analys Automatisk morfologisk analys Indata hund hundarnas såg blindhund Morfologiskt analyserad utdata hund +NN +UTR +SIN +IND +NOM hund +NN +UTR +PLU +DEF +GEN se +VB +PRT +AKT såg +NN +UTR + blind+hund +NN +UTR +SIN +IND +NOM Frekvensbaserat ordformslexikon vs. Morfologisk analys Historik Frekvensbaserat ordformslexikon Ta bort ändelser stemming (Chapin & Norton, 1968), Lovins 1969 Nusvensk frekvensordbok (NFO) Sture Allén 1970) Hellberg, stam och böjningar utan lexikon 1971-1972 Kaplan & Kay, 1981, generativ fonologi, jämför lexikala former och ytformer hos ord. Koskenniemi, 1983, fortsätter i Kaplan & Kays anda, tvånivåregler, parallella regler och finita automater. Ingen morfologisk analys Täcker inte hela paradigmet Kräver en taggad korpus Liten arbetsinsats 6

Morfologisk analys Datareducerande Ger böjningsinformation Morfologiskt komplicerade språk Analys och generering Språkvetenskaplig beskrivning Oregelbundna former En klar tendens att oregelbundna former är frekventa i ett språk. är varit bra bättre mindre liten Ej lönt att bygga morfologisk analys för dessa. Analys och generering Analys: Indata: bilen Utdata: bil NN UTR SIN DEF NOM Generering: Indata: bil NN UTR SIN DEF NOM Utdata: bilen 1. Trunkering Avskiljer stam från ändelse utan segmentering inom ändelsen. Lexikon: bil: BIL>AR-deklination häst: HÄST>AR-deklinationen AR-deklinationen: 0 SIN IND NOM -s SIN IND GEN -en SIN DEF NOM -ens SIN DEF GEN -ar PLU IND NOM -ars PLU IND GEN -arna PLU DEF NOM -arnas PLU DEF GEN Flertydighet och variation Inget entydigt förhållande mellan ändelse och morfem -en SIN DEF bilen - husen Morfologisk variation: en, na häll+de, köp+te PRT Fonologisk variation fågel - fågl Byggstenar för morfologisk analys Lexikon Morfotaktiska beskrivningar Ortografiska regler: fågel fåglar 7

Morfologisk igenkänning Vilka ord tillhör språket? Vilka ord hör sannolikt till språket? Vilka ord tillhör inte språket? Eller skall alla ord får rimligaste möjliga analys? Analys med nollmorfer Ordform Stam Num Spec Kas bord Bord 0 0 0 bords Bord 0 0 s bordet Bord 0 et 0 bordets Bord 0 et s bord Bord 0 0 0 bords Bord 0 0 s borden Bord 0 en 0 bordens Bord 0 en s 2. Morfologisk analys - minilexikon Klarar morfologisk variation Går ej: Stam+(Num) + (Spec) + (Kas) bilna, bilare stam Pl Na Kas START---->1---->2---->3---->SLUT -------------- Sg Lexikon: Stam: bil:bil; häst:häst; Pl: ar:plu Na: na: DEF; 0: IND Sg: en: SIN DEF; 0: SIN DEF Kas: s: GEN; 0: NOM 3. System av minilexikon Stam: bil: BIL Num Num: ar: PL Na en: SIN DEF Kas 0: SIN IND Kas Na: Na: DEF Kas 0:IND Kas Kas: s:gen 0: Nom Vilken stam finns i lexikon? fågl eller fågel Det behövs omskrivningsregler 8

Omskrivningsregler a->b/lc _ RC (Chomsky & Halle) l -> el/v(c)c_v fågel - fåglar l -> el/åg_a C=konsonant V=vokal Nackdelar med omskrivningsregler av ytformer Övergenerering: fågelar Endast ortografisk struktur Kan analysera/godkänna felaktiga ord: fågltorn Onödiga omskrivningar: Gävle Gävele Endast en riktning: el l /V(C)C_V Tvånivåmorfologi I Abstrakta lexikonformer Två nivåer: Ortografisk Lexikalisk-morfologisk Finite-state-system Analys och generering De två nivåerna Morfologisk gräns: + el. ^ Null character: 0 el. Ø ε Strängslut; # Lexikalisk: bil+ar+na+s Ortografisk: bil0ar0na0s Korresponderande par: b:b i:i l:l +:0 a:a r:r +:0 n:n a:a +:0 s:s In: bilarnas Ut: bil+ar+na+s Tvånivåregler och minilexikon Minilexikon: bil NN PLU DEF GEN Lexikal nivå: bil+ar+na+s Ortografisk nivå: bil0ar0na0s Flertydighet: In: bilar Utdata 1: bila VB PRS AKT Utdata 2: bil NN PLU IND NOM Tvånivåregler Regelsyntax: realisering operator kontext X:x LC _ RC X:x X kan/måste realiseras som x om vänsterkontexten är LC och högerkontexten är RC 9

Exempel: fågel fåglar abstrakt lexikonform: E=inget alls el. e E:0 V(C)C_L+V E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: fåg0l0ar Analys av sammansättningar Lexikal: Ortografisk: fågel#ansikte fågel0ansikte # sammansättningsgräns Lokal disambiguering: pol#is#hus el. polis#hus Heuristiska metoder: Välj: 1. Lexikaliserad sammansättning 2. Så få led som möjligt Tvånivåmorfologi forts. Variation efter tonlös konsonant hos några svaga verb i preteritum: Ortografisk form: läs0te böj0de bada0de Lexikalisk form: läs+de böj+de bada+de T= tonlös konsonant {f,k,p,s,t} Tvånivåregel: D:t T+_ läste D:d annars böjde, badade TWOL - SWETWOL Utvecklad av Kimmo Koskenniemi 1983 Implementerad av Lauri Karttunen 1983 (engelska) Svenska: www.lingsoft.fi/swetwol Bygga egna regler: PCKIMMO www.sil.org/pckimmo/ Swetwol, Fred Karlsson, 1992 Alla aspekter av böjningsmorfologi behandlas Nästan alla ordformer i löpande text får en morfologisk analys Valens, animat, abstraktord - ej med De mest produktiva avledningar behandlas Sammansättningsanalys görs Kärnvokabulären i svenska språket 30000-50000 lexikonord Swetwol II 299 minilexikon Varje post i ett minilexikon innehåller en pekare till ett minilexikon eller # 10

Swetwol III Endast 8 tvånivåregler Exempel: m:0 <=>: m _ N -ning simma --> simning Utvärdering: 47422 ord (8432 typer) 0,65 % lämnades utan analys 54542 ord 0,4 % utan analys Statistisk morfologisk analys I -ar substantiv, utr, plu, ind, nom 60 % -ar verb, prs, akt 40 % Statistisk morfologisk analys II Info om ordformernas användning i text Låga utvecklingskostnader, enklare att underhålla, sämre kontroll, risk för skräp och framförallt svårt med generering Stemming Regler, inget lexikon Främsta tillämpning: informationssökning cykel ->cykl cyklar -> cykl cykling -> cykl cyklande -> cykl Porters stemmingalgoritm Kaskader av omskrivningsregler ar ε / C_# Olika steg med längsta möjliga matchning som krav inom varje steg. Utgår ifrån mönster av Vokaler (V) och konsonanter (C). övergenerering? Regering -> reger regerande -> reger Stemming versus lemmatisering behövs det ett lexikon? Stemming: banan (stam=ban) banan (stam=ban) Lemmatisering: banan (lemma=bana) banan(lemma=banan) Täckning eller precision Stemmers gör fel, men lemmatiserare gör också fel Disambiguering? Indexets storlek? 11

Uppsatsuppgifter 1. Utred tvånivåmodellen för svenska 2. Bygg en enkel stemmer 3. Utforska PC-KIMMO 12