När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Relevanta dokument
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Ord och morfologi. Morfologi

Grammatik för språkteknologer

grammatik Ordklasser, nominalfraser, substantiv

Grammatik för språkteknologer

Ord och morfologi. Morfologi

Korpuslingvistik vt 2007

Lexikon: ordbildning och lexikalisering

Grammatik för språkteknologer

Automatisk morfologisk segmentering för svenska substantiv

Flera nivåer i språkets uppbyggnad

Tekniker för storskalig parsning

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Grundläggande textanalys, VT2012

Språkpsykologi/psykolingvistik

Grundläggande textanalys. Joakim Nivre

Språktypologi och språksläktskap

Lingvistik III Morfem och morfologi. 729G49 10 April

Institutionen för lingvistik och filologi HT 2009

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

9/2/2013. Lingvistik 1: föreläsning 3. Mål. Grammatik: Ordbildning / Morfologi. Therese Lindström Tiedemann

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Lingvistiska grundbegrepp

Obesvarade frågor från F1

12 Programstege Substantiv

Världens språk, 7,5hp vt 2012

Språkteknologi och Open Source

Datorlingvistisk grammatik

Ordförråd och Ordbildning

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1

Lingvistik III - Morfem och morfologi

Grammatik skillnader mellan svenska och engelska

Ordklasser och satsdelar

SUBSTANTIVETS PLURALFORMER I FINSKSPRÅKIGA GYMNASISTERS UPPSATSER. Saila Tullinen

Ordbildning/morfologi

Några skillnader mellan svenska och engelska

En byggmodell över språket fonemet morfemet

Extramaterial 3 Morfologi

Ordböjning morfologisk utveckling

Lingvistiskt uppmärkt text

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Innehållsförteckning till Svenska Online. Adress: Uppdaterat

Grundläggande textanalys, VT2013

Språkgranskningsverktyg. Grammatikkontroll i Word

Läs s , 28 samt G1 (s. 219) om ordklasser och G2 (s. 220) samt separat dokument om satsdelar (i studiehandledningen).

Lyssna, Skriv och Läs!

Några skillnader mellan svenska och engelska

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Grammatisk teori II Attributvärdesgrammatik

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Tekniker för storskalig parsning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

fem olika sätt fem olika grupper obestämd form bestämd form Den bestämda formen

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Statistisk grammatikgranskning

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

729G09 Språkvetenskaplig databehandling

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Introduktion i lingvistik 6

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Det sätt på vilket vuxna talar till barn. Även barn lär sig detta och talar så till yngre barn. - förlängning och betoning av semantiskt viktiga ord

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 3

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

ORDKLASSERNA I. Ett sätt att sortera våra ord

Tekniker för storskalig parsning

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap


Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Kognitiv Psykologi HT11 Språk, föreläsning 1

EXEMPELSIDOR SPELBOKEN

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

Tentamen Marco Kuhlmann

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Institutionen för lingvistik och filologi HT 2007

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Kursplaneöversättaren. Lina Stadell

Morfologi eller formlära

Lingvistiskt uppmärkt text

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Grammatik handlar om hur språkliga yttranden är strukturerade / uppbyggda.

Läs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg

Transkript:

Morfologi (formlära) Ordbildning och ordböjning Automatisk morfologisk analys När är det bra med morfologi? Stavnings- och grammatikkontroll Sökmotorer Textsammanfattning i all språkteknik, alltid Ordbildning och ordböjning Grammatik Morfologi Syntax Morfologi Läran om ords former och bildning Hur man kombinerar orddelar (morfem) för att bilda hela ord Vad är ett ord? Graford omges av mellanslag och andra skiljetecken, ordet behöver inte tillhöra språket Problem: i dag - idag Lexem abstrakt ordenhet, tillhör språket, ett lexem flera graford: New York Ordformer olika former av samma ord Token en enhet med språkligt innehåll (tokenisering) Morfem Antal bokstäver i mamma? Morfem språkets minsta betydelsebärande enhet (HÄLL+DE) Morf morfemförekomst(häll+de) Allomorfer varianter på samma morfem (häll+de, köp+te), preteritumändelse Ljud Bokstäver Morfem Förekomster FON GRAF MORF Typer FONEM GRAFEM MORFEM Ord GRAFORD LEXEM 1

Stam gemensam ordstam (häll) Lemma (hälla) Lexikalt morfem har självständigt betydelseinnehåll Grammatiskt morfem har grammatisk betydelse Fria morfem Bundna morfem (affix) kan inte stå självständigt Fritt grammatiskt morfem -DEN Stam och affix Stam: flick Affix: -or, be-, -m- ge-*-t Suffix: -or flickor Prefix: be- betänka, för- fördriva Infix: -m- korrumpera Circumfix: ge-sag-t Stamförändringar Springa sprang sprungit (starka verb) OMLJUD: man:män, son:söner AVLJUD: i:a:u springa y:ö:u flyga flög flugit REDUPLIKATION: (latin) currit han springer, cu-currit han sprang/har sprungit STAMBYTE: är varit, liten-små-mindre Språktypologi Isolerande språk (kinesiska) övervägande fria morfem Syntetiska språk kombinerar morfem: 1. Flekterande (svenska) sammansmälta morfem med mycket variation 2. Agglutinerande (finska) tydligt urskiljbara morfem (se exempel) Ordbildningsexempel järjestelmättömyydellänsäkäänköhän järki =förnuft, förstånd Å järjestää=ordna, arrangera järjestellä=ordna, arrangera (durativt, iterativt)å järjestelmä = system (det man fått då man ordnat och ordnat!) järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -ttöm av tön, -ttömän: negerande ändelse, -lös: systemlös Å -yyde, av -yys, -yyden: substantivderivation, -het: systemlöshet Å -llä:kasusändelsen i ordet: med,på: med systemlöshet Å -nsä:possessivsuffix 3p: med sin systemlöshet Å 2

järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -kään:negerande ändelse: inte ens: inte ens med sin systemlöshet Å -kö: frågepartikel: inte ens med sin systemlöshet? Å hän:affirmativ artuikel: väl, men ju, nog: inte ens med sin systemlöshet, väl? Ordbildning Prefix+rot+suffix (be+ställ+de) Böjning de Avledning ning Sammansättning - förtur+s+beställning Fogförändringar: flick+cykel, gatu+korsning Produktiv ordbildning II Produktiv ordbildning I Produktiva avledningsändelser: Prefix: för- förlägga Suffix: -ning läggning Avledning byter ofta ordklass Sammansättningar: minst två fria morfem Lexikaliserade (finns i SAOL) äppelträd, polisbil Nybildningar Språkteknologi+klubben halk+trattar Sammansättningar II Determinativ: efterleden bestämmer tolkningen: badhus Kopulativ: blågul=blå och gul, leden är samordnade, strumpbyxor Böjning Konjugationer verbens böjningsmönster Tempus(nutid, dåtid, framtid?) Diates(aktiv, passiv) mat-a mat-ar, -as mat-ade, ades har/hade mat-at, -ats mat-ande, andes 3

Deklinationer substantivens böjningsmönster (numerus, species, kasus) I: neutrum, äpple:äpplen, hus:hus II: -are lärare:lärare III: utrumord a, flick-a,-an,-or IV: utrumord, obetonat e, pojke:pojkar V: andra utrum ord: -er, -or, -r.specialfall och undantagsregler Taggar från Stockhom-Umeå- Corpus (SUC) singular plural indefinit definit nominativ genitiv Bilen <bil NN UTR > Ordparadigm Automatisk morfologisk analys Ordform bil bils bilen bilens bilar bilars bilarna bilarnas Lexem Num Spec Kas Frekvensbaserat ordformslexikon vs. Morfologisk analys Historik Frekvensbaserat ordformslexikon Ta bort ändelser stemming (Chapin & Norton, 1968), Lovins 1969 Hellberg, stam och böjningar utan lexikon 1971-1972 Kaplan & Kay, 1981, generativ fonologi, jämför lexikala former och ytformer hos ord. Koskenniemi, 1983, fortsätter i Kaplan & Kays anda, tvånivåregler, parallella regler och finita automater. Ingen morfologisk analys Täcker inte hela paradigmet Kräver en taggad korpus Liten arbetsinsats 4

Oregelbundna former Morfologisk analys En klar tendens att oregelbundna former är frekventa i ett språk. är varit bra bättre mindre liten Ej lönt att bygga morfologisk analys för dessa. Datareducerande Ger böjningsinformation Morfologiskt komplicerade språk Analys och generering Språkvetenskaplig beskrivning Analys och generering Analys: Indata: bilen Utdata: bil NN UTR Generering: Indata: bil NN UTR Utdata: bilen 1. Trunkering Avskiljer stam från ändelse utan segmentering inom ändelsen. Lexikon: bil: >AR-deklination häst: HÄST>AR-deklinationen AR-deklinationen: -s -en -ens -ar -ars -arna -arnas Flertydighet och variation Analys med nollmorfer Ordform Stam Num Spec Kas Inget entydigt förhållande mellan ändelse och morfem -en bilen - husen Morfologisk variation: en, na häll+de, köp+te PRT Fonologisk variation fågel - fågl bord bords bordet bordets bord bords borden et et en s s s bordens en s 5

2. Morfologisk analys - minilexikon Klarar morfologisk variation Går ej: Stam+(Num) + (Spec) + (Kas) Å bilna, bilare stam Pl Na Kas START---->1---->2---->3---->SLUT -------------- Sg Lexikon: Stam: bil:; häst:häst; Pl: ar: Na: na: ; : Sg: en: ; : Kas: s: ; : 3. System av minilexikon Stam: bil: Å Num Num: ar: PL ÅNa en: Å Kas : Å Kas Na: Na: Å Kas :Å Kas Kas: s: : Nom Vilken stam finns i lexikon? fågl eller fågel Det behövs omskrivningsregler Omskrivningsregler a->b/lc _ RC (Chomsky & Halle) l -> el/v(c)c_v fågel - fåglar l -> el/åg_a C=konsonant V=vokal Nackdelar med omskrivningsregler av ytformer Övergenerering: fågelar Endast ortografisk struktur Kan analysera/godkänna felaktiga ord: fågltorn Onödiga omskrivningar: Gävle Å Gävele Endast en riktning: el Å l /V(C)C_V 6

Tvånivåmorfologi I Abstrakta lexikonformer Två nivåer: Ortografisk Lexikalisk-morfologisk Finite-state-system Analys och generering De två nivåerna Morfologisk gräns: + el. ^ Null character: el. Ø Strängslut; # Lexikalisk: bil+ar+na+s Ortografisk: bilarnas Korresponderande par: b:b i:i l:l +: a:a r:r +: n:n a:a +: s:s In: bilarnas Ut: bil+ar+na+s Tvånivåregler och minilexikon Minilexikon: bil NN Lexikal nivå: bil+ar+na+s Ortografisk nivå: bilarnas Flertydighet: In: bilar Utdata 1: bila VB PRS AKT Utdata 2: bil NN Tvånivåregler Regelsyntax: realisering operator kontext X:x ØLC _ RC X:x X kan/måste realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar abstrakt lexikonform: E=inget alls el. e E: Ø V(C)C_L+V E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: fåglar Analys av sammansättningar Lexikal: Ortografisk: fågel#ansikte fågelansikte # sammansättningsgräns Lokal disambiguering: pol#is#hus el. polis#hus Heuristiska metoder: Välj: 1. Lexikaliserad sammansättning 2. Så få led som möjligt 7

Tvånivåmorfologi forts. Variation efter tonlös konsonant hos några svaga verb i preteritum: Ortografisk form: läste böjde badade Lexikalisk form: läs+de böj+de bada+de T= tonlös konsonant {f,k,p,s,t} Tvånivåregel: D:t Ø T+_ läste D:d annars böjde, badade TWOL - SWETWOL Utvecklad av Kimmo Koskenniemi 1983 Implementerad av Lauri Karttunen 1983 (engelska) Svenska: www.lingsoft.fi/swetwol Bygga egna regler: PCKIMMO www.sil.org/pckimmo/ Statistisk morfologisk analys II Statistisk morfologisk analys I -ar substantiv, utr, plu, ind, nom 6 % -ar verb, prs, akt 4 % Info om ordformernas användning i text Låga utvecklingskostnader, enklare att underhålla, sämre kontroll, risk för skräp och framförallt svårt med generering Stemming Regler, inget lexikon Främsta tillämpning: informationssökning cykel ->cykl cyklar -> cykl cykling -> cykl cyklande -> cykl Porters stemming algoritm Kaskader av omskrivningsregler ar Å / C_# Olika steg med längsta möjliga matchning som krav inom varje steg. Utgår ifrån mönster av Vokaler (V) och konsonanter (C). övergenerering? Regering -> reger regerande -> reger 8

Stemming versus lemmatisering behövs det ett lexikon? Stemming: banan (stam=ban) banan (stam=ban) Lemmatisering: banan (lemma=bana) banan(lemma=banan) Täckning eller precision Stemmers gör fel, men lemmatiserare gör också fel Disambiguering? Indexets storlek? Uppsatsuppgifter 1. Utred tvånivåmodellen för svenska 2. Bygg en enkel stemmer 3. Utforska PC-KIMMO 9