Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Relevanta dokument
När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Ord och morfologi. Morfologi

Korpuslingvistik vt 2007

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grammatik för språkteknologer

Ord och morfologi. Morfologi

Grundläggande textanalys. Joakim Nivre

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Obesvarade frågor från F1

Tekniker för storskalig parsning

Grundläggande textanalys, VT2013

Flera nivåer i språkets uppbyggnad

Språkpsykologi/psykolingvistik

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Språkgranskningsverktyg. Grammatikkontroll i Word

Grammatik för språkteknologer

Grammatik för språkteknologer

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Ordförråd och Ordbildning

Grundläggande textanalys, VT2012

Lingvistiska grundbegrepp

Ordbildning/morfologi

Lingvistik III Morfem och morfologi. 729G49 10 April

Lexikon: ordbildning och lexikalisering

9/2/2013. Lingvistik 1: föreläsning 3. Mål. Grammatik: Ordbildning / Morfologi. Therese Lindström Tiedemann

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Språktypologi och språksläktskap

Statistisk grammatikgranskning

Lingvistiskt uppmärkt text

Språkteknologi och Open Source

Automatisk morfologisk segmentering för svenska substantiv

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

1 Inledning. 1.1 Bakgrund

Tekniker för storskalig parsning

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Lingvistiskt uppmärkt text

Lingvistik III - Morfem och morfologi

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Omtenta Svenska - ett andraspråk S S2GA01/04. ht 2014/vt 2015 fredag den 13 mars Inga hjälpmedel! VG G U 0-84

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Introduktion i lingvistik 6

Institutionen för lingvistik och filologi HT 2009

Kursplaneöversättaren. Lina Stadell

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

grammatik Ordklasser, nominalfraser, substantiv

Grammatik för språkteknologer

Lingvistik I Delmoment: Datorlingvistik

SUBSTANTIVETS PLURALFORMER I FINSKSPRÅKIGA GYMNASISTERS UPPSATSER. Saila Tullinen

Grundläggande textanalys, VT2013

Grammatik skillnader mellan svenska och engelska

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Parsningens olika nivåer

Några skillnader mellan svenska och engelska

Datorlingvistisk grammatik


Institutionen för lingvistik och filologi HT 2007

Morfologisk typologi. Världens språk, 7,5hp vt Affix (II) 5. Lingvistisk typologi II: Morfologisk typologi, m.m.

12 Programstege Substantiv

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Världens språk, 7,5hp vt 2012

Parsningens olika nivåer

Morfologi eller formlära

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Kort presentation av Korp, Sveriges nationalkorpus

Extramaterial 3 Morfologi

Ordböjning morfologisk utveckling

Kognitiv Psykologi HT11 Språk, föreläsning 1

Perl. ~ Redovisning. Alla filer som behövs för att lösa uppgifterna finns dels på ~martin/pubperl/ på mumin, samt på

729G09 Språkvetenskaplig databehandling

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Meningssegmentering i SUC och Talbanken

Till särskrivningens försvar. Nils Dverstorp Europeiska språkdagen 25 september 2015

Grammatisk teori II Attributvärdesgrammatik

Semantiska relationer. Hanna Seppälä Uppsala universitet 1

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Några skillnader mellan svenska och engelska

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

MÖSG ht 2005 Maskinöversättningssystemet MATS

Automatisk morfologisk analys av ungerska substantiv med PC-KIMMO

Jonas Löfström Språkdata Göteborgs universitet DOLDA ORDBILDNINGSMÖNSTER. LEXIKOLOGI

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Kardía. fåglar en sol. ett berg en gungställning. ett träd. en bro. gräs. en å. Substantiv. Hanna Hägerland

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Lingvistik I Delmoment: Datorlingvistik

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Transkript:

Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll Sökmotorer Textsammanfattning i all språkteknik, alltid Vad är ett ord? Graford omges av mellanslag och andra skiljetecken, ordet behöver inte tillhöra språket Problem: i dag - idag Lexem abstrakt ordenhet (lexikonord), tillhör språket, ett lexem flera graford: New York; cyklar - cyklade Ordformer olika former av samma ord Token en enhet med språkligt innehåll (tokenisering) Morfem Morfem språkets minsta betydelsebärande enhet (HÄLL+DE) Morf morfemförekomst(häll+de) Allomorfer varianter på samma morfem (häll+de, köp+te), preteritumändelse, nyckel-nyckl Stam gemensam ordstam (häll) Lemma (hälla) Lexikalt morfem har självständigt betydelseinnehåll Grammatiskt morfem har grammatisk betydelse Fria morfem BIL Bundna morfem (affix) kan inte stå självständigt Fritt grammatiskt morfem -DEN Stam och affix Stam: flick Affix: -or, be-, -m- ge-*-t Suffix: -or flickor Prefix: be- betänka, för- fördriva Infix: -m- korrumpera Circumfix: ge-sag-t 1

Språktypologi Isolerande språk (kinesiska) övervägande fria morfem Syntetiska språk kombinerar morfem: 1. Flekterande (svenska) sammansmälta morfem med mycket variation 2. Agglutinerande (finska) tydligt urskiljbara morfem (se exempel) Ordbildningsexempel järjestelmättömyydellänsäkäänköhän järki =förnuft, förstånd järjestää=ordna, arrangera järjestellä=ordna, arrangera (durativt, iterativt) järjestelmä = system (det man fått då man ordnat och ordnat!) järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -ttöm av tön, -ttömän: negerande ändelse, -lös: systemlös -yyde, av -yys, -yyden: substantivderivation, -het: systemlöshet -llä:kasusändelsen i ordet: med,på: med systemlöshet -nsä:possessivsuffix 3p: med sin systemlöshet järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -kään:negerande ändelse: inte ens: inte ens med sin systemlöshet -kö: frågepartikel: inte ens med sin systemlöshet? hän:affirmativ artuikel: väl, men ju, nog: inte ens med sin systemlöshet, väl? Ordbildning Prefix+rot+suffix (be+ställ+de) Böjning de Avledning ning Sammansättning - förtur+s+beställning Fogförändringar: flick+cykel, gatu+korsning Produktiv ordbildning I Produktiva avledningsändelser: Prefix: för- förlägga Suffix: -ning läggning Avledning byter ofta ordklass 2

Produktiv ordbildning II Sammansättningar: minst två fria morfem Lexikaliserade (finns i SAOL) äppelträd, polisbil Nybildningar Språkteknologi+klubben halk+trattar Automatisk morfologisk analys Frekvensbaserat ordformslexikon vs. Morfologisk analys Historik Ta bort ändelser stemming (Chapin & Norton, 1968), Lovins 1969 Nusvensk frekvensordbok (NFO) Sture Allén 1970) Hellberg, stam och böjningar utan lexikon 1971-1972 Kaplan & Kay, 1981, generativ fonologi, jämför lexikala former och ytformer hos ord. Koskenniemi, 1983, fortsätter i Kaplan & Kays anda, tvånivåregler, parallella regler och finita automater. Frekvensbaserat ordformslexikon Ingen morfologisk analys Täcker inte hela paradigmet Kräver en taggad korpus Liten arbetsinsats Morfologisk analys Datareducerande Ger böjningsinformation Morfologiskt komplicerade språk Analys och generering Språkvetenskaplig beskrivning Oregelbundna former En klar tendens att oregelbundna former är frekventa i ett språk. är varit bra bättre mindre liten Ej lönt att bygga morfologisk analys för dessa. 3

Taggar från Stockhom-Umeå- Corpus (SUC) SIN PLU IND DEF NOM GEN singular plural indefinit definit nominativ genitiv Bilen <bil NN UTR SIN DEF NOM> Analys och generering Analys: Indata: bilen Utdata: bil NN UTR SIN DEF NOM Generering: Indata: bil NN UTR SIN DEF NOM Utdata: bilen 1. Trunkering Avskiljer stam från ändelse utan segmentering inom ändelsen. Lexikon: bil: BIL>AR-deklination häst: HÄST>AR-deklinationen AR-deklinationen: 0 SIN IND NOM -s SIN IND GEN -en SIN DEF NOM -ens SIN DEF GEN -ar PLU IND NOM -ars PLU IND GEN -arna PLU DEF NOM -arnas PLU DEF GEN Flertydighet och variation Inget entydigt förhållande mellan ändelse och morfem -en SIN DEF bilen - husen Morfologisk variation: en, na häll+de, köp+te PRT Fonologisk variation fågel - fågl Analys med nollmorfer Ordform Stam Num Spec Kas bord Bord 0 0 0 bords Bord 0 0 s bordet Bord 0 et 0 bordets Bord 0 et s bord Bord 0 0 0 bords Bord 0 0 s borden Bord 0 en 0 bordens Bord 0 en s 2. Morfologisk analys - minilexikon Klarar morfologisk variation Går ej: Stam+(Num) + (Spec) + (Kas) bilna, bilare stam Pl Na Kas START---->1---->2---->3---->SLUT -------------- Sg 4

Lexikon: Stam: bil:bil; häst:häst; Pl: ar:plu Na: na: DEF; 0: IND Sg: en: SIN DEF; 0: SIN IND Kas: s: GEN; 0: NOM 3. System av minilexikon Stam: bil: BIL Num Num: ar: PL Na en: SIN DEF Kas 0: SIN IND Kas Na: Na: DEF Kas 0:IND Kas Kas: s:gen 0: Nom Vilken stam finns i lexikon? fågl eller fågel Det behövs omskrivningsregler Omskrivningsregler a->b/lc _ RC (Chomsky & Halle) l -> el/v(c)c_v fågel - fåglar l -> el/åg_a C=konsonant V=vokal Nackdelar med omskrivningsregler av ytformer Övergenerering: fågelar Endast ortografisk struktur Kan analysera/godkänna felaktiga ord: fågltorn Onödiga omskrivningar: Gävle Gävele Endast en riktning: el l /V(C)C_V Tvånivåmorfologi I Abstrakta lexikonformer Två nivåer: Ortografisk Lexikalisk-morfologisk Finite-state-system Analys och generering 5

Tvånivåregler och minilexikon Minilexikon: bil NN PLU DEF GEN Lexikal nivå: bil+ar+na+s Ortografisk nivå: bil0ar0na0s Flertydighet: In: bilar Utdata 1: bila VB PRS AKT Utdata 2: bil NN PLU IND NOM Tvånivåregler Regelsyntax: realisering operator kontext X:x LC _ RC X:x X kan/måste realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar abstrakt lexikonform: E=inget alls el. e E:0 V(C)C_L+V E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: fåg0l0ar Analys av sammansättningar Lexikal: Ortografisk: fågel#ansikte fågel0ansikte # sammansättningsgräns Lokal disambiguering: pol#is#hus el. polis#hus Heuristiska metoder: Välj: 1. Lexikaliserad sammansättning 2. Så få led som möjligt TWOL - SWETWOL Utvecklad av Kimmo Koskenniemi 1983 Implementerad av Lauri Karttunen 1983 (engelska) Svenska: www.lingsoft.fi/swetwol Bygga egna regler: PCKIMMO www.sil.org/pckimmo/ Swetwol, Fred Karlsson, 1992 Alla aspekter av böjningsmorfologi behandlas Nästan alla ordformer i löpande text får en morfologisk analys Valens, animat, abstrakt ord - ej med De mest produktiva avledningar behandlas Sammansättningsanalys görs Kärnvokabulären i svenska språket 30000-50000 lexikonord 6

Statistisk morfologisk analys II Statistisk morfologisk analys I -ar substantiv, utr, plu, ind, nom 60 % -ar verb, prs, akt 40 % Info om ordformernas användning i text Låga utvecklingskostnader, enklare att underhålla, sämre kontroll, risk för skräp och framförallt svårt med generering 7