Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Relevanta dokument
Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiskt uppmärkt text

Ord och morfologi. Morfologi

Grammatik för språkteknologer

Ord och morfologi. Morfologi

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Bootstrapping för substantivtaggning

Lingvistiska grundbegrepp

Lingvistiskt uppmärkt text

Grammatik för språkteknologer

Grammatik för språkteknologer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Grundläggande textanalys. Joakim Nivre

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

grammatik Ordklasser, nominalfraser, substantiv

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Karp. Övningar Språkbankens höstworkshop oktober 2016

Tekniker för storskalig parsning

Datorlingvistisk grammatik

Statistisk grammatikgranskning

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

ORDKLASSERNA I SVENSKA SPRÅKET

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Karp. Övningar Språkbankens höstworkshop oktober 2017

Grammatik för språkteknologer

Svenska - Läxa ORD att kunna förklara

Ordklasser och satsdelar

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Lexikon: ordbildning och lexikalisering

SUBSTANTIV = namn på saker, personer, känslor

Obesvarade frågor från F1

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

729G09 Språkvetenskaplig databehandling

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Ordbildning/morfologi

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Träningshäfte ordklasser facit

Svenskans struktur, 7,5 hp Tentamensexempel 1

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Språkgranskningsverktyg. Grammatikkontroll i Word

Innehållsförteckning till Svenska Online. Adress: Uppdaterat

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Svenskans struktur, 7,5 hp Tentamensexempel 3

Svenska förkortningar Utskrivbar övning från Glosor.eu

Instuderingsmaterial: Adjektiv, Substantiv och Verb

Ordförråd och Ordbildning

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Grundläggande textanalys, VT2012

Världens språk, 7,5hp vt 2012

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Datum: Date: Provkodr: KTR1 Exam code:

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Grundläggande textanalys, VT2013

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Automatisk morfologisk segmentering för svenska substantiv

Svensk minigrammatik

Datum: Date: Provkodr: KTR1 Exam code:

Så, ska det taggas som adverb?

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Extramaterial 3 Morfologi

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Parsningens olika nivåer

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Svensk grammatik Ordklasser!

Perl. ~ Redovisning. Alla filer som behövs för att lösa uppgifterna finns dels på ~martin/pubperl/ på mumin, samt på

Lingvistik III Morfem och morfologi. 729G49 10 April

Tekniker för storskalig parsning

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Grammatisk teori II Attributvärdesgrammatik

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

ANDREAS ISSA SVENSKA SPRÅKET

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

Transkript:

Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap om ordens morfologi (nästan). Är och var kommer från ordet vara vaar är ett stavfel i svenska språket Kan man inte lägga alla ord i en lexikonfil? Finskt exempel Täckningsexempel Nybildning, t.ex. låneord, namn och sammansättningar Vad är ett ord (idag vs. i dag) Graford omges av mellanslag, behöver inte tillhöra språket Lemma grundform, inbegriper alla ordformer av ordet inom en ordklass Lexem lexikonord, tillhör språket. Ett lexem flera graford Ordformer olika former av samma lemma Token en enhet med språkligt innehåll (tokenisering), ord, förkortningar, Grundläggande begrepp Morfem: te/de men äv. häst och ligg Stam: skilj, naturreservat Rotmorfem: skilj, natur+reservat Lemma: flicka Affix: -or, -be, -m-, ge-*-t Prefix: -be betänka, för- fördriva Suffix: -or flickor Infix: -m- korrumpera (korruption) Ordbildningsexempel järjestelmättömyydellänsäkäänköhän järki =förnuft, förstånd järjestää=ordna, arrangera järjestellä=ordna, arrangera (durativt, iterativt) järjestelmä = system (det man fått då man ordnat och ordnat!)

järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -ttöm av tön, -ttömän: negerande ändelse, -lös: systemlös -yyde, av -yys, -yyden: substantivderivation, -het: systemlöshet -llä:kasusändelsen i ordet: med,på: med systemlöshet -nsä:possessivsuffix 3p: med sin systemlöshet järjestelmä+ttöm+yyde+llä+nsä+kään+kö+hän -kään:negerande ändelse: inte ens: inte ens med sin systemlöshet -kö: frågepartikel: inte ens med sin systemlöshet? hän:affirmativ artuikel: väl, men ju, nog: inte ens med sin systemlöshet, väl? spännande Analytisk och syntetisk mer spännande mest spännande analytisk fin finare finast syntetisk, agglutinerande låg lägre lägst syntetisk, flekterande Sammansättningar i svenskan Sammansättningar: minst två fria morfem Lexikaliserade (finns i SAOL) äppelträd, polisbil Nybildningar Språkteknologi+klubben halk+trattar Slutna klasser prepositioner PP: på, i, för determinerare DT: den, en, det pronomen PN: den, en, det konjunktioner KN: och, eller, men subjunktioner SN: om, som räkneord RG: ett, 1, 2023 possessiv PS: min, ditt, hennes Öppna klasser substantiv NN: bilen, hund egennamn PM: Kalle, Volvo adjektiv JJ: gul, bäst adverb AB: mycket, igår verb VB: spela, springa particip PC: kastad, sjungande

Ordklassfördelning i en svensk korpus (SUC, 1 milj. ord) Förekomster Typer Substantiv 26.64 % 64.59 % Verb 17.03 % 10.44 % Pron 16.45 % 0.15 % Prep 11.40 % 0.10 % Adv 9.78 % 1.54 % Adj 7.52 % 17.35 % Konj 7.38 % 0.05 % Automatisk morfologisk analys/ parsning och generering Målsättningar? Datareducerande Ger böjningsinformation Morfologiskt komplicerade språk Analys och generering i samma system Språkvetenskaplig beskrivning Utgångspunkter Text Tokensering, inkl. dela upp i meningar Morfologisk processning/analys 15 Viktiga byggstenar för automatisk morfologisk analys och generering Lexikon: listor med stammar och affix och inte minst särdrag. Morfotax: regler för i vilken ordning morfemen får sättas samman. (ändliga automater) Ortografiska regler: för allomorfer och fonologisk hänsyn, t.ex fågel - fåglar (ändliga transduktorer) Stemming Regler, inget lexikon Mycket resurssnålt Främsta tillämpning: informationssökning Programmet tar bort morfem för morfem Sökfrågan stemmas: cykel --> cykl Orden i texten stemmas dok1: Jag har en fantastisk cykel. dok2: Jag gillar att cykla. dok3: Cykling är det bästa jag vet. --> dok1: Jag har en cykl. dok2: Jag gillar att cykl. dok3: Cykl är det bästa jag vet. 18

Regelspråk för stemming # Kommentar ^ Negation slut vänster-kontext $ ordslut -> skriver om vänster till höger ; regelslut ^vänsterkontext morfem$->ersättning; Regler tillämpas i tre steg Två exempelregler arna$->; ning$->; jämför: blåsning tidning tillagning 19 20 Regler steg 1 Regler steg 2 Regler steg 3 Mer kontroll ^tid ning$->; Regler tillämpas toppen-ner, endast en tillämpning i varje steg. Alla regeldelar är optionella utom -> och ; 21 22 Stemming versus lemmatisering Behövs det ett lexikon? Stemming: banan (stam=ban) banan (stam=ban) Lemmatisering: banan (lemma=bana) banan(lemma=banan) Många träffar eller relevanta träffar? Analys och generering Analys: Indata: bilen Utdata: bil NN UTR Generering: Indata: bil NN UTR Utdata: bilen

Alla former i lexikon? bil nn.utr.sin.ind.nom bils nn.utr.sin.ind.gen bilen nn.utr.sin.def.nom bilens nn.utr.sin.def.gen bilar nn.utr.plu.ind.nom bilars nn.utr.plu.ind.gen bilarna nn.utr.plu.def.nom bilarnas nn.utr.plu.def.gen häst nn.utr.sin.ind.nom 25 Tillstånd Morfem Aktion Utdata 0 pojk gå till 1 pojke NN UTR 0 spik gå till 1 spik NN UTR 1 gå till 2 1 e gå till 2 1 ar gå till 3 2 gå till 4 2 en gå till 4 3 gå till 4 3 na gå till 4 4 gå till 5 4 s gå till 5 5 # gå till 6 6 stop bilarna --> bil husen --> hus bil --> bil r1 hus --> hus r5 1 s en ens ar M ars arna arnas 5 et ets en ens Statistiska metoder Statistisk suffixanalys, kräver taggad korpus Man får alltid ett (hyfsat) svar i ett regelbaserat system saknas det kanske regler, eller så är de heuristiska reglerna för grova. Svårare med generering Billigt, men risk för skräp 27 Hur ser språket ut i en vanlig text på 1500 ord? reda 3 sida 1 hemsida 1 enda 1 hända 1 använda 6 förbjuda 1 omfatta 1 om 24 område 1 omtalad 1 opinion 5 opinionsmätning 4 opinionsteknik 1 opinionsundersökning 5 att 48 är 39 på 38 som 36 det 33 i 33 och 30 om 30 av 26 en 26 för 22 ett 19 till 18 de 16 har 15 vi 15 den 12 hur 12 inte 11 eurobarometer 10 29 vara varit är Är var vara verb 45.0 en En ett en determinerare 43.0 på på På preposition 37.0 i i I preposition 29.0 och och Och konjunktion 29.0 att att Att infinitivmärke 28.0 det det Det DET pronomen 27.0 av av preposition 24.0 om om OM Om preposition 24.0 som som pronomen 21.0 att att Att subjunktion 20.0 för för preposition 20.0 den den det Den de determinerare 19.0 ha har HAR ha verb 17.0 vi vi oss VI pronomen 17.0 till till preposition 16.0 opinionsmätning Opinionsmätningar Opinionsmätningarna opinionsmätningar Opinionsmätningarnas opinionsmätningarnas opinionsmätningarna substantiv 14.0 30

Marsianerna!nn.utr.plu.def.nom hade!!!! vb.prt.akt.aux!! alla!!!!! pn.utr/neu.plu.ind.sub/obj ganska!!! ab gröna!!!! jj.pos.utr/neu.plu.ind/def.nom långa!!!! jj.pos.utr/neu.plu.ind/def.nom fingrar!!! nn.neu.plu.ind.nom".!!!!!! mad Man vinner kunskap om språkets användning med statistik -ar substantiv, utr, plu, ind, nom 60 % -ar verb, prs, akt 40 % 31 Webbtips Några ord om labben http://www2.lingsoft.fi/cgi-bin/swetwol SWETWOL Skriv ett ord på svenska (i vilken böjningsform som helst). Ord: Ordets analys: "<för>"! "föra" V ACT PRES! "föra" V ACT IMP! "för" N UTR IN SG! "för" <CLB> CC! "för" ADV (@AD> @ADVL)! "för" PREP http://snowball.tartarus.org/ 34