Ord och morfologi. Morfologi

Relevanta dokument
Ord och morfologi. Morfologi

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Grammatik för språkteknologer

grammatik Ordklasser, nominalfraser, substantiv

Grundläggande textanalys. Joakim Nivre

Språktypologi och språksläktskap

Grundläggande textanalys, VT2012

Ordklasser och satsdelar

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Institutionen för lingvistik och filologi HT 2009

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1

ORDKLASSERNA I. Ett sätt att sortera våra ord

Svenska - Läxa ORD att kunna förklara

12 Programstege Substantiv

Lingvistiska grundbegrepp

Grammatik för språkteknologer

Lexikon: ordbildning och lexikalisering

fem olika sätt fem olika grupper obestämd form bestämd form Den bestämda formen

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Inlämningsuppgift: Pronomenidentifierare

Extramaterial 3 Morfologi

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Obesvarade frågor från F1

729G09 Språkvetenskaplig databehandling

!!! Några verb är oregelbundna vara är var!!!

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

ORDKLASSERNA I SVENSKA SPRÅKET

Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011

Svensk grammatik Ordklasser!

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Tekniker för storskalig parsning

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Flera nivåer i språkets uppbyggnad

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

EXEMPELSIDOR SPELBOKEN

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Grammatik för språkteknologer

Automatisk morfologisk segmentering för svenska substantiv

en cigarett en flaska ett rum ett äpple en kurs en kompis en turist en buss en gurka ett brev

Till särskrivningens försvar. Nils Dverstorp Europeiska språkdagen 25 september 2015

Kungl. Tekniska högskolan NADA Grundformer med Stava

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Träningshäfte ordklasser (Venus)

SUBSTANTIV = namn på saker, personer, känslor

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

DAB760: Språk och logik

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Perl. ~ Redovisning. Alla filer som behövs för att lösa uppgifterna finns dels på ~martin/pubperl/ på mumin, samt på

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Träningshäfte ordklasser facit

Svenska språket. Grammatik.

Om sökning i Rikstermbanken Version

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Innehållsförteckning till Svenska Online. Adress: Uppdaterat

Ordförråd och Ordbildning

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

LATIN I,1, DELKURS 1

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Förord KERSTIN BALLARDINI

Läs s , 28 samt G1 (s. 219) om ordklasser och G2 (s. 220) samt separat dokument om satsdelar (i studiehandledningen).

Språkgranskningsverktyg. Grammatikkontroll i Word

Arbetsuppgift Skrivning och Grammatik v.2

Tentamen Marco Kuhlmann

Grundläggande textanalys, VT2013

Fyll i ditt namn, adress och telefonnummer: Namn: Adress: Tfn:

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Institutionen för lingvistik och filologi HT 2007

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Språkteknologi. Språkteknologi

Tekniker för storskalig parsning

Statistisk grammatikgranskning

Harry Potter och De Vises Sten, den spännande ungdomsboken, skriven av den engelska författaren J.K. Rowling, har blivit en succé över hela världen.

Kardía. fåglar en sol. ett berg en gungställning. ett träd. en bro. gräs. en å. Substantiv. Hanna Hägerland

Ordbildning/morfologi

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Grammatisk teori II Attributvärdesgrammatik

Språkteknologi och Open Source

Karp. Övningar Språkbankens höstworkshop oktober 2016

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

PROTOKOLL 2:1 2:2 O / OO Steg 2:1 Lyssning Laborativ övning Arbetsblad. Steg 2:2 Lyssning Laborativ övning Arbetsblad

Pilen 2:1-2:2 O / OO. Steg 2:1 Dator Laborativ övning Arbetsblad. Steg 2:2 Dator Laborativ övning Arbetsblad

1 Vilka ord är substantiv? Läs texten.

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Transkript:

Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande innehållsbärande enheten affix:små enheter som läggs till stammen för att signalera olika grammatiska funktioner Affix kan i sin tur delas upp i prefix(be-tänka), suffix (bord-et), infix(korru-m-pera), cirkumfix(geag-t) 1

Morfologi Ord kan böjasför att signalera grammatisk information: päron, pärons, päronet, päronets, päronen, päronens Ord kan också avledasoch skapa nya ord, eventuellt av en annan ordklass: motiv motivera motivering Ord kan sättas sammantill nya ord: distrikt + sköterska + mottagning distriktssköterskemottagning Böjningsmorfologi stam päronens suffix som signalerar plural och definit form suffix som signalerar genitiv Grammatisk info: nn.neu.plu.def.gen Morfologisk analys: ytform stam + grammatisk info Morfologisk generering: stam + morfologisk info ytform 2

Morfologisk analys Att utifrån ett ord identifiera dess stam och grammatiska information. Kan man inte lagra alla former av ett ord i ett lexikon? Jo, ibland (t.ex. taligenkänning). Men oftast inte, pgasammansatta ord, förkortningar, nybildning av ord, avledningar, låneord, namn. Vissa språk (t.ex. finska) har en mycket invecklad morfologi och en otrolig mängd olika ordformer. Morfologisk analys Varför är det viktigt? Stavningskontroll Grammatisk kontroll def den svarta svanen utr Informationssökning bättre resultat om man söker på alla former av ett ord 3

Substantiv Substantiv har följande parametrar: genus: utrum(stol), neutrum(bord) species: indefinit(stol), definit(stolen) numerus: singular(stol), plural(stolar) kasus: genitiv(stolens) eller nominativ Inte hela sanningen; finns olika pluralmönster apelsin, äpple, päron, häst, pojke, flicka, gås, stimulus, Verb Regelbundna verb: cykla, cyklar, cyklade, cyklat, cyklande, cyklandes springa, springer, sprang, sprungit, springande, springandes Oregelbundna verb: vara, är, var, varit, varande, varandes Äldre svenska har många fler verbformer: äro, ären, voro, vorit, vore, vare, finge, ginge, ett fåtal av dessa lever kvar (t.ex. vore) Många språk har många fler verbformer: spanska 50, klassisk grekiska 350, turkiska 2 miljoner(!) 4

Adjektiv Kan kompareras: spännande mer spännande mest spännande (analytisk) fin finare finast (syntetisk agglutinerande) låg lägre lägst (syntetisk flekterande) Avledningar Svenska (och engelska) har enkel böjningsmorfologi jämfört med andra språk. Hur är det med avledningar? -era: motiv, motivera [nn vb] -are: jaga, jagare, (jägare) [vb nn] -ing: motivera, motivering [vb nn] -het: god, godhet [adj nn] o-: trolig, otrolig [adj adj] -bar: äta, ätbar [vb adj] Flera steg: station stationera stationering 5

Sammansättningar Svenska kan bilda långa sammansatta ord: distriktssköterskemottagning Några klurigheter: foge: distriktssköterska vokalbyte: sköterskemottagning vokal försvinner: läkarmottagning Efterledet bestämmer tolkningen (båtmotor motorbåt) polismisshandel kvinnomisshandel strumpbyxor? Lexikaliserade sammansättningar: handboll Andra språk Tyska: Lebensversicherungsgesellschaftsangestellter livförsäkringsbolagsanställd Grönländska: iglukpisuktunga iglu= hus, kpi= bygga, suk= (jag) vill, tu = själv, nga= mig Finska: järjestelmättömyydellänsäkäänköhän inte ens med sin brist på ordning 6

Morfologi och ändliga automater Vi vill koda all denna morfologiska information med ändliga automater: acceptera korrekta ord förkasta inkorrekta ord göra detta på ett sätt som inte kräver att vi listar alla ordformer i språket Detta krävs: lexikon: alla stammar och affix morfotax: ordning på affix (päronens, *päronsen) stavningsregler för vokalförändring (sköterskemottagning) Svenskt plural Vi provar göra en automat som accepterar svenska substantiv i plural: stolar, stolarna, stolars, stolarnas klockor, klockorna, apelsiner, apelsinerna, bord, borden, böcker, böckerna, gäss, gässen Stam + suffix funkar för stol, klocka, apelsin, bord Bok, gås måste specialbehandlas eftersom stammen förändras 7

Plural: Försök 1 stam, reg nn -ar, -or, -er, -n, ε oreg nn, indef plur -na, -en -na, -en Plural: Försök 1 flick stam, reg nn or -ar, -or, -er, -n, ε oreg nn, indef plur -na, -en s na -na, -en Notera att automaten förkastar *flicknaors, *flicksorna, *flicks, *ornasflick, osv. 8

Plural: Försök 1 bord stam, reg nn ε -ar, -or, -er, -n, ε oreg nn, indef plur -na, -en s en -na, -en Plural: Försök 1 stam, reg nn -ar, -or, -er, -n, ε oreg nn, gäss indef plur en -na, -en s -na, -en Automaten klarar även oregelbundna substantiv. Men vad är det för fel? 9

Plural: Försök 2 Analys/generering - igenkänning Vi kan nu använda automaten för att känna igen korrekta substantiv (fast automaten överaccepterar) Men vi vill även kunna göra analys päronens päron nn.neu.def.plu.gen och generering päron nn.neu.def.plu.gen päronens 10

Tvånivåmorfologi (TWOL) Vi tänker oss att en automat har en remsa som input läses ifrån Lägg nu till en outputremsa Bågarna i automaten förses med läs-och skrivinstruktioner p ä r o n e n s från ena remsan läser vi päronens på andra remsan skrivs päron +nn+def+plu+gen p ä r o n N D P G Instruktioner på bågarna p:p ä:ä r:r o:o n:n ε:+n en:+plu +DEF s:+gen Automaten kan användas både för analys och generering s:+gen 11

Flertydighet Ett ord kan ha flera vägar genom automaten till ett sluttillstånd. Olika vägar genererar olika output. Motsvarar flera riktiga analyser, t.ex. talare talare +N +SIN +DEF +NOM talar +N +SIN +DEF +NOM Hur hanterar vi det? Returnerar alla svar Returnerar mest troliga svaret (krävs att vi utökar lexikon med sannolikheter) Att fundera över Hur skulle man utforma automaten så den kan hantera fåglar fågel +N +IND +PLU +NOM fåglars fågel +N +IND +PLU +GEN fåglarna fågel +N +DEF +PLU +NOM fåglarnas fågel +N +DEF +PLU +GEN 12

Lemmatisering Vid informationssökningvill man även söka på böjningsformer av sökorden cykel, cykla, cykling, osv Vid lemmatisering ersätts varje ord med sitt lemma (grundform) Pojkarnas bilar hade olika färger pojke bil ha olik färg Detta kräver morfologisk analys Stemming För språk med enkel morfologi (t.ex. engelska) är det inte alltid nödvändigt med morfologisk analys Onödigt att veta att foxes är plural av fox Stemming hugg av morfem för morfem Resurssnålt inget lexikon krävs Framför allt användbart i informationssökning (lab 5) 13

Porters algoritm Regelbaserad stemming för engelska ATIONAL ATE SSES SS ING ε Viss kontextkänslighet (W>1) EMENT ε REPLACEMENT REPLAC CEMENT CEMENT Kan bli väldigt fel ibland stocks stock, stockings stock Regelspråk för stemming (lab 5) # kommentar ^ negation $ ordslut slut vänsterkontext -> skriv om vänsterled till högerled ; regelslut # Ta bort genitiv s$->; 14

Regler i 3 steg Steg 1 Steg 2 Steg 3 s$->; eln$ -> el; en$ -> ; cyk el$-> l; a$ -> ; Tokenisering Indata: äpplen, päron och apelsiner Utdata: tokens äpplen päron och apelsiner Vanligtvis avskiljs tokens av mellanslag och skiljetecken. Men inte alltid: Birger Jarlsgatan, Johan III, et cetera, http://www.kth.se, jboye@nada.kth.se :-) 15

Tokenisering Apostrofer: Finland s Finland s? Finlands? Finland? don t don t? don t? donot? Ett token eller fler? state-of-the-art state-of-the-art? stateof the art? Microsoft Word Hewlett-Packard ess-dur Numeraler Kan innehålla mellanslag och sklijetecken 123 456.7 eller 123,456.7 eller 123 456,7 +46 (8) 790 60 00 3/20/91 Mar. 12, 1991 20/3/91 B-52 Min PGP-nyckel är 324a3df234cb23e 131.169.25.10 16

Språkspecifikt Franska: L ensemble Le? L? L? un ensemble bör matcha l ensemble Språkspecifikt Kinesiska och japanska har inga mellanslag mellan orden: 莎拉波娃现在居住在美国东南部的佛罗里达 Ej alltid möjligt att tokenisera unikt Japanska har flera alfabet Katakana and Hiragana(stavelsebaserade) Kanji(kinesiska tecken) Romaji(latinska tecken) alla dessa kan blandas i samma mening 17

Språkspecifikt Höger-till-vänsterpråk arabiska, hebreiska, farsi, urdu, pashtu, några token (numeraler, årtal, ) läses vänster till höger Algeriet uppnådde självständighet år 1962 efter 132 år av fransk ockupation. Med Unicode är den lagrade formen lätt att tokenisera Sammanfattning Ett språks morfologibeskriver hur ord böjs, avleds, sätts samman, och nybildas. Morfologisk processning viktigt steg i många applikationer igenkänning av korrekta ord analys från ytformtill stam + grammatisk info generering andra hållet Komplicerad morfologi kan beskrivas med ändliga automater (tvånivåmorfologi) I enklare tillämpningar duger det med stemming 18