Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Relevanta dokument
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Flera nivåer i språkets uppbyggnad

Grundläggande textanalys, VT2012

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Grammatik för språkteknologer

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Svenskans struktur, 7,5 hp Tentamensexempel 1

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Tekniker för storskalig parsning

Lexikon: ordbildning och lexikalisering

Automatisk morfologisk segmentering för svenska substantiv

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Språktypologi och språksläktskap

Ord och morfologi. Morfologi

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1

Språkteknologi och Open Source

DAB760: Språk och logik

Ord och morfologi. Morfologi

Neurolingvistik - Grammatik

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Datorlingvistisk grammatik

Språkteknologi. Språkteknologi

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?

Grammatik för språkteknologer

Grundläggande textanalys, VT2013

Grammatisk teori II Attributvärdesgrammatik

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Tekniker för storskalig parsning

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

MÖSG ht 2005 Maskinöversättningssystemet MATS

Ordförråd och Ordbildning

Kontextfria grammatiker

Grundläggande textanalys. Joakim Nivre

Extramaterial 3 Morfologi

Språkpsykologi/psykolingvistik

Tekniker för storskalig parsning: Grundbegrepp

Institutionen för lingvistik och filologi HT 2009

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

729G09 Språkvetenskaplig databehandling

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Grammatifix Svensk grammatikkontroll i MS Word

Word- sense disambiguation

osäkra läsare och nysvenskar Ingela Lewald Fil. dr. Gustaf Öqvist-Seimyr Docent Mikael Goldstein

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Partiell parsning Parsning som sökning

Linjärt minne. Sammanhängande minne är ej flexibelt. Effektivt

Svenskans struktur, 7,5 hp Tentamensexempel 3

Korpuslingvistik vt 2007

grammatik Ordklasser, nominalfraser, substantiv

Användarhandledning för det kompensatoriska. läshjälpmedlet Precodia.

Morfologisk typologi. Världens språk, 7,5hp vt Affix (II) 5. Lingvistisk typologi II: Morfologisk typologi, m.m.

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Karp. Övningar Språkbankens höstworkshop oktober 2017

729G74 IT och programmering, grundkurs. Tema 2. Föreläsning 3 Jody Foo,

729G09 Språkvetenskaplig databehandling

Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt Tomas Riad ( ,

Datum: Date: Provkodr: KTR1 Exam code:

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Lingvistiska grundbegrepp

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Karp. Övningar Språkbankens höstworkshop oktober 2016

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

729G74 IT och programmering, grundkurs. Tema 2. Föreläsning 3 Jody Foo,

Grammatik för språkteknologer

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Läs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg

Kommentarer till bedömningsmatris för Skriva Kurs C

Föreläsning 7: Syntaxanalys

Till särskrivningens försvar. Nils Dverstorp Europeiska språkdagen 25 september 2015

Identifiering av ordvitsar med Granska

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

12 Programstege Substantiv

Dependensregler - Lathund

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Ordklasser och satsdelar

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Frasstrukturgrammatik

DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin

Tentamen Marco Kuhlmann

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Lingvistik III Morfem och morfologi. 729G49 10 April

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Semantik. Semantik och språkteknologi

Obesvarade frågor från F1

Transkript:

Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan alltid behöver veta något om ordens uppbyggnad. Då språk är olika komplexa ur morfologisk synvinkel krävs det olika stora insatser för att göra bra morfologiska analyser för olika språk. Två-nivåmodellen är den första generella modellen för analys och generering av morfologiskt komplexa språk, såsom exempelvis finska. Jag ger här en kort och översiktlig beskrivning av två-nivåmodellens uppbyggnad och hur reglerna i modellen skiljer sig från klassiska generativa regler i Chomskys anda. Bakgrund Parsning innebär att man producerar någon sorts struktur för indata. Morfologisk parsning är att dela upp indata i morfem, de minsta betydelsebärande enheterna i språket. Morfem delas vanligen in i två klasser; stammar och affix. Stammorfem är sådana som kan stå på egen hand, fria morfem, exempelvis lampa. Affix är samlingsnamnet för prefix, suffix, infix och circumfix och dessa enheter bildar inte självständiga ord utan hängs på stammorfem, de är bundna morfem. Världens språk är olika komplexa när det gäller deras morfologiska struktur. I analytiska språk består orden av fria morfem. Exempel på analytiska språk är kinesiska och vietnamesiska. I syntetiska språk sätts morfem samman för att bilda ord. Syntetiska språk delas in i undergrupper beroende på hur morfemen kombineras. I flekterande språk består ord av sammansmälta morfemen som är mer eller mindre svåra att urskilja. Svenska kan sägas vara flekterande när det gäller ordformer som springa sprang sprungit. I agglutinerande språk består orden av ihoplimmade morfem som är tydligt urskiljbara. Finska och turkiska är exempel på agglutinerande språk. I polysyntetiska språk blandas flekterande och agglutinerande ordformer, och utmärkande för orden är att de ofta är mycket långa. Grönländska är ett polysyntetiskt språk. För att bygga en morfologisk parser behöver man följande: 1. Ett lexikon som innehåller stammar och affix och särdrag 2. Morfotaktiska regler som talar om i vilken ordning morfem kan förekomma i ett visst språk 3. Ortografiska regler eller stavningsregler som modellerar förändringar som kan uppkomma när morfem kombineras Generativa regler Föregångaren till två-nivåreglerna är de generativa regler som utarbetades av Noam Chomsky och Morris Halle under 1960-talet. Traditionella fonologiska grammatiker bestod av en ordnad sekvens av omskrivningsregler som konverterade abstrakta fonologiska representationer till ytformer via mellanliggande representationer. 1 1 http://www.ling.helsinki.fi/~koskenni/esslli-2001-karttunen/ 2

Generativa regler är på formen x y / z _ w där x, y, z, w är godtyckliga komplexa strängar eller särdragsmatriser. Regeln utläses x realiseras som y när x står mellan z och w. Egenskaperna hos generativa regler är att de är sekventiellt ordnade omskrivningsregler. Omskrivningen av x y är dynamisk och det innebär att efter omskrivningen är x inte längre tillgänglig för andra regler. Man kan säga att x inte längre existerar. Reglerna är sekventiella i den mening att de opererar en i taget efter varandra. En regel får input från den föregående och dess output blir i sin tur input för nästa och så vidare. Detta gör att den underliggande ursprungliga formen blir oåtkomlig för senare regler. Det spelar därför också stor roll i vilken ordning reglerna appliceras. Om ordningen ändras får reglerna olika input och därmed kan resultatet ändras. Reglerna kan implementeras som finita automater som fungerar som finite-state transducers, FST. Ett exempel på att reglernas ordning har stor betydelse för resultatet ges i följande exempel 2 : Regler N m / _ p p m / m _ lexikala strängar kanpat kampat kammat N m / _ p mellanliggande strängar kampat kammat p m / m _ ytsträngar kammat Reglernas motsvarande transduktorer mappar kanpat till kammat via den mellanliggande formen kampat. Om transduktorerna appliceras i omvänd ordning till inputen kammat får vi tre olika resultat. För kammat finns det tre möjliga lexikala former eftersom det finns två möjliga källor till kammat på den mellanliggande nivån. Reglerna är alltså otvetydiga när de appliceras i nedåtriktningen men tvetydiga i uppåtriktningen. 2 http://www.ling.helsinki.fi/~koskenni/esslli-2001-karttunen/ 3

Två-nivåmodellen Den finske forskaren Kimmo Koskenniemi uppfann i början av 1980-talet ett nytt sätt att beskriva fonologiska alterneringar i termer av ändliga tillstånd. 1983 presenterade Koskenniemi sin modell som han kallades Two Level Morphology, TWOL. Två-nivåmorfologin baseras på tre idéer: 3 1. Reglerna är symbol-till-symbol-begränsningar (eng. constraints) som appliceras parallellt, inte sekventiellt som omskrivningsregler 2. Begränsningarna kan hänvisa till den lexikala kontexten, till ytkontexten eller till båda kontexterna på samma gång 3. Uppslagning i lexikon och morfologisk analys utförs samtidigt Lexikonet i Koskenniemis två-nivåmodell är uppbyggt som en trädstruktur där noderna kallas för minilexikon. Minilexikonen sammanbinds genom att löven i ett lexikon länkas till roten i ett eller flera andra lexikon. Två-nivåregler Två-nivåregler skrivs på formen realisation operator kontext Operatorn kan se ut på fyra olika sätt och därmed kan reglerna ha olika betydelser 4 : 1. A:B C _ D ; (Lexikala symbolen A ska realiseras som ortografiska symbolen B endast i kontexten C _ D) 2. A:B C _ D ; (A ska alltid realiseras som B i kontexten C _ D) 3. A:B C _ D ; (A ska realiseras som B alltid och endast i kontexten C _ D) 4. A:B / C _ D ; (A ska aldrig realiseras som B i kontexten C _ D) A:B är ett korresponderande par, där A är en symbol på den underliggande lexikala nivån och B är realisationen av A på den ortografiska nivån eller ytnivån. C och D kan referera antingen till lexikala eller ortografiska symboler. C: innebär att C är en symbol på den lexikala nivån och :C att symbolen är på den ortografiska nivån. Morfologiska gränser är intressanta på båda nivåerna och de markeras med egna symboler. På den lexikala nivån markeras en morfemgräns med exempelvis ett +-tecken, och på den ortografiska nivån med 0. Ordet bilarnas får följande uppdelning på de två nivåerna: Lexikal nivå: bil+ar+na+s Ortografisk nivå: bil0ar0na0s 3 http://www.ling.helsinki.fi/~koskenni/esslli-2001-karttunen/ 4 http://giellatekno.uit.no/sms-article.htm 4

De generativa reglerna i föregående avsnitt skulle i två-nivåmodellen ha följande utseende: N:m _ p: k a N p a t k a m m a t p:m :m _ k a N p a t k a m m a t Skillnaden mellan generativa regler och två-nivåregler Två-nivåregler skiljer sig från generativa regler flera sätt 5 : Medan generativa regler appliceras en i taget, appliceras två-nivåregler simultant eller parallellt. Detta innebär att alla regler måste tillämpas framgångsrikt för varje segment i inmatningen. Att reglerna appliceras parallellt löser inte i sig problemen med flertydighet som de generativa reglerna gav upphov till, men problemet är lättare att hantera i ett system med bara två nivåer. Parallellt tillämpade två-nivåregler kräver bara två representationsnivåer, den underliggande eller lexikala nivån och ytnivån eller den ortografiska nivån. Det finns inga mellanliggande nivåer som är fallet vid sekventiellt tillämpade generativa regler. Medan generativa regler relaterar den underliggande nivån och ytnivån till varandra genom att skriva om underliggande symboler som ytsymboler, uttrycker två-nivåregler förhållandet med direkta, statiska samband mellan lexikala och ortografiska symboler. Eftersom ingen omskrivning sker finns den underliggande symbolen fortfarande kvar och är tillgänglig för andra regler. Både underliggande och ortografiska symboler existerar efter att en tvånivåregel har applicerats till en input. Medan generativa regler bara har tillgång till den aktuella mellanliggande representationen i varje steg, har två-nivåregler tillgång till både underliggande kontexten och ytkontexten. Reglerna kan alltså referera till en lexikal symbol a som korresponderar med ett ortografiskt b, eller till ett ortografiskt b som korresponderar till ett underliggande a. Generativa regler arbetar bara i en riktning, från lexikal till ortografisk nivå. Två-nivåreglerna är däremot dubbelriktade. Antingen kan de arbeta i riktningen underliggande nivå till ytnivå för generering av ordformer, eller i andra riktningen för att känna igen ordformer. 5 http://www.sil.org/pckimmo/two-level_phon.html 5

SWETWOL Två-nivåmodellen har tillämpats på en mängd språk, bland annat finska, engelska, tyska och svenska. För svenska finns SWETWOL som utvecklats av Fred Karlsson. SWETWOL är ett program för morfologisk analys och ordklassmärkning av svensk text, som bygger på tvånivåmodellen. Man kan testa SWETWOL gratis på det finska språkteknologiföretaget Lingsofts hemsida 6. SWETWOL behandlar nästan alla aspekter av svensk böjningsmorfologi. Lexikonet i SWETWOL bestod 1991 av 45 000 ord, exklusive produktiva avledningar och sammansättningar. Nästan alla ordformer i löpande text får en morfologisk analys. I SWETWOL läggs stor vikt vid analysen av svenska sammansättningar då detta är något som utmärkande för svensk morfologi. Täckning och precision i SWETWOL är i det närmaste perfekt. 7 Lexikonet i SWETWOL är precis som i Koskenniemis modell en trädstruktur och består av 299 minilexikon. Varje post i ett minilexikon måste innehålla minst en pekare till ett annat minilexikon där analysen ska fortsätta, eller till # om analysen är färdig. Topp-lexikonet är START som leder vidare till START-2 som i sin tur delar upp vokabuläret i sex lexikon; MAJORS (innehåller substantiv, adjektiv, verb, totalt ungefär 40 000 ord), SINGLES (efterled, förkortningar, interjektioner, konjunktioner mm), NUMBERS, ADVPREPS, DIGITS och NAMES. I SWETWOL används endast åtta två-nivåregler. Karlsson presenterar de sex viktigaste reglerna: 8 (1) D:t _ :t ; (2) N:0 [ e: r: Cr: r: Cl: l: n:] _ ; (3) m:0 :m _ N: ; (4) Z:s #: :* _ #: :0* :X ; (5) S:s / :Sb _ ; (6) %: / %: :* _ ; Första regeln (1) rör d/t-växlingarna som kan uppträda för exempelvis adjektiv i neutrum/utrum. I utrum heter det ju vid som i en vid öppning medan det i neutrum blir vit+t som i ett vitt fält. Den lexikala representationen är vid. Regel (5) säger att ett underliggande genitiv-s inte ska realiseras efter vissa obstruenter som exempelvis s och x. Regeln förhindrar felaktiga ortografiska former som *hus+s och *Max+s. 6 http://www.lingsoft.fi/cgi-bin/swetwol 7 Karlsson, Fred (1992) SWETWOL: A Comprehensive Morphological Analyser for Swedish s. 1 8 Ibid, s. 17 6

Källförteckning Karlsson, Fred (1992) SWETWOL: A Comprehensive Morphological Analyser for Swedish, Nordic Journal of Linguistics 15, 1-45. http://www.sil.org/pckimmo/two-level_phon.html. Hämtad 2004-10-16 http://www.ling.helsinki.fi/~koskenni/esslli-2001-karttunen/. Hämtad 2004-10-16 http://giellatekno.uit.no/sms-article.htm. Hämtad 2004-10-16 http://www.lingsoft.fi/cgi-bin/swetwol. Hämtat 2004-10-16 7