Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Relevanta dokument
ORDKLASSERNA I. Ett sätt att sortera våra ord

Grammatik för språkteknologer

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grundläggande textanalys. Joakim Nivre

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

grammatik Ordklasser, nominalfraser, substantiv

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Grammatik för språkteknologer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Statistisk grammatikgranskning

Korp. Övningar Språkbankens höstworkshop oktober 2016

Grammatik för språkteknologer

Ordklasser och satsdelar

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Grammatisk teori II Attributvärdesgrammatik

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Språkteknologi (SV2122) Föreläsning 3: Programmering i Python

SUBSTANTIV = namn på saker, personer, känslor

Instuderingsmaterial: Adjektiv, Substantiv och Verb

Lektion 15. Adjektiv efter verb Nobel Uttal

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten

Några skillnader mellan svenska och engelska

Bootstrapping för substantivtaggning

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Institutionen för lingvistik och filologi HT 2009

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Joniskt kapitäl på kolonn, som idag är placerad som prydnad på tempelområdet i Delfi.

729G09 Språkvetenskaplig databehandling

Grammatik skillnader mellan svenska och engelska

Karp. Övningar Språkbankens höstworkshop oktober 2016

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Träningshäfte ordklasser facit

Några skillnader mellan svenska och engelska

!!! Några verb är oregelbundna vara är var!!!

Kursplan i svenska. Mål att sträva mot för år F-5

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Ord och morfologi. Morfologi

1 Vilka ord är substantiv? Läs texten.

Lingvistiskt uppmärkt text

Läs s , 28 samt G1 (s. 219) om ordklasser och G2 (s. 220) samt separat dokument om satsdelar (i studiehandledningen).

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Valet är ditt ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN

Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011

Kungliga Tekniska Högskolan Patrik Dallmann

Världens språk, 7,5hp vt 2012

Med livet som insats ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN

ORDKLASSERNA I SVENSKA SPRÅKET

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

LATIN I,1, DELKURS 1

Grammatikprov åk 8 ORDKLASSER

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Svenskans struktur, 7,5 hp Tentamensexempel 3

fem olika sätt fem olika grupper obestämd form bestämd form Den bestämda formen

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Svenska språket. Grammatik.

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Lingvistiska grundbegrepp

Språktypologi och språksläktskap

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Grammatiken är språkets grund & byggstenar!

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

Har adjektivets a och e former någon reell betydelse i dagens svenska? Om den så kallade sexusböjningen. Theres Brännmark Grammatikdagen 17 mars 2017

Grammatik för språkteknologer

Studiebrev 4. Så här förklaras tempus i Svenska Akademiens grammatik 1 (2000), s. 231:

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Kungl. Tekniska högskolan NADA Grundformer med Stava

Svensk minigrammatik

729G09 Språkvetenskaplig databehandling

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Ordbok arabiska - svenska

Karp. Övningar Språkbankens höstworkshop oktober 2017

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Vokaler beskrivs som: främre/centrala/bakre -- rundade/orundade -- slutna/halvslutna/halvöppna/öppna

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Lingvistiskt uppmärkt text

DEL 1 Svara på svenska, men med exempel på somaliska. 4 stycken: yaal, ooyin, reduplikation, o

Datorlingvistisk grammatik

Transkript:

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Richard Johansson richard.johansson@svenska.gu.se 19 februari 2014

praktiska detaljer: tenta vilket datum föredrar ni när det gäller tentan? för mig passar t.ex. 14, 17, 19, 21 mars jag tänker mig att tentan blir 3 timmar vad sägs om en extra övning inför tentan, t.ex. 7 mars?

översikt dagens två teman: morfologisk analys lista de möjliga anlyserna av ett ord ordklassanalys morfologisk disambiguering båda uppgifterna är nödvändiga för att vi ska kunna göra en mer fullständig grammatisk analys (nästa föreläsning)

översikt morfologisk analys ordklassanalys fortsättningen

översikt morfologisk analys för en given ordform, lista vilka anlyser som är möjliga analys: vanligen i form av grundform böjning ibland också analys av avledningar, sammansättningar,... såg substantivet såg i obestämd form singular verbet se i aktiv preteritum

morfologisk analys med uppslagning många läroböcker i språkteknologi är kortfattade om morfologisk analys... vilket förmodligen beror på det i engelska funkar rätt så bra att bara lagra alla ordformer i en ordlista antal böjningsformer för regelbundna ord: substantiv: dog, dogs verb: play, plays, played, playing adjektiv: high, higher, highest analysen sker därefter med uppslagning i ordlistan

när uppslagning är opraktiskt se http://www.ling.helsinki.fi/~fkarlsso/genkau2.html då är det bättre att verkligen beskriva (den regelbundna) morfologin!

enklaste fallet: böjningstabell katt katten katter katterna

enklaste fallet: böjningstabell (2) katt katten katter katterna katts kattens katters katternas

Xerox verktyg Xerox Finite-state Technology Tools är en uppsättning program för hantering av (bland annat) morfologi här intresserar vi oss för två av dessa program: LexC hanterar lexikon och böjningstabeller XFST hanterar omskrivningsregler LexC och XFST använder varsitt eget programmeringsspråk till skillnad från Python så är dessa språk användbara enbart för ett syfte: hantering av text

en parentes en hel del av uppnningarna inom datormorfologi har gjorts av nländare ursprungliga idéer om tvånivåmorfologi av Kimmo Koskenniemi Xerox-verktygen har utvecklats av bl.a. Lauri Karttunen nskans morfologi är komplex men regelbunden därmed tilltalande att datorisera

verktyget LexC LexC hanterar lexikon och böjningstabeller vi beskriver morfologin genom att säga hur deltabeller är ihopkopplade

exempel på en enkel böjningstabell i LexC LEXICON Svenska film Substantiv; katt Substantiv; lemur Substantiv; LEXICON Substantiv 0 #; en #; er #; erna #;

morfologiska särdrag i LexC vi vill göra mer än att bara dela upp katten till katt-en: vi vill tala om att -en är bestämd form singular i den här typen av verktyg brukar man tala om en översida och en undersida översidan består av grundform och särdrag; undersidan av rötter och morfem i LexC brukar man typiskt skriva särdrag med speciella symboler, t.ex. +Sing för singular

samma exempel inklusive särdrag MULTICHAR_SYMBOLS +Subst +Sing +Plur +Best +Obest LEXICON Svenska film Subst; katt Subst; lemur Subst; LEXICON Subst +Subst+Sing+Obest:0 #; +Subst+Sing+Best:en #; +Subst+Plur+Obest:er #; +Subst+Plur+Best:erna #;

lite mer komplicerad böjningstabell MULTICHAR_SYMBOLS +Subst +Sing +Plur +Best +Obest LEXICON Svenska film Subst katt Subst; lemur Subst; LEXICON Subst +Subst+Sing+Obest:0 Subst_slut; +Subst+Sing+Best:en Subst_slut; +Subst+Plur+Obest:er Subst_slut; +Subst+Plur+Best:erna Subst_slut; LEXICON Subst_slut +Nom:0 #; +Gen:s #;

era böjningsparadigm LEXICON Svenska blomm Subst1; bil Subst2; katt Subst3; LEXICON Subst1 +Subst+Sing+Obest:a Subst_slut; +Subst+Sing+Best:an Subst_slut; +Subst+Plur+Obest:or Subst_slut; +Subst+Plur+Best:orna Subst_slut; LEXICON Subst2 +Subst+Sing+Obest:0 Subst_slut; +Subst+Sing+Best:en Subst_slut; +Subst+Plur+Obest:ar Subst_slut; +Subst+Plur+Best:arna Subst_slut;

i allmänhet: nite-state morfologi om morfologin kan göras med hjälp av en minneslös automat så kallas den nite-state (ändlig-tillstånd) t.ex. våra ihopkopplade böjningstabeller det är lika lätt för automaten att hantera översidan och undersidan, så analys och generering blir två sidor av samma mynt

ett krångligare exempel vissa ord i svenska har ett instabilt e som kan falla bort när morfem tillkommer exempel: öken, öknen, öknar nyckel, nyckeln, nycklar vacker, vackra

ful böjningstabell MULTICHAR_SYMBOLS +Subst +Sing +Plur +Best +Obest LEXICON Svenska ök Subst2_en; LEXICON Subst2_en +Subst+Sing+Obest:en Subst_slut; +Subst+Sing+Best:nen Subst_slut; +Subst+Plur+Obest:nar Subst_slut; +Subst+Plur+Best:narna Subst_slut;

ortograska regler engelska: happy, happier call, calls, called try, tries, tried men play, plays, played italienska: compro, compri, compriamo, comprano pago, paghi, paghiamo, pagano svenska: glass + strut = glasstrut

exempel nska vokalharmoni: talossa kylässä; oletko syötkö ännu krångligare i turkiska, där harmonin har två dimensioner konsonantens styrka påverkas av öppen/sluten stavelse: kauppaa kaupan

omskrivningsregler de beskrivna svårigheterna löses enklast med hjälp av omskrivningsregler som läggs under lexikonet typiska anledningar ortogra, t.ex. y ie, g gh fonologi, t.ex. vokalharmoni, produktivt omljud, instabilt e XFST är Xerox verktyg för att hantera omskrivningsregler

exempel här är ett XFST-program för att hantera fall som öken/öknen ett typiskt trick: vi använder en specialsymbol E för att representera den instabila vokalen i lexikonet säger vi då att ordet är öken define Vokal [ a o u å e i y ä ö ]; regex E -> 0 _?* Vokal.o. E -> e; det instabila e försvinner om det nns en vokal efter... och annars blir det till ett vanligt e

exempel, nsk vokalharmoni vi antar att specialvokalen A realiseras som a eller ä beroende på sammanhang böjningstabellen innehåller morfem i stil med ssa, lla define BakreVokal [ a o u ]; regex A -> a BakreVokal?* _.o. A -> ä.o. U -> u BakreVokal?* _.o. U -> y.o. O -> o BakreVokal?* _.o. O -> ö;

designfrågor när man beskriver morfologi hur mycket ska gå till lexikonet och böjningstabellerna? hur mycket ska man formulera som omskrivningsregler? nyckel, nycklar? fot, fötter? det som är lingvistiskt/historiskt korrekt behöver inte nödvändigtvis vara det mest praktiska!

exempel på fall då nite-state inte fungerar så bra nite-state-metoden är eektiv och lättförståelig men minneslösheten leder till vissa begränsningar exempel tyska: nita former öne, öne-st, öne-t, öne-te etc perfekt particip ge-öne-t (cirkumx) andra svårhanterade morfologier: reduplikation, t.ex. indonesiska burung (fågel) burung-burung (fåglelock) inx,...

mallmorfologi i mallmorfologi (templatic morphology) sätts böjningsmorfemen in i ett skelett mest känt i semitiska språk, t.ex. arabiska: roten k-t-b betecknar skrivrelaterade saker vokaler sätts in mellan konsonanterna för att böja eller avleda t.ex. kataba `han skrev'; uktub `skriv!'; kitaab `bok'... men nns även i verb med avljud i germanska språk: svenska: sitta; satt; suttit; sätta blandningen av lexikonrot och morfem gör livet svårt för nite-state-morfologi!

översikt morfologisk analys ordklassanalys fortsättningen

ordklassanalys: översikt jag såg en såg artikel pronomen substantiv verb substantiv grundtal substantiv pronomen adverb verb substantiv en morfologisk analys t.ex. med Xerox-verktyg ger oss alla möjliga analyser för varje ord ordklassanalys eller morfologisk disambiguering innebär att välja en av dem ordklasstaggning (part-of-speech tagging), ordklassmärkning

ordklass? det nns en viss begreppsförvirring om vi vill vara precisa så bör vi kanske säga morfologisk disambiguering i det enklaste fallet: skilj mellan ordklasser t.ex. verb och substantiv men i många fall vill man också skilja på möjliga analyser hänger: av hänge eller hänga? koppar: koppar i singular, eller kopp i plural?

måste man inte förstå hela meningen? en berättigad invändning är kanske att det nns fall då man måste läsa och förstå hela meningen för att kunna avgöra vilken böjning det handlar om t.ex., är verk singular eller plural? det kan vi inte avgöra från ett litet begränsat sammanhang! Den nionde symfonin är Beethovens viktigaste verk. De tidiga symfonierna är Beethovens viktigaste verk.... men i de esta fall klarar vi oss ganska bra med ett begränsat sammanhang, och en fullständig grammatisk analys (se nästa föreläsning) är en betydligt större utmaning

annoterade korpusar ett ordklassanalysprogram avgör ett ords analys genom att försöka gissa vad som är mest troligt för ett ord i ett sammanhang vad betyder mest troligt? kanske vanligast? för att ha en aning om vad som är vanligast så behöver vi korpusar där varje ord har fått sin korrekta analys dessa korpusar kan sedan användas för att samla in statistik om vad som är vanligast, för att hitta sammanhangsberoende regler, etc... samt för att utvärdera

exempel, StockholmUmeå Corpus Avspänningen NN.UTR.SIN.DEF.NOM mellan PP stormaktsblocken NN.NEU.PLU.DEF.NOM och KN nedrustningssträvanden NN.NEU.PLU.IND.NOM i PP Europa PM.NOM har VB.PRS.AKT inte AB mycket PN.NEU.SIN.IND.SUB/OBJ motsvarighet NN.UTR.SIN.IND.NOM i PP Mellanöstern PM.NOM. DL.MAD

exempel på etikett i SUC i SUC består etiketterna av ordklass, samt morfologiska särdrag som genus, numerus, bestämdhet, kasus, tempus,... i det följande kommer vi att använda enbart den första delen (ordklassen) för tydlighets skull

en enkel idé vi ser hur långt vi kan komma med en mycket enkel metod: för varje ord, välj den analysen för detta ord som är vanligast i den annoterade korpusen om vi inte sett ordet förr, välj den vanligaste analysen för alla ord (för svenska blir det substantiv) jag såg en såg pronomen verb artikel verb

enkel ordklassanalys i Python ett Python-program blir enkelt: vi behöver bara ha en tabell där vi minns den vanligaste ordklassen för varje ord... samt den vanligaste totalt for ord in mening: if ord in ordklasstabell: print ord, ordklasstabell[ord] else: print ord, vanligaste_ordklass jag såg en såg PN VB DT VB

utvärdering för att utvärdera ett ordklassanalysverktyg kan vi göra ungefär som för textkategorisering korrekthet (accuracy): A = antal korrekt analyserade ord antal ord i korpusen för ett bra program brukar man typiskt ha 9597% korrekthet... alltså, i snitt ett fel per 2040 ord hur svårt det är beror på hur detaljerad uppsättning av ordklasser man använder... samt hur stor vår annoterade korpus var

utvärdering med SUC vi använder den tidigare nämnda enkla metoden och bygger tabellen utifrån 80% av SUC resterande 20% för att testa hur bra det funkar resultat: 89.7% korrekthet exempel på ett fall där det trasslat till sig ordentligt: Mindes de att de hade ett hem? subst art infm art verb art part ip

att använda sammanhanget det är inte så vanligt t.ex. att artiklar följs av verb (en såg) eller partiklar (ett hem)... så vi kanske kan rätta några av felen genom att titta på orden runtomkring? vi kommer att titta snabbt på två idéer för att dra nytta av sammanhanget: statistiska program: räknar vilka kombinationer av ordklasser som är de vanligaste transformationsbaserade program: försöker rätta de vanligaste felen

statistiska ordklassanalysprogram med sammanhang statistiska ordklassmärkare innehåller två slags sannolikheter: transitioner (övergångar): om det här ordet är ett substantiv, vad är sannolikheten att nästa ord är ett verb? eller ännu mer avancerat: vad är sannolikheten att en artikel och ett substantiv följs av ett verb? emissioner: om det här ordet är ett substantiv, vad är sannolikheten att det är såg? för varje möjlig ordklass-sekvens så räknar vi ut sannolikheten genom att multiplicera ihop sannolikheterna för alla transitioner och emissioner (start) pronomen verb artikel substantiv (slut) jag såg en såg

exempel exempel: jag såg en såg alternativ 1: pronomen verb artikel substantiv alternativ 2: pronomen verb artikel verb eller P(art subst) P(såg subst) P(art verb) P(såg verb)

exempel: en såg sannolikheterna får vi genom att titta i SUC: P(art subst) P(såg subst) = antal art subst = 24148 55798 antal art 5 234851 antal subst såg antal subst = 0.43 0.000021 = 0.0000092 P(art verb) P(såg verb) = antal art verb = 27 55798 antal art 616 175255 antal verb såg antal verb = 0.00048 0.0035 = 0.0000017

exempel: jag såg P(pron subst) P(såg subst) = antal pron subst = 1302 57947 antal pron 5 234851 antal subst såg antal subst = 0.022 0.000021 = 0.00000048 P(pron verb) P(såg verb) = antal pron verb = 29073 57947 antal pron 616 175255 = 0.50 0.0035 = 0.0017 antal verb såg antal verb

utvärdering med SUC igen återigen uppdelat 80/20 resultat: 94.6% korrekthet, dvs vi har blivit av med ungefär hälften av felen som det naiva analysprogrammet gjorde vi lyckas bättre i den mening som förut gick så illa: Mindes de att de hade ett hem? subst art infm art verb art part ip verb pron subj pron verb art subst ip

transformationsbaserade ordklassanalysprogram transformationsbaserade program använder omskrivningsregler i stil med byt verb mot substantiv om det föregås av en artikel arbetsgång för att samla sådana regler utifrån en annoterad korpus: 1. börja med den enkla metoden vi tidigare gått igenom 2. konstruera den omskrivning som rättar est fel 3. repetera punkt 2 tills det inte längre går att hitta er användbara regler brukar fungera nästan lika bra som statistiska program... och har kanske fördelen att reglerna är lättare att tolka

exempel på ordklassanalysprogram Språkbanken använder ett verktyg som kallas HunPos http://code.google.com/p/hunpos/... och det nns en hel del andra program ingår också i NLTK, vilket ni kommer att få möjlighet att prova i labbet

exempel, annoteringslabbet http://spraakbanken.gu.se/korp/annoteringslabb/

översikt morfologisk analys ordklassanalys fortsättningen

nästa föreläsning syntaktisk (grammatisk) analys fredag, K235 (LT-gatan)