TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys Marco Kuhlmann Institutionen för datavetenskap
Semantik pragmatik semantik analys generering syntax morfologi
Denna föreläsning ordbetydelsebestämning likhet mellan ord
Ordbetydelsebestämning
Ordbetydelsebestämning Ordbetydelsebestämning handlar om att avgöra den i sammanhanget korrekta betydelsen för ett ord.
Lemman och lexem Lemma: ord som formenhet bil bil, bilen, bils, bilar, bilarna, bilarnas Lexem: ord som betydelseenhet kurs 1 studieavsnitt, kurs 2 pris på värdepapper
Semantiskt lexikon färg 1 : grundläggande, genom synen uppfattad egenskap (hos ngt) som beror på det slags ljus som utsänds (från detta) och som ofta kan jämföras med viss del av regnbågen. färg 2 : klibbigt, vanligen flytande, ämne, innehållande partiklar av viss kulör, avsett att strykas ut och torka till ett tunt skikt färg 3 : sammanfattning av olika egenskaper som ger (visst) speciellt intryck mest i fråga om var för sig relativt obestämda el. svårbeskrivna egenskaper
Homonymer Homonymer: ord som har samma form men olika betydelser kurs, får, ekar Homografer: ord som har samma stavning men olika betydelser anrika, banan, kör Homofoner: ord som har samma uttal men olika betydelser beck/bäck, kål/kol, sej/sig/säg
Ordbetydelsebestämning som taggning När vi har data som är uppmärkta med korrekta ordbetydelser kan vi använda övervakad inlärning. Samma ansats som för ordklasstaggning: Träna en klassificerare som kan predicera ett ords betydelse utifrån extraherade särdrag.
Träningsdata för ordbetydelsebestämning <instance id= färg.3 senseid= färg 2 > <context> Efter 20 30 år kommer plastfärgen att vittra bort ändå och under tiden gör inte linoljefärgen någon ytterligare skada. Många är rädda för att använda linoljefärger för att det har hänt att färgen inte torkar. Men det har i sådana fall berott på att <head>färgen<head> målats på för tjockt. Ett gammalt talesätt är att om du har tio liter i burken när du börjar ska du ha elva när du är klar. Är färgen bra täcker den när den är tunn också. </context> </instance>
Lexikonbaserade metoder Som ett alternativ till maskininlärning används ofta resurser såsom semantiska lexikon (tesaurusar) för ordbetydelsebestämning.
WordNet http://wordnet.princeton.edu En stor databas med ordbetydelser och semantiska relationer. En ordbetydelse representeras som en mängd av ömsesidigt synonyma ord, ett så kallat synset. Den centrala semantiska relationen mellan ordbetydelser är hyponymi hyperonymi.
Synonymer och antonymer Synonymer: ord som kan ersätta varandra i vissa sammanhang lysande, klart, skimrande, glänsande Synonymi är inget absolut begrepp; ord kan vara synonyma i ett sammanhang men inte synonyma i ett annat. Antonymer: ord som har motsatta betydelser varmt kallt, levande död, grina grina
Hyponymer och hyperonymer Hyponymer: semantiskt underordnade ord bil < fordon, mango < frukt, stol < möbel En hyponym till ett ord är mindre abstrakt och innehåller mer information än detta ord. Hyperonymer: semantiskt överordnade ord
standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime
Lesks algoritm En enkel lexikonbaserad ansats för ordbetydelsebestämning är Lesks algoritm. Indata: En text innehållande ett målord w och ett antal möjliga ordbetydelser, definierade i ett semantiskt lexikon. Utdata: Den ordbetydelse som ger det största överlappet mellan texten och betydelsedefinitionen, räknat i antalet ord.
Lesks algoritm The bank can guarantee deposits that will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities. bank 1 : a financial institution that accepts deposits and channels the money into lending activities. Examples: he cashed a check at the bank, that bank holds the mortgage on my home bank 2 : sloping land (especially the slope beside a body of water). Examples: they pulled the canoe up on the bank, he sat on the bank of the river and watched the currents
Övningsuppgift På nästa bild visas definitioner för fyra olika betydelser av ordet papper. Välj ut en av betydelserna. Formulera sedan två meningar som innehåller ordet papper i den utvalda betydelsen: en mening där Lesk räknar ut den avsedda betydelsen, en mening där Lesk räknar ut fel betydelse.
Övningsuppgift papper 1 : material, primärt format i tunna ark avsedda för skrift, vanligen tillverkat av växtfibrer. papper 2 : en bit av ovanstående material, i allmänhet använt för att skriva eller rita på. papper 3 : dokument, handling. Om man ska åka utomlands bör man se till att inte glömma sina papper. papper 4 : artikel publicerad i en vetenskaplig tidskrift.
Utvärdering av ordbetydelsebestämning Ett vanligt utvärderingsmått för ordbetydelsebestämning är korrekthet relativt till en guldstandard. Som baseline används oftast förekommande ordbetydelse eller Lesks algoritm.
Attitydlexikon En attityd är en långvarig, emotionellt färgad inställning mot andra människor, objekt eller institutioner Enskilda ord har ofta en inbyggd attityd som kan hjälpa oss att analysera attityden i en hel text. fantastisk, kass, uppskatta Ett attitydlexikon är ett lexikon som innehåller information om dessa inbyggda attityder.
Attitydlexikon General Inquirer http://www.wjh.harvard.edu/~inquirer/ LIWC (Linguistic Inquiry and Word Count) http://www.liwc.net/ MPQA Subjectivity Cues Lexicon http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/
Likhet mellan ord
standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime
Likhet mellan ord Synonymi är en relation som antingen råder eller inte råder mellan två lexem (i en given kontext). Semantisk likhet är en graduell relation, dvs. olika ordbetydelser är mer eller mindre lika varandra.
Likhet mellan ord: Tillämpningar Informationsutvinning Hitta dokument som innehåller ord som har semantisk likhet med orden i sökfrågan. Automatisk rättning av tentor Hitta ett mått på hur nära studentens svar kommer svaret i lärarens facit.
Likhet mellan ord lexikonbaserade metoder distributionella metoder
Likhet i WordNet Intuition: kort avstånd i hierarkin = stor semantisk likhet pathlength(s 1, s 2 ) längden på den kortaste vägen mellan synset s 1 och synset s 2 likhet mellan två synsets: sim(s 1, s 2 ) = 1 / (1 + pathlength(s 1, s 2 ))
standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime sim(nickel, dime) = 1/(1 + 2) = 1/3
standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime sim(nickel, budget) = 1/(1+7) = 1/8
Problem med enkla avståndsmått Ju högre upp vi går i hierarkin, desto mindre sammanhang finns det mellan semantisk likhet och avstånd mellan synsets. jämför coin nickel med standard monetary system En enkel idé att lösa detta problem är att låta länkarna representera olika längder. Ju större hierarkin blir desto mindre blir det minimala likhetsvärde mellan synsets. eftersom det maximala avståndet blir allt större
Likhet mellan ord lexikonbaserade metoder distributionella metoder
Distributionell semantik Den distributionella hypotesen You shall know a word by the company it keeps. Firth (1957) The Word Space Model Words can be represented as points in a d-dimensional space such that nearby words (points) are similar in terms of their distributional properties. Lin et al. (2015)
Ord som vektorer queen king soccer
One hot-vektorer Det enklaste sättet att representera ord som vektorer är att koda dem som one hot-vektorer. Denna representation antar att orden är numrerade från 1 to d, där d är vokabulärens totala storlek. One hot-vektorn för ord nummer i är den d-dimensionella vektorn där alla komponenter är noll, men komponent i är 1.
Matris med samförekomster kontextord crown throne reign Sweden match goal play queen 4 1 1 2 0 0 0 målord king 3 2 1 3 1 0 0 soccer 1 0 0 4 3 4 2 hockey 0 1 0 1 2 1 1
Matris med samförekomster kontextord crown throne reign Sweden match goal play queen 4 1 1 2 0 0 0 målord king 3 2 1 3 1 0 0 soccer 1 0 0 4 3 4 2 hockey 0 1 0 1 2 1 1
Ord som vektorer crown queen king soccer Sweden
Hur hanterar man gleshet? Att räkna antalet samförekomster ger ordvektorer som har många dimensioner men som är väldigt glesa (många nollor). Ansats 1: Dimensionalitetsreduktion singulärvärdesdekomposition Ansats 2: Direkt inlärning av lågdimensionella, täta vektorer continuous bag-of-words, skip-gram
The continuous bag-of-words model x 2 x 1 h x Predict the one-hot vector for the current word x from the one-hot vectors for the surrounding words. x +1 x +2 Read off the word vector for x from the activations of the units in the hidden layer.
Kompositionell struktur av ordvektorer woman queen man king
Sammanfattning: Semantisk analys ordbetydelsebestämning, likhet mellan ord Viktiga begrepp synonym/antonym, hyponym/hyperonym, Lesks algoritm, semantisk likhet, ord som vektorer Läsanvisningar Jurafsky och Martin, 19 19.3, 20 20.7 (ej 20.5, 20.7.2)
Vad betyder en mening? Kompositionalitetsprincipen Betydelsen hos ett komplext uttryck avgörs av betydelserna hos dess deluttryck och hur dessa deluttryck har kombinerats. utmaningar: idiomatiska uttryck, kontextualitet Syntax har en avgörande roll för en menings betydelse. The brown dog on the mat saw the striped cat through the window. The brown cat saw the striped dog through the window on the mat.