TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys. Marco Kuhlmann Institutionen för datavetenskap

Relevanta dokument
Lingvistiska grundbegrepp

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Semantik. Semantik och språkteknologi

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

Writing with context. Att skriva med sammanhang

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Språkteknologi och Open Source

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Maskinöversättning möjligheter och gränser

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Make a speech. How to make the perfect speech. söndag 6 oktober 13

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Tentamen Del A. Marco Kuhlmann

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

SÖ 2005:10. Agreement in the Form of an Exchange of Letters on the Taxation of Savings Income

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs.

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs. Typ av kurs.

Word sense disambiguation med Svenskt OrdNät

Affärsmodellernas förändring inom handeln

Preschool Kindergarten

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts.

Immigration Bank. Bank - General. Bank - Opening a bank account. Can I withdraw money in [country] without paying fees?

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Ready for Academic Vocabulary?

Isometries of the plane

Kursinformation och schema Lingvistik 729G08 (6 hp)

Semantiska relationer. Hanna Seppälä Uppsala universitet 1

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Det FRIA ORDET - ska det vara något - också för användare av AKK?

Word- sense disambiguation

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Thesis Production Time plan, preparation and Word templates

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

Föreläsning 5: Grafer Del 1

Grundläggande textanalys. Joakim Nivre

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Studieteknik för universitetet 2. Books in English and annat på svenska

Random Indexing för vektorbaserad semantisk analys

Att skriva en matematisk uppsats

Libers språklåda i engelska 7 9: Listening

Workplan Food. Spring term 2016 Year 7. Name:

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

PROVKAPITEL. Sofia Hession Sofia Panagiotidou. Roderick Hunt Alex Brychta

Språkliga uttrycks mening

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Ett hållbart boende A sustainable living. Mikael Hassel. Handledare/ Supervisor. Examiner. Katarina Lundeberg/Fredric Benesch

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Föreläsning 7. Felrättande koder

Documentation SN 3102

Projektion av träningsdata på aktuell underrum av dim 1. Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts.

Varför bostäder för Atrium Ljungberg?

Språkteknologi. Språkteknologi

Semantik och pragmatik

Förmåga att läsa och förstå: Elevsvar

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Vässa kraven och förbättra samarbetet med hjälp av Behaviour Driven Development Anna Fallqvist Eriksson

Tekniker för storskalig parsning

Småprat Small talk (stressed vowels are underlined)


1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

Par m 328 feet. Lång höger sväng. Korgen står placerad i en skogsglänta OB-linje på vänster sida.

Read, work and talk! - och Lgr 11

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Lösningsförslag till övningsuppgifter, del V

BOKSLUTSKOMMUNIKÉ 2016

Tentamen i Matematik 2: M0030M.

Avståndsmätare hur användandet kan regleras. Materialet framställt i samarbete mellan: SGF:s Regelkommitté & Tävlingsenhet

Pre-Test 1: M0030M - Linear Algebra.

Den framtida redovisningstillsynen

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

poäng i del B Lycka till!

textanalys på stor skala

HF0010. Introduktionskurs i datateknik 1,5 hp

Övning 5 ETS052 Datorkommuniktion Routing och Networking

Betydelse och betydelse

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Utbytesprogrammet Linneaus-Palme University of Fort Hare (Faculty of Education) och Umeå Universitet (Pedagogiska institutionen)

Byggdokument Angivning av status. Construction documents Indication of status SWEDISH STANDARDS INSTITUTE

5.1 Måleri. Limfärgsmålning

Provverktyget i Fronter för lärare

Lights in Alingsås Nordens största workshop inom ljussättning i offentlig miljö.

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Transkript:

TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys Marco Kuhlmann Institutionen för datavetenskap

Semantik pragmatik semantik analys generering syntax morfologi

Denna föreläsning ordbetydelsebestämning likhet mellan ord

Ordbetydelsebestämning

Ordbetydelsebestämning Ordbetydelsebestämning handlar om att avgöra den i sammanhanget korrekta betydelsen för ett ord.

Lemman och lexem Lemma: ord som formenhet bil bil, bilen, bils, bilar, bilarna, bilarnas Lexem: ord som betydelseenhet kurs 1 studieavsnitt, kurs 2 pris på värdepapper

Semantiskt lexikon färg 1 : grundläggande, genom synen uppfattad egenskap (hos ngt) som beror på det slags ljus som utsänds (från detta) och som ofta kan jämföras med viss del av regnbågen. färg 2 : klibbigt, vanligen flytande, ämne, innehållande partiklar av viss kulör, avsett att strykas ut och torka till ett tunt skikt färg 3 : sammanfattning av olika egenskaper som ger (visst) speciellt intryck mest i fråga om var för sig relativt obestämda el. svårbeskrivna egenskaper

Homonymer Homonymer: ord som har samma form men olika betydelser kurs, får, ekar Homografer: ord som har samma stavning men olika betydelser anrika, banan, kör Homofoner: ord som har samma uttal men olika betydelser beck/bäck, kål/kol, sej/sig/säg

Ordbetydelsebestämning som taggning När vi har data som är uppmärkta med korrekta ordbetydelser kan vi använda övervakad inlärning. Samma ansats som för ordklasstaggning: Träna en klassificerare som kan predicera ett ords betydelse utifrån extraherade särdrag.

Träningsdata för ordbetydelsebestämning <instance id= färg.3 senseid= färg 2 > <context> Efter 20 30 år kommer plastfärgen att vittra bort ändå och under tiden gör inte linoljefärgen någon ytterligare skada. Många är rädda för att använda linoljefärger för att det har hänt att färgen inte torkar. Men det har i sådana fall berott på att <head>färgen<head> målats på för tjockt. Ett gammalt talesätt är att om du har tio liter i burken när du börjar ska du ha elva när du är klar. Är färgen bra täcker den när den är tunn också. </context> </instance>

Lexikonbaserade metoder Som ett alternativ till maskininlärning används ofta resurser såsom semantiska lexikon (tesaurusar) för ordbetydelsebestämning.

WordNet http://wordnet.princeton.edu En stor databas med ordbetydelser och semantiska relationer. En ordbetydelse representeras som en mängd av ömsesidigt synonyma ord, ett så kallat synset. Den centrala semantiska relationen mellan ordbetydelser är hyponymi hyperonymi.

Synonymer och antonymer Synonymer: ord som kan ersätta varandra i vissa sammanhang lysande, klart, skimrande, glänsande Synonymi är inget absolut begrepp; ord kan vara synonyma i ett sammanhang men inte synonyma i ett annat. Antonymer: ord som har motsatta betydelser varmt kallt, levande död, grina grina

Hyponymer och hyperonymer Hyponymer: semantiskt underordnade ord bil < fordon, mango < frukt, stol < möbel En hyponym till ett ord är mindre abstrakt och innehåller mer information än detta ord. Hyperonymer: semantiskt överordnade ord

standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime

Lesks algoritm En enkel lexikonbaserad ansats för ordbetydelsebestämning är Lesks algoritm. Indata: En text innehållande ett målord w och ett antal möjliga ordbetydelser, definierade i ett semantiskt lexikon. Utdata: Den ordbetydelse som ger det största överlappet mellan texten och betydelsedefinitionen, räknat i antalet ord.

Lesks algoritm The bank can guarantee deposits that will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities. bank 1 : a financial institution that accepts deposits and channels the money into lending activities. Examples: he cashed a check at the bank, that bank holds the mortgage on my home bank 2 : sloping land (especially the slope beside a body of water). Examples: they pulled the canoe up on the bank, he sat on the bank of the river and watched the currents

Övningsuppgift På nästa bild visas definitioner för fyra olika betydelser av ordet papper. Välj ut en av betydelserna. Formulera sedan två meningar som innehåller ordet papper i den utvalda betydelsen: en mening där Lesk räknar ut den avsedda betydelsen, en mening där Lesk räknar ut fel betydelse.

Övningsuppgift papper 1 : material, primärt format i tunna ark avsedda för skrift, vanligen tillverkat av växtfibrer. papper 2 : en bit av ovanstående material, i allmänhet använt för att skriva eller rita på. papper 3 : dokument, handling. Om man ska åka utomlands bör man se till att inte glömma sina papper. papper 4 : artikel publicerad i en vetenskaplig tidskrift.

Utvärdering av ordbetydelsebestämning Ett vanligt utvärderingsmått för ordbetydelsebestämning är korrekthet relativt till en guldstandard. Som baseline används oftast förekommande ordbetydelse eller Lesks algoritm.

Attitydlexikon En attityd är en långvarig, emotionellt färgad inställning mot andra människor, objekt eller institutioner Enskilda ord har ofta en inbyggd attityd som kan hjälpa oss att analysera attityden i en hel text. fantastisk, kass, uppskatta Ett attitydlexikon är ett lexikon som innehåller information om dessa inbyggda attityder.

Attitydlexikon General Inquirer http://www.wjh.harvard.edu/~inquirer/ LIWC (Linguistic Inquiry and Word Count) http://www.liwc.net/ MPQA Subjectivity Cues Lexicon http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/

Likhet mellan ord

standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime

Likhet mellan ord Synonymi är en relation som antingen råder eller inte råder mellan två lexem (i en given kontext). Semantisk likhet är en graduell relation, dvs. olika ordbetydelser är mer eller mindre lika varandra.

Likhet mellan ord: Tillämpningar Informationsutvinning Hitta dokument som innehåller ord som har semantisk likhet med orden i sökfrågan. Automatisk rättning av tentor Hitta ett mått på hur nära studentens svar kommer svaret i lärarens facit.

Likhet mellan ord lexikonbaserade metoder distributionella metoder

Likhet i WordNet Intuition: kort avstånd i hierarkin = stor semantisk likhet pathlength(s 1, s 2 ) längden på den kortaste vägen mellan synset s 1 och synset s 2 likhet mellan två synsets: sim(s 1, s 2 ) = 1 / (1 + pathlength(s 1, s 2 ))

standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime sim(nickel, dime) = 1/(1 + 2) = 1/3

standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime sim(nickel, budget) = 1/(1+7) = 1/8

Problem med enkla avståndsmått Ju högre upp vi går i hierarkin, desto mindre sammanhang finns det mellan semantisk likhet och avstånd mellan synsets. jämför coin nickel med standard monetary system En enkel idé att lösa detta problem är att låta länkarna representera olika längder. Ju större hierarkin blir desto mindre blir det minimala likhetsvärde mellan synsets. eftersom det maximala avståndet blir allt större

Likhet mellan ord lexikonbaserade metoder distributionella metoder

Distributionell semantik Den distributionella hypotesen You shall know a word by the company it keeps. Firth (1957) The Word Space Model Words can be represented as points in a d-dimensional space such that nearby words (points) are similar in terms of their distributional properties. Lin et al. (2015)

Ord som vektorer queen king soccer

One hot-vektorer Det enklaste sättet att representera ord som vektorer är att koda dem som one hot-vektorer. Denna representation antar att orden är numrerade från 1 to d, där d är vokabulärens totala storlek. One hot-vektorn för ord nummer i är den d-dimensionella vektorn där alla komponenter är noll, men komponent i är 1.

Matris med samförekomster kontextord crown throne reign Sweden match goal play queen 4 1 1 2 0 0 0 målord king 3 2 1 3 1 0 0 soccer 1 0 0 4 3 4 2 hockey 0 1 0 1 2 1 1

Matris med samförekomster kontextord crown throne reign Sweden match goal play queen 4 1 1 2 0 0 0 målord king 3 2 1 3 1 0 0 soccer 1 0 0 4 3 4 2 hockey 0 1 0 1 2 1 1

Ord som vektorer crown queen king soccer Sweden

Hur hanterar man gleshet? Att räkna antalet samförekomster ger ordvektorer som har många dimensioner men som är väldigt glesa (många nollor). Ansats 1: Dimensionalitetsreduktion singulärvärdesdekomposition Ansats 2: Direkt inlärning av lågdimensionella, täta vektorer continuous bag-of-words, skip-gram

The continuous bag-of-words model x 2 x 1 h x Predict the one-hot vector for the current word x from the one-hot vectors for the surrounding words. x +1 x +2 Read off the word vector for x from the activations of the units in the hidden layer.

Kompositionell struktur av ordvektorer woman queen man king

Sammanfattning: Semantisk analys ordbetydelsebestämning, likhet mellan ord Viktiga begrepp synonym/antonym, hyponym/hyperonym, Lesks algoritm, semantisk likhet, ord som vektorer Läsanvisningar Jurafsky och Martin, 19 19.3, 20 20.7 (ej 20.5, 20.7.2)

Vad betyder en mening? Kompositionalitetsprincipen Betydelsen hos ett komplext uttryck avgörs av betydelserna hos dess deluttryck och hur dessa deluttryck har kombinerats. utmaningar: idiomatiska uttryck, kontextualitet Syntax har en avgörande roll för en menings betydelse. The brown dog on the mat saw the striped cat through the window. The brown cat saw the striped dog through the window on the mat.