Tentamen Del A. Marco Kuhlmann

Relevanta dokument
Tentamen Marco Kuhlmann

poäng i del B Lycka till!

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Tekniker för storskalig parsning

Tekniker för storskalig parsning

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

Lingvistiskt uppmärkt text

Lösningsförslag till tentamen i Språkteknologi 2D1418,

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Partiell parsning Parsning som sökning

Kungliga Tekniska Högskolan Patrik Dallmann

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning: Grundbegrepp

TDDD02 Språkteknologi för informationssökning / Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Word- sense disambiguation

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Inlämningsuppgift: Pronomenidentifierare

Lingvistiska grundbegrepp

Dependensregler - Lathund

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Uppgifter 6: Kombinatorik och sannolikhetsteori

Maskininlärning. Regler eller ML?

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

de var svåra att implementera och var väldigt ineffektiva.

Språkteknologi och Open Source

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Gränssnitt för FakeGranska. Lars Mattsson

TDP Regler

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

EasyReader (FriendlyReader)

Föreläsning 10. Grafer, Dijkstra och Prim

Identifiering av ordvitsar med Granska

Så, ska det taggas som adverb?

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Extramaterial till Matematik Y

Föreläsning 10. Grafer, Dijkstra och Prim

Föreläsning 10. Grafer, Dijkstra och Prim

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Svensk nationell datatjänst, SND BAS Online

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Nya funktioner i Communicate: In Print Version 2.8

Grundläggande textanalys. Joakim Nivre

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

TDDD02 Föreläsning 7 HT-2013

TAMS79: Föreläsning 10 Markovkedjor

729G09 Språkvetenskaplig databehandling

Parsningens olika nivåer

Parsningens olika nivåer

INFORMATIONSUTVINNING. MARCO KUHLMANN Linköpings universitet

Tentamensinstruktioner. När Du löser uppgifterna

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

1 INTRODUKTION SUPERLÄNKAR SCOTS TEXTER ÖVERSÄTTNING RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Kaliningrad) låg vid bägge sidor av floden Pregel samt på

Programmering II (ID1019) :00-11:00

Kombinatorik och sannolikhetslära

Klassificering av homonymer Inlämningsuppgift språkteknologi

TENTAMEN TDDB53. Programmering i Ada för MI (provkod TEN2) den 7 april 2010 kl Institutionen för datavetenskap, IDA Olle Willén mars 2010

Ansvarig lärare: Maria Lindström eller , Camilla Sjölander Nordin eller

Karp. Övningar Språkbankens höstworkshop oktober 2016

Tentamen TNM061, 3D-grafik och animering för MT2. Onsdag 20/ kl SP71. Inga hjälpmedel

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

Svenskans struktur, 7,5 hp Tentamensexempel 1

Automatisk Sentimentklassificering av Twitter-inlägg

TAIU07 Matematiska beräkningar med MATLAB för MI. Fredrik Berntsson, Linköpings Universitet. 15 januari 2016 Sida 1 / 26

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiskt uppmärkt text

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

TDP Regler

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Skolmatematiktenta 1 LPGG06 Kreativ Matematik Delkurs 1 4 december 2015 kl

Transkript:

TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det krävs minst 12 poäng på denna del för att del B ska rättas. Del B omfattar 4 frågor som kräver utförliga svar med korrekt terminologi. Betyget sätts enligt följande: poäng i del A 0 11 12 24 U poäng i del B 0 3 4 7 8 12 3 4 5 Lycka till! Del A Poängsättning: Om inget annat anges så poängsätts frågorna i denna del med 1 p per delfråga. 1(13) 24 mars 2016

01 Korrekthet, precision och täckning (recall). Vid utvärderingen av en ordklasstaggare fick man ut nedanstående förväxlingsmatris. Den markerade cellen anger antalet gånger systemet klassade ett ord som adjektiv (JJ) medan det enligt guldstandarden var ett substantiv (NN). NN JJ VB NN 58 6 1 JJ 5 11 2 VB 0 7 43 a) Ställ upp ett bråk för taggarens precision på adjektiv. b) Ställ upp ett bråk för taggarens täckning (recall) på verb. c) Ange en annan förväxlingsmatris där taggarens korrekthet är samma som i matrisen ovan men där respektive värden för a) och b) är 0%. a) 11/(6 + 11 + 7) = 11/24 b) 43/(0 + 7 + 43) = 43/50 c) Exempelmatris: NN JJ VB NN 112 6 1 JJ 5 0 2 VB 0 7 0 Förklaring: Taggarens korrekthet ges av antalet instanser på diagonalen (112) delat med det totala antalet instanser i matrisen (133). Man kan alltså ta den första matrisen och flytta de totalt 54 korrekt identifierade instanserna av JJ och VB till den tredje cellen på diagonalen. 2(13) 24 mars 2016

02 Textklassificering Ett system för textklassificering baserat på metoden Naive Bayes ska avgöra om dokumentet Tokyo Tokyo Peking är en nyhet om Japan (klass J) eller en nyhet om Kina (klass K). a) För att predicera dokumentets klass använder systemet bl.a. sannolikheterna P(J) och P(Tokyo J). Lista de övriga sannolikheter som är relevanta. b) Skatta de relevanta sannolikheterna med Maximum Likelihood-metoden utifrån följande dokumentsamling. Ställ upp bråk. dokument klass 1 Tokyo Tokyo J 2 Tokyo Peking J 3 Tokyo Seoul J 4 Peking Tokyo K c) Utifrån de skattade sannolikheterna, vilken klass predicerar systemet? Redovisa hur du räknat. Visa tydligt att du förstått Naive Bayes-klassificeringsregeln. a) P(Peking J), P(K), P(Tokyo K), P(Peking K) b) Skattade sannolikheter: P(J) = 3/4 P(Tokyo J) = 4/6 P(Peking J) = 1/6 P(K) = 1/4 P(Tokyo K) = 1/2 P(Peking K) = 1/2 c) Systemet börjar med att beräkna klasspecifika score-värden: score(j) = P(J) P(Tokyo J) P(Tokyo J) P(Peking J) = 3 4 4 6 4 6 1 6 = 3 4 4 1 4 6 6 6 = 48 864 = 1 18 score(k) = P(K) P(Tokyo K) P(Tokyo K) P(Peking K) = 1 4 1 2 1 2 1 2 = 1 1 1 1 4 2 2 2 = 1 32 Systemet predicerar den klass som fått det högsta score-värdet: J. 3(13) 24 mars 2016

03 Ordpredicering I en text innehållande 1 215 396 ord och 105 436 unika ord hittas ordet det 13 694 gånger, ordet är 13 700 gånger, ordet nalkas 2 gånger, bigrammet det är 927 gånger och bigrammet det nalkas 0 gånger. a) Skatta unigramsannolikheten P(är) och bigramsannolikheten P(är det) med Maximum Likelihood-metoden. Ställ upp bråk. b) Vad händer när man skattar bigramsannolikheten P(nalkas det) med Maximum Likelihood-metoden? Varför kan detta vara ett problem? c) Skatta bigramsannolikheten P(nalkas det) med Maximum Likelihood-metoden och addera-k-utjämning med k = 0,01 (inte addera-1). Ställ upp bråk. a) P(är) = 13700 927, P(är det) = 1215396 13694 b) Den skattade sannolikheten blir noll. Detta innebär att modellen tilldelar varje mening som innehåller bigrammet det nalkas sannolikhet noll, vilket gör modellen mindre användbar på nya texter. c) Skattning med addera-k-utjämning, k = 0,01: P(nalkas det) = 0 + 0,01 13694 + 0,01 105436 4(13) 24 mars 2016

04 Ordklasstaggning Följande matriser specificerar en Hidden Markov-modell. Istället för sannolikheter anges kostnader (negativa log-sannolikheter). PL PN PP VB EOS BOS 11 2 3 4 19 PL 17 3 2 5 7 PN 5 4 3 1 8 PP 12 4 6 7 9 hen vilar ut PL 17 17 4 PN 3 19 19 PP 19 19 3 VB 19 8 19 VB 3 2 3 3 7 När man använder Viterbi-algoritmen för att beräkna den mest sannolika (minst kostsamma) taggsekvensen för meningen hen vilar ut enligt denna modell får man ut följande matris. Notera att matrisen saknar tre värden (markerade celler). BOS 0 hen vilar ut PL 28 27 21 PN A 28 35 PP 22 27 20 VB 23 B 36 EOS C a) Beräkna värdet A. Redovisa hur du räknat. b) Beräkna värdena B och C. Redovisa hur du räknat. c) Ange den mest sannolika taggsekvensen för meningen. Förklara hur den kan fås från (den fullständiga) matrisen. a) A = 0 + 2 + 3 = 5 b) B = min(28 + 4 + 8, 5 + 1 + 8, 22 + 7 + 8, 23 + 3 + 8) = 14 C = min(21 + 7, 35 + 8, 20 + 9, 36 + 7) = 28 c) Den mest sannolika taggsekvensen är BOS, PN, VB, PL, EOS. Den kan fås genom att, med början i cell C, gå tillbaka till den cell i föregående kolumn som gav den minsta kostnaden i respektive minimeringsproblem. 5(13) 24 mars 2016

05 Syntaktisk analys Nedan anges alla -regler och alla VP-regler i en viss probabilistisk kontextfri grammatik. Den sista -regeln saknar ett sannolikhetsvärde. PRP 2 7 PP 1 7 DT NN 2 7 NN? VP VB 1 2 VP VB PP 1 2 a) Vilket sannolikhetsvärde saknas? b) Nedan anges två träd som genererats av grammatiken. Ställ upp bråk för deras sannolikhetsvärden. Antag att alla regler som inte anges ovan har sannolikhet 1. S S VP VP PRP VB PRP VB PP Han bokade PP Han bokade DT NN IN DT NN IN ett tåg med NN ett tåg med NN rullstolslyft rullstolslyft c) Hur måste man ändra sannolikheterna för VP-reglerna så att det vänstra trädet får högre sannolikhet än det högra? (Du behöver inte ange de exakta värdena.) a) 2 7 2 b) vänstra trädet: 7 1 2 1 7 2 7 2 7 = 8 4802 ; högra trädet: 2 7 1 2 2 7 2 7 = 8 686 c) Man måste höja sannolikheten för regeln VP VB och samtidigt sänka sannolikheten för regeln VP VB PP. (Exakt svar: Sannolikheten för den första regeln måste bli större än 7 8.) 6(13) 24 mars 2016

06 Semantisk analys En enkel metod för att bestämma ett ords betydelse är Lesks algoritm, som använder sig av semantiska lexikon. Följande betydelser hittar man när man slår upp det engelska ordet course i Wiktionary: 1 A normal or customary sequence. 2 A learning program, as in university. I need to take a French course. 3 The direction of movement of a vessel at any given moment. The ship changed its course 15 degrees towards south. a) Vilken av betydelserna har ordet course i följande mening? In the United States, the normal length of a course is one academic term. b) Vilken av betydelserna förutsäger Lesks algoritm för denna mening med de angivna definitionerna som underlag? Ignorera ordet course, skiljetecken och stoppord. Motivera ditt svar. c) Förändra meningen så att ordet course behåller sin betydelse men Lesks algoritm nu förutsäger en annan betydelse än innan. a) Betydelse 2 b) Betydelse 1. Algoritmen väljer den betydelse vars definition har det högsta överlappet med meningen, räknat i antalet ord. I det här fallet finns ett överlapp med definition 1 (normal) men inget överlapp med de andra definitionerna. c) Exempel: In the United States, the typical length of a university course is one academic term. (Ett överlapp med definition 2 [university], noll överlapp med definition 1 [normal har ändrats till typical]). 7(13) 24 mars 2016

07 Informationsextraktion Ett system för informationsextraktion är tränat på att hitta tre typer av namngivna entiteter: personer (PER), organisationer (ORG) och svenska tätorter (LOC). a) Vilken av dessa tre typer är lättast att hitta med hjälp av namnlistor? b) Entitetsextraktion kan ses som uppgiften att tagga varje token i en mening med en så kallad BIO-tagg. Sätt ut BIO-taggarna för följande mening. (Observera att meningen består av 20 stycken token.) Astrid Lindgren, född den 14 november 1907 i Vimmerby, utsågs till hedersdoktor vid Linköpings universitet år 2000. c) System som använder BIO-taggningen kan utvärderas på taggnivå eller entitetsnivå. Ändra en av dina taggar så att den nya taggningen har 95% korrekthet på taggnivå men 0% precision och recall med avseende på entitetstypen PER. Använd din ursprungliga taggning som guldstandard. a) LOC b) (format: token/tagg) Astrid/B-PER Lindgren/I-PER,/O född/o den/o 14/O november/o 1907/O i/o Vimmerby/B-LOC,/O utsågs/o till/o hedersdoktor/o vid/o Linköpings/B-ORG universitet/i-org år/o 2000/O./O c) ändra t.ex. Lindgren/I-PER till Lindgren/O 8(13) 24 mars 2016

08 Frågebesvarande system Följande frågor ställdes till ett frågebesvarande system: A B C När föddes Einstein? Hur var han som människa? Var föddes Einsteins första fru? a) Ange svarstyperna för A och C. b) Vilka data behövs för att träna en Naive Bayes-klassificerare som automatiskt predicerar en frågas svarstyp? c) Olika frågor är olika svåra för frågebesvarande system att hitta rätt svar på. Rangordna de tre frågorna från lättast till svårast. Motivera din rangordning. Antag att systemet inte har någon egen kunskapsdatabas utan bygger på dokumentsökning i svenska Wikipedia. a) A: datum, C: plats b) Frågor taggade med deras svarstyper. c) A C B. Fråga A är lättast eftersom svarstypen är väldefinierad och svaret är lätt att hitta i Wikipedia. Därefter kommer C eftersom var också anger en väldefinierad svarstyp som är lätt att känna igen (plats); men att svara på frågan tar två steg eftersom man först måste veta vad Einsteins första fru hette. Fråga B är svårast eftersom svarstypen är oklar och frågan innehåller ett pronomen som syftar tillbaka till en tidigare fråga. 9(13) 24 mars 2016

Del B 09 Rättstavningskorrektur När man googlar på ett felstavat ord som t.ex. rätstavning så tar det endast några bråkdelar av en sekund och Google frågar: Menade du: rättstavning I den här uppgiften ska du fundera på hur denna teknik kan implementeras. a) Förklara hur en enkel algoritm skulle kunna fungera som tar ett ord w och beräknar alla ord vars Levenshtein-avstånd till w är exakt ett. b) Hur skulle man kunna utöka denna algoritm till en algoritm som föreslår det mest sannolika rättstavade ordet? c) Hur skulle man kunna generalisera ansatsen till ord vars Levenshtein-avstånd till det felstavade ordet är större än ett? Vilket beräkningsmässigt problem uppstår? Poängsättning: Se den rättade tentamen. 10(13) 24 mars 2016

10 Ordklasstaggning Diskutera likheter och skillnader mellan Viterbi-algoritmen och den perceptronbaserade algoritmen för ordklasstaggning. Vilka fördelar och nackdelar finns? För vilka tillämpningar passar den ena bättre än den andra? Poängsättning: Se den rättade tentamen. 11(13) 24 mars 2016

11 Transitionsbaserad dependensparsning Förklara utförligt hur parsning med en girig dependensparser fungerar. Illustrera ditt svar med hänvisningar till nedanstående dependensträd. Ange en transitionssekvens som skapar bågarna i detta träd. OA IP OO PA SS DT För telefonrådfrågning betalar försäkringskassan 4 kronor. Poängsättning: Se den rättade tentamen. 12(13) 24 mars 2016

12 Attitydanalys Ditt företag har utvecklat ett framgångsrikt system för klassificering av nyhetstexter baserat på modellen Naive Bayes. Nu blir ni kontaktade av en kund som undrar om systemet även kan användas för predicering av attityder gentemot kundens produkter utifrån yttranden på sociala medier som Twitter och Facebook. Diskutera likheter och skillnader mellan de två tillämpningarna. Vilka utmaningar ser du med den nya tillämpningen? Vilka data och andra resurser skulle ni kunna ha nytta av om ni bestämde er för att utveckla en anpassad version av ert system? Poängsättning: Se den rättade tentamen. 13(13) 24 mars 2016