Tentamen 2016-01-13. Marco Kuhlmann

TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga redovisningar. Varje fråga kan ge maximalt 3 poäng. Planerade betygsgränser är 16 (för 3), 20 (för 4) och 24 (för 5). Lycka till! 01 Det finns egenskaper hos naturligt språk som gör att många språkteknologiska problem är svåra; en av dessa egenskaper är flertydighet. a) Ge ett exempel som illustrerar att naturligt språk kan vara flertydigt. b) Flertydighet kan leda till så kallad kombinatorisk explosion. Förklara vad som menas med detta och ge ett konkret exempel som illustrerar problemet. a) I frågan Hur kan jag boka en tågresa med rullstol? kan frasen med rullstol syfta på antingen hur resan ska genomföras eller hur resan ska bokas. b) Begreppet kombinatorisk explosion syftar på att antalet möjliga analyser av ett språkligt yttrande växer exponentiellt med yttrandets flertydighet. Ett konkret exempel: I meningen Jag bad om en kort bit är ordet bad flertydigt mellan verb och substantiv och ordet kort är flertydigt mellan substantiv och adjektiv. Detta leder till totalt fyra möjliga sätt att tagga meningen med ordklasser. Rättning: 1 p vardera för ett exempel som illustrerar att naturligt språk kan vara flertydigt och en förklaring av begreppet kombinatorisk explosion. 3 p om man dessutom kopplat ihop flertydighet och kombinatorisk explosion med hjälp av ett exempel. 1(10) 26 januari 2016

02 Innan ett textdokument förs in i ett dokumentindex genomgår det normalisering: Ursprunglig version Den liknar andra arter inom familjen med böjd näbb, mönstrad brun ovansida, vitaktig undersida och långa styva stjärtpennor som den använder för att kunna balansera upprätt på trädstammar och grenar. Normaliserad version likna annan art familj böjd näbb mönstrad brun ovansida vitaktig undersida lång styv stjärtpenna använda kunna balansera upprätt trädstam gren a) Identifiera de tekniker som har tillämpats på den ursprungliga versionen av dokumentet för att skapa den normaliserade versionen. Illustrera varje teknik med ett konkret exempel från texterna. b) Några normaliseringstekniker kräver mer språkvetenskaplig kunskap eller mera avancerade språkvetenskapliga data än andra. Ordna de tekniker som du identifierat med avseende på denna skala. Motivera din rangordning kortfattat. a) ta bort skiljetecken (näbb, näbb), ta bort stoppord (högfrekventa ord som inom, med, och), lemmatisera (reducera ord till deras uppslagsformer, andra annan). b) Rangordning: ta bort skiljetecken (minst avancerad), ta bort stoppord, lemmatisera (mest avancerad). Att ta bort skiljetecken kan göras med ett relativt enkelt reguljärt uttryck. För att ta bort stoppord krävs mera avancerade språkvetenskapliga data, nämligen en stoppordslista. Lemmatisering är den mest avancerade tekniken; denkräver i princip en fullständig morfologisk analys som även tar hänsyn till kontexten. Rättning: 1 p för en enskild teknik inkl. exempel; 2 p för flera tekniker; 3 p om man även gjort en motiverad rangordning. 2(10) 26 januari 2016

03 Ett system för textklassificering baserat på metoden Naive Bayes ska avgöra om dokumentet Stockholm Stockholm Oslo är en nyhet om Sverige (klass S) eller en nyhet om Norge (klass N). a) Lista alla sannolikheter som systemet behöver ha tillgång till för att predicera dokumentets klass. b) Skatta dessa sannolikheter med Maximum Likelihood-metoden utifrån följande dokumentsamling. Ställ upp bråk. dokument klass 1 Stockholm Stockholm S 2 Stockholm Oslo S 3 Stockholm Köpenhamn S 4 Oslo Stockholm N c) Beräkna de värden som systemet jämför för att avgöra dokumentets klass. Vilken klass predicerar systemet? a) P(S), P(Stockholm S), P(Oslo S), P(N), P(Stockholm N), P(Oslo N) b) Skattade sannolikheter: P(S) = 3/4 P(Stockholm S) = 4/6 P(Oslo S) = 1/6 P(N) = 1/4 P(Stockholm N) = 1/2 P(Oslo N) = 1/2 c) De dokumentspecifika score-värdena: score(s) = P(S) P(Stockholm S) P(Stockholm S) P(Oslo S) = 3 4 4 6 4 6 1 6 = 3 4 4 1 4 6 6 6 = 1 18 score(n) = P(N) P(Stockholm N) P(Stockholm N) P(Oslo N) = 1 4 1 2 1 2 1 2 = 1 1 1 1 4 2 2 2 = 1 32 Systemet predicerar den klass som fått det högsta score-värdet: S. Rättning: 1 p vardera om man kan skatta sannolikheter respektive tillämpa klassificeringsregeln. 3 p om man även identifierat rätt sannolikheter. 3(10) 26 januari 2016

04 I en text innehållande 1 215 396 löpord och 105 436 unika ord hittas ordet det 13 694 gånger, ordet är 13 700 gånger, ordet nalkas 2 gånger, bigrammet det är 927 gånger och bigrammet det nalkas 0 gånger. a) Skatta unigramsannolikheten P(är) och bigramsannolikheten P(är det) med Maximum Likelihood-metoden. Ställ upp bråk. b) Vad händer när man skattar bigramsannolikheten P(nalkas det) med Maximum Likelihood-metoden? Varför kan detta vara ett problem? c) Skatta bigramsannolikheten P(nalkas det) med en annan metod än Maximum Likelihood. Ställ upp bråk. a) P(är) = 13700 927, P(är det) = 1215396 13694 b) Den skattade sannolikheten blir noll. Detta innebär att modellen tilldelar varje mening som innehåller bigrammet det nalkas sannolikhet noll, vilket gör modellen mindre användbar på nya texter. Maximum Likelihoodskattning fäster för mycket vikt vid träningsdatan. c) Man kan skatta sannolikheten med Add One-utjämning: P(nalkas det) = 0 + 1 13694 + 105436 Rättning: 1 p vardera för korrekt skattade sannolikheter i deluppgifterna a) och c). 3 p om man dessutom kunnat förklara problemet med Maximum Likelihoodskattningen. 4(10) 26 januari 2016

05 Vid utvärderingen av en ordklasstaggare fick man ut nedanstående förväxlingsmatris. Den markerade cellen anger antalet gånger systemet klassade ett ord som substantiv (tagg NN) medan det enligt guldstandarden var ett adjektiv (tagg JJ). NN JJ VB NN 60 6 3 JJ 6 12 3 VB 0 6 42 a) Ställ upp ett bråk för taggarens precision på substantiv. b) Ställ upp ett bråk för taggarens täckning (recall) på adjektiv. c) Ange en annan förväxlingsmatris där taggarens korrekthet är samma som i matrisen ovan men täckning på adjektiv är 0%. a) 60/69 b) 12/24 c) Exempelmatris: NN JJ VB NN 66 6 3 JJ 6 0 3 VB 0 6 48 [Förklaring: Taggarens korrekthet ges av antalet instanser på diagonalen (114) delat med det totala antalet instanser i matrisen (138). För att lösa uppgiften kan man alltså ta den första matrisen och fördela de 12 korrekt identifierade instanserna av JJ till andra celler på diagonalen.] Rättning: 1 p vardera för korrekt precision och täckning. 3 p om man även gett ett korrekt svar på deluppgift c). 5(10) 26 januari 2016

06 Förklara den standardarkitektur för frågebesvarande system som vi gått genom på kursen. Beskriv de olika delproblemen och ge exempel på tekniker som kan användas för att lösa dem. Rättning: 1 p för ett enskilt delproblem inkl. exempel på tekniker; 2 p för flera delproblem; 3 p om det ur svaret även framgår hur delproblemen hänger ihop (kan med fördel illustreras med hjälp av ett diagram) och svaret innerhåller en förklaring av det centrala begreppet svarstyp. 6(10) 26 januari 2016

07 Det vanliga precisionsmåttet kan generaliseras för att utvärdera system där resultatet inte är ett enda svar utan en rankad lista av svarsalternativ. a) Ge exempel på tillämpningar där denna generalisering av precision är relevant och ange de specifika måtten som används i dessa sammanhang. b) Förklara skillnaderna mellan dessa mått. a) Exempel på tillämpningar är dokumentsökning (rankad lista med webbsidor, utvärderas med Mean Average Precision, MAP) och frågebesvarande system (rankad lista med svarsalternativ, utvärderas med Mean Reciprocal Rank, MRR). b) MAP bedömer hela listans kvalitet: För varje rang k av den rankade listan beräknas ett rangspecifikt precisionsvärde: antalet relavanta svar bland de k första svaren. Listans kvalitet bedöms sedan som medelvärdet (average) av alla dessa rangspecifika värden. MRR beräknas som 1/k där k är det korrekta svarets rang i listan. (Om listan inte innehåller svaret sätts MRR till noll.) I båda fall beräknas sedan medelvärdet (mean) över alla frågor. Rättning: 1 p per tillämpning inklusive mått. 3 p om man dessutom förklarat skillnaderna mellan måtten, alternativt förklarat båda måtten utförligt. 7(10) 26 januari 2016

08 När man googlar efter ett felstavat ord som t.ex. rätstavning så tar det endast några bråkdelar av en sekund och Google frågar: Menade du: rättstavning I den här uppgiften ska du fundera på hur denna teknik kan implementeras. a) Skissa på en algoritm som tar ett ord w och beräknar alla ord vars Levenshteinavstånd till w är exakt ett. b) Hur skulle man kunna kombinera denna algoritm med en unigrammodell för att föreslå det mest sannolika rättstavade ordet? c) Hur skulle man kunna generalisera ansatsen till ord vars Levenshtein-avstånd till det felstavade ordet är större än ett? Vilket beräkningsmässigt problem uppstår? a) Algoritmen returnerar en lista över alla ord som kan bildas genom att antingen lägga till en bokstav till w (i början, på slutet eller någonstans mellan två bokstäver) eller ta bort en bokstav från w. (Att substituera en bokstav mot en annan är däremot inte tillåtet eftersom detta skulle kosta 2 kronor.) b) Man kan använda unigram-modellen för att ranka de kandidatord som algoritmen producerat med avseende på sannolikhet och sedan föreslå det ord som har högst sannolikhet. c) När Levenshtein-avståndet får vara större än ett måste man också ranka ord som kan skapas från w genom en längre sekvens av operationer. Ett sätt att göra detta är att anropa algoritmen rekursivt. Notera att substitution inte behöver läggas till explicit eftersom varje substitution kan uttryckas som en sekvens av en insertion och en deletion. Det beräkningsmässiga problemet är kombinatorisk explosion. Rättning: 1 p per delfråga. 8(10) 26 januari 2016

09 Du är konsult i ett forskningsprojekt som vill analysera texter i patientjournaler. För att få etikprövning för projektet krävs att texterna deidentifieras, dvs. att all information som kan användas för att spåra data till enstaka patienter tas bort. Exempel på sådan känslig information är namn, personnummer och adress. Beskriv hur deidentifieringen skulle kunna implementeras med hjälp av tekniker från kursen och vad för sorts resurser detta skulle kräva. Föreslå och motivera även ett relevant utvärderingsmått för det implementerade systemet. Rättning: 1 p vardera för en tillräckligt utförlig diskussion av tekniker, resurser och utvärderingsmått. 9(10) 26 januari 2016

10 Ditt företag har utvecklat ett framgångsrikt system för klassificering av nyhetstexter. Nu blir ni kontaktade av en kund som undrar om systemet även kan användas för predicering av attityder gentemot kundens produkter utifrån yttranden på sociala medier som Facebook och Twitter. Diskutera likheter och skillnader mellan de två tillämpningarna. Vilka utmaningar ser du med den nya tillämpningen? Vilka resurser skulle ni behöva om ni skulle bestämma er att utveckla en anpassad version av ert system? Rättning: Poäng ges utifrån svarets omfattning och kvalitet. 10(10) 26 januari 2016