Tentamen 2016-01-13. Marco Kuhlmann



Relevanta dokument
Tentamen Del A. Marco Kuhlmann

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

poäng i del B Lycka till!

Tentamen TEN1 HI

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Vad roligt att ni har valt att bjuda varandra på den här timmen.

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

Föreläsning 11. Giriga algoritmer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

LITEN LATHUND TILL ALUMNDATABASEN

Grim. Några förslag på hur du kan använda Grim. Version 0.8

DU KAN VÄLJA SAMARBETE.

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Handbok Företagsinteckning

Kungliga Tekniska Högskolan Patrik Dallmann

AKTIVITETSHANDLEDNING

KLOKA FRÅGOR OM ÄLDRES LÄKEMEDELSBEHANDLING ATT STÄLLA I SJUKVÅRDEN

Utbyggnad. Långsam avveckling. Vi måste agera nu för att ersätta enegiproduktionen med hållbara alternativ. Ersätt hälften av energibehovet

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

Sammanställning Undersökning av kommunens funktionsbrevlådor 2013

Formulera sig och kommunicera i tal och skrift. Läsa och analysera skönlitteratur och andra texter för olika syften.

Anvisningar för utformning av sammandrag som mognadsprov

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

Hur skriver jag ett pressmeddelande? Vad bör jag tänka på för att få media att intresseras sig för vad jag har att säga?

Fortsättningskurs i programmering F 2. Algoritmer i Programutveckling Hugo Quisbert Problemexempel 1

1 Aylas bil har gått kilometer. Hur långt har den (2) gått när hon har kört en kilometer till?

Utveckling av webbapplikationer med.net, DVA213 (1 av 5)

Så här skrivs faktablad om MSB-finansierade forskningsprojekt

Kursutvärdering Ämne: SO Lärare: Esa Seppälä/Cecilia Enoksson Läsåret Klass: SPR2

Nå Framgång på Instagram En guide till små och medelstora företag

Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten.

Va lkommen till Delfis statistikportal

Öga för öga, Tand för tand

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

Catharina Wramfors BFC Tekniksektionen Lund. Vid problem med KundRad kontakta RSIT tel:

MÄSSHANDBOK ENTREPRENÖRSKAP PÅ RIKTIGT 2016 KRONOBERG

SNABBGUIDE TILL NEWSDESK

Grunderna i stegkodsprogrammering

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter

Personlig assistans som den ska vara

Motion 7 Motion 8 Motion 9 Motion 10. med utlåtanden

Användningsområde för digitalt verktyg

Grafer. 1 Grafer. Grunder i matematik och logik (2015) 1.1 Oriktade grafer. Marco Kuhlmann

Tentamensinstruktioner. När Du löser uppgifterna

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TAOP61/TEN 1 OPTIMERING AV REALISTISKA SAMMANSATTA SYSTEM. Tentamensinstruktioner. När Du löser uppgifterna

Att ordna en interaktiv diskussion för Raoul Wallenbergs dag

Lingvistiska grundbegrepp

Manual för E-tjänsten Statsstödsrapportering

Lärarutbildningen. Validering för tillgodoräknande av kurserna Läraruppdraget, 15 hp och Lärande och utveckling, 15 hp i Lärarutbildning, 90hp

Regionala Godstransportrådet Attitydundersökning Godstransportköpare och Speditörer

Våga prata om dina erektionsproblem

Hogia Redovisning & Revision AB. Anståndshantering Hogia Kund- och Uppdragshanterare

Föreläsning 7. Träd och binära sökträd

Nedan ser du hur du markerar ett svarsalternativ, och hur du avmarkerar ett redan gjort val.

Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens

Artiklar via UB:s sö ktja nst

Föreläsning 3.1: Datastrukturer, en översikt

Instruktion sfi elever

Lathund till Dexter IUP

Omvandla din dator till en flerspråkig maskin

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

Montreal Cognitive Assessment (MoCA) Version 7.0. Instruktioner för testning och utvärdering

1. Att lyssna 1. Titta på den som talar. 2. Tänk på vad som sagts. 3. Vänta på min tur att prata. 4. Säg det jag vill säga. 1.

12 Programstege Substantiv

Förklaringstexter till SKL:s uppföljningsformulär

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UTVECKLINGSARBETE I SKOLAN. Bilagor

Manual till 3C för CPUP

Vill du arbeta som egenerfaren kamratstödjare inom socialpsykiatrin?

Lathund för dokumentation i Treserva

Bilder på framsidan: Vuxenliv 2 ute på årstidsspaning, arbete med Ipad och laborativ matematik

Manual för deltagare kursen Bakgavellyft Så går du kursen Bakgavellyft

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Familj och arbetsliv på 2000-talet. Till dig som är med för första gången

OM KRITERIER av Emelie Johnson Vegh och Eva Bertilsson, publicerad i Canis 2004

Instruktion

HANDLING TILL. Från tanke. Metodblad: Påverka på webben

TENTAMEN: Design och konstruktion av grafiska gränssnitt DAT215

Portfölj (portfolio), T4-T5, Stadium II, Läkarprogrammet, Örebro Universitet VT Portfölj. Termin 3-5, Stadium II

#talasomted. Om konsten att tala - #talasomted

Skapa kontrolluppgifter

Undersökning av skolor: IKT och utbildning MANUAL FÖR SKOLSAMORDNARE

PP - kampanj För Sverige i framtiden NU SKA PIRATPARTIET TA PLATS!

FUB-NYTT HÖST LINKÖPING 2013


Lathund publikundersökning för biografer

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Sammanställning av studerandeprocessundersökning GR, hösten 2010

Till dig som bryr dig

Hjälptext för VINN NU

Att ge feedback. Detta är ett verktyg för dig som:

Bilaga 1 Checklista för förberedelser

SLUTRAPPORT Förbättringsprogram 8

Några övningar att göra

Dina surfvanor kartläggs och lämnas ut

Transkript:

TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga redovisningar. Varje fråga kan ge maximalt 3 poäng. Planerade betygsgränser är 16 (för 3), 20 (för 4) och 24 (för 5). Lycka till! 01 Det finns egenskaper hos naturligt språk som gör att många språkteknologiska problem är svåra; en av dessa egenskaper är flertydighet. a) Ge ett exempel som illustrerar att naturligt språk kan vara flertydigt. b) Flertydighet kan leda till så kallad kombinatorisk explosion. Förklara vad som menas med detta och ge ett konkret exempel som illustrerar problemet. a) I frågan Hur kan jag boka en tågresa med rullstol? kan frasen med rullstol syfta på antingen hur resan ska genomföras eller hur resan ska bokas. b) Begreppet kombinatorisk explosion syftar på att antalet möjliga analyser av ett språkligt yttrande växer exponentiellt med yttrandets flertydighet. Ett konkret exempel: I meningen Jag bad om en kort bit är ordet bad flertydigt mellan verb och substantiv och ordet kort är flertydigt mellan substantiv och adjektiv. Detta leder till totalt fyra möjliga sätt att tagga meningen med ordklasser. Rättning: 1 p vardera för ett exempel som illustrerar att naturligt språk kan vara flertydigt och en förklaring av begreppet kombinatorisk explosion. 3 p om man dessutom kopplat ihop flertydighet och kombinatorisk explosion med hjälp av ett exempel. 1(10) 26 januari 2016

02 Innan ett textdokument förs in i ett dokumentindex genomgår det normalisering: Ursprunglig version Den liknar andra arter inom familjen med böjd näbb, mönstrad brun ovansida, vitaktig undersida och långa styva stjärtpennor som den använder för att kunna balansera upprätt på trädstammar och grenar. Normaliserad version likna annan art familj böjd näbb mönstrad brun ovansida vitaktig undersida lång styv stjärtpenna använda kunna balansera upprätt trädstam gren a) Identifiera de tekniker som har tillämpats på den ursprungliga versionen av dokumentet för att skapa den normaliserade versionen. Illustrera varje teknik med ett konkret exempel från texterna. b) Några normaliseringstekniker kräver mer språkvetenskaplig kunskap eller mera avancerade språkvetenskapliga data än andra. Ordna de tekniker som du identifierat med avseende på denna skala. Motivera din rangordning kortfattat. a) ta bort skiljetecken (näbb, näbb), ta bort stoppord (högfrekventa ord som inom, med, och), lemmatisera (reducera ord till deras uppslagsformer, andra annan). b) Rangordning: ta bort skiljetecken (minst avancerad), ta bort stoppord, lemmatisera (mest avancerad). Att ta bort skiljetecken kan göras med ett relativt enkelt reguljärt uttryck. För att ta bort stoppord krävs mera avancerade språkvetenskapliga data, nämligen en stoppordslista. Lemmatisering är den mest avancerade tekniken; denkräver i princip en fullständig morfologisk analys som även tar hänsyn till kontexten. Rättning: 1 p för en enskild teknik inkl. exempel; 2 p för flera tekniker; 3 p om man även gjort en motiverad rangordning. 2(10) 26 januari 2016

03 Ett system för textklassificering baserat på metoden Naive Bayes ska avgöra om dokumentet Stockholm Stockholm Oslo är en nyhet om Sverige (klass S) eller en nyhet om Norge (klass N). a) Lista alla sannolikheter som systemet behöver ha tillgång till för att predicera dokumentets klass. b) Skatta dessa sannolikheter med Maximum Likelihood-metoden utifrån följande dokumentsamling. Ställ upp bråk. dokument klass 1 Stockholm Stockholm S 2 Stockholm Oslo S 3 Stockholm Köpenhamn S 4 Oslo Stockholm N c) Beräkna de värden som systemet jämför för att avgöra dokumentets klass. Vilken klass predicerar systemet? a) P(S), P(Stockholm S), P(Oslo S), P(N), P(Stockholm N), P(Oslo N) b) Skattade sannolikheter: P(S) = 3/4 P(Stockholm S) = 4/6 P(Oslo S) = 1/6 P(N) = 1/4 P(Stockholm N) = 1/2 P(Oslo N) = 1/2 c) De dokumentspecifika score-värdena: score(s) = P(S) P(Stockholm S) P(Stockholm S) P(Oslo S) = 3 4 4 6 4 6 1 6 = 3 4 4 1 4 6 6 6 = 1 18 score(n) = P(N) P(Stockholm N) P(Stockholm N) P(Oslo N) = 1 4 1 2 1 2 1 2 = 1 1 1 1 4 2 2 2 = 1 32 Systemet predicerar den klass som fått det högsta score-värdet: S. Rättning: 1 p vardera om man kan skatta sannolikheter respektive tillämpa klassificeringsregeln. 3 p om man även identifierat rätt sannolikheter. 3(10) 26 januari 2016

04 I en text innehållande 1 215 396 löpord och 105 436 unika ord hittas ordet det 13 694 gånger, ordet är 13 700 gånger, ordet nalkas 2 gånger, bigrammet det är 927 gånger och bigrammet det nalkas 0 gånger. a) Skatta unigramsannolikheten P(är) och bigramsannolikheten P(är det) med Maximum Likelihood-metoden. Ställ upp bråk. b) Vad händer när man skattar bigramsannolikheten P(nalkas det) med Maximum Likelihood-metoden? Varför kan detta vara ett problem? c) Skatta bigramsannolikheten P(nalkas det) med en annan metod än Maximum Likelihood. Ställ upp bråk. a) P(är) = 13700 927, P(är det) = 1215396 13694 b) Den skattade sannolikheten blir noll. Detta innebär att modellen tilldelar varje mening som innehåller bigrammet det nalkas sannolikhet noll, vilket gör modellen mindre användbar på nya texter. Maximum Likelihoodskattning fäster för mycket vikt vid träningsdatan. c) Man kan skatta sannolikheten med Add One-utjämning: P(nalkas det) = 0 + 1 13694 + 105436 Rättning: 1 p vardera för korrekt skattade sannolikheter i deluppgifterna a) och c). 3 p om man dessutom kunnat förklara problemet med Maximum Likelihoodskattningen. 4(10) 26 januari 2016

05 Vid utvärderingen av en ordklasstaggare fick man ut nedanstående förväxlingsmatris. Den markerade cellen anger antalet gånger systemet klassade ett ord som substantiv (tagg NN) medan det enligt guldstandarden var ett adjektiv (tagg JJ). NN JJ VB NN 60 6 3 JJ 6 12 3 VB 0 6 42 a) Ställ upp ett bråk för taggarens precision på substantiv. b) Ställ upp ett bråk för taggarens täckning (recall) på adjektiv. c) Ange en annan förväxlingsmatris där taggarens korrekthet är samma som i matrisen ovan men täckning på adjektiv är 0%. a) 60/69 b) 12/24 c) Exempelmatris: NN JJ VB NN 66 6 3 JJ 6 0 3 VB 0 6 48 [Förklaring: Taggarens korrekthet ges av antalet instanser på diagonalen (114) delat med det totala antalet instanser i matrisen (138). För att lösa uppgiften kan man alltså ta den första matrisen och fördela de 12 korrekt identifierade instanserna av JJ till andra celler på diagonalen.] Rättning: 1 p vardera för korrekt precision och täckning. 3 p om man även gett ett korrekt svar på deluppgift c). 5(10) 26 januari 2016

06 Förklara den standardarkitektur för frågebesvarande system som vi gått genom på kursen. Beskriv de olika delproblemen och ge exempel på tekniker som kan användas för att lösa dem. Rättning: 1 p för ett enskilt delproblem inkl. exempel på tekniker; 2 p för flera delproblem; 3 p om det ur svaret även framgår hur delproblemen hänger ihop (kan med fördel illustreras med hjälp av ett diagram) och svaret innerhåller en förklaring av det centrala begreppet svarstyp. 6(10) 26 januari 2016

07 Det vanliga precisionsmåttet kan generaliseras för att utvärdera system där resultatet inte är ett enda svar utan en rankad lista av svarsalternativ. a) Ge exempel på tillämpningar där denna generalisering av precision är relevant och ange de specifika måtten som används i dessa sammanhang. b) Förklara skillnaderna mellan dessa mått. a) Exempel på tillämpningar är dokumentsökning (rankad lista med webbsidor, utvärderas med Mean Average Precision, MAP) och frågebesvarande system (rankad lista med svarsalternativ, utvärderas med Mean Reciprocal Rank, MRR). b) MAP bedömer hela listans kvalitet: För varje rang k av den rankade listan beräknas ett rangspecifikt precisionsvärde: antalet relavanta svar bland de k första svaren. Listans kvalitet bedöms sedan som medelvärdet (average) av alla dessa rangspecifika värden. MRR beräknas som 1/k där k är det korrekta svarets rang i listan. (Om listan inte innehåller svaret sätts MRR till noll.) I båda fall beräknas sedan medelvärdet (mean) över alla frågor. Rättning: 1 p per tillämpning inklusive mått. 3 p om man dessutom förklarat skillnaderna mellan måtten, alternativt förklarat båda måtten utförligt. 7(10) 26 januari 2016

08 När man googlar efter ett felstavat ord som t.ex. rätstavning så tar det endast några bråkdelar av en sekund och Google frågar: Menade du: rättstavning I den här uppgiften ska du fundera på hur denna teknik kan implementeras. a) Skissa på en algoritm som tar ett ord w och beräknar alla ord vars Levenshteinavstånd till w är exakt ett. b) Hur skulle man kunna kombinera denna algoritm med en unigrammodell för att föreslå det mest sannolika rättstavade ordet? c) Hur skulle man kunna generalisera ansatsen till ord vars Levenshtein-avstånd till det felstavade ordet är större än ett? Vilket beräkningsmässigt problem uppstår? a) Algoritmen returnerar en lista över alla ord som kan bildas genom att antingen lägga till en bokstav till w (i början, på slutet eller någonstans mellan två bokstäver) eller ta bort en bokstav från w. (Att substituera en bokstav mot en annan är däremot inte tillåtet eftersom detta skulle kosta 2 kronor.) b) Man kan använda unigram-modellen för att ranka de kandidatord som algoritmen producerat med avseende på sannolikhet och sedan föreslå det ord som har högst sannolikhet. c) När Levenshtein-avståndet får vara större än ett måste man också ranka ord som kan skapas från w genom en längre sekvens av operationer. Ett sätt att göra detta är att anropa algoritmen rekursivt. Notera att substitution inte behöver läggas till explicit eftersom varje substitution kan uttryckas som en sekvens av en insertion och en deletion. Det beräkningsmässiga problemet är kombinatorisk explosion. Rättning: 1 p per delfråga. 8(10) 26 januari 2016

09 Du är konsult i ett forskningsprojekt som vill analysera texter i patientjournaler. För att få etikprövning för projektet krävs att texterna deidentifieras, dvs. att all information som kan användas för att spåra data till enstaka patienter tas bort. Exempel på sådan känslig information är namn, personnummer och adress. Beskriv hur deidentifieringen skulle kunna implementeras med hjälp av tekniker från kursen och vad för sorts resurser detta skulle kräva. Föreslå och motivera även ett relevant utvärderingsmått för det implementerade systemet. Rättning: 1 p vardera för en tillräckligt utförlig diskussion av tekniker, resurser och utvärderingsmått. 9(10) 26 januari 2016

10 Ditt företag har utvecklat ett framgångsrikt system för klassificering av nyhetstexter. Nu blir ni kontaktade av en kund som undrar om systemet även kan användas för predicering av attityder gentemot kundens produkter utifrån yttranden på sociala medier som Facebook och Twitter. Diskutera likheter och skillnader mellan de två tillämpningarna. Vilka utmaningar ser du med den nya tillämpningen? Vilka resurser skulle ni behöva om ni skulle bestämma er att utveckla en anpassad version av ert system? Rättning: Poäng ges utifrån svarets omfattning och kvalitet. 10(10) 26 januari 2016