poäng i del B Lycka till!

Relevanta dokument
Tentamen Del A. Marco Kuhlmann

Tentamen Marco Kuhlmann

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

Adding active and blended learning to an introductory mechanics course

Kursplan. NA3009 Ekonomi och ledarskap. 7,5 högskolepoäng, Avancerad nivå 1. Economics of Leadership

Introduction to the Semantic Web. Eva Blomqvist

State Examinations Commission

Writing with context. Att skriva med sammanhang

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

MÅLSTYRNING OCH LÄRANDE: En problematisering av målstyrda graderade betyg

What Is Hyper-Threading and How Does It Improve Performance

DVG C01 TENTAMEN I PROGRAMSPRÅK PROGRAMMING LANGUAGES EXAMINATION :15-13: 15

Ökat personligt engagemang En studie om coachande förhållningssätt

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

HANTERING AV UPS CX

FORSKNINGSKOMMUNIKATION OCH PUBLICERINGS- MÖNSTER INOM UTBILDNINGSVETENSKAP

Byggdokument Angivning av status. Construction documents Indication of status SWEDISH STANDARDS INSTITUTE

Tekniker för storskalig parsning

Application Note SW

PROFINET MELLAN EL6631 OCH EK9300

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Kunskapsgraf. Fredrik Åkerberg Tommy Kvant 1 Introduktion. 2 Relaterade projekt.

denna del en poäng. 1. (Dugga 1.1) och v = (a) Beräkna u (2u 2u v) om u = . (1p) och som är parallell

Kursplan. MT1051 3D CAD Grundläggande. 7,5 högskolepoäng, Grundnivå 1. 3D-CAD Basic Course

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Analys och bedömning av företag och förvaltning. Omtentamen. Ladokkod: SAN023. Tentamen ges för: Namn: (Ifylles av student.

Tentamen MMG610 Diskret Matematik, GU

SVENSK STANDARD SS :2010

Goals for third cycle studies according to the Higher Education Ordinance of Sweden (Sw. "Högskoleförordningen")

VAD SKULLE DU HA VALT PDF

Methods to increase work-related activities within the curricula. S Nyberg and Pr U Edlund KTH SoTL 2017

Module 6: Integrals and applications

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Materialplanering och styrning på grundnivå. 7,5 högskolepoäng

Sparbankerna PDF. ==>Download: Sparbankerna PDF ebook By 0

Webbregistrering pa kurs och termin

Dokumentnamn Order and safety regulations for Hässleholms Kretsloppscenter. Godkänd/ansvarig Gunilla Holmberg. Kretsloppscenter

Klassificering av brister från internaudit

Ett hållbart boende A sustainable living. Mikael Hassel. Handledare/ Supervisor. Examiner. Katarina Lundeberg/Fredric Benesch

" «Observable» DataGenerator" betyder att klassen DataGenerator ärver från den abstrakta klassen Observable.

Webbreg öppen: 26/ /

H0008 Skrivskydd FBWF

Surfaces for sports areas Determination of vertical deformation. Golvmaterial Sportbeläggningar Bestämning av vertikal deformation

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

Utmaningar och möjligheter vid planering, genomförande och utvärdering av förändringsarbete i organisationer

Fortbildningsavdelningen för skolans internationalisering. Dossier 3. European Language Portfolio 16+ Europeisk språkportfolio 16+ English version

Isolda Purchase - EDI

Beijer Electronics AB 2000, MA00336A,

District Application for Partnership

Alias 1.0 Rollbaserad inloggning

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

8 < x 1 + x 2 x 3 = 1, x 1 +2x 2 + x 4 = 0, x 1 +2x 3 + x 4 = 2. x 1 2x 12 1A är inverterbar, och bestäm i så fall dess invers.

DE TRE UTMANINGARNA..

1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

KONSTEN ATT FÖRSTÅ EN LEDTRÅD

Byggritningar Ritsätt Fästelement. Construction drawings Representation of fasteners SWEDISH STANDARDS INSTITUTE

Question analysis. in IBM Watson. 729g43 Artificiell intelligens. Linda Hallström

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Kursplan. FÖ1038 Ledarskap och organisationsbeteende. 7,5 högskolepoäng, Grundnivå 1. Leadership and Organisational Behaviour

Kursplan. AB1029 Introduktion till Professionell kommunikation - mer än bara samtal. 7,5 högskolepoäng, Grundnivå 1

Förskola i Bromma- Examensarbete. Henrik Westling. Supervisor. Examiner

Get Instant Access to ebook Om Ett Ord PDF at Our Huge Library OM ETT ORD PDF. ==> Download: OM ETT ORD PDF

Det här med levels.?

A metadata registry for Japanese construction field

Kursplan. FÖ3032 Redovisning och styrning av internationellt verksamma företag. 15 högskolepoäng, Avancerad nivå 1

Studieteknik för universitetet 2. Books in English and annat på svenska

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

JAG AR INTE GALEN PDF

Authentication Context QC Statement. Stefan Santesson, 3xA Security AB

Del 2 Processkonsultation Edgar Schein

Tentamen i Matematik 2: M0030M.

Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen

6 th Grade English October 6-10, 2014

Datasäkerhet och integritet

Design för användbarhet Designexempel, hur tänkte man vid designen?

Teknisk rapport SIS-TR 18:2007 Publicerad/Published: Utgåva/Edition: 1 Språk/Language: svenska/swedish ICS: ;

Digitalisering i välfärdens tjänst

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång


EXPERT SURVEY OF THE NEWS MEDIA

Question answering system

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

PbD rent konkret. Från en insnöad forskares perspektiv. Tobias Pulls. 7 September Karlstads universitet

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Calculate check digits according to the modulus-11 method

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Transkript:

TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande begrepp och procedurer som behandlas på kursen. Dessa uppgifter kräver endast kompakta redogörelser, t.ex. en kort text, en uträkning eller ett diagram. Varje uppgift är värd 3 poäng, och för att bli godkänd på tentan behöver du ha minst 12 poäng totalt i denna del. Uppnår du detta mål avgörs ditt betyg av dina poäng i del B. 2. Del B består av 4 uppgifter: De tre första uppgifterna prövar din förståelse av de mera avancerade begrepp och procedurer som behandlas på kursen, samt hur olika metoder från kursen hänger ihop. Den sista uppgiften är en uppgift av essäkaraktär som prövar din förståelse av den artikel som behandlas på seminariet. Dessa uppgifter kräver utförliga och sammanhängande redogörelser med korrekt terminologi. Varje uppgift är värd 6 poäng. Ditt betyg sätts enligt följande: poäng i del A 0 11 12 15 U poäng i del B 0 9 10 14 15 24 3 4 5 Lycka till! För att korta rättningstiden rättar vi del B endast om du fått minst 12 poäng i del A. Vill du ha personlig återkoppling på uppgifter som vi inte rättat är du välkommen att kontakta examinator. En utförlig rättningsmall kommer att finnas för alla uppgifter. 1 (9)

Del A 01 Textklassificering (3 poäng) Ett system för textklassificering baserat på metoden Naive Bayes ska avgöra om dokumentet Stockholm Oslo är en nyhet om Sverige (klass S) eller en nyhet om Danmark (klass D). a) För att predicera dokumentets klass använder systemet bl.a. sannolikheterna P(D) och P(Oslo D). Lista de övriga sannolikheter som är relevanta. b) Skatta de relevanta sannolikheterna med Maximum Likelihood-metoden utifrån följande dokumentsamling. Ställ upp bråk. dokument klass 1 Stockholm Oslo S 2 Köpenhamn Stockholm D 3 Stockholm Köpenhamn S 4 Köpenhamn Oslo D c) Utifrån de skattade sannolikheterna, vilken klass predicerar systemet? Redovisa hur du räknat. Visa tydligt att du förstått Naive Bayes-klassificeringsregeln. a) P(S), P(Stockholm S), P(Oslo S), P(Stockholm D) b) Skattade sannolikheter: P(S) = 2/4 P(Stockholm S) = 2/4 P(Oslo S) = 1/4 P(D) = 2/4 P(Stockholm D) = 1/4 P(Oslo D) = 1/4 c) Systemet börjar med att beräkna klasspecifika score-värden: score(s) = P(S) P(Stockholm S) P(Oslo S) = 2 4 2 4 1 4 = 4 64 = 1 16 score(d) = P(D) P(Stockholm D) P(Oslo D) = 2 4 1 4 1 4 = 2 64 = 1 32 Systemet predicerar den klass som fått det högsta score-värdet: S. 2 (9)

02 Ordpredicering (3 poäng) I en text bestående av 1 215 396 ord hittas ordet det 13 694 gånger, ordet är 13 700 gånger, ordet våras 2 gånger, bigrammet det är 927 gånger och bigrammet det våras 0 gånger. a) Skatta unigramsannolikheten P(det) och bigramsannolikheten P(är det) med Maximum Likelihood-metoden. Ställ upp bråk. b) Vad händer när man skattar bigramsannolikheten P(våras det) med Maximum Likelihood-metoden? Varför kan detta vara ett problem för praktiska system? Ange en exempelmening som illustrerar problemet. c) Skatta bigramsannolikheten P(våras det) med Maximum Likelihood-metoden och addera k-utjämning med k = 0,01. Antag att vokabulären definieras av Svenska Akademiens ordlista, som innehåller 126 000 ord. Ställ upp bråk. a) P(det) = 13694 927, P(är det) = 1215396 13694 b) Den skattade sannolikheten blir noll. Detta innebär att modellen tilldelar varje mening som innehåller bigrammet det våras sannolikhet noll, vilket gör modellen mindre användbar på nya texter. Exempelmening: Det våras för Mel Brooks smaklösheter (SvD, 13 mars 2006). c) Skattning med addera-k-utjämning, k = 0,01: P(våras det) = 0 + 0,01 13694 + 0,01 126000 3 (9)

03 Ordklasstaggning (3 poäng) Vid utvärderingen av en ordklasstaggare fick man ut nedanstående förväxlingsmatris. Den markerade cellen anger antalet gånger systemet taggade ett ord som verb (VB) medan det enligt guldstandarden borde ha taggats som substantiv (NN). NN JJ VB NN 58 6 1 JJ 5 11 2 VB 0 7 43 a) Ställ upp ett bråk för taggarens täckning (recall) på verb. b) Ställ upp ett bråk för taggarens precision på substantiv. c) Ange en annan förväxlingsmatris där taggarens korrekthet är samma som i matrisen ovan men där taggarens precision på adjektiv är 100%. a) 43/(0 + 7 + 43) = 43/50 b) 58/(58 + 5 + 0) = 58/63 c) Exempelmatris: NN JJ VB NN 58 0 7 JJ 5 11 2 VB 7 0 43 Förklaring: Taggarens korrekthet ges av antalet instanser på diagonalen (112) delat med det totala antalet instanser i matrisen (133). Man kan alltså ta den första matrisen och flytta de totalt 13 felklassificerade instanserna av JJ till andra kolumner (men inte till diagonalen). 4 (9)

04 Syntaktisk analys (3 poäng) En transitionsbaserad dependensparser ska parsa meningen För telefonrådfrågning betalar försäkringskassan 4 kronor. Här är guldstandardträdet för denna mening: För telefonrådfrågning betalar försäkringskassan 4 kronor a) Parserns initiala konfiguration för meningen ser ut så här: stack: [] buffert: [För, telefonrådfrågning, betalar, försäkringskassan, 4, kronor] Ange den terminala konfigurationen för guldstandardträdet. b) Efter två transitioner har parsern kommit till följande konfiguration: stack: [För, telefonrådfrågning] buffert: [betalar, försäkringskassan, 4, kronor] Ange de transitioner som parsern har att välja mellan i denna konfiguration. Markera den transition som parsern behöver ta för att återskapa alla bågar i guldstandardträdet. c) Ange en transitionssekvens som tar parsern hela vägen från den initiala konfigurationen för meningen till den terminala konfigurationen, och som återskapar hela guldstandardträdet. a) stack: [betalar], buffert: [] b) SH (shift), LA (left-arc), RA (right-arc) c) SH SH RA SH LA SH RA SH SH LA RA 5 (9)

05 Semantisk analys (3 poäng) Betrakta följande dokumentsamling: (1) automobile wheel motor vehicle transport passenger (2) car form transport wheel capacity carry five passenger (3) transport London game spectator advise avoid use car (4) London soccer tournament begin goal match (5) Giggs score goal football tournament Wembley London (6) Bellamy passenger football match play part goal a) Fyll i följande matris. Varje cell ska innehålla antalet gånger målordet (rad) förekommer i samma dokument som kontextordet (kolumn). automobile car soccer football passenger transport goal match b) Rita målorden som vektorer i ett koordinatsystem där x-axeln svarar mot det totala antalet förekomster i kontexterna passenger, transport och y-axeln svarar mot det totala antalet förekomster i kontexterna goal, match. c) Hur kan man med hjälp av sådana vektorrepresentationer mäta likhet mellan målorden? Vilka resultat skulle detta ge för de angivna målorden? a) Matris med samförekomster: passenger transport goal match automobile 1 1 0 0 car 1 2 0 0 soccer 0 0 1 1 football 1 0 2 1 b) Vektorerna: automobile (2, 0), car (3, 0), soccer (0, 2), football (1, 3). c) Man kan mäta likheten mellan två ord som vinkeln mellan deras vektorrepresentationer. Med denna metod skulle skulle man få två klustrar: automobile, car; soccer, football. 6 (9)

Del B 06 Rättstavningskorrektur (6 poäng) När man googlar på ett felstavat ord som t.ex. rätstavning så tar det endast några bråkdelar av en sekund och Google frågar: Menade du: rättstavning I den här uppgiften ska du fundera på hur denna teknik kan implementeras. a) Förklara hur en enkel algoritm skulle kunna fungera som tar ett ord w och beräknar alla ord vars Levenshtein-avstånd till w är högst ett. b) Hur skulle man kunna utöka denna algoritm så att den liksom Googles föreslår det mest sannolika rättstavade ordet i ett givet språk? Koppla till metoder du har lärt känna under kursen. c) Hur skulle man kunna generalisera ansatsen till ord vars Levenshtein-avstånd till det felstavade ordet är större än ett? Vilket beräkningsmässigt problem uppstår? 07 Informationsextraktion (6 poäng) Informationsextraktion är uppgiften att extrahera strukturerad information från textdokument. Begreppet strukturerad information syftar dels på namngivna entiteter och deras attribut, dels på semantiska relationer mellan dessa entiteter. a) Förklara begreppen namngivna entiteter och semantiska relationer. Vilka typer av entiteter och relationer kan vara intressanta att extrahera? Ge exempel. b) Förklara hur du skulle kunna angripa uppgiften att hitta namngivna entiteter i en text med hjälp av de metoder som vi lärt känna inom området ordklasstaggning. Vilka problem eller begränsningar ser du med detta? c) Förklara hur du skulle kunna angripa uppgiften att hitta semantiska relationer mellan namngivna entiteter med hjälp av de metoder som vi lärt känna inom området syntaktisk analys. Vilka problem eller begränsningar ser du med detta? 7 (9)

08 Viterbi-algoritmen (6 poäng) Följande matriser specificerar en Hidden Markov-modell. Istället för sannolikheter anges kostnader (negativa log-sannolikheter). PL PN PP VB EOS BOS 11 2 3 4 19 PL 17 3 2 5 7 PN 5 4 3 1 8 PP 12 4 6 7 9 hen vilar ut PL 17 17 4 PN 3 19 19 PP 19 19 3 VB 19 8 19 VB 3 2 3 3 7 När man använder Viterbi-algoritmen för att beräkna den mest sannolika (minst kostsamma) taggsekvensen för meningen hen vilar ut enligt denna modell får man ut följande matris. Notera att matrisen saknar tre värden (markerade celler). BOS 0 hen vilar ut PL 28 27 21 PN A 28 35 PP 22 27 20 VB 23 B 36 EOS C a) Beräkna de saknade värdena. Redovisa hur du räknat. b) Ange den mest sannolika taggsekvensen för meningen. Förklara hur den kan fås från (den fullständiga) matrisen. c) Förutom Viterbi-algoritmen har du även lärt känna en annan metod för ordklasstaggning. Förklara denna metod kortfattat. Resonera kring möjligheterna och begränsningarna som finns med de två metoderna. a) A = 0 + 2 + 3 = 5, B = min(28 + 5 + 8, 5 + 1 + 8, 22 + 7 + 8, 23 + 3 + 8) = 14, C = min(21 + 7, 35 + 8, 20 + 9, 36 + 7) = 28 b) Den mest sannolika taggsekvensen är BOS, PN, VB, PL, EOS. Den kan fås genom att, med början i cell C, gå tillbaka till den cell i föregående kolumn som gav den minsta kostnaden i respektive minimeringsproblem. 8 (9)

09 Frågebesvarande system (6 poäng) Denna uppgift syftar på följande artikel: David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, Chris Welty. Building Watson: An Overview of the DeepQA Project. AI Magazine 31(3):59 79, 2010. Articles a) Med stöd i bilden ovan, Figure beskriv 6. DeepQA DeepQA-arkitekturen High-Level Architecture. översiktligt och redogör för ett av stegen mera ingående. Ge exempel från artikeln. provide a bit more detail about the various architectural roles. Content Acquisition informative with respect to the original seed document; and (4) merge the most informative nuggets into the expanded corpus. The live system itself uses this expanded corpus and does not have access to the web during play. In addition to the content for the answer and evidence sources, DeepQA leverages other kinds of semistructured and structured content. Another step in the content-acquisition process is to identify and collect these resources, which include databases, taxonomies, and ontologies, such as dbpedia, 7 WordNet (Miller 1995), and the Yago 8 ontology. b) Beskriv de mått som använts för att bedöma Watsons prestation. Hur har utvecklarna gått tillväga för att optimera dessa mått? Resonera kring vilket The first step in any application of DeepQA to solve a QA problem is content acquisition, or identifying and det gathering viktigaste the content måttet to use är. for the answer and evidence sources shown in figure 6. Content c) Författarna acquisition is a skriver: combination Our of manual and automatic steps. The first step is to analyze results strongly suggest that DeepQA is an effective example questions an extensible from the problem architecture space to produce a description of the kinds of questions that that may be used as a foundation for combining, must be answered deploying, and a evaluating, characterization and of the advancing a wide range of algorithmic techniques application domain. Analyzing example questions is primarily toa rapidly manual task, advance while domain the field analysis of QA. Question Diskutera Analysis vilka specifika resultat i artikeln may be informed by automatic or statistical analyses, such as the LAT analysis shown in figure 1. process is question analysis. During question The first step in the run-time question-answering som stödjer denna slutsats. Håller du med om författarnas bedömning? Given the kinds of questions and broad domain of analysis the system attempts to understand what the Jeopardy Challenge, the sources for Watson the question is asking and performs the initial include a wide range of encyclopedias, dictionaries, thesauri, newswire articles, literary works, and processed by the rest of the system. The DeepQA analyses that determine how the question will be so on. approach encourages a mixture of experts at this Given a reasonable baseline corpus, DeepQA stage, and in the Watson system we produce shallow parses, deep parses (McCord 1990), logical then applies an automatic corpus expansion process. The process involves four high-level steps: forms, semantic role labels, coreference, relations, (1) identify seed documents and retrieve related named entities, and so on, as well as specific kinds documents from the web; (2) extract self-contained of analysis for question answering. Most of these text nuggets from the related web documents; (3) technologies are well understood and are not discussed here, but a few require some score the nuggets based on whether they are elaboration. 9 (9) FALL 2010 69