Tentamen (TEN2) Maskininlärning (ML) 5hp 21IS1C Systemarkitekturutbildningen. Tentamenskod: Inga hjälpmedel är tillåtna

Intellgenta och lärande system 15 högskolepoäng Provmoment: Ladokkod: Tentamen ges för: Tentamen (TEN2) Masknnlärnng (ML) 5hp 21IS1C Systemarktekturutbldnngen Tentamenskod: Tentamensdatum: 2017-03-24 Td: 14:00-19:00 Hjälpmedel: Inga hjälpmedel är tllåtna Totalt antal poäng på tentamen: 20 poäng För att få respektve betyg krävs: G >= 10, VG >= 16 Allmänna anvsnngar: Skrv tentamenskod på varje blad du lämnar n. Skrv tydlgt (oläslga svar kan ej bedömas = 0 poäng) och motvera dna svar väl. Numrera sdorna och börja varje ny uppgft på ett nytt blad. Om du anser att en fråga är svår att förstå eller felaktgt ställd, skrv ner dn tolknng av frågan tllsammans med svaret. Rättnngstden är som längst tre veckor Vktgt! Glöm nte att skrva tentamenskod på alla blad du lämnar n. Lycka tll! Ansvarga lärare: Patrck Gabrelsson Henrk Lnusson Telefonnummer: 033-435 4132 0731-82 06 07 1

1. ALLMÄNT (5p) Preprocesserng är en vktg del av masknnlärnng. Beroende på datamängdens egenskaper och/eller masknnlärnngsalgortmens egenskaper, så kan man behöva preprocessera sn datamängd för att möjlggöra en bättre nlärnng. a) Förklara vad normalserng av en datamängd nnebär och anlednngen tll varför (1p) man normalserar. Normalsera sedan nedanstående tvådmensonella datamängd (bestående av de fyra nstanserna A, B, C och D, med de två attrbuten X och Y), antngen tll ntervallet [0,1] eller genom att standardsera (om du standardserar, kan du ange dna svar som en kvot nnehållandes termer med rottecken). Ange de normalserade värdena som Xnorm samt Ynorm. Redovsa samtlga beräknngar. X Y X norm Y norm A 1 3 B 3 4 C 3 2 D 5 3 b) En del masknnlärnngsalgortmer kan endast hantera kategorska eller (1p) numerska attrbut. Varje attrbut tllhör dessutom en vss mätskala; nomnal, ordnal, nterval eller rato. Beroende på mätskalan, så kan ett eller flera av följande matematska operatorer applceras på attrbutens värden; dstnctness (=, ), order (<,>), addton (+,-) och multplcaton (*,/). För varje mätskala, ange vlka av ovanstående matematska operatorer som kan applceras samt om mätskalan är av kategorsk eller numersk karaktär. Ange slutlgen vlken mätskala som följande attrbut tllhör; ögonfärg, betyg, datum, längd. =, <,> +,- *,/ Kategorsk Numersk Ögonfärg Betyg Datum Längd Nomnal Ordnal Interval Rato c) De attrbut (features) som används som nput tll en masknnlärnngsalgortm (1p) är avgörande för hur bra nlärnngen blr. En stor del av preprocesserngsarbetet utgörs därför av feature engneerng, dvs framtagandet av attrbut som underlättar nlärnngen. Dskutera ett par olka metoder för framtagandet av features. d) En datamängd kan nnehålla ett stort antal attrbut (features), där det är önskvärt (1p) att välja en delmängd av dessa som nput tll masknnlärnngsalgortmen - så kallad feature selecton. Dskutera mnst två olka feature selecton metoder som vanlgen tllämpas nom masknnlärnng. e) The curse of dmensonalty och Occam s razor är två välkända uttryck nom (1p) masknnlärnng. Förklara vad dessa två uttrycken nnebär. 2

2. KLASSIFICERING OCH REGRESSION (5p) Nedanstående datamängd är gven, med åtta tränngsnstanser och en testnstans. ID X1 X2 Y 1 0 0 True 2 0 1 True 3 0 2 True 4 1 0 False 5 1 1 False 6 1 2 True 7 2 0 False 8 2 1 False 9 2 2? a) Konstruera ett beslutsträd från tränngsnstanserna datamängden ovan. (2p) Använd classfcaton error (CE) för att beräkna orenheten en nod, och använd vktad medelvärdnng (SPLIT) för att beräkna orenheten en splt. Vsa uträknngarna för orenhet för de splts som testas rotnoden; för övrga splts behövs nte uträknngar vsas. CE(t) = 1 max[p( t)] SPLIT(l, r, t) =CE(l) sze(l) sze(r) + CE(r) sze(t) sze(t) b) Använd k-nearest neghbors med k = 3 för att härleda klassen för (2p) testnstansen datamängden ovan. Använd det Eukldska avståndet d(p,q) för att beräkna avståndet mellan testnstansen P och respektve tränngsnstans Q. Ange avstånden som roten ur ett heltal. d(p, Q) = (P Q ) 2 c) Prestandan för en ensemblemodell kan uttryckas genom (1p) E = E A, där E är ensemblemodellens felfrekvens, E är medelfelfrekvensen för ensembles medlemmar och A är ambguty eller dverstet. Förklara vad ambguty/dverstet nnebär, och varför det är vktgt för ensemblemodeller. 3

3. ASSOCIATIONSREGLER (5p) Nedanstående transaktonsdatabas är gven, nnehållande no transaktoner bestående av tems A, B, C och D. ID Items 1 A, B 2 A, B, C 3 A, C 4 A, B, C, D 5 B, C, D 6 A, C, D 7 A, B, C 8 B, D 9 C, D a) Ange support för samtlga canddate temsets av storlek 1, 2, 3 (1p) respektve 4. b) Antag att mnmum support = 3. Ange, för respektve frequent (1p) temset, huruvda det är maxmalt respektve stängt (closed). c) Ange de assocatonsregler som kan konstrueras från samtlga (1p) frequent temsets nnehållande 2 eller fler tems. Beräkna confdence för dessa assocatonsregler. d) Förklara varför confdence kan vara ett mssvsande utvärderngsmått (1p) för assocatonsregler. Motvera med ett exempel. e) Förklara och vsa med exempel hur de åtta tränngsexemplen (1p) datamängden från uppgft 2 kan konverteras tll en transaktonsdatabas. Antag att X1 är kategorsk och X2 numersk. 4

4. KLUSTRING (5p) Nedanstående tvådmensonella datamängd, bestående av de fyra nstanserna A, B, C och D, med de två attrbuten X och Y, är gven: X Y A -1 2 B 2 1 C -3-2 D 1-1 a) Beräkna dstansmatrsen (proxmty matrx) för datamängden. Använd det (1p) Eukldska avståndet d(p,q) mellan varje par av nstanser (P,Q). Ange avstånden som roten ur ett heltal. Redovsa samtlga beräknngar. A B C D A B C D d(p, Q) = (P Q ) 2 b) Utför en enda teraton av k-means algortmen med k = 2 samt med (1p) nstanserna A och C valda som de ntala kluster-centroderna m1 = (-1, 2) samt m2 = (-3, -2). Utfrån dstansmatrsen, förklara vlka nstanser som fnns varje kluster efter teratonen samt beräkna de nya centroderna m1 samt m2. Redovsa samtlga beräknngar. Instanser Kluster 1? Kluster 2? X Y m1 m2 c) Utför agglomeratv herarksk klustrng på datamängden med MIN (Sngle Lnk) (1p) och rta det resulterande dendogrammet. Glöm nte dstansen på Y-axeln. d) Defnera följande fem begrepp (som används DBSCAN algortmen): (1p) Eps, MnPts, Core pont, Border pont, Nose pont. e) Använd DBSCAN för att klustra datamängden med Eps = 12 samt (1p) MnPts = 2. Ange (och förklara varför) vlka nstanser som är Core Ponts, Border Ponts respektve Nose Ponts. Ange även vlka kluster som erhålls samt vlka nstanser som fnns varje kluster. Instanser Core Ponts? Border Ponts? Nose Ponts? Kluster Instanser 5