Hur relaterar det optimala valet av klassificeringsmetod till datamaterialets egenskaper?



Relevanta dokument
MX5_PSL_15R1_V2_#SF_SWE_SE_bp 24/03/ :43 M{ZD{ MX-5 LÄS MER _MX5_PSL_15R1_V2.indd COV2 18/02/ :26:33

Huge, hus 1,2,3 BULLERBERÄKNING. Ekvivalent ljudnivå KVARTER 1 AVSER PLAN 1. Huge Fastigheter VÄG- OCH SPÅRTRAFIK SKALA FÖRKLARINGAR

Dan Andersson. 15 har fått G/VG

Tentamen i Sannolikhetslära och statistik, TNK069, , kl 8 13.

Att med multinomial logistisk regression förklara sannolikheter i fotbollsmatcher

STATISTISKA INSTITUTIONEN Jakob Bergman

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Klassificeringsmetoder med medicinska tillämpningar

Stockholms Universitet Statistiska institutionen Termeh Shafie

Framtida diagnostik av sepsis. Sanja Jurcevic Biträdande lektor i systembiologi Institutionen för Biovetenskap Högskolan i Skövde

F13 Regression och problemlösning

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Skriftlig tentamen Grundläggande statistik (ST100G), 15 högskolepoäng. Datum: Lördag

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

Exempel på tentamensuppgifter

Statistisk analys av komplexa data

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Statistisk analys av komplexa data

Statistisk analys av komplexa data

EXAMENSARBETE UÄÖ 008, 15 hp 2009 :37

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Dokumentet utvärderas en gång per läsår (vid internatet i juni) och uppdateras vid behov.

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Slutexamensarbete i psykologi 30 hp ht 2015-vt 2016

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Statistiskt säkerställande av skillnader

TAMS65 - Föreläsning 6 Hypotesprövning

STOCKHOLMS UNIVERSITET HT 2011 Statistiska institutionen Bertil Wegmann

Kursrapport Dynamiska webbapplikationer 1

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

US116G, Svenska för grundlärare i grundskolan, årskurs 4-6, I, 15 hp

Kurs U0035P 7,5 hp. VFU 4, förskola. Studiehandledning VT17

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen i matematisk statistik

Programschemat är granskat av utbildningsledare och fastställt av akademichef vid akademin för utbildning, kultur och kommunikation

TAMS65 - Föreläsning 6 Hypotesprövning

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 15 hp, HT07. Fredagen 18 januari 2008

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

Inkrementell responsanalys av Scandinavian Airlines medlemmar

Kursutvärdering / Kursrapport

Tentamen i Matematisk statistik Kurskod S0001M

KV Italienska, Förberedande kurs 2, kväll, 15 hp, vt18

Fakulteten för ekonomi, kommunikation och IT. Utbildningsplan. Magisterprogram i Nationalekonomi SANEK

KV Italienska, Förberedande kurs 1, distans 15 hp, vt18

PC2309, Kurs 9: Metod 1 i psykologi, 15,0 högskolepoäng Research Method 1 in Psychology, 15.0 higher education credits

Valinformation Mekatronik VT 2017

8.1 General factorial experiments

1.1.1 Innehåll Momentet består av 24 föreläsningar som behandlar: Beskrivande statistik, Grundläggande sannolikhetslära. Stokastiska variabler.

Statistisk analys av komplexa data

Föreläsning 3. Sannolikhetsfördelningar

Utvärdering SMD180 LP1 2006

NAMAS, Masterprogram i matematisk statistik, 120 högskolepoäng Master Programme in Mathematical Statistics, 120 credits

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Bedömningskriterier för kandidatuppsats i omvårdnad

Valinformation Maskinteknik 180hp VT 2017

F9 Konfidensintervall

Valinfo SL2 Exjobbsinfo SL3. Stefan Engevall, SL/FTL,

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Fältbeskrivning kurstillfälle

Utbildningsplan för. Utöver detta krävs för respektive inriktning även behörighet/ kunskaper enligt nedan: Inriktning mot arabiska:

Fallbeskrivning: Suntrip2011

Kursrapport. Högskolan i Borås Institutionen för vårdvetenskap. Kursens namn: Multifaktoriell ohälsa 6 hp SSK 10. Sjuksköterskeprogrammet

Minor Field Studies 2017/ september 2017 kl

KURSBESKRIVNING FÖR FINANSIELL STATISTIK, 7.5 HÖGSKOLEPOÄNG.

Bayesiansk statistik, 732g43, 7.5 hp

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

KURSBESKRIVNING FÖR FINANSIELL STATISTIK, 7.5 HÖGSKOLEPOÄNG.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

FEG30L, Företagets logistikfunktion, kandidatkurs, 15,0 högskolepoäng Business Logistics, Bachelor Course, 15.0 higher education credits

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Programschemat är granskat och godkänt av Akademin för ekonomi, samhälle och teknik

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

Kursbeskrivning. Institutionen för folkhälsovetenskap. Kursnamn: Grundläggande statistik med SPSS Högskolepoäng: 3 hp

KOD. Totalt antal sidor (inklusive denna sida) 5. Tidpunkt för inlämning. Studentens kod (fylls i av studenten och ska anges på alla inlämnade sidor)

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

Religionshistoriska avdelningen

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Mer om konfidensintervall + repetition

Betygskriterier NS1067 Skrivande för studenter med svenska som andraspråk, 15 hp

Konsekvensanalys av införande av kandidatarbete inom EF-nämndens civilingenjörsprogram. Utkast Ver 1.

Kursdesign som aktiverar studenter under HELA kursen

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Tilläggsuppdrag om speciallärarutbildning inom Lärarlyftet II

Bedrägerianalys inom skadeförsäkring - en modelljämförelse av logistisk regression, Random Forest och Boosting

Kursbeskrivning för UVK 6 Utveckling och utvärdering av lärande 15 hp för åk 7-9, ht Inklusive Riktlinjer för slut-vfu.

Anmälningskod: GU Sök senast: 15 april

Delkursplan för kvantitativ analys, 4.5 hp, GN (Quantitative Analysis, FC, 4.5. ECTS)

Programschema för Förskollärarprogrammet, 210 hp. Gäller för läsåret 2019/2020. Dnr 2019/0352 Programschema för 2019/2020 GFE01, GFV01, GFX01

Programschema för Grundlärarprogrammet med inriktning mot arbete i förskoleklass och grundskolans årskurs 1-3, 240 hp

Problemdel 1: Uppgift 1

Kurs som inte är unik för ett utbildningsprogram, men som kan ingå i ett eller flera utbildningsprogram.

Programschema för Förskollärarprogrammet, 210 hp. Gäller för läsåret 2018/2019. Dnr 2018/0329 Programschema för 2018/2019 GFE01, GFV01, GFX01

Ordförande Sekreterare. Studentrepresentant Studentrepresentant. GU beslutar

Övningstentamen i kursen Statistik och sannolikhetslära (LMA120)

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Fysisk aktivitet som prevention. FYSS/FaR VT2016. Jag uppfattar att jag genom denna kurs utvecklat värdefulla kunskaper /färdigheter.

Kandidatprogrammet i samhällsplanering

Bilaga 1. Teknisk bilaga Bilaga 2. Tabeller Bilaga 3. Diagram

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Transkript:

Hur relaterar det optimala valet av klassificeringsmetod till datamaterialets egenskaper? En jämförande studie mellan logistisk regression, elastic net och boosting tillämpat på klassificeringsträd. Blaise Ngendangenzwa Jonathan Sundin Student Vt 2015 Kandidatuppsats, 15 hp Statistik C, 30 hp

P (y x 1, x 2,..., x p ) p(y i = 1 x i ) = η i = β 0 + e(ηi) 1 + e (ηi) p β j x ij. j=1 P (y i = 1 x i ) > 1 2 l(β 0, β) l(β 0, β) = 1 N N i=1 ( y i β0 + x T i β ) ( log 1 + e (β 0+x T β)) i

max {l(β 0, β) λp α (β)} (β 0,β)ϵR p+1 P α (β) = P α (β) p j=1 [ ] 1 2 (1 α) β2 j + α β j

λ λ = 0 λ λ = λ λ = 0 λ α α l 1 l 2 α = 1 λ p j=1 β j l 1 α = 0 1 2 λ p j=1 β2 j α

(p n) λ α α α λ λ λ

α (0, 1) α α = 0, 7.

X 1 X 1 a X 2 X 2 b K ˆp sk 0 1 ˆp sk 1 k 1 2 k = 2 ˆp sk K G (T ) = ˆp sk (1 ˆp sk ) k=1

ˆp sk = 1 N s x i R s I (y i = k) ˆp sk k s T N s s G split (T ) = N 1 N G (T 1) + N 2 N G (T 2). T T 1 T 2 N 1 N 2

w i = 1 N m = 1 M i = 1, 2,..., N. w i p m (x) = ˆP m (y i = 1 x i ) [0, 1]. [ ] f m (x) 1 2 pm (x) 1 p m(x) R w i w i [ y i f m (x i )], i = 1, 2,..., N i w i = 1. [ M ] sign m=1 f m(x) m p m (X) f m (x) 1 2 f m (x) f m+1 (x) M P (y = 1 x) [ M p (x) = P (y i = 1 x i ) = 1 + ] m=1 f m (x) [ M ] m=1 f m (x)

M M M M λ λ 0, 01 0, 001 λ M λ

M λ = 0, 01 d = 1 d d = 1 d = 1 d d > 1 d = 2 λ = 0, 01 d = 1 100.000 10.000

n p n > p p > n n > p

λ λ

λ λ