Till ampad statistik (A5) Förläsning 13: Logistisk regression

Relevanta dokument
Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

F23 forts Logistisk regression + Envägs-ANOVA

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

MVE051/MSG Föreläsning 14

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

F13 Regression och problemlösning

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

FACIT (korrekta svar i röd fetstil)

Lektionsanteckningar 11-12: Normalfördelningen

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Regressions- och Tidsserieanalys - F7

Föreläsning 11: Mer om jämförelser och inferens

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tenta i Statistisk analys, 15 december 2004

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Statistiska metoder för säkerhetsanalys

Höftledsdysplasi hos dansk-svensk gårdshund

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Bilaga 2. Metod logistisk regression

Metod och teori. Statistik för naturvetare Umeå universitet

Grundläggande matematisk statistik

Introduktion till kausala effekter

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen Tillämpad statistik A5 (15hp)

Exempel på tentamensuppgifter

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Bayesiansk statistik, 732g43, 7.5 hp

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

MVE051/MSG Föreläsning 7

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Tentamen MVE301 Sannolikhet, statistik och risk

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Statistik 1 för biologer, logopeder och psykologer

Enkel och multipel linjär regression

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik för B, K, N, BME och Kemister

Examinationsuppgifter del 2

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

FÖRELÄSNING 8:

Föreläsning G60 Statistiska metoder

TMS136. Föreläsning 13

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Regressions- och Tidsserieanalys - F3

Statistisk analys av komplexa data

Lycka till!

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

TMS136: Dataanalys och statistik Tentamen

Datorlaboration 2 Konfidensintervall & hypotesprövning

Formler och tabeller till kursen MSG830

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Tentamen Tillämpad statistik A5 (15hp)

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TMS136. Föreläsning 11

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Lufttorkat trä Ugnstorkat trä

Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

F19, (Multipel linjär regression forts) och F20, Chi-två test.

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

SF1901 Sannolikhetsteori och statistik I

Transkript:

Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08

Exempel 1: NTU2015

Exempel 2: En jobbannons

Exempel 3 1 1 Klofstad, C. A., McDermott, R., & Hatemi, P. K. (2012). Do bedroom eyes wear political glasses? The role of politics in human mate attraction. Evolution and Human Behavior, 33(2), 100-108

Binär y Anta att vi har ett OSU med i = 1, 2,..., n individer där vi mäter ett utfall y. Då vet vi att E(y) = µ Om y är binär med värdena 0 1 så är E(y) = p = Pr(y = 1)

Exempel 4: Binär y Arbetslöshet bland män 15-44 år Figur från SCB 2 2 Arbetskraft = sysselsatta eller arbetslösa. Exkluderar studerande, pensionärer, sjukskrivna, personer som kan arbeta, men inte sökt arbete osv.

Om y är binär Exempel: Sannolikhet för arbetslöshet Vi definierar y = { 1 om arbetslös 0 annars Sannolikheten att en med OSU vald man mellan 15-44 år från arbetskraften är arbetslös är p = Pr(y = 1) = 0,08 AKU skattade i oktober 2015 3 p med ˆp = 1222 15441 = 0,079 3 Av pedagogiska skäl är data något modifierat

Om y är binär Ett (av flera) mål med regression är att förklara y. Vi studerar därför hur Pr(y = 1) varierar för olika x. På samma sätt som tidigare vill vi därför skatta E(y x) = Pr(y = 1 x) = p(x) för olika x. Den skattade andelen för ett givet x betecknas ˆp(x) = I boken betecknas detta för ˆπ. Pr(y = 1 x)

Om y är binär Arbetslöshet bland män 15-44 år Pr(y = 1 x) ˆp(x) 19-24 0,018 0,171 25-34 0,069 0,071 35-44 0,042 0,038

Om y är binär Arbetslöshet bland 25-54-åringar

Binär y Vi börjar med att göra som alltid har gjort, utgå från en linjär regressionsmodell: y = β 0 + β 1 x + ε vilken i fallet med binärt utfall kallas för linjär sannolikhetsmodell (linear probability model, LPM). Av pedagogiska skäl eftersom alla åldergrupper har 10 årsintervall interpolerar vi betecknar ålderskategorierna 1,2,3. Vi använder därmed x som en kvantitativ variabel.

Binär y Vi börjar med att göra som alltid har gjort, utgå från en linjär regressionsmodell: y = β 0 + β 1 x + ε vilken i fallet med binärt utfall kallas för linjär sannolikhetsmodell (linear probability model, LPM). Av pedagogiska skäl eftersom alla åldergrupper har 10 årsintervall interpolerar vi betecknar ålderskategorierna 1,2,3. Vi använder därmed x som en kvantitativ variabel.

Om y är binär ˆp = 0,21493 0,06213x

Om y är binär ˆp = 0,21493 0,06213x Problem 1. Förutsättningarna: (iv) V (ε x) = σε 2 är inte uppfyllt! Det är intuitivt eftersom om variansen för andelsestimator beror på p, dvs σ2ˆp = p(1 p)/n ch vi har olika p i de olika åldergrupperna.

Om y är binär ˆp = 0,21493 0,06213x Problem 2. Kom ihåg att med ett binärt utfall så är E(y x) = Pr(y = 1 x) en sannolikhet. Vi har ålderkategorierna 1,2,3. Om vi enligt modellen ger en prediktion för sannolikheten för arbetslöshet i ålderkategori 4, dvs 45-54-åringar får vi att ˆp(x) = 0,21493 0,06213 4 = 0,034 vilket är samma somt Pr(y = 1 x = 4) = 0,34 En negativ sannolikhet går inte för sig!

Om y är binär Av nämnda skäl (plus några andra) så överger vi därför E(y x) = Pr(y = 1 x) = β 0 + β 1 x Vi kan göra en transformation av y som kommer till rätta med sannolikheterna. Om vi transformerar utfallet så att ( ) Pr(y = 1 x) ln = β 0 + β 1 x 1 Pr(y = 1 x) får vi en väldigt användbar modell!

Om y är binär Vi har nu en linjär modell ( ) Pr(y = 1 x) ln = β 0 + β 1 x 1 Pr(y = 1 x) om än med lite märklig transformation. Vi ser att sannolikheterna för varje x (vilket vi i slutändan är intresserad av!) ingår i utfallet men själva utfallet är än så länge någon funktion av sannolikheterna. Vi ser dock att det är inte vilken funktion som helst utan vi har logaritmen av ett odds, där oddset för ett givet x är odds(x) = Pr(y = 1 x) 1 (Pr = 1 x) = Pr(y = 1 x) Pr(y = 0 x)

Om y är binär Med den linjära modellen ( ) Pr(y = 1 x) ln = β 0 + β 1 x 1 Pr(y = 1 x) kan vi sedan med minsta-kvadratmetoden skatta den naturliga logaritmen av ett odds för ett givet x. Tolking: En enhet ökning i x leder till β 1 ökningar i log-oddset. Fortfarande svårtolkat? Det kommer en lösning, men först en Minitab-utskrift.

Egenskaper hos ˆβ j Vi antar nu att β j skattas med ˆβ j ML fast inte med minsta-kvadratmetoden utan med en annan metod som kallas maximum likelihood. Ni behöver inte bekymra er mer än så utan programmet sköter estimering åt oss. Men om vi använder denna estimator så gäller att om stickprovsstorleken är någorlunda stor så är Bias: E( ˆβ j ML ) = β j Varians: V ( ˆβ j ML ) skattas med ˆV ( ˆβ j ML ) Fördelning: ˆβ ML j är approximativt N(0, V (β ML j )) Vi bryr oss inte om formler utan nöjer oss med att konstatera ovanstående. Vi följer samma principer som förut!

Egenskaper hos ˆβ j Vi antar alltid stora stickprov. För att testa H 0 : β j = 0 används testfunktionen z = ˆβ ML j ˆV ( ˆβML j ) som är N(0,1) när H 0 är sann. På motsvarande sätt används vid konfidensintervall för β j ˆβ ML j ± z α/2 ˆV ( ˆβ ML j )

Egenskaper hos ˆβ j Vi ställer upp modellen ( ) Pr(UNEMP = 1 AGE) ln = β 0 + β 1 AGE 1 Pr(UNEMP = 1 AGE) skattar β 0 β 1 med hjälp av Minitab.

Om y är binär

Om y är binär

Om y är binär

Om y är binär Om ni inte förstår så mycket från er första logistiska regression så är det ok! Tolka allt precis som det är, utan att försöka förstå. Tolkning: Om åldern ökar med en ålderskategori så minskar log-oddset för arbetslöhet med 0,84 (p < 0,001). Vi kan med 95% säkerhet säga att log-oddset i populationen är mellan 0,93 0,76. Har vi flera variabler i modellen gäller samma tolkning som vid multipel linjär regressioner, dvs givet alla andra variabler är fixa.

Om y är binär Eftersom det är logaritmen av ett odds så kan vi anti-logaritmera. Om vi tar exp(β j ) = e β j så får vi en oddskvot. 4 Låt odds(1) vara oddset för en händelse i grupp 1 odds(0) vara oddset för en händelse i grupp 0. Då är oddskvoten (OR) OR = odds(1) odds(0) = Pr(y = 1 x = 1)/(1 Pr(y = 1 x = 1)) Pr(y = 1 x = 0)/(1 Pr(y = 1) x = 0) 4 Återigen, ta detta för givet utan att förstå

Om y är binär Ett konfidensintervall erhålls genom att anti-logaritmera intervallgränserna för log-oddskvoten. Oddset beskriver chansen/risken för en händelse. Om sannolikheten för arbetslöshet är 0,2 så är oddset för arbetslöshet 0,2/0,8=0,25. Ju större sannolikhet, desto större odds. OR är kvoten mellan oddsen i 2 grupper. Om oddset för arbetslöshet är 0,25 bland ungdomar oddset för arbetslöshet bland övriga är 0, 1/0, 9 = 0, 11 så är oddskvoten OR = 0, 25/0, 11 = 2, 25. 2,25 innebär att oddset för att en ungdom ska vara arbetslös är 2,25 ggr större än oddset för att en i övriga åldergrupper ska vara arbetslös.

Om y är binär Givet att alla andra x-variabler är hålls fixa så innebär en enhets ökning i x till 100(e β j 1)% ökning av oddset OR > 1 indikerar ökad risk jämfört med referensgruppen. OR < 1 indikerar minskad risk jämfört med referensgruppen. OR = 1 visar att risken är samma i bägge grupper. Om ett konfidensintervall inte överlappar 1 så kan vi konstatera att risken inte är samma i grupperna. Om sannolikheterna för en händelserna är liten så kan OR approximeras med relativ risk, RR = Pr(y = 1 x = 1)/ Pr(y = 1 x = 0)

Om y är binär

Om y är binär

Om y är binär

Om y är binär Vi har slutligen följande viktiga relationen som faktiskt ger den logistiska regression sitt namn: Pr(y = 1 x) = p(x) = eβ 0+β 1 x 1 + e β 0+β 1 x Detta är den logistiska fördelningen det är den som används för prediktion. ˆp(x) = e ˆβ 0 + ˆβ 1 x 1 + e ˆβ 0 + ˆβ 1 x Statistikprogram brukar ge oss denna skattade sannolikhet när vi ber om den utan att vi behöver göra någon beräkning.

Om y är binär

Om y är binär

Om y är binär Test av hela modellen flera parameterar samtidigt. För att testa använder vi en liknande metod som F -testet vid linjär regression fast nu använder vi χ 2 -fördelningen.

Ett fullständigt exempel Vi vill förklara risken för låg födelsevikt ar två konkurrerande modeller: ( ) Pr(BWT = 1 x) Modell1 : ln = 1 Pr(BWT = 1 x) β 0 +β 1 SMOKE +β 2 LWT +β 3 FTV +β 4 SES2+β 5 SES3 ( ) Pr(BWT = 1 x) Modell2 : ln = 1 Pr(BWT = 1 x) β 0 + β 1 SMOKE + β 2 LWT + β 3 FTV

Model 1

Model 1

Model 1

Model 1

Model 2

Model 2

Vi testar H 0 : β 3 = β 4 = β 5 = 0 Model 1 vs Model 2 Testfunktion är X 2 = X 2 full X 2 red som om H 0 sann har fördelningen χ 2 (k full k red ). Om vi testar på 5%-nivån så förkastar vi om Xobs 2 > χ2 3,0,05 = 7, 185. Eftersom X 2 obs = χ 2 full χ 2 red = 19, 57 10,19 = 9, 38 förkastar vi H 0. SES FTV bidrar till att förklara låg födelsevikt. Vi väljer modell 1!

Model 1 Tolkning: Oddset för att barn föds med låg födelsevikt är 2,88 gånger större bland gravida kvinnor som röker jämfört med gravida som inte röker (95% KI: 1,37; 6,05).

MS: 9.6

Övningsuppgifter MS: 9.23, 9.25, 9.27