Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08
Exempel 1: NTU2015
Exempel 2: En jobbannons
Exempel 3 1 1 Klofstad, C. A., McDermott, R., & Hatemi, P. K. (2012). Do bedroom eyes wear political glasses? The role of politics in human mate attraction. Evolution and Human Behavior, 33(2), 100-108
Binär y Anta att vi har ett OSU med i = 1, 2,..., n individer där vi mäter ett utfall y. Då vet vi att E(y) = µ Om y är binär med värdena 0 1 så är E(y) = p = Pr(y = 1)
Exempel 4: Binär y Arbetslöshet bland män 15-44 år Figur från SCB 2 2 Arbetskraft = sysselsatta eller arbetslösa. Exkluderar studerande, pensionärer, sjukskrivna, personer som kan arbeta, men inte sökt arbete osv.
Om y är binär Exempel: Sannolikhet för arbetslöshet Vi definierar y = { 1 om arbetslös 0 annars Sannolikheten att en med OSU vald man mellan 15-44 år från arbetskraften är arbetslös är p = Pr(y = 1) = 0,08 AKU skattade i oktober 2015 3 p med ˆp = 1222 15441 = 0,079 3 Av pedagogiska skäl är data något modifierat
Om y är binär Ett (av flera) mål med regression är att förklara y. Vi studerar därför hur Pr(y = 1) varierar för olika x. På samma sätt som tidigare vill vi därför skatta E(y x) = Pr(y = 1 x) = p(x) för olika x. Den skattade andelen för ett givet x betecknas ˆp(x) = I boken betecknas detta för ˆπ. Pr(y = 1 x)
Om y är binär Arbetslöshet bland män 15-44 år Pr(y = 1 x) ˆp(x) 19-24 0,018 0,171 25-34 0,069 0,071 35-44 0,042 0,038
Om y är binär Arbetslöshet bland 25-54-åringar
Binär y Vi börjar med att göra som alltid har gjort, utgå från en linjär regressionsmodell: y = β 0 + β 1 x + ε vilken i fallet med binärt utfall kallas för linjär sannolikhetsmodell (linear probability model, LPM). Av pedagogiska skäl eftersom alla åldergrupper har 10 årsintervall interpolerar vi betecknar ålderskategorierna 1,2,3. Vi använder därmed x som en kvantitativ variabel.
Binär y Vi börjar med att göra som alltid har gjort, utgå från en linjär regressionsmodell: y = β 0 + β 1 x + ε vilken i fallet med binärt utfall kallas för linjär sannolikhetsmodell (linear probability model, LPM). Av pedagogiska skäl eftersom alla åldergrupper har 10 årsintervall interpolerar vi betecknar ålderskategorierna 1,2,3. Vi använder därmed x som en kvantitativ variabel.
Om y är binär ˆp = 0,21493 0,06213x
Om y är binär ˆp = 0,21493 0,06213x Problem 1. Förutsättningarna: (iv) V (ε x) = σε 2 är inte uppfyllt! Det är intuitivt eftersom om variansen för andelsestimator beror på p, dvs σ2ˆp = p(1 p)/n ch vi har olika p i de olika åldergrupperna.
Om y är binär ˆp = 0,21493 0,06213x Problem 2. Kom ihåg att med ett binärt utfall så är E(y x) = Pr(y = 1 x) en sannolikhet. Vi har ålderkategorierna 1,2,3. Om vi enligt modellen ger en prediktion för sannolikheten för arbetslöshet i ålderkategori 4, dvs 45-54-åringar får vi att ˆp(x) = 0,21493 0,06213 4 = 0,034 vilket är samma somt Pr(y = 1 x = 4) = 0,34 En negativ sannolikhet går inte för sig!
Om y är binär Av nämnda skäl (plus några andra) så överger vi därför E(y x) = Pr(y = 1 x) = β 0 + β 1 x Vi kan göra en transformation av y som kommer till rätta med sannolikheterna. Om vi transformerar utfallet så att ( ) Pr(y = 1 x) ln = β 0 + β 1 x 1 Pr(y = 1 x) får vi en väldigt användbar modell!
Om y är binär Vi har nu en linjär modell ( ) Pr(y = 1 x) ln = β 0 + β 1 x 1 Pr(y = 1 x) om än med lite märklig transformation. Vi ser att sannolikheterna för varje x (vilket vi i slutändan är intresserad av!) ingår i utfallet men själva utfallet är än så länge någon funktion av sannolikheterna. Vi ser dock att det är inte vilken funktion som helst utan vi har logaritmen av ett odds, där oddset för ett givet x är odds(x) = Pr(y = 1 x) 1 (Pr = 1 x) = Pr(y = 1 x) Pr(y = 0 x)
Om y är binär Med den linjära modellen ( ) Pr(y = 1 x) ln = β 0 + β 1 x 1 Pr(y = 1 x) kan vi sedan med minsta-kvadratmetoden skatta den naturliga logaritmen av ett odds för ett givet x. Tolking: En enhet ökning i x leder till β 1 ökningar i log-oddset. Fortfarande svårtolkat? Det kommer en lösning, men först en Minitab-utskrift.
Egenskaper hos ˆβ j Vi antar nu att β j skattas med ˆβ j ML fast inte med minsta-kvadratmetoden utan med en annan metod som kallas maximum likelihood. Ni behöver inte bekymra er mer än så utan programmet sköter estimering åt oss. Men om vi använder denna estimator så gäller att om stickprovsstorleken är någorlunda stor så är Bias: E( ˆβ j ML ) = β j Varians: V ( ˆβ j ML ) skattas med ˆV ( ˆβ j ML ) Fördelning: ˆβ ML j är approximativt N(0, V (β ML j )) Vi bryr oss inte om formler utan nöjer oss med att konstatera ovanstående. Vi följer samma principer som förut!
Egenskaper hos ˆβ j Vi antar alltid stora stickprov. För att testa H 0 : β j = 0 används testfunktionen z = ˆβ ML j ˆV ( ˆβML j ) som är N(0,1) när H 0 är sann. På motsvarande sätt används vid konfidensintervall för β j ˆβ ML j ± z α/2 ˆV ( ˆβ ML j )
Egenskaper hos ˆβ j Vi ställer upp modellen ( ) Pr(UNEMP = 1 AGE) ln = β 0 + β 1 AGE 1 Pr(UNEMP = 1 AGE) skattar β 0 β 1 med hjälp av Minitab.
Om y är binär
Om y är binär
Om y är binär
Om y är binär Om ni inte förstår så mycket från er första logistiska regression så är det ok! Tolka allt precis som det är, utan att försöka förstå. Tolkning: Om åldern ökar med en ålderskategori så minskar log-oddset för arbetslöhet med 0,84 (p < 0,001). Vi kan med 95% säkerhet säga att log-oddset i populationen är mellan 0,93 0,76. Har vi flera variabler i modellen gäller samma tolkning som vid multipel linjär regressioner, dvs givet alla andra variabler är fixa.
Om y är binär Eftersom det är logaritmen av ett odds så kan vi anti-logaritmera. Om vi tar exp(β j ) = e β j så får vi en oddskvot. 4 Låt odds(1) vara oddset för en händelse i grupp 1 odds(0) vara oddset för en händelse i grupp 0. Då är oddskvoten (OR) OR = odds(1) odds(0) = Pr(y = 1 x = 1)/(1 Pr(y = 1 x = 1)) Pr(y = 1 x = 0)/(1 Pr(y = 1) x = 0) 4 Återigen, ta detta för givet utan att förstå
Om y är binär Ett konfidensintervall erhålls genom att anti-logaritmera intervallgränserna för log-oddskvoten. Oddset beskriver chansen/risken för en händelse. Om sannolikheten för arbetslöshet är 0,2 så är oddset för arbetslöshet 0,2/0,8=0,25. Ju större sannolikhet, desto större odds. OR är kvoten mellan oddsen i 2 grupper. Om oddset för arbetslöshet är 0,25 bland ungdomar oddset för arbetslöshet bland övriga är 0, 1/0, 9 = 0, 11 så är oddskvoten OR = 0, 25/0, 11 = 2, 25. 2,25 innebär att oddset för att en ungdom ska vara arbetslös är 2,25 ggr större än oddset för att en i övriga åldergrupper ska vara arbetslös.
Om y är binär Givet att alla andra x-variabler är hålls fixa så innebär en enhets ökning i x till 100(e β j 1)% ökning av oddset OR > 1 indikerar ökad risk jämfört med referensgruppen. OR < 1 indikerar minskad risk jämfört med referensgruppen. OR = 1 visar att risken är samma i bägge grupper. Om ett konfidensintervall inte överlappar 1 så kan vi konstatera att risken inte är samma i grupperna. Om sannolikheterna för en händelserna är liten så kan OR approximeras med relativ risk, RR = Pr(y = 1 x = 1)/ Pr(y = 1 x = 0)
Om y är binär
Om y är binär
Om y är binär
Om y är binär Vi har slutligen följande viktiga relationen som faktiskt ger den logistiska regression sitt namn: Pr(y = 1 x) = p(x) = eβ 0+β 1 x 1 + e β 0+β 1 x Detta är den logistiska fördelningen det är den som används för prediktion. ˆp(x) = e ˆβ 0 + ˆβ 1 x 1 + e ˆβ 0 + ˆβ 1 x Statistikprogram brukar ge oss denna skattade sannolikhet när vi ber om den utan att vi behöver göra någon beräkning.
Om y är binär
Om y är binär
Om y är binär Test av hela modellen flera parameterar samtidigt. För att testa använder vi en liknande metod som F -testet vid linjär regression fast nu använder vi χ 2 -fördelningen.
Ett fullständigt exempel Vi vill förklara risken för låg födelsevikt ar två konkurrerande modeller: ( ) Pr(BWT = 1 x) Modell1 : ln = 1 Pr(BWT = 1 x) β 0 +β 1 SMOKE +β 2 LWT +β 3 FTV +β 4 SES2+β 5 SES3 ( ) Pr(BWT = 1 x) Modell2 : ln = 1 Pr(BWT = 1 x) β 0 + β 1 SMOKE + β 2 LWT + β 3 FTV
Model 1
Model 1
Model 1
Model 1
Model 2
Model 2
Vi testar H 0 : β 3 = β 4 = β 5 = 0 Model 1 vs Model 2 Testfunktion är X 2 = X 2 full X 2 red som om H 0 sann har fördelningen χ 2 (k full k red ). Om vi testar på 5%-nivån så förkastar vi om Xobs 2 > χ2 3,0,05 = 7, 185. Eftersom X 2 obs = χ 2 full χ 2 red = 19, 57 10,19 = 9, 38 förkastar vi H 0. SES FTV bidrar till att förklara låg födelsevikt. Vi väljer modell 1!
Model 1 Tolkning: Oddset för att barn föds med låg födelsevikt är 2,88 gånger större bland gravida kvinnor som röker jämfört med gravida som inte röker (95% KI: 1,37; 6,05).
MS: 9.6
Övningsuppgifter MS: 9.23, 9.25, 9.27