F23 forts Logistisk regression + Envägs-ANOVA Repetition Detta går inteattbeskriva på någotrimligtsättmed en linjär funktion PY Xx) β 0 +β x Den skattade linjen går utanför intervallet0, ): Y ärenbinärvariabel0-,dikotom)manvillmodellera, dvs föklara, sannolikheten att observera Y med hjälp av förklaringsvariabler X,X 2... som kan varar kontinuerliga, kategoriska, samspelstermer etc... tex Y2,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Linjär anpassning till binär repsonsvariabel µ Y X p Y X PY X) 0, 0,0 Kom ihåg att det typiskt) handlar om att modellera väntevärden för en Bernoullivariabel. 35 40 X2 45 50 Ex) Antag en förklaringsvariabel X. En plott mellan X Y kanskeserutsom,0 0,9 0,8 0,7 Y binär repsons, X kontinuerlig prediktor Istället väljs en funktionell form så att de skattade sannolikheterna garanterat ligger i0, ), tex den logistiska funktionen: PY X) expα+βx) +expα+βx) Y-Data 0,6 0,5 0,4 0,3 0,2 0, 0,0 0 35 40 X-Data 45 50 Vifårenfunktionsgrafsomserutsom Oddset för en händelse A definieras,0 0,9 Logistisk regressionsmodell OddsA) PA) PA) 0,8 0,7 Y-Data 0,6 0,5 0,4 0,3 0,2 0, 0,0 0 35 40 X-Data SannolikhetenförhändelsenY 0betingatpåXx blir Låt PY 0 X) PY Xx) p Y X PY X) 45 +expα+βx) 50 OddsetförhändelsenY X)blirmeddenlogistiska funktionen OddsY X) p Y X q Y X expα+βx) OddsetförhändelsenY 0 X)blir OddsY 0 X) OddsY X) q Y X p Y X exp α βx) q Y X PY 0 X) p Y X
Logoddset för en händelse A definieras LogOddsA) lnoddsa)) ln ) PA) PA) Logodds för händelsen Y X) blir med den logistiska funktionen LogOddsY X) ln p Y X lnp q Y X lnq Y X Y X ) ) expα+βx) ln ln +expα+βx) +expα+βx) lnexpα+βx) ln+expα+βx)) ln)+ln+expα+βx)) lnexpα+βx) α+βx Obs! Om sannolikheten är logistisk så är logoddset för händelsen linjär. Exempel) Antag att Dåharman PA)2/3 P A ) /3 OddsA) PA) PA ) 2/3 /3 2 dvsdetärtvågångermersannoliktattainträffarän attainteinträffar. Vidareharman Odds A ) P A ) PA) /3 2/3 2 detäralltsåhälftensåsannoliktattainteinträffarän att det inträffar. Antag att Då gäller att OddsA)4 Odds A ) 4 PA) OddsA) +OddsA) 4 5 Oddskvoter används när man vill jämföra oddsen läs sannolikheter)föry ellerföry 0)betingatpå olika värden på prediktorerna. Hur stor är den relativa förändringen i oddset när någon eller några prediktorvärden ändras? Ex) Risken för lungcancer med 3 prediktorer Man får X röker/rökerej X 2 ålder X 3 vit/svart LogOddsα+β x +β 2 x 2 +β 3 x 3 vill sedan jämföra rökare/icke-rökare bland 45-åriga svarta. Oddsvkot OR OddsY 45år,svart,rökare) OddsY 45år,svart,icke-rökare) expα+β +β 2 45+β 3 ) expα+β 0+β 2 45+β 3 ) expβ ) Tolkning av koefficienter OmX0såär LogOddsY X) α Om X ökar med enhet så förändras logoddset medβ,dvs LogOddsY Xx+) LogOddsY Xx) α+βx+) α+βx β OmXökarmedenheterhållsdenrelativaförändringen i oddset genom oddskvoten, dvs ORY X ökarmedett) e β
. Några beräkningsexempel: Antag att vi har modellen PY X,X 2 ) e 2+x +3x 2 +e 2+x +3x 2 d) OddsY X x,x 2 x 2 ) e 2+x +3x 2 / +e 2+x +3x 2 +e 2+x +3x 2 e 2+x +3x 2 a) PY X,X 2 2/3) e 2++2 +e 2++2 e +e 0.73 e) LogOddsY X x,x 2 x 2 ) 2+x +3x 2 b) PY 0 X,X 2 2/3) PY X,X 2 2/3) e +e +e 0.269 c) PA)2/3 OddsA) PA) PA) 2/3 /3 2 Det är två gånger troligare att A inträffar än att det inte inträffar. f) LogOddsY X,X 2 2/3) 2++3 2/3 g) OddskvotY X ökarmed) OddsY X x +,X 2 x 2 ) OddsY X x,x 2 x 2 ) e 2+x +)+3x 2 e 2+x +3x 2 e e 2.78282 vilketärrimligthärtyβ. Genom tolkningen av regressionskoefficienten β via oddskvoten inses att är ekvivalent med H 0 :β0 mot H :β 0 H 0 :OR mot H :OR Ett KI för β som täcker in värdet noll, motsvaras av ettkiförorsomtäckerinvärdet. Jämför med Minitab-utskriften: Coef : ˆβ0.587636 SECoef : sˆβ 0.5599 Z : ˆβ/sˆβ3.768854 95%CI : 0.587636±.96 0.5599 0.282, 0.893) motsvarigheten i oddskvot: OddsRatio : eˆβ e 0.587636.80 95%CI : e 0.282, e 0.893).33, 2.44) Notera att om man inte ser än förändring i sannolikhetenföry närx ökarmed,dvs PY Xx) PY Xx+) så gäller att OddsY Xx) OddsY X x+) ORY X ökarmed) Jämför sedan med sista sidan i häftet från SCB som ni har fått hur de där redovisar olika prediktorers koefficienter konfidensintervallen för dessa, tex Variabel Kategori Estimat KI Utbildning Förgymnasial,00 Gymnasial 0,86 0,84 0,87 Eftergymn,09,09,06 dvs en modell enligt LogOddsY ) β 0 +β D +β 2 D 2 därd D 2 ärtvådummyvariabler.
Kommentar till Hosmer-Lemeshows test: Vihar <bild saknas> därmanhardelatinmaterialetiettantalklasserefter X variabelnstratifiering). Räkna antalet ettor respektive nollor i varje klass j: <bild saknas> FörväntatantalettorrespnollorivarjeklassE j beräknas som summan av resp sannolikheter för vardera observation de blå ringarna.sedan ett vanligt χ 2 -test enligt beskrivningen i KD s häfte. Kap 24 Poissonregressionkursivt) Ytterligare ett exempel på icke-linjär regression är s.k. Poissonregression. Y är räknedata, dvs antal observerade"lyckade utfall" y0,,2,3,... Antagattλ j ärriskensannolikheten)förlyckatutfall igruppj. Iengruppj medn j individerförväntas n j λ j observeras med"lyckat utfall". Låt Y j antallyckadeigruppj DåärY j Bin n j,λ j ) menomnj ärstortλ j är litet approximera Y j Po n j λ j ) E Y j ) nj λ j KanvimodelleraE Y j X )?Låt EY X) µ Y X nλ Y X n expα+βx) ) µ µy X y e Y X PY y X) y! n expα+βx))y e n expα+βx) y! observera att lnλ Y X α+βx därλ Y X ärväntevärdetförenpoissonvariabel. Komihågattom Y Poλ), y0,,2,3,... λ>0 så PY y) λy e λ EY)λ y! Observera också att Kap 7 Intro till Envägs ANOVA, Variansanalys Vi vet hur man jämför två medelvärden av en undersökningsvariabel Y mellan två populationer med hjälp av två oberoende iid stickprov: testfunktion osv. H 0 :µ A µ B mot H :µ A µ B T ȲA Ȳ B tn A +n B 2) S p n + A n B Nuharviflerapopulationersomkandefinierasefteren kategorisk prediktor, tex X Audi Z Placebo Volvo Medicin A Saab Medicin B Toyota.. λ>0 nexpα+βx)>0
Ett sätt att hantera detta har redan diskuterats inför Dummyvariabler! Alternativt men ekvivalent sätt att hantera detta är med Envägs-ANOVA - Prediktorn X är en kategorisk prediktor. - Prediktorn X kallas faktorfactor). - De olika kategorierna kallas nivåerlevels). - Nivåer kan vara fixafixed effects) eller slumpmässiga random effects). Ex) Påverkar faktorn"bilmärke" X) den genomsnittliga bensinförbrukningen? dvsärdetskillnaderiförväntatvärdepåy mellanolika nivåerpåx? Om vi jämför ett slumpmässigt urval av bilmärken talar man om random effects, om vi är intresserade av just"dessafyra"märkenärdetfrågaomfixedeffects. Härefter endast fixed effects... Varje nivå på faktorn ger ett förväntat värde på responsen enligt modellen Y µ+α i +ε där ε N 0,σ 2 ) ε EY Xi) µ i µ+α i där µ är den genomsnittliga responsen i Y över alla nivåer,α i äreffektenavatttillhöranivåijämförtmed µ ε är en slumpterm som tillåter individuella variationer inom en nivå. Man vill test Testfunktion är H 0 : α i 0förallanivåeri H : minstenα i 0 F MST MSE Fv,u) där v u är frihetsgradstalen som vi återkommer till) där MST inte betecknar samma sak som förut! Antagandensid 426-427):. Oberoende stickprov från varje nivågrupp, population, behandling) Varför heter det Variansanalys när vi egentligen vill jämföra medelvärden? Baseras på jämförelser mellan"inom-nivå-variation" "mellan-nivå-variation" 2. Varje individ i stickprovet har ett uppmätt värde på responsvariablen Y inget bortfall) 3. Y är normalfördelat inom varje nivå. 4. Lika inom-varians på varje nivåhomoskedasticitet) 5. Oberoende observationer inom varje nivå mellan) : 2 : n i j yij ȳ i ) 2 variationinomnivåi k ȳ i ȳ) 2 variationmellanknivåer k Vi får alltså k stycken inom-variationer, en för varje nivå, som kombineras till en poolad skattning av inomnivå-variansenσ 2 ε. jämförpooladvariansskattnings p närnijämfördetvå populationer i Hogg&Tanis)
MST variationen mellan nivåer, MSE variationen inom nivåer ANOVA-tablå med k stycken nivåer: Y 25 20 5 Källa df SS MS F Mellan k SST MST F Inom n k SSE MSE Total n TSS 0 5 2 Nivå 3 4 där Ett annat sätt att se det är att konstruera konfidensintervall för varje nivå Individuella 95% KI för medelvärdena ej poolat) MST SST/k ) MSE SSEn k) F MST/MSE 25 Y 20 5 0 5 2 Överlappar dessa tre intervall varandra? Finns det minst ettparsominteöverlappar? Harvigjorträttsåhär? Nivå 3 4 T:et i SST kommer av "treatment", dvs behandla ett antal objekt med något variera behandlingen mellan olika grupper. Vanligt är också förkortningen SSTr SSB för "between levels". Man måste alltid se upp!) Vidare utveckling tillämpning av variansanlys till tex Randomiserade blockdesignerkap 8) F24 Sammanfattning delas ut i samband med undervisningen Tvåvägs-ANOVA med lika cellstorlekarkap 9) Tvåvägs-ANOVA med olika cellstorlekarkap 20) Blandingar av fixed random effectsmixed effects) Multiplikativa samspelseffekter Kombinationer av ovanstående Kompromisser med s.k. romerska kvadrater osvosv...