Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β 0 +β X anpassas en linje till punkter i två dimensioner genom att minimera kvadratavstånden i y-led. Med Y=β 0 +β X +β 2 X 2 anpassas ett plan till punkter i tre dimensioner genom att minimera kvadratavstånden i y-led. Tolkning av β k Den multipla regressionskoefficienten β k är den förväntade ändringen av Y för en enhets ökning av X k, samtidigt som alla andra X-variabler hålls konstanta Staffan Nilsson, Chalmers
Varför multipel regression? Reducera brus och öka därför chansen att finna samband med mindre starka prediktorer. Justera skattningar när flera prediktorer är korrelerade. Reducera brus -simulerat exempel l: Y= X + 2X 2 + 4X 3 + 8X 4 + 6X 5 + ε X i ~ UNIFORM(0,) ε~n(0,) Alla Xi är oberoende variabler 00 observationer simuleras enligt modellen Enkel linjär regression Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 6.004.76 3.606.000 3.670 8.338 X -.60 2.002 -.008 -.080.937-4.32 3.82 (Constant) X2 Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound 6.68.67 3.854.000 3.852 8.484 -.450.872 -.024 -.24.80-4.66 3.265 2 (Constant) X3 Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound 4.97.025 4.603.000 2.936 7.005 2.055.867..0.274 -.649 5.760 4 Staffan Nilsson, Chalmers 2
(Constant) X4 Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound 8.89 2.359 0.274.05 9.778.000 0.864.803.520 6.025.000000030 7.286 4.443 8 Uns tandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 7.473.554 3.486.000 6.373 8.572 X5 6.096.98.87 7.529 5.68E-032 4.273 7.98 6 Coe fficients a Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) -.86.445 -.47.678 -.069.698 X.028.392.052 2.620.00242.249.807 X2.989.360.07 5.59 2.998909E-007.274 2.705 X3 3.999.367.25 0.882 2.48780E-08 3.269 4.728 X4 8.680.409.45 2.24.307872E-037 7.867 9.492 X5 5.474.364.837 42.539 3.33735E-063 4.75 6.96 Justerad analys Regression Residual Total Summary Adjusted Std. Error of R R Square R Square the Estimate.086a.0073.0068 9.75 a. Enkel linjär regression Predictors: (Constant), exercise ANOVA b Sum of Squares df Mean Square F Sig. 42.504 42.504 4.965.000 a 9605.2 2030 94.387 9307.7 203 a. Predictors: (Constant), exercise b. Dependent Variable: glucose Coe fficients a Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 97.36.282 345.848.000 96.809 97.93 exercise -.693.438 -.086-3.868.000-2.55 -.835 a. Dependent Variable: glucose Justera samband för age,drinkany och BMI (Constant) exercise age drinkany BMI Uns tandardized a. Dependent Variable: glucose Regression Residual Total Summary Adjusted Std. Error of R R Square R Square the Estimate.268 a.072.070 9.389 a. Predictors: (Constant), B MI, drinkany, exercise, age B Std. Error ANOVA b Sum of Squares df Mean Square F Sig. 3828.849 4 3457.22 39.22.000 a 78320.0 2023 88.46 9248.8 2027 a. Predictors: (Constant), BMI, drinkany, exercis e, age b. Dependent Variable: glucose Standardiz ed Coefficient s Beta 78.962 2.593 30.454.000 73.877 84.047 -.950.429 -.048-2.27.027 -.79 -.0.064.03.044 2.024.043.002.25.680.422.035.62.07 -.47.508.489.042.258.774.000.408.57 t Sig. Lower Bound Upper Bound Staffan Nilsson, Chalmers 3
Adjusted vs unadjusted Ojusterad β exercise = -.69 syftar på en gruppskillnad Justerad β exercise = - 0.95 syftar på en ren effekt av träning Båda måtten kan motiveras, men är alltså olika. Kolinjaritet (Constant) exercise age drinkany BMI a. Dependent Variable: glucose Unstandardized Coef ficients Standardized Collinearity Statistics t Sig. Tolerance VIF B Std. Error Beta 78,962 2,593 30,454,000 -,950,429 -,048-2,27,027,975,026,064,03,044 2,024,043,970,030,680,422,035,62,07,990,00,489,042,258,774,000,953,050 Variance Inflation Factor (VIF) Residual variance Förklaringsgrad med X j som respons och de övriga X-variablerna som prediktorer. Staffan Nilsson, Chalmers 4
addera height till modellen och BMI Katastrof! Staffan Nilsson, Chalmers 5
Y Y Enbart BMI eller BMI + weight Interaktion Interaktion 0.0 0.2 0.4 0.6 0.8.0 X2=0 X2= 0.0 0.2 0.4 0.6 0.8.0 X2=0 X2= 0.0 0.2 0.4 0.6 0.8.0 X 0.0 0.2 0.4 0.6 0.8.0 X Staffan Nilsson, Chalmers 6
Outlier High leverage point Influential point Staffan Nilsson, Chalmers 7
DFBeta Vad blir effekten av observation (j) på skattningen av estimate of β? (β-β (-j) ) / se(β (-j) ) DFBETA from SPSS Prediktorval I en del observationsstudier kan man ha 00-tals kandidater som prediktorer. Vilka man ska välja till sin modell är en hel vetenskap och beror på syfte. Ibland används automatiserade metoder. Staffan Nilsson, Chalmers 8
Best subset I princip, med 0 prediktorer finns 2 0 =024 modeller att beakta (då har vi ändå bara snälla additiva modeller, därutöver kan man tänka sig olika transformationer och). Olika kriterier på vad som är bäst (R 2 växer alltid, men många andra straffar för många prediktorer) Backward elimination Lägg in alla prediktorer Ta bort den minst signifikanta (om p > 0.) Iterera tills ingen mer tas bort Forward selection Pröva varje prediktor en i taget Inkludera den bästa (om p<0.05) i modellen och frys den där. Iterera tills inga fler kommer in Staffan Nilsson, Chalmers 9
Connecting a computer is not an excuse to disconnect your brain! Staffan Nilsson, Chalmers 0