Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Relevanta dokument
En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Samhällsvetenskaplig metod, 7,5 hp

Lösningar till SPSS-övning: Analytisk statistik

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Multipel regression och Partiella korrelationer

Uppgift 1. Deskripitiv statistik. Lön

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Regressions- och Tidsserieanalys - F4

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri lördagen den 25 augusti 2007

10.1 Enkel linjär regression

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Lägre andel behöriga på skolor med stora utmaningar

Multipel Regressionsmodellen

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 15 januari 2005

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

FACIT!!! (bara facit,

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Daftar Populasi dan Sampel Penelitian

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 4. Kap 5,1-5,3

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Forsknings- och undersökningsmetodik Skrivtid: 4h

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Tentamen i matematisk statistik

Metod och teori. Statistik för naturvetare Umeå universitet

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Regressions- och Tidsserieanalys - F3

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Linjär regressionsanalys. Wieland Wermke

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Regressions- och Tidsserieanalys - F7

Tentamen Tillämpad statistik A5 (15hp)

TENTAMEN I STATISTIK B,

sociology Unit B1: Introduction to correlation and regression 3/3 Brendan Halpin May

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

F7 Polynomregression och Dummyvariabler

NÄR SKA MAN SÄLJA SIN BOSTAD?

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F1

Överlevnadsanalys. 732G34 Statistisk analys av komplexa data

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressionsanalys av lägenhetspriser i Spånga

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

Lösningar med kommentarer till övningsuppgifterna i min bok Grundläggande statistiska metoder för analys av kvantitativa data

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F5

Räkneövning 3 Variansanalys

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Del A: Schema för ifyllande av svar nns på sista sidan

Exempel 1 på multipelregression

Inflyttning i Stockholmsområdet

ANOVA Mellangruppsdesign

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

F11. Kvantitativa prognostekniker

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

8.1 General factorial experiments

Öppnar jämförelser för ökad kvalitet i vård och omsorg om äldre? Bilaga Regressionsanalyser

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

ANOVA Faktoriell (tvåvägs)

OBS! Vi har nya rutiner.

Uppgift a b c d e f (vet ej) Poäng

Medicinsk statistik II

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Föreläsning 13: Multipel Regression

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Exempel 1 på multipelregression

Tentamen i matematisk statistik

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Transkript:

Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β 0 +β X anpassas en linje till punkter i två dimensioner genom att minimera kvadratavstånden i y-led. Med Y=β 0 +β X +β 2 X 2 anpassas ett plan till punkter i tre dimensioner genom att minimera kvadratavstånden i y-led. Tolkning av β k Den multipla regressionskoefficienten β k är den förväntade ändringen av Y för en enhets ökning av X k, samtidigt som alla andra X-variabler hålls konstanta Staffan Nilsson, Chalmers

Varför multipel regression? Reducera brus och öka därför chansen att finna samband med mindre starka prediktorer. Justera skattningar när flera prediktorer är korrelerade. Reducera brus -simulerat exempel l: Y= X + 2X 2 + 4X 3 + 8X 4 + 6X 5 + ε X i ~ UNIFORM(0,) ε~n(0,) Alla Xi är oberoende variabler 00 observationer simuleras enligt modellen Enkel linjär regression Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 6.004.76 3.606.000 3.670 8.338 X -.60 2.002 -.008 -.080.937-4.32 3.82 (Constant) X2 Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound 6.68.67 3.854.000 3.852 8.484 -.450.872 -.024 -.24.80-4.66 3.265 2 (Constant) X3 Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound 4.97.025 4.603.000 2.936 7.005 2.055.867..0.274 -.649 5.760 4 Staffan Nilsson, Chalmers 2

(Constant) X4 Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound 8.89 2.359 0.274.05 9.778.000 0.864.803.520 6.025.000000030 7.286 4.443 8 Uns tandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 7.473.554 3.486.000 6.373 8.572 X5 6.096.98.87 7.529 5.68E-032 4.273 7.98 6 Coe fficients a Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) -.86.445 -.47.678 -.069.698 X.028.392.052 2.620.00242.249.807 X2.989.360.07 5.59 2.998909E-007.274 2.705 X3 3.999.367.25 0.882 2.48780E-08 3.269 4.728 X4 8.680.409.45 2.24.307872E-037 7.867 9.492 X5 5.474.364.837 42.539 3.33735E-063 4.75 6.96 Justerad analys Regression Residual Total Summary Adjusted Std. Error of R R Square R Square the Estimate.086a.0073.0068 9.75 a. Enkel linjär regression Predictors: (Constant), exercise ANOVA b Sum of Squares df Mean Square F Sig. 42.504 42.504 4.965.000 a 9605.2 2030 94.387 9307.7 203 a. Predictors: (Constant), exercise b. Dependent Variable: glucose Coe fficients a Unstandardized Standardized B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 97.36.282 345.848.000 96.809 97.93 exercise -.693.438 -.086-3.868.000-2.55 -.835 a. Dependent Variable: glucose Justera samband för age,drinkany och BMI (Constant) exercise age drinkany BMI Uns tandardized a. Dependent Variable: glucose Regression Residual Total Summary Adjusted Std. Error of R R Square R Square the Estimate.268 a.072.070 9.389 a. Predictors: (Constant), B MI, drinkany, exercise, age B Std. Error ANOVA b Sum of Squares df Mean Square F Sig. 3828.849 4 3457.22 39.22.000 a 78320.0 2023 88.46 9248.8 2027 a. Predictors: (Constant), BMI, drinkany, exercis e, age b. Dependent Variable: glucose Standardiz ed Coefficient s Beta 78.962 2.593 30.454.000 73.877 84.047 -.950.429 -.048-2.27.027 -.79 -.0.064.03.044 2.024.043.002.25.680.422.035.62.07 -.47.508.489.042.258.774.000.408.57 t Sig. Lower Bound Upper Bound Staffan Nilsson, Chalmers 3

Adjusted vs unadjusted Ojusterad β exercise = -.69 syftar på en gruppskillnad Justerad β exercise = - 0.95 syftar på en ren effekt av träning Båda måtten kan motiveras, men är alltså olika. Kolinjaritet (Constant) exercise age drinkany BMI a. Dependent Variable: glucose Unstandardized Coef ficients Standardized Collinearity Statistics t Sig. Tolerance VIF B Std. Error Beta 78,962 2,593 30,454,000 -,950,429 -,048-2,27,027,975,026,064,03,044 2,024,043,970,030,680,422,035,62,07,990,00,489,042,258,774,000,953,050 Variance Inflation Factor (VIF) Residual variance Förklaringsgrad med X j som respons och de övriga X-variablerna som prediktorer. Staffan Nilsson, Chalmers 4

addera height till modellen och BMI Katastrof! Staffan Nilsson, Chalmers 5

Y Y Enbart BMI eller BMI + weight Interaktion Interaktion 0.0 0.2 0.4 0.6 0.8.0 X2=0 X2= 0.0 0.2 0.4 0.6 0.8.0 X2=0 X2= 0.0 0.2 0.4 0.6 0.8.0 X 0.0 0.2 0.4 0.6 0.8.0 X Staffan Nilsson, Chalmers 6

Outlier High leverage point Influential point Staffan Nilsson, Chalmers 7

DFBeta Vad blir effekten av observation (j) på skattningen av estimate of β? (β-β (-j) ) / se(β (-j) ) DFBETA from SPSS Prediktorval I en del observationsstudier kan man ha 00-tals kandidater som prediktorer. Vilka man ska välja till sin modell är en hel vetenskap och beror på syfte. Ibland används automatiserade metoder. Staffan Nilsson, Chalmers 8

Best subset I princip, med 0 prediktorer finns 2 0 =024 modeller att beakta (då har vi ändå bara snälla additiva modeller, därutöver kan man tänka sig olika transformationer och). Olika kriterier på vad som är bäst (R 2 växer alltid, men många andra straffar för många prediktorer) Backward elimination Lägg in alla prediktorer Ta bort den minst signifikanta (om p > 0.) Iterera tills ingen mer tas bort Forward selection Pröva varje prediktor en i taget Inkludera den bästa (om p<0.05) i modellen och frys den där. Iterera tills inga fler kommer in Staffan Nilsson, Chalmers 9

Connecting a computer is not an excuse to disconnect your brain! Staffan Nilsson, Chalmers 0