Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet
Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg. toward mean 1.6. Reg. som ANOVA 1.7. Korr. & Förklarad var. 1.8. SPSS 1.9. Rekom. 2. Multipel reg.analys 2.1. Data 2.2. Formel 2.3. Kollinearitet 2.4. Reg. som ANOVA 2.5. SPSS 2.6. Individuella koeff. 2.7. Selektionsmetoder 2.8. Interaktion 2.9. Kurvlinjärt 2.10. Dummy-variabler
1.1. Enkel regressionsanalys Data Värdet på en beroende variabel (kontinuerlig) prediceras utifrån värdet på en oberoende variabel. Person Terapi (X) Livsglädje (Y) 1.0 1.0 1.0 2.0 2.0 3.0 3.0 3.0 2.0 4.0 4.0 4.0 5.0 5.0 7.0
1.2. Enkel regressionsanalys Regressionslinjen 8 Livsglädje 7 6 5 4 3 2 1 S e ( y yˆ) 2 0 1 2 3 4 5 Terapi Terapi
1.2. Enkel regressionsanalys Regressionslinjen, Ekvation y = a + b x a =interceptet b =linjens lutning (= ökning i y när x ökar med ett)
1.2. Enkel regressionsanalys Regressionslinjen, Värdet på b b y x Följande formel ger en lutning på linjen som minimerar residualerna. b r xy s s y x x y Värdet på b påverkas av mätenheten. Längd (cm) Vikt (kg), b = 0,9; Längd (m) Vikt (kg), b =?
1.2. Enkel regressionsanalys Regressionslinjen, Värdet på a y = a + b x Alltså: a = y - b x Eftersom linjen alltid går genom punkten M x ; M y Så får vi att: a y b x
1.2. Enkel regressionsanalys Regressionslinjen, Exempelberäkning M x = 3,00 M y = 3,40 s x = 1,58 s y = 2,30 r xy = 0,89 2,30 b 0,89 1,30 1,58 a 3,40 1,303,00 0,50 yˆ 0,5 1, 30 x Vad innebär interceptet? Rimligt?
1.3. Enkel regressionsanalys Standardiserad b = β Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning β (beta). β = hur många standardavvikelser värdet på y- variabeln ökar för en standardavvikelses ökning på x-variabeln Värdet på β påverkas inte av mätenhet. Därför indikerar den (till skillnad från b) prediktiv förmåga. Sx Vad blir interceptet? b x x S y
1.4. Enkel regressionsanalys Signifikansprövning av b Reg.linjen ger sällan perfekta prediktioner. Den genomsnittliga avvikelsen mellan observerade och predicerade värden är ett mått på hur pass bra (dåliga) prediktionerna är. Detta (ungefär) får man fram genom att beräkna standard error of estimate. Standard error of estimate kan i sin tur användas för att beräkna ett medelfel för regressionskoefficienten (= b): S Y X ( Y Yˆ) N 2 s b s 2 X s SS df Y X N residual 1 Kan värdet på b antas vara skilt från 0 i populationen? Detta kan testas (t-test) genom att sätta det observerade värdet på b i relation till den förväntade spridningen (s b = medelfel för regressionskoefficienten) : t b 0 s b
1.4. Enkel regressionsanalys Signifikansprövning av b I vårt exempel: SS residual = 4,30 S x = 1,58 S Y X SS df residual 4,30 3 1,20 s b s X s Y X N 1 1,20 1,58 4 0,38 t b s b 1,30 0,38 3,43. 05t krit.( df 3) 3,18
1.5. Enkel regressionsanalys Regressionseffekten b r xy s s y x Y y i1 y i2 y j2 y j1 x j x i X
1.5. Enkel regressionsanalys Regressionseffekten b r xy s s y x Y y i1 y i2 y j2 y j1 x j x i X
1.6. Enkel regressionsanalys Regressions- som variansanalys Livsglädje 8 7 6 5 4 3 2 Total SS Regressions-SS Residual-SS Total Sum of Squares: SS Y ( Y Y ) Regressions-SS = SS som återstår när observerade värden ersätts med predicerade värden. SS ( Yˆ Y ) Y ˆ Residual-SS = SS som går förlorad när observerade värden ersätts med predicerade värden. 2 2 1 0 1 2 3 4 5 Terapi SS e SS Y ( Y Yˆ) SS Yˆ SS 2 e
1.6. Regressionssom variansanalys 2 ( Y Y ) Yˆ 0,50 1, 30 X 2 ( Y Yˆ) ( Yˆ Y Person Obs.X Obs.Y Var.Y Pred.Y Res.Y Reg 1 1,00 1,00 5,76 0,80 0,04 6,76 2 2,00 3,00 0,16 2,10 0,81 1,69 3 3,00 2,00 1,96 3,40 1,96 0,00 4 4,00 4,00 0,36 4,70 0,49 1,69 5 5,00 7,00 12,96 6,00 1,00 6,76 Σ 15,00 17,00 21,20 17,00 4,30 16,9 2 ) F Reg.var. Res.var Reg.df Res.df 16,90 /1 4,30 / 3 11,79 Reg.df = Antalet prediktorer (p). 05 Fkrit. ( df 1,3) 10,13 Res.df = N-p-1
1.7. Enkel regressionsanalys Korrelation & Förklarad varians Variabler Korr. SS(tot) SS(reg) För. var. F1 F31 0,037 687,316 0,960 0,001 F31 F9 0,379 452,221 65,039 0,144 F9 F26-0,119 1104,384 15,749 0,014 F26 F8 0,073 520,356 2,794 0,005 F8 F18 0,120 767,044 11,069 0,014 F18 F17 0,764 826,676 482,587 0,584 r 2 = förklarad varians
1.8. Enkel regressionsanalys SPSS-utskrift Korrelation mellan observerade och predicerade y-värden. R i kvadrat = Hur stor andel av variansen i y som kan förklaras av variansen i x. Samma sak kan fås fram genom att beräkna SS(reg) / SS(tot) (16,9 / 21,2 = 0,797)
1.9. Regressionsanalys Krav & Rekommendationer Krav: Variablerna skall vara på minst ordinal-nivå (egentligen intervall). Även dikotoma variabler funkar som prediktorer (men inte som BV). Krav: Man skall ha data från minst två personer fler än vad man har prediktorer. Krav: Observerade värden skall vara oberoende av varandra. Antagande: I populationen är: (1) Variansen i Y-variabeln samma för alla nivåer av X; (2) Y-värdena normalfördelade för alla nivåer av X. Rekommendation: N 50 + 8 prediktorer; N 104 + prediktorer. Rekommendation: Outliers (kanske speciellt multivariata sådana) kan ha stor effekt på koefficienterna. Sådana borde detekteras (t.ex. dfbeta) och kanske strykas.
1.9. Regressionsanalys Krav & Rekommendationer
2.1. Multipel regression Data Värdet på en beroende variabel (kontinuerlig) prediceras utifrån värdet på flera oberoende variabler. Person Terapi Medicin Livsglädje 1.0 1.0 3.0 1.0 2.0 2.0 1.0 3.0 3.0 3.0 1.0 2.0 4.0 4.0 2.0 4.0 5.0 5.0 0.0 7.0
2.2. Multipel regression Formel ˆ 0 1 1 2 2 Y b b X b X... b p X p b 0 = intercept (värdet på BV när alla prediktorer = 0) b 1,b 2 osv = koefficienter för variablerna X 1,X 2 osv (förändring i BV när prediktorn ökar med ett OCH de andra prediktorerna hålls konstanta. Värdena tas fram så att summan av de kvadrerade residualerna minimeras. S e ( y yˆ) 2
2.3. Multipel regression Kollinearitet Om en OV kan förklaras utifrån andra OV så sägs den ha kollinearitet. Denna OV bidrar inte mycket till förklaringen av BV och dess närvaro kan innebära problem för modellen (man riskerar t.ex. att dra slutsatsen att en OV inte har effekt på BV, trots att den har det). I SPSS kan man testa för kollinearitet genom att beräkna Tolerance och Variance Inflation Factor (VIF) Tolerance = Ett (1) minus förklarad varians (R 2 ) när värdena i en OV prediceras utifrån värdena i de andra OV. Bra om det är högt (tumregel: > 0,4; Max 1) Variance Inflation Factor (VIF) = 1 / Tolerance. Bra om det är lågt, min 1.
2.4. Regressionssom variansanalys ^Y = 0,90 + 1,06 x Ter 0,48 x Med 2 ( Y Y ) 2 ( Y Yˆ) ( Yˆ Y 2 ) Person Terapi Medici n Livsglä dje Var.y Pred.y Res.y Reg 1 1,00 3,00 1,00 5,76 0,51 0,24 8,34 2 2,00 1,00 3,00 0,16 2,53 0,22 0,75 3 3,00 1,00 2,00 1,96 3,59 2,53 0,04 4 4,00 2,00 4,00 0,36 4,17 0,03 0,59 5 5,00 0,00 7,00 12,96 6,19 0,65 7,79 Σ 15,00 7,00 17,00 21,20 17,00 3,67 17,53 F Reg.var. Res.var Reg.df Res.df 17,53/ 2 3,67 / 2 4,77 Reg.df = Antalet prediktorer (p). 05 Fkrit. ( df 2,2) 19,00 Res.df = N-p-1
2.5. Multipel regression SPSS-utskrift R i kvadrat justerat för antalet prediktorer och N (=förväntad genomsnittlig R 2 2 2 n 1 för stickprov med den Adj(R ) 1 (1 R ) aktuella storleken dragna ur samma population). Formel: n p 1 Predicerar den aktuella modellen signifikant mer än noll procent av variansen i BV? Kan någon av koefficienterna antas vara skild från noll i populationen?
2.6. Beräkning av individuella koefficienter Tˆ 4,35 0, 96 Med Person Terapi Medicin Livsgläd je Lˆ 5,50 1, 50 Med Prediktor=Medicin Res(Ter api) Mˆ 2,90 0, 50Ter Res(Liv sg) Lˆ 0,50 1, 30Ter Prediktor=Terapi Res(Me dicin) Res(Liv sg) 1 1,00 3,00 1,00-0,46 0,00 0,60 0,20 2 2,00 1,00 3,00-1,38-1,00-0,90 0,90 3 3,00 1,00 2,00-0,38-2,00-0,40-1,40 4 4,00 2,00 4,00 1,58 1,50 1,10-0,70 5 5,00 0,00 7,00 0,65 1,50-0,40 1,00 Σ 15,00 7,00 17,00 0,00 0,00 0,00 0,00 Res(L) = 1,059 x Res(T) Res(L) = -0,481 x Res(M)
2.7. Multipel regression Selektionsmetoder Enter: Alla valda OV tas med i modellen. Alla OV behandlas som om de skulle vara sist i hierarkin. Hierarkisk: OV tas med i en viss (bestämd) ordning. Effekten av en OV beräknas medan OV på högre nivå kontrolleras. Forward: Programmet väljer ut OV som förklarar mest varians, adderar sedan nästa OV o.s.v. OV tas med i modellen tills den förklarade variansen inte längre ökar signifikant. Backward: Alla OV tas med i modellen och sedan elimineras (successivt) de OV som inte bidrar signifikant till förklarad varians. Stepwise: Kombination av forward och backward.
2.7. Multipel regression Selektionsmetoder, Hierarkisk I SPSS kan man göra en hierarkisk regressionsanalys och be programmet räkna fram R Square Change. Tas Medicin med i modellen så ökar den förklarade variansen från 79,7% till 82,7%, men den här ökningen är inte signifikant, F(1, 2) = 0.341, p =.618.
2.7. Multipel regression Selektionsmetoder, Stepwise
2.8. Multipel regression Interaktion = Effekten av en OV på BV är beroende av nivån på en annan OV. Om man testar för interaktion så utgår man oftast ifrån att effekten av en OV på BV är en linjär funktion av nivån på en (eller flera) annan OV, alltså: b 1 = c + d x 2 b 1 = effekten av x 1 på BV c = effekten av x 1 på BV när x 2 är noll d = förändring i effekten av x 1 på BV när x 2 ökar med ett steg Och grundformeln för regression (med två OV): y = b 0 + b 1 x 1 + b 2 x 2 Om vi ersätter b 1 med uttrycket ovan får vi: y = b 0 + (c + d x 2 ) x 1 + b 2 x 2 Efter lite algebra: y = b 0 + c x 1 + b 2 x 2 + d x 1 x 2 Interaktionen kan alltså testas genom att ta med produkten av de två variablerna som en prediktor i analysen.
2.8. Multipel regression Interaktion, Data Terapi Medicin Livsglädje T*M Zter Zmed Zt*Zm 1,00 0,00 2,00 0,00-0,65-1,17 0,76 1,00 0,00 1,00 0,00-0,65-1,17 0,76 3,00 0,00 4,00 0,00 0,55-1,17-0,64 4,00 0,00 7,00 0,00 1,14-1,17-1,34 1,00 1,00 4,00 1,00-0,65 0,00 0,00 0,00 1,00 3,00 0,00-1,24 0,00 0,00 2,00 1,00 3,00 2,00-0,05 0,00 0,00 3,00 1,00 4,00 3,00 0,55 0,00 0,00 0,00 2,00 6,00 0,00-1,24 1,17-1,46 1,00 2,00 6,00 2,00-0,65 1,17-0,76 5,00 2,00 2,00 10,00 1,74 1,17 2,04 4,00 2,00 1,00 8,00 1,14 1,17 1,34
2.8. Multipel regression Interaktion, SPSS 1 OBS: Har man med en interaktionsterm i analysen så skall p- värdet för huvudeffekterna tolkas med stor försiktighet
2.8. Multipel regression Interaktion, Korrelation
2.8. Multipel regression Interaktion, SPSS 2 Glädje = 3,70 + 0,52 * Zter + 0,41 * Zmed 1,94 * Zter * Zmed Effekt av Zter: 0,52 1,94 * Zmed (Zmed < 0,27: Postiv effekt, annars negativ) Effekt av Zmed: 0,41 1,94 * Zter (Zter < 0,21: Positiv effekt, annars negativ) När terapi ökar med en SD så minskar effekten av medicin på livsglädje med 1,94. När medicin ökar med en SD så minskar effekten av terapi på livsglädje med 1,94.
2.8. Multipel regression Interaktion, SPSS 3 Har man med en interaktionsterm som en prediktor så står koefficienterna för de enkla prediktorerna för effekten av prediktorn när den andra prediktorn är lika med noll. I det aktuella fallet: När Zmed = 0 så associeras en ökning i Zter med 1 med en ökning i Livsglädje med 0,521.. När Zter = 0 så associeras en ökning i Zmed med 1 med en ökning i Livsglädje med 0,410.
2.9. Multipel regression Kurvlinjärt, Formel Yˆ b 0 b 1 X 1 b 2 X 2 1
2.9. Multipel regression Kurvlinjärt, Data Terapi Medicin Livsglädje Med**2 Zmed Zmed**2 1,00 0,00 2,00 0,00-1,17 1,38 1,00 0,00 1,00 0,00-1,17 1,38 3,00 0,00 4,00 0,00-1,17 1,38 4,00 0,00 3,00 0,00-1,17 1,38 1,00 1,00 5,00 1,00 0,00 0,00 0,00 1,00 6,00 1,00 0,00 0,00 2,00 1,00 6,00 1,00 0,00 0,00 3,00 1,00 7,00 1,00 0,00 0,00 0,00 2,00 3,00 4,00 1,17 1,38 1,00 2,00 3,00 4,00 1,17 1,38 5,00 2,00 2,00 4,00 1,17 1,38 4,00 2,00 3,00 4,00 1,17 1,38
2.9. Multipel regression Kurvlinjärt, SPSS 1
2.9. Multipel regression Kurvlinjärt, Korrelationer
2.9. Multipel regression Kurvlinjärt, SPSS 2 OBS: Har man med en exponentiell term som prediktor bör alla termer av lägre grad också vara med. Livsglädje = 6,00 + 0,11 Zmed 2,46 Zmed 2 Livsglädjen är som störst vid Zmed = 0,02 vilket motsvarar Medicin = 1,02 Vad anger interceptet?
2.9. Multipel regression Kurvlinjärt, Sambandets form
2.10. Multipel regression Kategorivariabler (Dummy-variabler) Behand. Terapi Medicin Livsglädje Beh.B Beh.C A 3 0 4 0 0 A 1 1 4 0 0 A 0 1 3 0 0 A 2 1 3 0 0 B 4 0 7 1 0 B 3 1 4 1 0 B 0 2 6 1 0 B 1 2 6 1 0 C 1 0 2 0 1 C 1 0 1 0 1 C 5 2 2 0 1 C 4 2 1 0 1
2.10. Multipel regression Kategorivariabler, SPSS Om man får behandlig B så förväntas livsglädjen vara 2,31 poäng högre jämfört med om man får behandlig A (kontrollerat för effekten av mängden terapi och medicin ). Om man får behandlig C så förväntas livsglädjen vara 2,03 poäng lägre jämfört med om man får behandlig A (kontrollerat för effekten av mängden terapi och medicin ).
Sammanfattning: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg. toward mean 1.6. Reg. som ANOVA 1.7. Korr. & Förklarad var. 1.8. SPSS 1.9. Rekom. 2. Multipel reg.analys 2.1. Data 2.2. Formel 2.3. Kollinearitet 2.4. Reg. som ANOVA 2.5. SPSS 2.6. Individuella koeff. 2.7. Selektionsmetoder 2.8. Interaktion 2.9. Kurvlinjärt 2.10. Dummy-variabler