Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26

Lite som vi inte hann med när vi pratade om enkel linjär regression (från F1): Prognosintervall för ett värde på y vid ett specifikt x-värde ŷ = b 0 + b 1 x 0 Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y vid x 0 [ ŷ ± t [α/2](n 2) s ] 1 + Distancevalue Distancevalue = 1 n + (x 0 x) 2 SS xx Wänström (Linköpings universitet) F3 7 maj 2 / 26

Konfidensintervall för medelvärdet för y vid ett specifikt x-värde ŷ = b 0 + b 1 x 0 Om antagandena är uppfyllda är ett 100(1 α)% konfidensintervall för µ y x0 [ ŷ ± t [α/2](n 2) s ] Distancevalue Wänström (Linköpings universitet) F3 7 maj 3 / 26

Nu tillbaka till multipel regressionsanalys: Prognosintervall för ett enskilt värde y vid specifika x-värden Punktskattning för ett enskilt värde för y när värdena på de oberoende variablerna är x 01, x 02,..., x 0k ŷ = b 0 + b 1 x 01 + b 2 x 02 +... + b k x 0k Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y [ ŷ ± t [α/2](n k 1) s ] 1 + Distance value Wänström (Linköpings universitet) F3 7 maj 4 / 26

Konfidensintervall för medelvärdet för y vid specifika x-värden Punktskattning för medelvärdet för y när värdena på de oberoende variablerna är x 01, x 02,..., x 0k ŷ = b 0 + b 1 x 01 + b 2 x 02 +... + b k x 0k Om antagandena är uppfyllda är ett 100(1 α)% konfidensitvervall för µ y x01,x 02,...,x 0k [ ŷ ± t [α/2](n k 1) s ] Distance value Wänström (Linköpings universitet) F3 7 maj 5 / 26

Minitab-utskrift Regression Analysis: Försäljning versus Annonsering; Kundkrets The regression equation is Försäljning = 0,430 + 0,502 Annonsering + 0,546 Kundkrets Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,320 Annonsering 0,5021 0,1825 2,75 0,040 Kundkrets 0,5464 0,1625 3,36 0,020 S = 0,498123 R Sq = 97,2% R Sq(adj) = 96,1% Analysis of Variance Source DF SS MS F P Regression 2 43,719 21,860 88,10 0,000 Residual Error 5 1,241 0,248 Total 7 44,960 Source DF Seq SS Annonsering 1 40,914 Kundkrets 1 2,805 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 3,074 0,301 (2,301; 3,847) (1,578; 4,569) Wänström (Linköpings universitet) F3 7 maj 6 / 26

Interaktion Ibland ser sambandet mellan en förklaringsvariabel och responsvariabeln olika ut beroende på vad värdet på en annan förklaringsvariabel är. Då kan vi lägga till en interaktionsterm som är produkten av de två förklaringsvariablerna. y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ɛ Wänström (Linköpings universitet) F3 7 maj 7 / 26

Exempel: Samband mellan IQ och betyg Individ Betyg IQ 1 1.52 85.42 2 2.57 88.59 3 3.74 95.45 4 4.68 110.64 5 4.02 105.63.................. Wänström (Linköpings universitet) F3 7 maj 8 / 26

Spridningsdiagram 5 4 Betyg 3 2 1 50 75 100 IQ 125 150 Wänström (Linköpings universitet) F3 7 maj 9 / 26

Minitabutskrift Regression Analysis: Betyg versus IQ The regression equation is Betyg = 1,22 + 0,0428 IQ Predictor Coef SE Coef T P Constant 1,2191 0,1131 10,78 0,000 IQ 0,042758 0,001113 38,40 0,000 S = 0,544549 R Sq = 56,7% R Sq(adj) = 56,7% Analysis of Variance Source DF SS MS F P Regression 1 437,26 437,26 1474,57 0,000 Residual Error 1125 333,60 0,30 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 10 / 26

Interaktion och dummyvariabel Kan sambandet mellan betyg och IQ se olika ut för de med hög socioekonomisk status (SES) och övriga? Individ Betyg IQ SEShög 1 4.68 110.64 Hög 2 4.02 105.63 Hög 3 3.74 95.45 Övriga 4 1.52 85.42 Övriga 5 2.57 88.59 Övriga...... { 1 om hög SES D = 0 annars } Wänström (Linköpings universitet) F3 7 maj 11 / 26

Spridningsdiagram uppdelat på SES 5 SEShög 0 1 4 Betyg 3 2 1 50 75 100 IQ 125 150 Wänström (Linköpings universitet) F3 7 maj 12 / 26

Signifikanstest för (dummyvariabeln) SES Först kan vi testa om det finns någon skillnad i betyg för de med hög SES och övriga, givet att de har samma IQ. Modellen ser då ut som följer och vi vill testa om det finns någon effekt av dummyvariabeln D. H 0 : β 2 = 0 H a : β 2 = 0 y = β 0 + β 1 x + β 2 D + ɛ t = b 2 s b2, Förkasta H 0 om t > t [α/2](n 2 1) Wänström (Linköpings universitet) F3 7 maj 13 / 26

Minitab-utskrift Regression Analysis: Betyg versus IQ; SEShög The regression equation is Betyg = 1,13 + 0,0413 IQ + 0,164 SEShög Predictor Coef SE Coef T P Constant 1,1299 0,1135 9,95 0,000 IQ 0,041256 0,001147 35,96 0,000 SEShög 0,16435 0,03450 4,76 0,000 S = 0,539371 R Sq = 57,6% R Sq(adj) = 57,5% Analysis of Variance Source DF SS MS F P Regression 2 443,86 221,93 762,86 0,000 Residual Error 1124 327,00 0,29 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 14 / 26

Signifikanstest för interaktionstermen Nu kan vi testa om sambandet mellan betyg och IQ ser olika ut för de med hög SES och övriga. Modellen ser då ut som följer och vi vill testa om det finns någon effekt av interaktionstermen xd. H 0 : β 3 = 0 H a : β 3 = 0 y = β 0 + β 1 x + β 2 D + β 3 xd + ɛ t = b 3 s b3, Förkasta H 0 om t > t [α/2](n 3 1) Wänström (Linköpings universitet) F3 7 maj 15 / 26

Minitabutskrift Regression Analysis: Betyg versus IQ; SEShög; IQ*SEShög The regression equation is Betyg = 0,856 + 0,0384 IQ 0,742 SEShög + 0,00880 IQ*SEShög Predictor Coef SE Coef T P Constant 0,8559 0,1362 6,28 0,000 IQ 0,038441 0,001384 27,78 0,000 SEShög 0,7419 0,2543 2,92 0,004 IQ*SEShög 0,008799 0,002446 3,60 0,000 S = 0,536530 R Sq = 58,1% R Sq(adj) = 58,0% Analysis of Variance Source DF SS MS F P Regression 3 447,59 149,20 518,29 0,000 Residual Error 1123 323,27 0,29 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 16 / 26

Signifikanstest för ett set av förklaringsvariabler Ibland vill vi testa flera förklaringsvariabler på samma gång. Vi kanske vill testa om det finns en effekt av en kvalitativ variabel med tre kategorier. Då måste vi lägga till två dummyvariabler till regressionsmodellen. Då vill vi inte testa om dessa två dummyvariabler är signifikanta var och en för sig, utan om de som ett set är signifikanta. Vi börjar med att ställa upp två modeller: En komplett (som innehåller alla variabler) och en reducerad (som inte innehåller variablerna vi vill testa för). Komplett modell: y = β 0 + β 1 x 1 +... + β g x g + β g +1 x g +1 +... + β k x k + ɛ Reducerad modell: y = β 0 + β 1 x 1 +... + β g x g + ɛ Wänström (Linköpings universitet) F3 7 maj 17 / 26

Partiellt F-test H 0 : β g +1 = β g +2 =... = β k = 0 H a :Minst en av β g +1, β g +2,..., β k är skild från 0 F = (SSE R SSE C )/(k g ) SSE C /(n k 1)) Förkasta H 0 om F > F [α] (k g; n k 1) Wänström (Linköpings universitet) F3 7 maj 18 / 26

Exempel Säg att vi i stället för att ha delat in SES i hög och övrig, så har vi delat in det i hög, medel och låg. Då har vi en kvalitativ variabel med tre nivåer. Individ Betyg IQ SES 1 4.68 110.64 Hög 2 4.02 105.63 Hög 3 3.74 95.45 Medel 4 1.52 85.42 Låg 5 2.57 88.59 Låg...... { 1 om hög SES D 1 = 0 annars { 1 om låg SES D 2 = 0 annars } } Wänström (Linköpings universitet) F3 7 maj 19 / 26

Partiellt F-test Vi tänker oss att vi vill testa om SES har någon effekt på betyg givet att IQ finns med i modellen. Då har vi följande kompletta och reducerade modeller: Komplett modell: y = β 0 + β 1 x + β 2 D 1 + β 3 D 2 + ɛ Reducerad modell: y = β 0 + β 1 x 1 + ɛ Wänström (Linköpings universitet) F3 7 maj 20 / 26

Partiellt F-test H 0 : β 2 = β 3 = 0 H a :Minst en av β 2, β 3 är skild från 0 F = (SSE R SSE C )/(3 1) SSE C /(n 3 1)) Förkasta H 0 om F > F [α] (3 1; n 3 1) Wänström (Linköpings universitet) F3 7 maj 21 / 26

Minitabutskrift komplett modell Regression Analysis: Betyg versus IQ; SEShög; SESlåg The regression equation is Betyg = 1,09 + 0,0411 IQ + 0,138 SEShög 0,0563 SESlåg Predictor Coef SE Coef T P Constant 1,0920 0,1168 9,35 0,000 IQ 0,041144 0,001149 35,79 0,000 SEShög 0,13815 0,03937 3,51 0,000 SESlåg 0,05625 0,04080 1,38 0,168 S = 0,539155 R Sq = 57,7% R Sq(adj) = 57,5% Analysis of Variance Source DF SS MS F P Regression 3 444,42 148,14 509,61 0,000 Residual Error 1123 326,44 0,29 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 22 / 26

Minitabutskrift reducerad modell Regression Analysis: Betyg versus IQ The regression equation is Betyg = 1,22 + 0,0428 IQ Predictor Coef SE Coef T P Constant 1,2191 0,1131 10,78 0,000 IQ 0,042758 0,001113 38,40 0,000 S = 0,544549 R Sq = 56,7% R Sq(adj) = 56,7% Analysis of Variance Source DF SS MS F P Regression 1 437,26 437,26 1474,57 0,000 Residual Error 1125 333,60 0,30 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 23 / 26

Interaktionsmodell Om vi tror att sambandet mellan Betyg och IQ ser olika ut för de tre SES-grupperna kan vi undersöka följande modell: y = β 0 + β 1 x + β 2 D 1 + β 3 D 2 + β 4 xd 1 + β 5 xd 2 + ɛ Wänström (Linköpings universitet) F3 7 maj 24 / 26

Spridningsdiagram 5 SES 1 2 3 4 Betyg 3 2 1 50 75 100 IQ 125 150 Wänström (Linköpings universitet) F3 7 maj 25 / 26

Minitabutskrift Regression Analysis: Betyg versus IQ; SEShög;... The regression equation is Betyg = 0,787 + 0,0380 IQ 0,811 SEShög 0,108 SESlåg + 0,00919 IQ*SEShög + 0,00045 IQ*SESlåg Predictor Coef SE Coef T P Constant 0,7866 0,1886 4,17 0,000 IQ 0,038047 0,001892 20,10 0,000 SEShög 0,8111 0,2858 2,84 0,005 SESlåg 0,1076 0,2738 0,39 0,695 IQ*SEShög 0,009193 0,002766 3,32 0,001 IQ*SESlåg 0,000454 0,002785 0,16 0,871 S = 0,536419 R Sq = 58,2% R Sq(adj) = 58,0% Analysis of Variance Source DF SS MS F P Regression 5 448,297 89,659 311,59 0,000 Residual Error 1121 322,562 0,288 Total 1126 770,860 Wänström (Linköpings universitet) F3 7 maj 26 / 26