LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA102:3 Skrivning i ekonometri lördagen den 15 januari 5 1. Vi vill undersöka hur variationen i försäljningspris = price för hus i en liten stad i Virginia, USA (i dollars), förklaras av variationen i assess = av mäklare uppskattat pris. Därför bestämdes regressionen av price på assess för dessa hus. En Fitted Line Plot finns i Bilaga 1, medan den skattade enkla linjära regressionen av price på assess finns i Bilaga 2. plotter för denna regression finns i Bilaga 3 och normal probability plott för de skattade residualerna i Bilaga 4. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionkoefficient! 2. Fortsättning av uppgift 1: Vi vill nu i stället försöka förklara variationen i det logaritmerade huspriset = lprice med hjälp av variationen i det logaritmerade uppskattade huspriset = lassess. En Fitted Line Plot finns i Bilaga 5, medan den skattade enkla linjära regressionen av lprice på lassess finns i Bilaga 6. plotter för denna regression finns i Bilaga 7 och normal probability plott för de skattade residualerna i Bilaga 8. a)fås en bättre anpassning än i uppgift 1.? b) Tolka intercept och regressionkoefficient! 3. Fortsättning av uppgift 2: För att få en bättre anpassning för regressionen av lprice på lassess införs ytterligare två förklaringsvariabler, nämligen den loggade bostadsytan (i kvadratfot) = lsqrt och den loggade tomtytan = llotsize (i kvadratfot). Resultatet av den multipla regressionen av lprice på lassess, lsqrt och llotsize finns i bilaga 9. Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 2!
4. Fortsättning av uppgift 3: För att få en ytterligare bättre anpassning för regressionen av lprice på lassess, lsqrt och llotsize införs ytterligare en förklaringsvariabel, antalet badrum i huset = bdrms. Resultatet av den multipla regressionen av lprice på lassess, lsqrt, llotsize och bdrms finns i bilaga 10. Är denna modell överlägsen modellen i uppgift 2 respektive modellen i uppgift 3 på 1%-nivån? 5. a) Undersök om modellerna i uppgifterna 3 och 4 uppvisar multikollinjäritet! Korrelationsmatrisen för inf, unem, inf_1 och unem_1 finns i Bilaga 11. b) Redogör kortfattat för konsekvenserna av eventuell multikollinjäritet! 6. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då lprice är beroende variabel och lassess, lsqrt, llotsize och bdrms är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 12. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilkas resultat finns i bilaga 13 och 14! 7. Fortsättning av uppgift 2: Husen i den lilla staden är av två slag, dels vanliga hus och dels hus i kolonial stil. För att undersöka om dummyvariabeln colonial påverkar regressionen av lprice på lassess bestäms regressionen av lprice på lassess, colonial och colass (produkten av lassess och colonial). Resultaten finns i bilaga 15. Använd α = 1%. a) Är regressionskoefficienten samma för de två husslagen? b) Är regressionen densamma för de två husslagen? 8.a) Redogör kortfattat för problemen med OLS vid ett simultant ekvationssystem! b) Redogör kortfattat för tvåstegsminstakvadratmetoden!
800 700 600 500 Bilaga 1 price = - 14,47 + 0,9756 assess Regression 95% CI 95% PI S 43,8873 R-Sq 82,0% R-Sq(adj) 81,7% price 400 300 100 0 300 400 500 assess 600 700 BILAGA 2 Regression Analysis: price versus assess The regression equation is price = - 14,5 + 0,976 assess Predictor Coef SE Coef T P Constant -14,47 16,27-0,89 0,376 assess 0,97555 0,04937 19,76 0,000 S = 43,8873 R-Sq = 82,0% R-Sq(adj) = 81,7% PRESS = 178102 R-Sq(pred) = 80,60% Analysis of Variance Source DF SS MS F P Regression 1 752210 752210 390,54 0,000 Error 86 165645 1926 Total 87 917855 No replicates. Cannot do pure error test.
Unusual Observations Obs assess price Fit SE Fit St Resid 12 417 300,00 391,85 6,83-91,85-2,12R 42 655 713,50 624,91 17,41 88,59 2,20RX 66 544 495,00 515,84 12,18-20,84-0,49 X 68 515 380,00 488,04 10,90-108,04-2,54R 69 437 325,00 411,85 7,60-86,85-2,01R 73 709 725,00 676,81 19,95 48,19 1,23 X 76 253 425,00 231,86 5,62 193,14 4,44R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Durbin-Watson statistic = 1,92516 Possible lack of fit at outer X-values (P-Value = 0,009) Overall lack of fit test is significant at P = 0,009 Bilaga 3 99,9 99 Normal Probability Plot of the s s Versus the Fitted Values Percent 90 50 10 100 0 1 0,1-100 0 100-100 400 Fitted Value 600 24 Histogram of the s s Versus the Order of the Data Frequency 18 12 6 0-80 -40 0 40 80 120 160 100 0-100 1 10 20 30 40 50 60 Observation Order 70 80
Bilaga 4 Normal Percent 99,9 99 95 90 80 70 60 50 40 30 20 10 5 Mean -1,86356E-13 StDev 43,63 N 88 AD 0,938 P-Value 0,017 1 0,1-150 -100-50 0 50 RESI1 100 150 7,0 6,5 Bilaga 5 lprice = - 0,1615 + 1,013 lassess Regression 95% CI 95% PI S 0,147817 R-Sq 76,6% R-Sq(adj) 76,3% lprice 6,0 5,5 5,0 5,2 5,4 5,6 5,8 6,0 lassess 6,2 6,4 6,6
BILAGA 6 Regression Analysis: lprice versus lassess The regression equation is lprice = - 0,161 + 1,01 lassess Predictor Coef SE Coef T P Constant -0,1615 0,3461-0,47 0,642 lassess 1,01341 0,06046 16,76 0,000 S = 0,147817 R-Sq = 76,6% R-Sq(adj) = 76,3% PRESS = 1,98075 R-Sq(pred) = 75,29% Analysis of Variance Source DF SS MS F P Regression 1 6,1385 6,1385 280,94 0,000 Error 86 1,8791 0,0218 Total 87 8,0176 No replicates. Cannot do pure error test. Unusual Observations Obs lassess lprice Fit SE Fit St Resid 42 6,49 6,5702 6,4107 0,0490 0,1595 1,14 X 73 6,56 6,5862 6,4898 0,0535 0,0964 0,70 X 76 5,53 6,0521 5,4441 0,0194 0,6080 4,15R 81 5,31 4,7095 5,2 0,0293-0,5104-3,52R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Durbin-Watson statistic = 1,96852 Possible lack of fit at outer X-values (P-Value = 0,030) Overall lack of fit test is significant at P = 0,030
Bilaga 7 Normal Probability Plot of the s s Versus the Fitted Values 99,9 99 0,50 Percent 90 50 10 0,25 0,00-0,25 1 0,1-0,50-0,25 0,00 0,25 0,50-0,50 5,5 6,0 Fitted Value 6,5 Histogram of the s s Versus the Order of the Data 30 0,50 Frequency 20 10 0,25 0,00-0,25 0-0,4-0,2 0,0 0,2 0,4 0,6-0,50 1 10 20 30 40 50 60 Observation Order 70 80 Bilaga 8 Normal Percent 99,9 99 95 90 80 70 60 50 40 30 20 10 5 Mean -1,77636E-15 StDev 0,1470 N 88 AD 0,708 P-Value 0,062 1 0,1-0,50-0,25 0,00 RESI2 0,25 0,50 0,75
BILAGA 9 Regression Analysis: lprice versus lassess; llotsize; lsqrft The regression equation is lprice = - 0,043 + 1,05 lassess + 0,0072 llotsize - 0,050 lsqrft Predictor Coef SE Coef T P VIF Constant -0,0431 0,5375-0,08 0,936 lassess 1,0478 0,1526 6,87 0,000 6,2 llotsize 0,00716 0,03887 0,18 0,854 1,7 lsqrft -0,0500 0,1351-0,37 0,712 4,8 S = 0,149324 R-Sq = 76,6% R-Sq(adj) = 75,8% PRESS = 2,07153 R-Sq(pred) = 74,16% Analysis of Variance Source DF SS MS F P Regression 3 6,1446 2,0482 91,86 0,000 Error 84 1,8730 0,0223 Total 87 8,0176 No replicates. Cannot do pure error test. Source DF Seq SS lassess 1 6,1385 llotsize 1 0,0030 lsqrft 1 0,0031 Unusual Observations Obs lassess lprice Fit SE Fit St Resid 47 5,78 5,7462 5,6670 0,0756 0,0792 0,62 X 73 6,56 6,5862 6,4975 0,0566 0,0887 0,64 X 76 5,53 6,0521 5,4485 0,0245 0,6036 4,10R 77 5,69 5,7621 5,6263 0,0960 0,1357 1,19 X 81 5,31 4,7095 5,2139 0,0328-0,5044-3,46R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Durbin-Watson statistic = 1,97689 No evidence of lack of fit (P >= 0,1).
BILAGA 10 Regression Analysis: lprice versus lassess; llotsize; lsqrft; bdrms The regression equation is lprice = 0,264 + 1,04 lassess + 0,0074 llotsize - 0,103 lsqrft + 0,0338 bdrms Predictor Coef SE Coef T P VIF Constant 0,2637 0,5697 0,46 0,645 lassess 1,0431 0,1514 6,89 0,000 6,2 llotsize 0,00744 0,03856 0,19 0,848 1,7 lsqrft -0,1032 0,1384-0,75 0,458 5,1 bdrms 0,03384 0,02210 1,53 0,129 1,4 S = 0,148142 R-Sq = 77,3% R-Sq(adj) = 76,2% PRESS = 2,06074 R-Sq(pred) = 74,30% Analysis of Variance Source DF SS MS F P Regression 4 6,1961 1,5490 70,58 0,000 Error 83 1,8215 0,0219 Total 87 8,0176 No replicates. Cannot do pure error test. Source DF Seq SS lassess 1 6,1385 llotsize 1 0,0030 lsqrft 1 0,0031 bdrms 1 0,0515 Unusual Observations Obs lassess lprice Fit SE Fit St Resid 29 6,17 6,1686 6,1600 0,0675 0,0085 0,06 X 47 5,78 5,7462 5,6281 0,0791 0,1181 0,94 X 63 5,54 5,7366 5,5579 0,0737 0,1786 1,39 X 76 5,53 6,0521 5,4438 0,0245 0,6083 4,16R 77 5,69 5,7621 5,6491 0,0964 0,1130 1,00 X 81 5,31 4,7095 5,2429 0,0377-0,5334-3,72R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Durbin-Watson statistic = 2,04850 No evidence of lack of fit (P >= 0,1).
BILAGA 11 Correlations: lprice; lassess; llotsize; lsqrft; bdrms lprice lassess llotsize lsqrft lassess 0,875 llotsize 0,504 0,558 lsqrft 0,744 0,865 0,311 bdrms 0,463 0,459 0,169 0,520 BILAGA 12 Best Subsets Regression: lprice versus lassess; llotsize; lsqrft; bdrms Response is lprice l l l a o l s t s b s s q d e i r r Mallows s z f m Vars R-Sq R-Sq(adj) C-p S s e t s 1 76,6 76,3 1,6 0,14782 X 1 55,3 54,8 79,3 0,20414 X 2 77,1 76,5 1,8 0,14713 X X 2 76,6 76,1 3,4 0,14847 X X 3 77,3 76,5 3,0 0,14729 X X X 3 77,1 76,3 3,6 0,14775 X X X 4 77,3 76,2 5,0 0,14814 X X X X BILAGA 13 Stepwise Regression: lprice versus lassess; llotsize; lsqrft; bdrms Backward elimination. Alpha-to-Remove: 0,1 Response is lprice on 4 predictors, with N = 88 Step 1 2 3 4 Constant 0,26374 0,30910-0,02381-0,16147
lassess 1,043 1,061 0,972 1,013 T-Value 6,89 8,84 14,35 16,76 P-Value 0,000 0,000 0,000 0,000 llotsize 0,007 T-Value 0,19 P-Value 0,848 lsqrft -0,10-0,11 T-Value -0,75-0,90 P-Value 0,458 0,371 bdrms 0,034 0,034 0,028 T-Value 1,53 1,54 1,34 P-Value 0,129 0,128 0,182 S 0,148 0,147 0,147 0,148 R-Sq 77,28 77,27 77,05 76,56 R-Sq(adj) 76,19 76,46 76,51 76,29 Mallows C-p 5,0 3,0 1,8 1,6 PRESS 2,06074 2,01023 1,99322 1,98075 R-Sq(pred) 74,30 74,93 75,14 75,29 BILAGA 14 Stepwise Regression: lprice versus lassess; llotsize; lsqrft; bdrms Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is lprice on 4 predictors, with N = 88 Step 1 Constant -0,1615 lassess 1,013 T-Value 16,76 P-Value 0,000 S 0,148 R-Sq 76,56 R-Sq(adj) 76,29 Mallows C-p 1,6 PRESS 1,98075 R-Sq(pred) 75,29
BILAGA 15 Regression Analysis: lprice versus lassess; colonial; colass The regression equation is lprice = 0,058 + 0,968 lassess - 0,239 colonial + 0,052 colass Predictor Coef SE Coef T P VIF Constant 0,0576 0,5945 0,10 0,923 lassess 0,9681 0,1046 9,25 0,000 3,0 colonial -0,2393 0,7315-0,33 0,744 462,8 colass 0,0518 0,1283 0,40 0,687 471,5 S = 0,147110 R-Sq = 77,3% R-Sq(adj) = 76,5% PRESS = 2,07227 R-Sq(pred) = 74,15% Analysis of Variance Source DF SS MS F P Regression 3 6,1997 2,0666 95,49 0,000 Error 84 1,8179 0,0216 Total 87 8,0176 No replicates. Cannot do pure error test. Source DF Seq SS lassess 1 6,1385 colonial 1 0,0577 colass 1 0,0035 Unusual Observations Obs lassess lprice Fit SE Fit St Resid 42 6,49 6,5702 6,4325 0,0586 0,1377 1,02 X 48 6,16 6,0343 6,0251 0,0585 0,0092 0,07 X 73 6,56 6,5862 6,4113 0,0972 0,1749 1,58 X 76 5,53 6,0521 5,4124 0,0320 0,6397 4,46R 81 5,31 4,7095 5,2341 0,0369-0,5246-3,68R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Durbin-Watson statistic = 1,97587 No evidence of lack of fit (P >= 0,1).
Svar till skrivning i ekonometri.den 15 januari 5: 1) a) Regressionen är klart signifikant (P=0.000) med stort R 2 =81.7% och R 2 (pred)=80.6%. En stor outlier, som också syns i plotten. Dåligt P-värde i linjaritetstestet, P=0.009. Tvärsnittsdata, så ingen autokorrelation. Dålig nf residual (P=0.017), kanske p. g. a. outliern. plotten indikerar ingen tydlig heteroskedasticitet, bortsett från outliern. b) Regr.-koeff. är 0.98, dvs. att om uppskattat pris ökar med 1$, så ökar i medel priset 0.98$. Interceptet är -14.5 = genomsnittligt pris då uppskattat pris = 0, vilket varken är tolkbart och dessutom extrapolation! 2) Stort R 2 =76.6 % och R 2 (pred)=75.29 % och regr.-koeff. är klart signifikant (P=0.000). Två stora outliers, som också syns i plotten. Bättre P-värde i linjaritetstestet, P=0.030. Bättre nf residual (P=0.062). plotten indikerar ingen större heteroskedasticitet, utom outliers. 3) H 0 : β 3 = β 4 =0 prövas med F-test. Vi ser att ΔR 2 = 0.0 och ΔR 2 (pred)< 0. ( RSSU RSS R ) / 2 (0.0030 + 0.0031) / 2 Observarat F= = = 0.14<1 MSEU 0.0223 med k.o.:f>f 0.01 (2,84)=4.79-4.98, så denna modell är inte bättre än den i uppg. 2. 4) a) H 0 : β 5 =0 ger P=0.129 (med t=1.53), så denna modell är inte bättre än den i uppg. 3. b) H 0 : β 3 = β 4 =β 5 =0 prövas med F-test. Vi ser att ökningarna i R 2 och R 2 (pred) är små. ( RSSU RSS R ) / 3 (0.0030 + 0.0031+ 0.0515) / 3 Observarat F= = = 0.88<1 MSEU 0.0219 med k.o.:f>f 0.01 (3,83)=3.95-4.13, så denna modell är inte bättre än den i uppg. 2. 5) a) VIF är ej stora(<10), korr. mellan ober. var. är inte stora (max. 0.865). Däremot finns flera icke-sign. t-test, men det verkar som ej väsentlig mc. b) se läroboken! 6) a) Bäst justerad förklaringsgrad 76.5 % för lassess och bdrms med bra Cp=3.0. b) Stegvis regr. och stegvis regr.(bakåt) ger endast lassess med störst R 2 (pred)=75.29. Detta är som väntat då vi såg från tidigare att llotsize och lsqrft inte gav någon ökning i R 2 och bdrms var icke-signifikant.
7) a ) H 0 : β 4 =0 ger P=0.687 (med t=0.40), så regr.-koeff. kan inte påvisas vara olika. b) H 0 : β 3 = β 4 =0 prövas med F-test. ( RSSU RSS R ) / 2 (0.0577 + 0.0035) / 2 Observerat F= = = 1.42 MSEU 0.0216 med k.o.:f>f 0.01 (2,84)=4.79-4.84, så regr. kan inte påvisas vara olika. (0.0577) /1 (Alt.: H 0 : β 3 =0/β 4 =0 ger F= = 2.69 med k.o.:f>f 0.01 (1,85)=6.85-7.08, så regr. 1.8179 + 0.0035 84 + 1 kan inte påvisas vara olika.) 8) se läroboken!