LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB2 Skrivning i ekonometri onsdagen den 1 juni 211 1. Vi vill undersöka hur variationen i försäljningspriset för ett hus (i en liten stad i USA och i amerikanska dollar) = price förklaras av variationen i sqrft = storleken av huset (i kvadratfot). Därför bestämdes regressionen av price på sqrft för dessa hus. En Fitted Line Plot finns i Bilaga 1, medan den skattade enkla linjära regressionen av price på sqrft finns i Bilaga 2. plotter för denna regression finns i Bilaga 3. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionskoefficient i denna regression! 2. Fortsättning av uppgift 1: För att få en bättre anpassning för regressionen av price på sqrft införs ytterligare en förklaringsvariabel, lotsize = tomtstorlek ( i kvadratfot). Resultatet av den multipla regressionen av price på sqrft och lotsize finns i bilaga 4 och med residualplotter i bilaga 5. Fås en bättre anpassning? Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1! 3. Fortsättning av uppgift 1 och 2: a) Skatta price med ett 95%-igt prediktionsintervall då sqrft = 4 i den enkla regressionen! b) Skatta price med ett approximativt 95%-igt prediktionsintervall då sqrft = 4 och lotsize= 4 i den multipla regressionen! Beskrivande statistik för price, sqrft och lotsize finns i bilaga 6. 4. Fortsättning av uppgift 1: Redovisa resultaten i uppgift 1,dvs skattade intercept och regressionskoefficient, deras standardfel, deras t-kvoter, skattad residualvarians och förklaringsgrad, i svenska (metriska) enheter, dvs. i svenska kronor och meter. Ledning: 1 fot =,3479 m, och 1 US dollar = 6,3 Svenska kronor.
5. a) Undersök om modellerna i uppgift 1 och 3 uppvisar multikollinjäritet! Då kan man också utnyttja korrelationskoefficienterna i bilaga 7. b) Redogör kortfattat för konsekvenserna av eventuell multikollinjäritet! 6. Vi vill nu jämföra huspriset = price med ett av mäklare uppskattat huspris = assess. Därför bestäms den enkla regressionen av price på assess. Resultatet av denna finns i bilaga 8. Pröva hypotesen att regressions-koefficienten är 1 och att interceptet är! Beskrivande statistik för variablerna price och assess finns i bilaga 9. 7. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då price är beroende variabel och sqrft och lotsize är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 1. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilket resultat finns i bilaga 11! 8. Betrakta den vanliga enkla linjära regressionen av y på x, y= + x + u, med de sedvanliga antagandena. Antag att vi nu skattar en enkel linjär regressionsmodell genom origo, y= x + u. Undersök om skattningen av regressionskoefficienten i denna enkla regression genom origo är väntevärdesriktig för! Vad blir eventuell skevhet (bias), och när blir denna?
Bilaga 1. 8 7 6 5 Fitted Line Plot price = 1124 + 14,2 sqrft Regression 95% CI 95% PI S 63617,1 R-Sq 62,1% R-Sq(adj) 61,6% price 4 3 1 1 15 2 25 sqrft 3 35 4 BILAGA 2 Regression Analysis: price versus sqrft The regression equation is price = 1124 + 14 sqrft Predictor Coef SE Coef T P VIF Constant 1124 24743,45,652 sqrft 14,21 11,82 11,87, 1, S = 63617,1 R-Sq = 62,1% R-Sq(adj) = 61,6% PRESS = 381288288756 R-Sq(pred) = 58,46% Analysis of Variance Source DF SS MS F P Regression 1 5,6981E+11 5,6981E+11 14,79, Error 86 3,4853E+11 447132941 Lack of Fit 83 3,4632E+11 416959433 6,19,78 Pure Error 3 2215 673833333 Total 87 9,17855E+11 82 rows with no replicates
Unusual Observations Obs sqrft price Fit SE Fit St Resid 13 3375 45 484416 17457-79416 -1,3 X 29 3529 4775 569 19147-2859 -,47 X 38 388 575 555223 2373 19777,33 X 42 3331 7135 478247 16979 235253 3,84RX 48 3733 4175 534612 21418-117112 -1,96 X 73 3662 725 524657 2624 2343 3,33RX 76 152 425 22181 986 23199 3,23R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Durbin-Watson statistic = 1,72872 Lack of fit test Possible curvature in variable sqrft (P-Value =,38 ) Possible lack of fit at outer X-values (P-Value =,) Overall lack of fit test is significant at P =, Bilaga 3. Plots for price Normal Probability Plot Versus Fits 99,9 99 Percent 9 5 1 1 1,1 - -1 1-1 3 4 Fitted Value 5 6 Histogram Versus Order 2 Frequency 15 1 5-1 -5 5 1 15 1-1 1 1 2 3 4 5 6 7 Observation Order 8
BILAGA 4 Regression Analysis: price versus sqrft; lotsize The regression equation is price = 5932 + 133 sqrft + 2,11 lotsize Predictor Coef SE Coef T P VIF Constant 5932 23512,25,81 sqrft 133,36 11,4 11,7, 1,35 lotsize 2,1135,6466 3,27,2 1,35 S = 6311,5 R-Sq = 66,3% R-Sq(adj) = 65,5% PRESS = 796774658383 R-Sq(pred) = 13,19% Analysis of Variance Source DF SS MS F P Regression 2 6,8669E+11 3,4334E+11 83,67, Error 85 3,9186E+11 3637482274 Total 87 9,17855E+11 There are no replicates. Minitab cannot do the lack of fit test based on pure error. Source DF Seq SS sqrft 1 5,6981E+11 lotsize 1 38867439681 Unusual Observations Obs sqrft price Fit SE Fit St Resid 38 388 575 556419 21877 18581,33 X 42 3331 7135 59827 18774 23673 3,55R 48 3733 4175 52917 2733-13417 -1,83 X 73 3662 725 559822 22317 165178 2,95RX 76 152 425 217919 8695 2781 3,47R 77 1696 318 427995 55248-19995 -4,55RX R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Durbin-Watson statistic = 1,97464 Lack of fit test Possible curvature in variable sqrft (P-Value =,46 ) Possible interaction in variable sqrft (P-Value =, ) Possible interaction in variable lotsize (P-Value =,1 ) Possible lack of fit at outer X-values (P-Value =,) Overall lack of fit test is significant at P =,
Bilaga 5. Plots for price Normal Probability Plot Versus Fits 99,9 99 Percent 9 5 1 1 1,1 - -1 1-1 3 4 Fitted Value 5 6 Histogram Versus Order 16 Frequency 12 8 4-8 -4 4 8 12 16 1-1 1 1 2 3 4 5 6 7 Observation Order 8 BILAGA 6 Descriptive Statistics: price; sqrft; lotsize Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 price 88 293546 1949 12713 111 23 2655 32875 sqrft 88 213,7 61,5 577,2 1171, 1657,5 1845, 2271, lotsize 88 92 185 1174 1 5672 643 8596 Variable Maximum Skewness Kurtosis price 725 2,3 5,78 sqrft 388, 1,41 1,9 lotsize 92681 6,75 53,68 BILAGA 7 Correlations: price; sqrft; lotsize price sqrft sqrft,788 lotsize,347,184 Cell Contents: Pearson correlation
BILAGA 8 Regression Analysis: price versus assess The regression equation is price = - 14472 +,976 assess Predictor Coef SE Coef T P VIF Constant -14472 16273 -,89,376 assess,97555,4937 19,76, 1, S = 43887,3 R-Sq = 82,% R-Sq(adj) = 81,7% PRESS = 17812185881 R-Sq(pred) = 8,6% Analysis of Variance Source DF SS MS F P Regression 1 7,5221E+11 7,5221E+11 39,54, Error 86 1,65645E+11 192699183 Total 87 9,17855E+11 There are no replicates. Minitab cannot do the lack of fit test based on pure error. Unusual Observations Obs assess price Fit SE Fit St Resid 12 4165 3 391846 6829-91846 -2,12R 42 6554 7135 62496 1748 88594 2,2RX 66 5436 495 515839 12183-2839 -,49 X 68 5151 38 48836 1897-1836 -2,54R 69 437 325 411845 7598-86845 -2,1R 73 786 725 67686 1995 48194 1,23 X 76 2525 425 231856 5624 193144 4,44R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Durbin-Watson statistic = 1,92516 Possible lack of fit at outer X-values (P-Value =,9) Overall lack of fit test is significant at P =,9
BILAGA 9 Descriptive Statistics: price; assess Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 price 88 293546 1949 12713 111 23 2655 32875 assess 88 315736 1161 95314 1987 2537 292 353375 Covariances: price; assess price assess price 15551819 assess 8862752171 984841881 BILAGA 1 Best Subsets Regression: price versus sqrft; lotsize Response is price l o s t q s r i Mallows f z Vars R-Sq R-Sq(adj) Cp S t e 1 62,1 61,6 11,7 63617 X 1 12, 11, 137,9 96885 X 2 66,3 65,5 3, 6312 X X
BILAGA 11 Stepwise Regression: price versus sqrft; lotsize Alpha-to-Enter:,15 Alpha-to-Remove:,15 Response is price on 2 predictors, with N = 88 Step 1 2 Constant 1124 5932 sqrft 14 133 T-Value 11,87 11,7 P-Value,, lotsize 2,11 T-Value 3,27 P-Value,2 S 63617 6312 R-Sq 62,8 66,31 R-Sq(adj) 61,64 65,52 Mallows Cp 11,7 3, PRESS 381288288756 796774658383 R-Sq(pred) 58,46 13,19 Stepwise Regression: price versus sqrft; lotsize Backward elimination. Alpha-to-Remove:,1 Response is price on 2 predictors, with N = 88 Step 1 Constant 5932 sqrft 133 T-Value 11,7 P-Value, lotsize 2,11 T-Value 3,27 P-Value,2 S 6312 R-Sq 66,31 R-Sq(adj) 65,52 Mallows Cp 3, PRESS 796774658383 R-Sq(pred) 13,19