LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA = SALES ( i ton ), förklaras av variationen i TEMP = temperaturen ( i grader Fahrenheit) under 59 månader. Därför bestämdes regressionen av SALES på TEMP för dessa månader. En Fitted Line Plot finns i Bilaga 1, medan den skattade enkla linjära regressionen av SALES på TEMP finns i Bilaga. plotter för denna regression finns i Bilaga 3 och normal probability plott för de skattade residualerna i Bilaga 4. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionskoefficient i denna regression!. Fortsättning av uppgift 1: Som ett alternativ till regressionen i uppgift bestäms i stället regressionen av LSALES = logaritmerad ölförsäljning på TEMP. En Fitted Line Plot finns i Bilaga 5, medan den skattade enkla linjära regressionen av LSALES på TEMP finns i Bilaga 6. plotter för denna regression finns i Bilaga 7 och normal probability plott för de skattade residualerna i Bilaga 8. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionskoefficient i denna regression! 3. Fortsättning av uppgift 1 och : Skatta SALES med ett 95%-igt prediktionsintervall då TEMP=100 grader F med a) modellen i uppgift 1! b) modellen i uppgift! Deskreptiv statistik för TEMP, SALES och LSALES finns i Bilaga 9.
4. Fortsättning av uppgift 1: För att få en bättre anpassning för regressionen av SALES på TEMP införs ytterligare en förklaringsvariabel, SUN = totala antalet soltimmar. Resultatet av den multipla regressionen av SALES på TEMP och SUN finns i bilaga 10. Fås en bättre anpassning? Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1 5. a) Undersök om modellerna i uppgift 1 och 3 uppvisar autokorrelation av första ordningen! b) Redogör kortfattat för konsekvenserna av eventuell autokorrelation av första ordningen! 6. Fortsättning av uppgift 1: I ett försök att eliminera effekterna av eventuell autokorrelation på regressionen av SALES på TEMP används Proc Autoreg för att skatta denna regression. Outputen från denna körning finns i Bilaga 11. a) Redovisa den slutliga modellen som skattas! b) Är denna modell bättre än den i uppgift 1? 7. Fortsättning av uppgift 3 : För att få en bättre anpassning för regressionen av SALES på TEMP och SUN införs ytterligare två förklaringsvariabler, PR1 = månadsnederbörd, måndag-onsdag (i tum) och PR = månadsnederbörd, torsdag-lördag. Resultatet av den multipla regressionen av SALES på TEMP, SUN, PR1 och PR finns i bilaga 1. Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1 respektive modellen i uppgift 3! 8. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då SALES är beroende variabel och TEMP, SUN, PR1 och PR är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 13. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilka resultat finns i bilaga 14 och 15!
Bilaga1 SALES = 04 + 0,36 TEMP 4500 4000 Regression 95% CI 95% PI S 68,66 R-Sq 67,9% R-Sq(adj) 67,3% 3500 SALES 3000 500 000 0 30 40 50 60 TEMP 70 80 90 BILAGA Regression Analysis: SALES versus TEMP The regression equation is SALES = 04 + 0,4 TEMP Predictor Coef SE Coef T P Constant 041,8 109,3 18,68 0,000 TEMP 0,357 1,855 10,97 0,000 S = 68,66 R-Sq = 67,9% R-Sq(adj) = 67,3% PRESS = 446988 R-Sq(pred) = 65,3% Analysis of Variance Source DF SS MS F P Regression 1 8663945 8663945 10,39 0,000 Error 57 410084 71966 Lack of Fit 55 3977465 7318 1,16 0,57 Pure Error 14618 6309 Total 58 176609 55 rows with no replicates
Unusual Observations Obs TEMP SALES Fit SE Fit St Resid 1 3,7 3414,5 707,4 55,3 707,1,69R 4 31,9 3365,4 691, 56,5 674,,57R 36 36,7 3376,8 788,9 49,8 587,9,3R R denotes an observation with a large standardized residual. Durbin-Watson statistic =,05559 Possible lack of fit at outer X-values (P-Value = 0,07) Overall lack of fit test is significant at P = 0,07 Bilaga 3 Normal Probability Plot of the s s Versus the Fitted Values 99,9 Percent 99 90 50 10 500 0 1-1000 -500 0 500 1000-500 500 3000 Fitted Value 3500 16 Histogram of the s s Versus the Order of the Data Frequency 1 8 4 500 0 0-300 0 300 600-500 1 5 10 15 0 5 30 35 40 45 Observation Order 50 55
Bilaga 4 Normal Percent 99,9 99 95 90 80 70 60 50 40 30 0 10 5 Mean -3,776E-1 StDev 65,9 N 59 AD 0,471 P-Value 0,37 1-1000 -500 0 RESI1 500 1000 8,5 8,4 8,3 8, Bilaga 5 LSALES = 7,693 + 0,006455 TEMP Regression 95% C I 95% PI S 0,0854064 R-Sq 67,7% R-Sq(adj) 67,1% LSALES 8,1 8,0 7,9 7,8 7,7 0 30 40 50 60 TEMP 70 80 90 BILAGA 6 Regression Analysis: LSALES versus TEMP The regression equation is
LSALES = 7,69 + 0,00646 TEMP Predictor Coef SE Coef T P Constant 7,6990 0,03480 1,07 0,000 TEMP 0,0064551 0,0005907 10,93 0,000 S = 0,0854064 R-Sq = 67,7% R-Sq(adj) = 67,1% PRESS = 0,44911 R-Sq(pred) = 65,10% Analysis of Variance Source DF SS MS F P Regression 1 0,8711 0,8711 119,43 0,000 Error 57 0,41577 0,0079 Lack of Fit 55 0,4033 0,00733 1,17 0,569 Pure Error 0,0154 0,0067 Total 58 1,8690 55 rows with no replicates Unusual Observations Obs TEMP LSALES Fit SE Fit St Resid 1 3,7 8,1358 7,9040 0,0176 0,318,77R 4 31,9 8,113 7,8988 0,0180 0,5,66R 36 36,7 8,147 7,998 0,0159 949,3R R denotes an observation with a large standardized residual. Durbin-Watson statistic =,05989 Possible lack of fit at outer X-values (P-Value = 0,017) Overall lack of fit test is significant at P = 0,017
99,9 99 Normal Probability Plot of the s Bilaga 7 0, s Versus the Fitted Values Percent 90 50 10 1-0, - 0,0 0, 0,0 - -0, 7,9 8,0 8,1 Fitted Value 8, Histogram of the s s Versus the Order of the Data 1 0, Frequency 9 6 3 0,0-0 - 0,0 0, -0, 1 5 10 15 0 5 30 35 40 45 Observation Order 50 55 Bilaga 8 Normal Percent 99,9 99 95 90 80 70 60 50 40 30 0 10 5 Mean -3,59788E-15 StDev 0,08467 N 59 AD 0,361 P-Value 0,435 1-0,3-0, - 0,0 RESI 0, 0,3
BILAGA 9 Descriptive Statistics: TEMP; SALES; LSALES Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 TEMP 59 0 55,83,47 18,99 7,70 36,70 56,70 74,40 SALES 59 0 3178, 61,1 469, 31,0 908,0 31,7 3535,8 LSALES 59 0 8,0533 0,0194 490 7,7459 7,975 8,0465 8,1707 BILAGA 10 Regression Analysis: SALES versus TEMP; SUN The regression equation is SALES = 040 + 1,9 TEMP - 0,518 SUN Predictor Coef SE Coef T P VIF Constant 040,0 110,0 18,54 0,000 TEMP 1,871 3,359 6,51 0,000 3, SUN -0,5178 0,9554-0,54 0,590 3, S = 69,943 R-Sq = 68,0% R-Sq(adj) = 66,9% PRESS = 453433 R-Sq(pred) = 64,48% Analysis of Variance Source DF SS MS F P Regression 8685347 434674 59,60 0,000 Error 56 408068 7869 No replicates. Cannot do pure error test. Source DF Seq SS TEMP 1 8663945 SUN 1 140 Unusual Observations Obs TEMP SALES Fit SE Fit St Resid 1 3,7 3414,5 736,6 77,4 677,9,6R 4 31,9 3365,4 703,9 61,5 661,5,5R 36 36,7 3376,8 810,7 64,3 566,1,16R R denotes an observation with a large standardized residual. Durbin-Watson statistic =,04003 No evidence of lack of fit (P >= ).
BILAGA 11 The SAS System The AUTOREG Procedure Dependent Variable SALES Ordinary Least Squares Estimates SSE 410083.6 DFE 57 MSE 71966 Root MSE 68.6550 SBC 833.408443 AIC 89.53368 Regress R-Square 0.6787 Total R-Square 0.6787 Durbin-Watson.0556 Standard Approx Variable DF Estimate Error t Value Pr > t Intercept 1 04 109.3059 18.68 <.0001 TEMP 1 0.3573 1.8554 10.97 <.0001 Estimates of Autocorrelations Lag Covariance Correlation -1 9 8 7 6 5 4 3 1 0 1 3 4 5 6 7 8 9 1 0 6956.8 1.000000 ******************** 1-3401. -0.048919 * -177.0-0.176580 **** 3 6385.6 0.091843 ** 4-974.0-0.04775 * 5 8059. 0.115915 ** 6 17584.6 0.5918 ***** 7 3663.8 0.05696 * 8 9968.5 0.143377 *** 9 4.1 0.034837 * 10-0790.6-0.9909 ****** 11 55.9 0.003681 1 3390.3 0.487873 ********** Backward Elimination of Autoregressive Terms Lag Estimate t Value Pr > t 9 0.008016 0.06 0.9540 4-0.017061-0.13 0.8987 3-0.077989-0.63 0.5347 11 0.11349 0.87 0.3880 0.110874 0.85 0.397 7-0.08943-0.73 0.4704 1 0.06755 0.59 0.5595 5-0.11363-0.99 0.371 8-0.15716-1.35 0.1839 6-0.13881-1.18 0.44 10 0.1973 1.90 0.0631 Preliminary MSE 5978.0
Estimates of Autoregressive Parameters Standard Lag Coefficient Error t Value 1-0.487873 0.116648-4.18 Expected Autocorrelations Lag Autocorr 0 1.0000 1 0.0000 0.0000 3 0.0000 4 0.0000 5 0.0000 6 0.0000 Expected Autocorrelations Lag Autocorr 7 0.0000 8 0.0000 9 0.0000 10 0.0000 11 0.0000 1 0.4879 Yule-Walker Estimates SSE 707836.6 DFE 56 MSE 48354 Root MSE 19.89593 SBC 816.4644 AIC 810.01003 Regress R-Square 0.5497 Total R-Square 0.7879 Durbin-Watson.0181 Standard Approx Variable DF Estimate Error t Value Pr > t Intercept 1 058 140.71 14.6 <.0001 TEMP 1 19.767.3859 8.7 <.0001 Expected Autocorrelations Lag Autocorr 0 1.0000 1 0.0000 0.0000 3 0.0000 4 0.0000 5 0.0000 6 0.0000
Expected Autocorrelations Lag Autocorr 7 0.0000 8 0.0000 9 0.0000 10 0.0000 11 0.0000 1 0.4879 BILAGA 1 Regression Analysis: SALES versus TEMP; SUN; PR1; PR The regression equation is SALES = 01 + 1,8 TEMP - 0,50 SUN + 9 PR1 + 0 PR Predictor Coef SE Coef T P VIF Constant 01,4 140, 14,4 0,000 TEMP 1,767 3,477 6,6 0,000 3,3 SUN -0,496 1,004-0,49 0,63 3,5 PR1 9,4 653,4 0,05 0,964 1,1 PR 635, 0,3 0,75 1,0 S = 74,639 R-Sq = 68,1% R-Sq(adj) = 65,7% PRESS = 5081483 R-Sq(pred) = 60,0% Analysis of Variance Source DF SS MS F P Regression 4 869983 17346 8,81 0,000 Error 54 4073046 7547 Total 58 176609 No replicates. Cannot do pure error test. Source DF Seq SS TEMP 1 8663945 SUN 1 140 PR1 1 1 PR 1 7635 Durbin-Watson statistic =,04140 No evidence of lack of fit (P >= ).
BILAGA 13 Best Subsets Regression: SALES versus TEMP; SUN; PR1; PR Response is SALES T E S P P Mallows M U R R Vars R-Sq R-Sq(adj) C-p S P N 1 1 67,9 67,3-0,6 68,7 X 1 43,8 4,9 4 354,66 X 68,0 66,9 1,1 69,94 X X 67,9 66,8 1,3 70,37 X X 3 68,1 66,4 3,0 7,14 X X X 3 68,0 66,3 3,1 7,39 X X X 4 68,1 65,7 5,0 74,64 X X X X BILAGA 14 Stepwise Regression: SALES versus TEMP; SUN; PR1; PR Alpha-to-Enter: 5 Alpha-to-Remove: 5 Response is SALES on 4 predictors, with N = 59 Step 1 Constant 04 TEMP 0,4 T-Value 10,97 P-Value 0,000 S 68 R-Sq 67,87 R-Sq(adj) 67,30 Mallows C-p -0,6 PRESS 446988 R-Sq(pred) 65,3
BILAGA 15 Stepwise Regression: SALES versus TEMP; SUN; PR1; PR Backward elimination. Alpha-to-Remove: Response is SALES on 4 predictors, with N = 59 Step 1 3 4 Constant 01 05 040 04 TEMP 1,8 1,8 1,9 0,4 T-Value 6,6 6,4 6,51 10,97 P-Value 0,000 0,000 0,000 0,000 SUN -0,50-0,51-0,5 T-Value -0,49-0,53-0,54 P-Value 0,63 0,601 0,590 PR1 9 T-Value 0,05 P-Value 0,964 PR 0 198 T-Value 0,3 0,3 P-Value 0,75 0,75 S 75 7 70 68 R-Sq 68,09 68,09 68,03 67,87 R-Sq(adj) 65,73 66,35 66,89 67,30 Mallows C-p 5,0 3,0 1,1-0,6 PRESS 5081483 478490 453433 446988 R-Sq(pred) 60,0 6,96 64,48 65,3
Lösning till skrivning i ekonometri lördagen den juni 007: 1) a) Plotten ser linjär ut med ett par outliers. Regressionen är signifikant (P=0.000), med rimligt stort R =67.9 % och R (pred)=65.3 %! Bra P-värde i första linjaritetstestet, P=0.578, medan det andra är sämre, P=0.07. Autokorrelation är att vänta, ty tidsseriedata, men eftersom d är något större än, så tycks det inte finnas någon autokorrelation. en verkar vara nf (P=0.37). Knappast tydlig heteroskedasticitet syns från plott bortsett från ett par outliers. b) βˆ =0.4 tolkas som medelökning i ölförsäljning då temperaturen ökar med en grad. Interceptet, 04, går inte att tolka och är en extrapolation. ) ) a) Plotten ser linjär ut med ett par outliers. Regressionen är signifikant (P=0.000), med rimligt stort R =67.7 % och R (pred)=65.10 %! Bra P-värde i första linjaritetstestet, P=0.569, medan det andra är sämre, P=0.017. Autokorrelation är att vänta, ty tidsseriedata, men eftersom d är något större än, så tycks det inte finnas någon autokorrelation. en verkar vara tydligt nf (P=0.435). Knappast tydlig heteroskedasticitet syns från plott bortsett från ett par outliers. b) βˆ =0.00646 tolkas som relativ ökning medeltal i ölförsäljning, då temperaturen ökar med dy d y en grad.( ty ln y d y dy = ln = ) Interceptet, 7.69, går inte att tolka och är en dx dy dx dx extrapolation. 3. a) y ˆ = 041.8 + 0.357 *100 = 4077. 5; s = s e 1 1 ( x0 x) 1 (100 55.83) + + = 68.66 1+ + n ( n 1) s 59 58*18.99 x Så PI=(4077.5-366., 4077.5+366.) = (3511.3, 4643.7) = 8.665; t.5 (57)=.00315. a) l yˆ = 7.6990 + 0.0064551*100 = 8.33841 yˆ = 4181. 44 ; s = s e 1 1 ( x0 x) 1 (100 55.83) + + = 0.0854064 1+ + n ( n 1) s 59 58*18.99 x = 0.089991; t.5 (57)=.00315. Så PI för ly=(8.158, 8.519). Genom antilogaritmering fås PI för y= (3491.7, 5007.4) 4) H 0 : β 3 =0 prövas med t=-0.54 med P=0.590, så H 0 förkastas inte, så denna modell är inte överlägsen den enkla! Vi ser också en rätt måttlig ökning i R, justerat R och R (pred) är sämre, så resultatet är knappast överaskande. 5) a) Eftersom d i båda fallen är större än, kan positiv autokorrelation av första ordningen inte konstateras. b) Se läroboken!
Y ˆ = t 1 6) a) = 058 + 19.73* X ; R = 0.79; d =. 018 u ˆt 0.488* uˆ (14.6) (8.7) (-4.18). t-värden inom parentes. b) Ja, ty nu är autokorrelationen vid lag 1 (säsongautokorrelationen) eliminerad. Vi ser också hur detta påverkar såväl t-värden som förklaringsgrad. ΔRSS / 7) ) H 0 : β 4 =β 5 =0 prövas med F = =(1+7635)//7547=0.051, så H 0 förkastas inte MSE U med k.v. F 5 (,54)=3.15-3.3, så denna modell är inte överlägsen modellen i uppgift 3! ΔRSS / 3 (140 + 1+ 7635) / 3 H 0 : β 3 =β 4 =β 5 =0 prövas med F = = = 0. 18, så H 0 förkastas MSE U 7547 inte med k.v. F 5 (3,54)=.76-.84, så denna modell är inte överlägsen modellen i uppgift 1! Vi ser också en rätt måttlig ökning i R och justerat R, och R (pred) är sämre, så resultatet är knappast överaskande. 8) a) För bästa delmängdsregressionen fås bäst justerad förklaringsgrad 67.3 % med TEMP, med bra Cp=-0.6<. Denna modell ger R (pred)=65.3. b) Egentlig stegvis regr. och bakåt stegvis reg. ger samma modell, med högst R (pred)=65.3. Vi såg i bilaga 10, att SUN var klart icke-sign., och i bilaga 1 var också endast TEMP sign., så resultatet överaskar knappast.