LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal polisanmälda brott per million innevånare), förklaras av variationen i Ex = poliskostnad per kapita år 196. Därför bestämdes regressionen av R på Ex för de 47 delstaterna. En Fitted Line Plot finns i Bilaga 1, medan den skattade enkla linjära regressionen av R på Ex finns i Bilaga. plotter för denna regression finns i Bilaga 3 och normal probability plott för de skattade residualerna i Bilaga 4. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!. Fortsättning av uppgift 1: För att få en bättre anpassning för regressionen av R på Ex införs ytterligare en förklaringsvariabel, Ed =(medelantalet år i utbildning)x1 för personer äldre än 5 år. Resultatet av den multipla regressionen av R på Ex och Ed finns i bilaga 5, med residualplotter i bilaga 6 och med normal probability plott för de skattade residualerna i Bilaga 7. a) Fås en bättre anpassning? b) Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1! c) Är tecknen på regressionskoefficienterna som förväntat? 3. Fortsättning av uppgift : Skatta R med ett approximativt 95%-igt prediktionsintervall då Ex = 9 och Ed = 1! 4. Fortsättning av uppgift 3: Skatta R med ett exakt 95%-igt prediktionsintervall då Ex = 9 och Ed = 1! Ledning: Den skattade kovariansmatrisen för de tre regressionskoefficienterna (i ordning konstant, Ex, Ed)är: 168,96 1,34-16,84 1,34,3 -,3-16,84 -,3,19
5. a) Undersök om modellerna i uppgifterna 1 och uppvisar multikollinjäritet! Korrelationsmatrisen för R, Ex och Ed finns i Bilaga 8. b) Redogör kortfattat för konsekvenserna av eventuell multikollinjäritet! 6. Fortsättning av uppgift : För att få en bättre anpassning för regressionen av R på Ex och Ed införs ytterligare två förklaringsvariabler, NW = andel icke-vita i delstatens befolkning ( i promille)och U1 = andel arbetslöshet för män i åldrarna 14-4 i städer. Resultatet av den multipla regressionen av R på Ex, Ed, NW och U1 finns i bilaga 9. Är tecknen på regressionskoefficienterna som förväntat? Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1 respektive modellen i uppgift! 7. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då R är beroende variabel och Ex, Ed, NW och U1 är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 1. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilkas resultat finns i bilaga 11 och 1! 8. Betrakta den enkla linjära regressionsmodellen: Y = α + β X + u med de sedvanliga antagandena om u t. t t t a) Visa att MK-skattningen av β är ˆ ( X t X)( Yt Y) β = ( X X) b) Hur skattas σ? t! c) Visa att ˆβ är väntevärdesriktig samt bestäm V( ˆβ )!
BILAGA 1 R = 14,4464 +,894848 Ex S = 8,396 R-Sq = 47,3 % R-Sq(adj) = 46,1 % R 1 Regression 95% CI 95% PI 5 1 15 Ex BILAGA Regression Analysis: R versus Ex The regression equation is R = 14,4 +,895 Ex Predictor Coef SE Coef T P Constant 14,45 1,67 1,14,6 Ex,8948,149 6,35, S = 8,39 R-Sq = 47,3% R-Sq(adj) = 46,1% PRESS = 41794,9 R-Sq(pred) = 39,6% Analysis of Variance Source DF SS MS F P Regression 1 3533 3533 4,36, Error 45 3676 86 Lack of Fit 36 3398 94 3,58,4 Pure Error 9 369 63 Total 46 6889 31 rows with no replicates Unusual Observations Obs Ex R Fit SE Fit St Resid 13 163,5 16,6 4,86 56,88,3R 6 16 199,3 157,6 11,35 41,68 1,6 X 9 166 14,3 16,99 1,14-58,69 -,9RX 46 16 5,8 19,3 5,9-58,5 -,9R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence.
Durbin-Watson statistic =,1 Possible lack of fit at outer X-values (P-Value =,4) Overall lack of fit test is significant at P =,4 BILAGA 3 Normal Plot of s I Chart of s 5 1 UCL=91,4 Mean=3,7E-14-5 -1 LCL=-91,4 - -1 1 Normal Score 1 3 4 Observation Number 5 Histogram of s s vs. Fits 1 5 Frequency 5-5 -5 5 5 1 Fit 15 BILAGA 4,999,99,95 Probability,8,5,,5,1,1 Average:, StDev: 8,83 N: 47-5 RESI1 5 Anderson-Darling Normality Test A-Squared:,35 P-Value:,454
BILAGA 5 Regression Analysis: R versus Ex; Ed The regression equation is R = 18, +,9 Ex -,4 Ed Predictor Coef SE Coef T P VIF Constant 18,1 41,,44,659 Ex,94,167 5,55, 1,3 Ed -,417,431 -,1,94 1,3 S = 8,71 R-Sq = 47,3% R-Sq(adj) = 44,9% PRESS = 4314,7 R-Sq(pred) = 37,49% Analysis of Variance Source DF SS MS F P Regression 3541 167 19,74, Error 44 3669 84 Total 46 6889 No replicates. Cannot do pure error test. Source DF Seq SS Ex 1 3533 Ed 1 8 Unusual Observations Obs Ex R Fit SE Fit St Resid 13 163,5 16,45 5, 57,5,R 9 166 14,3 163,55 13,56-59,5 -,34RX 46 16 5,8 19,53 5,66-58,73 -,9R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence. Durbin-Watson statistic =,1 No evidence of lack of fit (P >,1)
BILAGA 6 Normal Plot of s I Chart of s 5 1 UCL=91,9 Mean=4,9E-14-5 -1 LCL=-91,9 - -1 1 Normal Score 1 3 4 Observation Number 5 Histogram of s s vs. Fits 1 5 Frequency 5-5 -5 5 5 1 Fit 15 BILAGA 7,999,99,95 Probability,8,5,,5,1,1 Average:, StDev: 8,793 N: 47-5 RESI 5 Anderson-Darling Normality Test A-Squared:,371 P-Value:,49
BILAGA 8 Correlations: R; Ex; Ed R Ex Ex,688 Ed,33,483 Cell Contents: Pearson correlation BILAGA 9 Regression Analysis: R versus Ex; Ed; NW; U1 The regression equation is R = - 8,7 +,845 Ex +,776 Ed +,1 NW +,53 U1 Predictor Coef SE Coef T P VIF Constant -8,68 64,41-1,5,17 Ex,8455,1597 5,9, 1,3 Ed,7757,5569 1,39,171,3 NW,14,555,,3 1,9 U1,58,318,3,81 1, S = 7,79 R-Sq = 5,8% R-Sq(adj) = 48,4% PRESS = 451,1 R-Sq(pred) = 38,89% Analysis of Variance Source DF SS MS F P Regression 4 36364, 991,1 11,77, Error 4 3445, 77,5 Total 46 6889,3 No replicates. Cannot do pure error test. Source DF Seq SS Ex 1 3533, Ed 1 7,7 NW 1 3783,5 U1 1 4,1 Unusual Observations Obs Ex R Fit SE Fit St Resid 9 166 14,3 158,38 13,34-54,8 -,R R denotes an observation with a large standardized residual Lack of fit test Possible interactions with variable Ed (P-Value =,6) Possible curvature in variable NW (P-Value =,9) Overall lack of fit test is significant at P =,6
BILAGA 1 Best Subsets Regression: R versus Ex; Ed; NW; U1 Response is R E x E N U Vars R-Sq R-Sq(adj) C-p S d W 1 1 47,3 46,1 4, 8,393 X 1 1,4 8,4 36,8 37,1 X 5,7 48,4 3, 7,778 X X 47,3 44,9 5,9 8,7 X X 3 5,8 49,5 3,1 7,486 X X X 3 5,7 47, 4,9 8,96 X X X 4 5,8 48,4 5, 7,794 X X X X BILAGA 11 Stepwise Regression: R versus Ex; Ed; NW; U1 Alpha-to-Enter:,15 Alpha-to-Remove:,15 Response is R on 4 predictors, with N = 47 Step 1 Constant 14,446,843 Ex,89,95 T-Value 6,35 6,71 P-Value,, NW,71 T-Value 1,74 P-Value,9 S 8,4 7,8 R-Sq 47,8 5,66 R-Sq(adj) 46,11 48,4 C-p 4, 3, PRESS 41794,9 459,4 R-Sq(pred) 39,6 41,1
BILAGA 1 Stepwise Regression: R versus Ex; Ed; NW; U1 Backward elimination. Alpha-to-Remove:,1 Response is R on 4 predictors, with N = 47 Step 1 3 Constant -8,679-74,11,843 Ex,85,84,95 T-Value 5,9 5,35 6,71 P-Value,,, Ed,78,76 T-Value 1,39 1,39 P-Value,171,171 NW,1,1,71 T-Value,,4 1,74 P-Value,3,3,9 U1,5 T-Value,3 P-Value,81 S 7,8 7,5 7,8 R-Sq 5,85 5,79 5,66 R-Sq(adj) 48,36 49,5 48,4 C-p 5, 3,1 3, PRESS 451,1 4797, 459,4 R-Sq(pred) 38,89 4,71 41,1
Svar till skrivning i ekonometri.den 1 juni 4: 1) a) Regressionen är signifikant (P=.) med måttligt R =47.3%, men lägre R (pred)=39.%. Dåliga P-värden i linjaritetstesten, P=.4 i båda testen. Ingen autokorrelation ty tvärsnittsdata. Bra nf residual (P=.454). plotten indikerar ingen större heteroskedasticitet (bortsett från outliers). ˆ β 1.8948 1 b) t= = =-.75 så H :β=1 kan inte förkastas på någon rimlig nivå. s.149 ˆ β ) a) R samma som i den enkla regressionen men R (pred) minskar. Bra P-värden i linjaritetstestet, P>.1. Bra nf residual (P=.49). plotten indikerar ingen större heteroskedasticitet. b) t=-.1 för Ed med P=.94, så denna modell är ej överlägsen den enkla på 1%-nivån. c) Fel tecken för ˆ β, men rätt tecken för 3 ˆβ. 3) Punktskattningen blir Yˆ = ˆ β + ˆ + ˆ 1 β Ex β 3Ed = 18.1+.94 *9.417 * 1 = 95.56, så intervallskattningen blir 95.56 ± t (44)* s.5 = ( 37, 153) med sedvanliga formler. 4) V ˆ( e) = s + s 9 * + s 1 * s + + *9* s + *1* s + *9*1* s =983.16 ˆ ˆ ˆ ˆ 1 3 1, ˆ ˆ 1, ˆ ˆ ˆ 3, 3 β β β β β β β β β så intervallskattningen blir 95.56 ± t (44)* s.5 e= ( 3, 159) 5) a) VIF-värdena ligger nära 1, små korr. mellan de ober. var., dock ett icke-sign. t-test, så mc tycks inte vara något problem här. b) Se läroboken! ( RSSU RSS R ) / (3783.5 + 4.1) / 6) H : β 3 = β 4 = prövas med F-test. Obs. F= = =.47 MSEU 77.5 med k.o.:f>f.1 (,4)=5.16, så denna modell är inte bättre än den i uppg.. H : β = β 3 = β 4 = prövas med F-test. ( RSSU RSS R ) / 3 (7.7 + 3783.5 + 4.1) / 3 Obs. F= = = 1.65 med k.o.:f>f.1 (3,4)=4.7, MSEU 77.5 så denna modell är inte bättre än den i uppg. 1. 7) a) Bäst justerad förklaringsgrad 49.5 % för Ex, Ed, NW med bra Cp=3.1. Näst bäst justerad förklaringsgrad 48.4 % för Ex, NW med bra Cp=3.. b) Vanlig stegvis regr. ger också Ex, NW med R (pred)=41.1%. Bakåt stegvis regr. ger samma modell. Denna modell verkar bäst, ty den har störst R (pred). Dock ger modellen Ex, Ed, NW nästan samma R (pred)=4.71% Vi såg också från bilaga 9 att Ed var klart icke-signifikant, så det är rimligt. 8) Se läroboken!