Skrivning i ekonometri lördagen den 29 mars 2008

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan per år= w-hours (för ett slumpmässigt urval av 338 kvinnor ) förklaras av variationen i kvinnans utbildning = w-educ (i år). Därför bestämdes regressionen av w-hours på w-educ för dessa observationer. En Fitted Line Plot finns i Bilaga, medan den skattade enkla linjära regressionen av w-hours på w-educ finns i Bilaga. plotter för denna regression finns i Bilaga 3 och normal probability plott för de skattade residualerna i Bilaga 4. Ett test för homogena residualvarianser finns i bilaga 5. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionkoefficient!.vi använder nu i stället logaritmerad antal arbetande timmar för gifta kvinnor i Michigan per år (+.5)= lw-hours, som förklaras av variationen i kvinnans utbildning = w-educ. Därför bestämdes regressionen av lw-hours på w-educ för dessa observationer. En Fitted Line Plot finns i Bilaga 6, medan den skattade enkla linjära regressionen av lw-hours på w-educ finns i Bilaga 7. plotter för denna regression finns i Bilaga 8 och normal probability plott för de skattade residualerna i Bilaga 9. Ett test för homogena residualvarianser finns i bilaga. Är detta en bättre modell än modellen i uppgift? 3. Fortsättning av uppgift : För att få en bättre anpassning för regressionen av w-hours på w-educ införs också förklaringsvariablen w-age = kvinnans ålder( i år). Sedan bestämdes regressionen av w-hours på w-educ och w-age för dessa observationer. Den skattade multipla linjära regressionen av w-hours på w-educ och w-age finns i Bilaga. plotter för denna regression finns i Bilaga. a) Pröva på 5%-nivån om denna regression är signifikant bättre än den enkla i uppgift! b) Fås en bättre anpassning än i uppgift?

4. a) Bestäm en 95%-ig intervallprognos för w-hours för en kvinna då w-educ = med modellen i uppgift! b) Bestäm en 95%-ig intervallprognos för w-hours då w-educ = med modellen i uppgift! Beskrivande statistik för w-hours, w-educ och lw-hours finns i bilaga 3. 5. Fortsättning av uppgift 3: För att få en bättre anpassning för regressionen av w-hours på w-educ och w-age införs ytterligare två förklaringsvariabler, nchild--5 = antalet barn mellan och 5 år och nchild-6-3 = antalet barn mellan 6 och 3 år. Resultatet av den multipla regressionen av w-hours på w-educ, w-age, nchild--5 och nchild-6-3 finns i Bilaga 4. Pröva på 5%-nivån om denna modell är överlägsen modellen i uppgift 3! 6.a) Undersök om modellerna i uppgift 3 och 5 uppvisar multikollinjäritet! Då kan man utnyttja information i Bilaga 5, där korrelationer för vissa variabler ges. b) Redogör kortfattat för konsekvensen av eventuell multikollinjäritet i en regressionsmodell! 7. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då w-hours är beroende variabel och w-educ, w-age, n-childs--5 och n-childs-6-3 är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 6. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilkas resultat finns i bilaga 7 och 8! 8. a) Ge en kort beskrivning av simultana ekvationssystem! b) Förklara kortfattat varför OLS är en olämplig metod att skatta simultana ekvationssystem!

Bilaga w-hours = 3, + 7,3 w-educ w-hours 6 5 3 Regression 95% CI 95% PI S 875,54 R-Sq 3,8% R-Sq(adj) 3,8% - - 4 6 8 w-educ 4 6 8 BILAGA Regression Analysis: w-hours versus w-educ The regression equation is w-hours = 3 + 7, w-educ Predictor Coef SE Coef T P Constant 3, 79,67,89,4 w-educ 7,3 6,3,57, S = 875,54 R-Sq = 3,8% R-Sq(adj) = 3,8% PRESS = 594436 R-Sq(pred) = 3,7% Analysis of Variance Source DF SS MS F P Regression 684 684 33,95, Error 338 59858 766573 Lack of Fit 5 4479584 6397,4,6 Pure Error 3365 566538674 7676 Total 338 69369838 Durbin-Watson statistic =,966

Lack of fit test Possible curvature in variable w-educ (P-Value =,79 ) Overall lack of fit test is significant at P =,79 Bilaga 3 Normal Probability Plot of the s s Versus the Fitted Values 99,99 99 Percent 9 5, - - 5 Fitted Value 5 Histogram of the s s Versus the Order of the Data Frequency 6 45 3 5-8 8 6 4 3 48 5 5 5 Observation Order 3 99,99 99 95 Bilaga 4 Normal Mean 5,7964E- StDev 875,4 N 338 AD 3,37 P-Value <,5 Percent 8 5 5, - -3 - - RESI 3 5

Bilaga 5 Bartlett's Test (normal distribution) Test statistic = 5,5; p-value =,43 Levene's Test (any continuous distribution) Test statistic = 5,76; p-value =, 5 Bilaga 6 lw-hours =,4 +,357 w-educ Regression 95% CI 95% PI S 3,44459 R-Sq 4,7% R-Sq(adj) 4,6% lw-hours 5-5 4 6 8 w-educ 4 6 8 BILAGA 7 Regression Analysis: lw-hours versus w-educ The regression equation is lw-hours =, +,36 w-educ Predictor Coef SE Coef T P Constant,35,334 3,55, w-educ,3574,45,88, S = 3,44459 R-Sq = 4,7% R-Sq(adj) = 4,6% PRESS = 45,4 R-Sq(pred) = 4,56% Analysis of Variance

Source DF SS MS F P Regression 967,5 967,5 65,8, Error 338 44,4,9 Lack of Fit 5 4,6 8,,38, Pure Error 3365 3968,7,8 Total 338 47,9 Durbin-Watson statistic =,94638 No evidence of lack of fit (P >=,). Bilaga 8 Normal Probability Plot of the s s Versus the Fitted Values 99,99 8 Percent 99 9 5 4-4, - -5 5-8 4 Fitted Value 6 Histogram of the s s Versus the Order of the Data 8 Frequency 4 3 4-4 -6-4 - 4 6-8 5 5 5 Observation Order 3

99,99 99 95 Bilaga 9 Normal Mean,56998E-4 StDev 3,444 N 338 AD 343,43 P-Value <,5 Percent 8 5 5, - -5 RESI 5 5 Bilaga Bartlett's Test (normal distribution) Test statistic = 69,; p-value =, Levene's Test (any continuous distribution) Test statistic = 8,4; p-value =, BILAGA Regression Analysis: w-hours versus w-educ; w-age The regression equation is w-hours = 665 + 64,4 w-educ - 9,6 w-age Predictor Coef SE Coef T P VIF Constant 664,6,5 6,55, w-educ 64,365 6,94,3,, w-age -9,58,339-6,84,, S = 869,676 R-Sq = 5,% R-Sq(adj) = 5,% PRESS = 563844 R-Sq(pred) = 4,96%

Analysis of Variance Source DF SS MS F P Regression 383777 698538 9,5, Error 3379 5556635 756337 Lack of Fit 488 4535498 98536,8, Pure Error 89 53587 7769 Total 338 69369838 rows with no replicates Durbin-Watson statistic =,9658 Lack of fit test Possible curvature in variable w-age (P-Value =, ) Possible interaction in variable w-age (P-Value =,36 ) Overall lack of fit test is significant at P =, Bilaga Normal Probability Plot of the s s Versus the Fitted Values 99,99 99 Percent 9 5, - - 4 8 Fitted Value 6 Frequency 48 36 4 Histogram of the s s Versus the Order of the Data - 3 5 5 5 Observation Order 3 BILAGA 3 Descriptive Statistics: w-hours; w-educ; lw-hours Variable N N* Mean SE Mean StDev w-hours 338 35,5 5,3 89,6 w-educ 338,553,45,46 lw-hours 338 5,77,67 3,576

BILAGA 4 Regression Analysis: w-hours versus w-educ; w-age;... The regression equation is w-hours = 434 + 59,8 w-educ -,5 w-age - 386 nchild--5- - 9 nchild-6-3 Predictor Coef SE Coef T P VIF Constant 434,5 4,4 3,74, w-educ 59,79 5,977,,, w-age -,54,4-5,5,,3 nchild--5- -385,99,63-8,7,, nchild-6-3 -9,5 6,79-6,5,, S = 85, R-Sq = 4,7% R-Sq(adj) = 4,6% PRESS = 35337634 R-Sq(pred) = 4,4% Analysis of Variance Source DF SS MS F P Regression 4 395579 98778948 45,, Error 3377 985859 68658 Lack of Fit 36 976537 74776,7, Pure Error 7 353 638364 Total 338 69369838 696 rows with no replicates Durbin-Watson statistic =,944 Lack of fit test Possible curvature in variable w-age (P-Value =, ) Possible interaction in variable w-age (P-Value =,96 ) Possible interaction in variable nchild- (P-Value =, ) Overall lack of fit test is significant at P =, BILAGA 5 Correlations: w-hours; w-age; w-educ; nchild--5-; nchild-6-3 w-hours w-age w-educ nchild--5 w-age -,48 w-educ,95 -,8 nchild--5- -,4 -,48,5 nchild-6-3 -,69 -,3 -,8 -,4 Cell Contents: Pearson correlation

BILAGA 6 Best Subsets Regression: w-hours versus w-age; w-educ;... Response is w-hours n n c c h h i i l l w d d w - - - - e 6 a d - - Mallows g u 5 Vars R-Sq R-Sq(adj) C-p S e c - 3 4, 4, 44,4 873,9 X 3,8 3,8 48,6 875,54 X,9,9 48, 84,56 X X 8,4 8,4 48,6 854,47 X X 3 3,6 3,5 45,4 83,6 X X X 3,, 3, 837,3 X X X 4 4,7 4,6 5, 85, X X X X BILAGA 7 Stepwise Regression: w-hours versus w-age; w-educ;... Alpha-to-Enter:,5 Alpha-to-Remove:,5 Response is w-hours on 4 predictors, with N = 338 Step 3 4 Constant 57 64 3 434 nchild--5- -39-383 -377-386 T-Value -,3-8,3-8, -8,7 P-Value,,,, w-age -,6 -, -,5 T-Value -6,4-4,4-5,5 P-Value,,, w-educ 6, 59,8 T-Value,8, P-Value,,

nchild-6-3 -9 T-Value -6,5 P-Value, S 874 843 83 85 R-Sq 4,7,95 3,6 4,67 R-Sq(adj) 4,4,9 3,5 4,57 Mallows C-p 44,4 48, 45,4 5, PRESS 584597 4949 338437 35337634 R-Sq(pred) 4,6,79 3,4 4,4

BILAGA 8 Stepwise Regression: w-hours versus w-age; w-educ;... Backward elimination. Alpha-to-Remove:, Response is w-hours on 4 predictors, with N = 338 Step Constant 434 w-age -,5 T-Value -5,5 P-Value, w-educ 59,8 T-Value, P-Value, nchild--5- -386 T-Value -8,7 P-Value, nchild-6-3 -9 T-Value -6,5 P-Value, S 85 R-Sq 4,67 R-Sq(adj) 4,57 Mallows C-p 5, PRESS 35337634 R-Sq(pred) 4,4

Lösning till skrivning i ekonometri lördagen den 9 mars 8: ) a) Plotten ser linjär ut med några outliers. Regressionen är signifikant (P=.), med litet R =3.8 % och R (pred)=3.7 %! Dåligt P-värde i första linjaritetstestet, P=.6, medan det andra är också dåligt, P=.79. Autokorrelation är inte att vänta, ty tvärsnittsdata. en verkar inte vara nf (P<.5). Tydlig heteroskedasticitet syns från plott, också från test med P=.43 respektive P=., dessutom några outliers. Observera här att alla test är tvivelaktiga då n är så stort, vilket ger testen för stor styrka! b) βˆ =7.3 tolkas som medelökning i antal arbetande gifta kvinnor då utbildningen ökar med ett år. Interceptet, 3, går inte att tolka och är en extrapolation. ) Plotten ser även här linjär ut med färre outliers. Regressionen är signifikant (P=.), med litet R =4.7 % och R (pred)=4.56 %! Dåligt P-värde i första linjaritetstestet, P=., medan det andra är bra, P>=.. Autokorrelation är inte att vänta, ty tvärsnittsdata. en verkar inte vara nf (P<.5). Heteroskedasticitet är här mindre tydlig från plott, men test med P=. respektive P=. påvisar detta tydligt. Observera här att alla test är tvivelaktiga då n är så stort, vilket ger testen för stor styrka! 3. a) Ja, ty P=. i t-testet för w-age! b) Obetydlig ökning i R och R (pred), och inte bättre resultat i test och residualplottar, så nej! 4. a) y ˆ = 3. + 7.3 * = 95. 58 ; s = s e ( x x) (.553) + + = 875.54 + + n ( n ) s 338 338*.46 x = 875.678 ; t.5 (338)=.96. Så PI=(95.58-76.33, 95.58+76.33) = (-6.75, 8.9) ( 6,8) b) l yˆ =.35 +.3574 * = 4. 938; s = s e ( x x) (.553) + + = 3.44459 + + n ( n ) s 338 338*.46 x Så PI=(4.94-6.754, 4.58+76.33) = (-.85,.6548). Så PI för y=(., 54.9) (,54). = 3.445; t.5 (338)=.96. ΔRSS / (395579 383777) / 5) H : β 4 = β 5 = prövas med F = = = 88. 8. Eftersom MSE U 68658 k.v.=f 5 (,338)=3.-3.7, så förkastas H, så denna modell är den i uppgift 3! Vi ser också en rätt betydlig ökning i R och justerat R mellan modellerna i uppgift 3 och 5, så resultatet är knappast överaskande.

6) a) I uppgift är VIF=., båda t-testen är sign. och korr. mellan de ober. var. är liten. Så här har vi ingen mc.. I uppgift 5 är max VIF=.3, medan alla t-testen är sign. och korr. mellan de 3 ober. var. är små. Så här har vi också ingen mc. b) Se läroboken! 7) a) Störst justerad förklaringsgrad=4.6 fås för modellen med alla 4 ober. var., som också har ett bra Cp-värde=5., så denna modell verkar bäst. Denna modell har också högst R (pred)=4.4 %. b) Både vanlig och bakåt stegvis regression ger samma modell som a). Detta är konsistent med resultatet i bilaga 4, där alla de 4 ober. var. var sign.. 8) Se läroboken!