Skrivning i ekonometri lördagen den 29 mars 2008

Relevanta dokument
Skrivning i ekonometri torsdagen den 8 februari 2007

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri lördagen den 25 augusti 2007

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F7

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Exempel 1 på multipelregression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

10.1 Enkel linjär regression

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

TENTAMEN I STATISTIK B,

Metod och teori. Statistik för naturvetare Umeå universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F5

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Föreläsning 4. Kap 5,1-5,3

TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F3

Exempel 1 på multipelregression

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Tentamen i matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

8.1 General factorial experiments

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F3

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F3

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen Tillämpad statistik A5 (15hp)

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

F7 Polynomregression och Dummyvariabler

Följande resultat erhålls (enhet: 1000psi):

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Examinationsuppgifter del 2

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F1

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

tentaplugg.nu av studenter för studenter

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Regressions- och Tidsserieanalys - F1

7.5 Experiment with a single factor having more than two levels

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Tentamen i matematisk statistik

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Räkneövning 3 Variansanalys

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen i matematisk statistik

Statistik för teknologer, 5 poäng Skrivtid:

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Multipel Regressionsmodellen

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Lösningar till SPSS-övning: Analytisk statistik

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Kvadratisk regression, forts.

tentaplugg.nu av studenter för studenter

Tentamen Tillämpad statistik A5 (15hp)

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Läs noggrant informationen nedan innan du börjar skriva tentamen

Föreläsning G60 Statistiska metoder

Laboration 2 multipel linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Transkript:

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan per år= w-hours (för ett slumpmässigt urval av 338 kvinnor ) förklaras av variationen i kvinnans utbildning = w-educ (i år). Därför bestämdes regressionen av w-hours på w-educ för dessa observationer. En Fitted Line Plot finns i Bilaga, medan den skattade enkla linjära regressionen av w-hours på w-educ finns i Bilaga. plotter för denna regression finns i Bilaga 3 och normal probability plott för de skattade residualerna i Bilaga 4. Ett test för homogena residualvarianser finns i bilaga 5. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionkoefficient!.vi använder nu i stället logaritmerad antal arbetande timmar för gifta kvinnor i Michigan per år (+.5)= lw-hours, som förklaras av variationen i kvinnans utbildning = w-educ. Därför bestämdes regressionen av lw-hours på w-educ för dessa observationer. En Fitted Line Plot finns i Bilaga 6, medan den skattade enkla linjära regressionen av lw-hours på w-educ finns i Bilaga 7. plotter för denna regression finns i Bilaga 8 och normal probability plott för de skattade residualerna i Bilaga 9. Ett test för homogena residualvarianser finns i bilaga. Är detta en bättre modell än modellen i uppgift? 3. Fortsättning av uppgift : För att få en bättre anpassning för regressionen av w-hours på w-educ införs också förklaringsvariablen w-age = kvinnans ålder( i år). Sedan bestämdes regressionen av w-hours på w-educ och w-age för dessa observationer. Den skattade multipla linjära regressionen av w-hours på w-educ och w-age finns i Bilaga. plotter för denna regression finns i Bilaga. a) Pröva på 5%-nivån om denna regression är signifikant bättre än den enkla i uppgift! b) Fås en bättre anpassning än i uppgift?

4. a) Bestäm en 95%-ig intervallprognos för w-hours för en kvinna då w-educ = med modellen i uppgift! b) Bestäm en 95%-ig intervallprognos för w-hours då w-educ = med modellen i uppgift! Beskrivande statistik för w-hours, w-educ och lw-hours finns i bilaga 3. 5. Fortsättning av uppgift 3: För att få en bättre anpassning för regressionen av w-hours på w-educ och w-age införs ytterligare två förklaringsvariabler, nchild--5 = antalet barn mellan och 5 år och nchild-6-3 = antalet barn mellan 6 och 3 år. Resultatet av den multipla regressionen av w-hours på w-educ, w-age, nchild--5 och nchild-6-3 finns i Bilaga 4. Pröva på 5%-nivån om denna modell är överlägsen modellen i uppgift 3! 6.a) Undersök om modellerna i uppgift 3 och 5 uppvisar multikollinjäritet! Då kan man utnyttja information i Bilaga 5, där korrelationer för vissa variabler ges. b) Redogör kortfattat för konsekvensen av eventuell multikollinjäritet i en regressionsmodell! 7. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då w-hours är beroende variabel och w-educ, w-age, n-childs--5 och n-childs-6-3 är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 6. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilkas resultat finns i bilaga 7 och 8! 8. a) Ge en kort beskrivning av simultana ekvationssystem! b) Förklara kortfattat varför OLS är en olämplig metod att skatta simultana ekvationssystem!

Bilaga w-hours = 3, + 7,3 w-educ w-hours 6 5 3 Regression 95% CI 95% PI S 875,54 R-Sq 3,8% R-Sq(adj) 3,8% - - 4 6 8 w-educ 4 6 8 BILAGA Regression Analysis: w-hours versus w-educ The regression equation is w-hours = 3 + 7, w-educ Predictor Coef SE Coef T P Constant 3, 79,67,89,4 w-educ 7,3 6,3,57, S = 875,54 R-Sq = 3,8% R-Sq(adj) = 3,8% PRESS = 594436 R-Sq(pred) = 3,7% Analysis of Variance Source DF SS MS F P Regression 684 684 33,95, Error 338 59858 766573 Lack of Fit 5 4479584 6397,4,6 Pure Error 3365 566538674 7676 Total 338 69369838 Durbin-Watson statistic =,966

Lack of fit test Possible curvature in variable w-educ (P-Value =,79 ) Overall lack of fit test is significant at P =,79 Bilaga 3 Normal Probability Plot of the s s Versus the Fitted Values 99,99 99 Percent 9 5, - - 5 Fitted Value 5 Histogram of the s s Versus the Order of the Data Frequency 6 45 3 5-8 8 6 4 3 48 5 5 5 Observation Order 3 99,99 99 95 Bilaga 4 Normal Mean 5,7964E- StDev 875,4 N 338 AD 3,37 P-Value <,5 Percent 8 5 5, - -3 - - RESI 3 5

Bilaga 5 Bartlett's Test (normal distribution) Test statistic = 5,5; p-value =,43 Levene's Test (any continuous distribution) Test statistic = 5,76; p-value =, 5 Bilaga 6 lw-hours =,4 +,357 w-educ Regression 95% CI 95% PI S 3,44459 R-Sq 4,7% R-Sq(adj) 4,6% lw-hours 5-5 4 6 8 w-educ 4 6 8 BILAGA 7 Regression Analysis: lw-hours versus w-educ The regression equation is lw-hours =, +,36 w-educ Predictor Coef SE Coef T P Constant,35,334 3,55, w-educ,3574,45,88, S = 3,44459 R-Sq = 4,7% R-Sq(adj) = 4,6% PRESS = 45,4 R-Sq(pred) = 4,56% Analysis of Variance

Source DF SS MS F P Regression 967,5 967,5 65,8, Error 338 44,4,9 Lack of Fit 5 4,6 8,,38, Pure Error 3365 3968,7,8 Total 338 47,9 Durbin-Watson statistic =,94638 No evidence of lack of fit (P >=,). Bilaga 8 Normal Probability Plot of the s s Versus the Fitted Values 99,99 8 Percent 99 9 5 4-4, - -5 5-8 4 Fitted Value 6 Histogram of the s s Versus the Order of the Data 8 Frequency 4 3 4-4 -6-4 - 4 6-8 5 5 5 Observation Order 3

99,99 99 95 Bilaga 9 Normal Mean,56998E-4 StDev 3,444 N 338 AD 343,43 P-Value <,5 Percent 8 5 5, - -5 RESI 5 5 Bilaga Bartlett's Test (normal distribution) Test statistic = 69,; p-value =, Levene's Test (any continuous distribution) Test statistic = 8,4; p-value =, BILAGA Regression Analysis: w-hours versus w-educ; w-age The regression equation is w-hours = 665 + 64,4 w-educ - 9,6 w-age Predictor Coef SE Coef T P VIF Constant 664,6,5 6,55, w-educ 64,365 6,94,3,, w-age -9,58,339-6,84,, S = 869,676 R-Sq = 5,% R-Sq(adj) = 5,% PRESS = 563844 R-Sq(pred) = 4,96%

Analysis of Variance Source DF SS MS F P Regression 383777 698538 9,5, Error 3379 5556635 756337 Lack of Fit 488 4535498 98536,8, Pure Error 89 53587 7769 Total 338 69369838 rows with no replicates Durbin-Watson statistic =,9658 Lack of fit test Possible curvature in variable w-age (P-Value =, ) Possible interaction in variable w-age (P-Value =,36 ) Overall lack of fit test is significant at P =, Bilaga Normal Probability Plot of the s s Versus the Fitted Values 99,99 99 Percent 9 5, - - 4 8 Fitted Value 6 Frequency 48 36 4 Histogram of the s s Versus the Order of the Data - 3 5 5 5 Observation Order 3 BILAGA 3 Descriptive Statistics: w-hours; w-educ; lw-hours Variable N N* Mean SE Mean StDev w-hours 338 35,5 5,3 89,6 w-educ 338,553,45,46 lw-hours 338 5,77,67 3,576

BILAGA 4 Regression Analysis: w-hours versus w-educ; w-age;... The regression equation is w-hours = 434 + 59,8 w-educ -,5 w-age - 386 nchild--5- - 9 nchild-6-3 Predictor Coef SE Coef T P VIF Constant 434,5 4,4 3,74, w-educ 59,79 5,977,,, w-age -,54,4-5,5,,3 nchild--5- -385,99,63-8,7,, nchild-6-3 -9,5 6,79-6,5,, S = 85, R-Sq = 4,7% R-Sq(adj) = 4,6% PRESS = 35337634 R-Sq(pred) = 4,4% Analysis of Variance Source DF SS MS F P Regression 4 395579 98778948 45,, Error 3377 985859 68658 Lack of Fit 36 976537 74776,7, Pure Error 7 353 638364 Total 338 69369838 696 rows with no replicates Durbin-Watson statistic =,944 Lack of fit test Possible curvature in variable w-age (P-Value =, ) Possible interaction in variable w-age (P-Value =,96 ) Possible interaction in variable nchild- (P-Value =, ) Overall lack of fit test is significant at P =, BILAGA 5 Correlations: w-hours; w-age; w-educ; nchild--5-; nchild-6-3 w-hours w-age w-educ nchild--5 w-age -,48 w-educ,95 -,8 nchild--5- -,4 -,48,5 nchild-6-3 -,69 -,3 -,8 -,4 Cell Contents: Pearson correlation

BILAGA 6 Best Subsets Regression: w-hours versus w-age; w-educ;... Response is w-hours n n c c h h i i l l w d d w - - - - e 6 a d - - Mallows g u 5 Vars R-Sq R-Sq(adj) C-p S e c - 3 4, 4, 44,4 873,9 X 3,8 3,8 48,6 875,54 X,9,9 48, 84,56 X X 8,4 8,4 48,6 854,47 X X 3 3,6 3,5 45,4 83,6 X X X 3,, 3, 837,3 X X X 4 4,7 4,6 5, 85, X X X X BILAGA 7 Stepwise Regression: w-hours versus w-age; w-educ;... Alpha-to-Enter:,5 Alpha-to-Remove:,5 Response is w-hours on 4 predictors, with N = 338 Step 3 4 Constant 57 64 3 434 nchild--5- -39-383 -377-386 T-Value -,3-8,3-8, -8,7 P-Value,,,, w-age -,6 -, -,5 T-Value -6,4-4,4-5,5 P-Value,,, w-educ 6, 59,8 T-Value,8, P-Value,,

nchild-6-3 -9 T-Value -6,5 P-Value, S 874 843 83 85 R-Sq 4,7,95 3,6 4,67 R-Sq(adj) 4,4,9 3,5 4,57 Mallows C-p 44,4 48, 45,4 5, PRESS 584597 4949 338437 35337634 R-Sq(pred) 4,6,79 3,4 4,4

BILAGA 8 Stepwise Regression: w-hours versus w-age; w-educ;... Backward elimination. Alpha-to-Remove:, Response is w-hours on 4 predictors, with N = 338 Step Constant 434 w-age -,5 T-Value -5,5 P-Value, w-educ 59,8 T-Value, P-Value, nchild--5- -386 T-Value -8,7 P-Value, nchild-6-3 -9 T-Value -6,5 P-Value, S 85 R-Sq 4,67 R-Sq(adj) 4,57 Mallows C-p 5, PRESS 35337634 R-Sq(pred) 4,4

Lösning till skrivning i ekonometri lördagen den 9 mars 8: ) a) Plotten ser linjär ut med några outliers. Regressionen är signifikant (P=.), med litet R =3.8 % och R (pred)=3.7 %! Dåligt P-värde i första linjaritetstestet, P=.6, medan det andra är också dåligt, P=.79. Autokorrelation är inte att vänta, ty tvärsnittsdata. en verkar inte vara nf (P<.5). Tydlig heteroskedasticitet syns från plott, också från test med P=.43 respektive P=., dessutom några outliers. Observera här att alla test är tvivelaktiga då n är så stort, vilket ger testen för stor styrka! b) βˆ =7.3 tolkas som medelökning i antal arbetande gifta kvinnor då utbildningen ökar med ett år. Interceptet, 3, går inte att tolka och är en extrapolation. ) Plotten ser även här linjär ut med färre outliers. Regressionen är signifikant (P=.), med litet R =4.7 % och R (pred)=4.56 %! Dåligt P-värde i första linjaritetstestet, P=., medan det andra är bra, P>=.. Autokorrelation är inte att vänta, ty tvärsnittsdata. en verkar inte vara nf (P<.5). Heteroskedasticitet är här mindre tydlig från plott, men test med P=. respektive P=. påvisar detta tydligt. Observera här att alla test är tvivelaktiga då n är så stort, vilket ger testen för stor styrka! 3. a) Ja, ty P=. i t-testet för w-age! b) Obetydlig ökning i R och R (pred), och inte bättre resultat i test och residualplottar, så nej! 4. a) y ˆ = 3. + 7.3 * = 95. 58 ; s = s e ( x x) (.553) + + = 875.54 + + n ( n ) s 338 338*.46 x = 875.678 ; t.5 (338)=.96. Så PI=(95.58-76.33, 95.58+76.33) = (-6.75, 8.9) ( 6,8) b) l yˆ =.35 +.3574 * = 4. 938; s = s e ( x x) (.553) + + = 3.44459 + + n ( n ) s 338 338*.46 x Så PI=(4.94-6.754, 4.58+76.33) = (-.85,.6548). Så PI för y=(., 54.9) (,54). = 3.445; t.5 (338)=.96. ΔRSS / (395579 383777) / 5) H : β 4 = β 5 = prövas med F = = = 88. 8. Eftersom MSE U 68658 k.v.=f 5 (,338)=3.-3.7, så förkastas H, så denna modell är den i uppgift 3! Vi ser också en rätt betydlig ökning i R och justerat R mellan modellerna i uppgift 3 och 5, så resultatet är knappast överaskande.

6) a) I uppgift är VIF=., båda t-testen är sign. och korr. mellan de ober. var. är liten. Så här har vi ingen mc.. I uppgift 5 är max VIF=.3, medan alla t-testen är sign. och korr. mellan de 3 ober. var. är små. Så här har vi också ingen mc. b) Se läroboken! 7) a) Störst justerad förklaringsgrad=4.6 fås för modellen med alla 4 ober. var., som också har ett bra Cp-värde=5., så denna modell verkar bäst. Denna modell har också högst R (pred)=4.4 %. b) Både vanlig och bakåt stegvis regression ger samma modell som a). Detta är konsistent med resultatet i bilaga 4, där alla de 4 ober. var. var sign.. 8) Se läroboken!