Skrivning i ekonometri torsdagen den 8 februari 2007

Relevanta dokument
Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 15 januari 2005

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Skrivning i ekonometri lördagen den 25 augusti 2007

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

Metod och teori. Statistik för naturvetare Umeå universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Exempel 1 på multipelregression

10.1 Enkel linjär regression

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Regressions- och Tidsserieanalys - F5

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I STATISTIK B,

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Följande resultat erhålls (enhet: 1000psi):

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Exempel 1 på multipelregression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

8.1 General factorial experiments

Regressions- och Tidsserieanalys - F3

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

7.5 Experiment with a single factor having more than two levels

Regressions- och Tidsserieanalys - F3

Tentamen Tillämpad statistik A5 (15hp)

F7 Polynomregression och Dummyvariabler

Tentamen i matematisk statistik

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen i matematisk statistik

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Föreläsning 4. Kap 5,1-5,3

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Räkneövning 3 Variansanalys

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Examinationsuppgifter del 2

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Statistik för teknologer, 5 poäng Skrivtid:

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Tentamen i matematisk statistik

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Tentamen i matematisk statistik

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

tentaplugg.nu av studenter för studenter

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Tentamen Tillämpad statistik A5 (15hp)

tentaplugg.nu av studenter för studenter

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Multipel Regressionsmodellen

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning G60 Statistiska metoder

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Lösningar till SPSS-övning: Analytisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Tentamen i Matematisk statistik Kurskod S0001M

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

7.5 Experiment with a single factor having more than two levels

Laboration 2 multipel linjär regression

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Tentamen Tillämpad statistik A5 (15hp)

Höftledsdysplasi hos dansk-svensk gårdshund

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

F11. Kvantitativa prognostekniker

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Transkript:

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro) förklaras av variationen i utbildning = EDUC (mätt på en -gradig skala). Därför bestämdes regressionen av WAGE på EDUC för dessa löntagare. En Fitted Line Plot finns i Bilaga, medan den skattade enkla linjära regressionen av WAGE på EDUC finns i Bilaga 2. plotter för denna regression finns i Bilaga 3, ett ANOVA-test för samma varianser finns i bilaga 3. och normal probability plott för de skattade residualerna i Bilaga 4. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionkoefficient! 2. Fortsättning av uppgift : Vi vill nu försöka att förklara variationen i logaritmerad lön = LNWAGE med hjälp av EDUC. En Fitted Line Plot finns i Bilaga, medan den enkla regressionen av LNWAGE på EDUC finns i Bilaga, residualplotter för denna regression finns i Bilaga 7, ett ANOVA-test för samma varianser finns i bilaga 7. och normal probability plott för de skattade residualerna i Bilaga 8. Fås en bättre anpassning än i uppgift? 3. Fortsättning av uppgift 2: För att få en bättre anpassning för regressionen av LNWAGE på EDUC införs ytterligare två förklaringsvariabler, nämligen arbetslivserfarenhet = EXPER (i år) och kvadrerad EXPER = EXPERSQ. Resultatet av den multipla regressionen av LNWAGE på EDUC, EXPER och EXPERSQ finns i Bilaga 9. a) Pröva på %-nivån om denna modell är överlägsen den enkla modellen i uppgift 2! b) Är tecknen på de skattade regressionskoefficienterna som förväntat? 4.a) Undersök om modellerna i uppgifterna 2 och 3 uppvisar multikollinjäritet! Korrelationsmatrisen för WAGE, LNWAGE, EDUC, EXPER och EXPERSQ finns i Bilaga. b) Redogör kortfattat för konsekvenserna av eventuell multikollinjäritet!

. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då LNWAGE är beroende variabel och EDUC, EXPER och EXPERSQ är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilkas resultat finns i bilaga 2 och 3! 6. Fortsättning av uppgift 3: För att undersöka om lönen påverkas av löntagarens kön bestäms regressionen av LNWAGE på EDUC, EXPER, EXPERSQ, MALE (en dummyvariabel, som antar värdet om löntagaren är man och annars), MALE*EDU (produkten av EDUC och MALE), ), MALE*EXP (produkten av EXPER och MALE) och MALE*EXPSQ (produkten av EXPERSQ och MALE). Resultaten finns i bilaga 4. Använd α = %. a) Är regressionskoefficienterna samma för de två könen? b) Är regressionen densamma för de två könen? 7. Redogör kortfattat för den enkla linjära modellen genom origo! Ange speciellt, hur parametrarna i denna modell skattas samt för- och nackdelar med denna modell! 8.a) Redogör kortfattat för problemen med OLS vid autokorrelation! b) Redogör kortfattat för man kan korrigera för autokorrelation vid skattning av en regressionsmodell!

BILAGA WAGE =,66 +,46 EDUC 2 2 Regression 9% CI 9% PI S 3,34766 R-Sq 23,6% R-Sq(adj) 23,3% WAGE 2 3 EDUC 4 BILAGA 2 Regression Analysis: WAGE versus EDUC The regression equation is WAGE =,66 +,46 EDUC Predictor Coef SE Coef T P Constant,696,6646 8,2, EDUC,463,86 7,83, S = 3,34766 R-Sq = 23,6% R-Sq(adj) = 23,3% PRESS = 2263,3 R-Sq(pred) = 22,% Analysis of Variance Source DF SS MS F P Regression 687,3 687,3 6,3, Error 98 228,9,2 Lack of Fit 3 2,26 8,42,7,24 Pure Error 9 293,69,2 Total 99 296,8

Unusual Observations Obs EDUC WAGE Fit SE Fit St Resid 23 3, 7,9,4,24 6,979 2,9R 36, 2,64 2,96,39 7,63 2,29R 4, 22,36 2,96,39 9,7 2,88R 44 3, 2,27,4,24,87 3,32R 9, 4,883 2,96,39-8,78-2,43R 3, 8,78,4,24 8,739 2,62R 27, 9,79 2,96,39 6,78 2,3R 2, 6,3 2,96,39-6,88-2,6R 7 3, 6,92,4,24 6,86 2,6R R denotes an observation with a large standardized residual. Durbin-Watson statistic = 2,499 Possible lack of fit at outer X-values (P-Value =,44) Overall lack of fit test is significant at P =,44 BILAGA 3 99,9 99 Normal Probability Plot of the s s Versus the Fitted Values Percent 9, - - - - 8 Fitted Value 2 Histogram of the s s Versus the Order of the Data 24 Frequency 8 2 6 - -6-3 3 6 9-2 4 6 8 2 4 Observation Order 6 8 2

BILAGA 3. Test for Equal Variances: WAGE versus EDUC 9% Bonferroni confidence intervals for standard deviations EDUC N Lower StDev Upper 8,3794,9872 3,43268 2 38,84376 2,436 3,394 3 2,829 3,4468 4,737 4 46 2,4648 3,683 4,7479 47 3,47 4,3296,8638 Bartlett's Test (normal distribution) Test statistic = 2,27; p-value =, Levene's Test (any continuous distribution) Test statistic =,; p-value =, BILAGA 4 Normal Percent 99,9 99 9 9 8 7 6 4 3 2 Mean 7,447376E- StDev 3,339 N 2 AD,6 P-Value,4, - - RESI

BILAGA LNWAGE =,82 +,39 EDUC 3, Regression 9% CI 9% PI LNWAGE 2, 2, S,32834 R-Sq 23,3% R-Sq(adj) 22,9%, 2 3 EDUC 4 BILAGA 6 Regression Analysis: LNWAGE versus EDUC The regression equation is LNWAGE =,83 +,39 EDUC Predictor Coef SE Coef T P Constant,82,6389 28,6, EDUC,392,793 7,7, S =,32834 R-Sq = 23,3% R-Sq(adj) = 22,9% PRESS = 2,9299 R-Sq(pred) = 2,72% Analysis of Variance Source DF SS MS F P Regression 6,2276 6,2276 6,3, Error 98 2,83,36 Lack of Fit 3,328,86,,372 Pure Error 9 2,82,3 Total 99 26,739 Unusual Observations Obs EDUC LNWAGE Fit SE Fit St Resid 44 3, 3,6 2,242,23,88 2,2R

3 4,,7288 2,38,27 -,623-2,3R 79,,866 2,2,376 -,663-2,8R 9,,87 2,2,376 -,9344-2,92R 96,,8799 2,2,376 -,643-2,R 3, 2,9328 2,242,23,697 2,R 2,,296 2,3,33 -,82-2,4R 2,,889 2,2,376 -,73-2,23R 9,,8466 2,2,376 -,673-2,R R denotes an observation with a large standardized residual. Durbin-Watson statistic = 2,636 No evidence of lack of fit (P >=,). BILAGA 7 Normal Probability Plot of the s s Versus the Fitted Values Percent 99,9 99 9,,, -,, -, -,,,, -, 2, 2,2 Fitted Value 2,4 2,6 3 Histogram of the s, s Versus the Order of the Data Frequency 2,, -, -,9 -,6 -,3,,3,6 -, 2 4 6 8 2 4 Observation Order 6 8 2 BILAGA 7. Test for Equal Variances: LNWAGE versus EDUC 9% Bonferroni confidence intervals for standard deviations EDUC N Lower StDev Upper 8,924,2772,47884 2 38,238438,3844,43883 3,263736,33238,444446 4 46,22663,282646,3844

47,2887,366447,496663 Bartlett's Test (normal distribution) Test statistic = 3,92; p-value =,46 Levene's Test (any continuous distribution) Test statistic =,; p-value =,44 BILAGA 8 Normal Percent 99,9 99 9 9 8 7 6 4 3 2 Mean 3,3273E- StDev,32 N 2 AD,973 P-Value,4, -, -,, RESI2,, BILAGA 9 Regression Analysis: LNWAGE versus EDUC; EXPER; EXPERSQ The regression equation is LNWAGE =,24 +,86 EDUC +,43 EXPER -,628 EXPERSQ Predictor Coef SE Coef T P VIF Constant,23624,828,4, EDUC,884,63,2,,2 EXPER,4348,6382 6,32, 2,6 EXPERSQ -,6284,62-3,87, 2,7 S =,26766 R-Sq = 47,% R-Sq(adj) = 46,7%

PRESS = 4,642 R-Sq(pred) = 4,22% Analysis of Variance Source DF SS MS F P Regression 3 2,694 4,233 9,6, Error 96 4,49,76 Lack of Fit 6 8,22,737,7,369 Pure Error 8,4897,686 Total 99 26,739 68 rows with no replicates Source DF Seq SS EDUC 6,2276 EXPER,3948 EXPERSQ,76 Durbin-Watson statistic = 2,34 Lack of fit test Possible curvature in variable EXPER (P-Value =,37 ) Overall lack of fit test is significant at P =,37 BILAGA Correlations: WAGE; LNWAGE; EDUC; EXPER; EXPERSQ WAGE LNWAGE EDUC EXPER LNWAGE,978 EDUC,486,483 EXPER,229,236 -,374 EXPERSQ,3,6 -,38,99 BILAGA Best Subsets Regression: LNWAGE versus EDUC; EXPER; EXPERSQ Response is LNWAGE E X E P E X E D P R Mallows U E S Vars R-Sq R-Sq(adj) C-p S C R Q 23,3 22,9 9,3,3283 X,6, 6,3,37 X 2 43, 42,9 7,,27698 X X 2 36,8 36, 42,,29294 X X 3 47, 46,7 4,,26766 X X X

BILAGA 2 Stepwise Regression: LNWAGE versus EDUC; EXPER; EXPERSQ Alpha-to-Enter:, Alpha-to-Remove:, Response is LNWAGE on 3 predictors, with N = 2 Step 2 3 Constant,82,367,236 EDUC,39,9,86 T-Value 7,7,49,2 P-Value,,, EXPER,68,43 T-Value 8,39 6,32 P-Value,, EXPERSQ -,63 T-Value -3,87 P-Value, S,322,277,268 R-Sq 23,29 43,47 47,48 R-Sq(adj) 22,9 42,9 46,68 Mallows C-p 9,3 7, 4, PRESS 2,9299,87 4,642 R-Sq(pred) 2,72 4,7 4,22 BILAGA 3 Backward elimination. Alpha-to-Remove:, Response is LNWAGE on 3 predictors, with N = 2 Step Constant,236 EDUC,86 T-Value,2 P-Value, EXPER,43 T-Value 6,32 P-Value, EXPERSQ -,63 T-Value -3,87 P-Value,

S,268 R-Sq 47,48 R-Sq(adj) 46,68 Mallows C-p 4, PRESS 4,642 R-Sq(pred) 4,22 BILAGA 4 Regression Analysis: LNWAGE versus EDUC; EXPER;... The regression equation is LNWAGE =,2 +,8 EDUC +,327 EXPER -,432 EXPERSQ +,9 MALE +, MALE*EDU +,94 MALE*EXP -,236 MALE*EXPSQ Predictor Coef SE Coef T P VIF Constant,283,39 8,69, EDUC,846,2872 6,46, 3,8 EXPER,3272, 3,24, 32, EXPERSQ -,439,26 -,6, 33,7 MALE,92,79,,9 9,2 MALE*EDU,4,3464,32,748,7 MALE*EXP,94,296,73,469 6, MALE*EXPSQ -,238,332 -,7,478 4, S =,26367 R-Sq =,% R-Sq(adj) = 48,3% PRESS = 4,4869 R-Sq(pred) = 4,8% Analysis of Variance Source DF SS MS F P Regression 7 3,3872,92 27,, Error 92 3,3487,69 Lack of Fit 44,732,74,37,6 Pure Error 48 2,662,4 Total 99 26,739 2 rows with no replicates Source DF Seq SS EDUC 6,2276 EXPER,3948 EXPERSQ,76 MALE,646 MALE*EDU,2 MALE*EXP,8 MALE*EXPSQ,3 Durbin-Watson statistic = 2,3766 No evidence of lack of fit (P >=,).

Lösning till skrivning i ekonometri torsdagen den 8 februari 27: ) a) Plotten ser linjär ut. Regressionen är klart signifikant (P=.) med måttligt R 2 =23.6 % och R 2 (pred)=22. %! Bra P-värde i första linjaritetstestet, P=.24, men mindre bra i det andra, P=.44. Ingen autokorrelation, ty tvärsnittsdata. Hyfsad nf residual (P=.4). Heteroskedasticitet syns från plott och framgår klart också av ANOVA-testet med P=. respektive P=.. Några outliers, som väntat för denna typ av data och stickprovsstorlek. b) Regr.-koeff. är.46, dvs..46 är genomsnittlig ökning i timlön vid ytterligare enhets ökning i utbildningsskalan. Interceptet är.66, dvs. om utbildningen är på nivå, så är genomsnittlig timlön.66. Eftersom detta är en extrapolation, så är interceptet inte tolkbart här. 2) Plotten ser också här linjär ut. Regressionen är klart signifikant (P=.) med måttligt R 2 =23.3 % och R 2 (pred)=2.72 %! Bra P-värden i båda linjaritetstesten, P=.372 respektive P >.. Ingen autokorrelation, ty tvärsnittsdata. Inte så bra nf residual (P=.4). Heteroskedasticitet syns nu inte från plott och det framgår också av ANOVA-testet att detta här inte är något problem, ty P=.46 respektive P=.44. Också nu några outliers, som väntat för denna typ av data och stickprovsstorlek. Δ RSS / 2 (.3948 +.76) / 2 3) a ) H : β 3 =β 4 = prövas med F= = = 4.6 med MSEU.76 k.v.=f (2,96)=4.6-4.79, så H förkastas, så denna modell är överlägsen den enkla, som väntat! Vi ser också en rätt stor ökning i R 2 och R 2 (pred), så resultatet är knappast överaskande. b) Vi kan förvänta oss att β 2 och β 3 är större än noll, medan β 4 förväntas vara negativ. Skattningarna ger de förväntade resultaten. 4) a) Två stycken VIF är större än (2.6 resp. 2.7). Korrelationen mellan EXPER och EXPERSQ är hög,.99. Dock saknas icke-signifikanta t-test. Så mc finns i viss grad. b) Se läroboken! ) a) Bäst justerad förklaringsgrad 46.7 % för alla tre ober. var. med bra Cp=4.. b) Egentlig stegvis regr. och bakåt stegvis reg. ger samma modell med störst R 2 (pred)=4.22. Vi såg i bilaga 9 att alla 3 ober. var. var klart sign., så det är ingen överraskning att dessa variabler är med!

Δ RSS / 3 (.2 +.8 +.3) / 3 7) a) H : β 6 =β 7 =β 8 = prövas med F= = =.23 < med MSEU.69 k.v.=f (3,92)=3.78-3.9, så regr.-koeff. kan inte påvisas vara olika. b) H : β =β 6 =β 7 =β 8 = prövas med Δ RSS / 4 (.46+.2 +.8 +.3) / 4 F= = = 2.49 MSEU.69 med k.v.=f (4,92)=3.32-3.48, så regressionen kan inte påvisas vara olika. Alternativt skulle man kunna pröva: H : β = givet att β 6 =β 7 =β 8 = med ΔRSS /.646/ F = = = 9.4 med k.v.=f (,9)=6.63-6.8, MSE U 3.3487 +.2 +.8 +.3 92 + + + så regressionen kan påvisas vara olika. 7) Se läroboken! 8) Se läroboken!