a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Relevanta dokument
Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri lördagen den 29 mars 2008

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Skrivning i ekonometri lördagen den 25 augusti 2007

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Exempel 1 på multipelregression

Exempel 1 på multipelregression

10.1 Enkel linjär regression

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Regressions- och Tidsserieanalys - F5

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

TENTAMEN I STATISTIK B,

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

TENTAMEN I MATEMATISK STATISTIK

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Examinationsuppgifter del 2

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Föreläsning 4. Kap 5,1-5,3

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F1

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Regressions- och Tidsserieanalys - F3

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Tentamen Tillämpad statistik A5 (15hp)

Regressions- och Tidsserieanalys - F3

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

F7 Polynomregression och Dummyvariabler

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

8.1 General factorial experiments

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen i matematisk statistik

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen i matematisk statistik

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

tentaplugg.nu av studenter för studenter

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Föreläsning G60 Statistiska metoder

7.5 Experiment with a single factor having more than two levels

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Tentamen i matematisk statistik

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Följande resultat erhålls (enhet: 1000psi):

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Räkneövning 3 Variansanalys

Statistik för teknologer, 5 poäng Skrivtid:

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Kvadratisk regression, forts.

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

tentaplugg.nu av studenter för studenter

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Multipel Regressionsmodellen

Tentamen i Matematisk statistik Kurskod S0001M

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

Laboration 2 multipel linjär regression

Tentamen Tillämpad statistik A5 (15hp)

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

F11. Kvantitativa prognostekniker

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Transkript:

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal polisanmälda brott per million innevånare), förklaras av variationen i Ex = poliskostnad per kapita år 196. Därför bestämdes regressionen av R på Ex för de 47 delstaterna. En Fitted Line Plot finns i Bilaga 1, medan den skattade enkla linjära regressionen av R på Ex finns i Bilaga. plotter för denna regression finns i Bilaga 3 och normal probability plott för de skattade residualerna i Bilaga 4. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!. Fortsättning av uppgift 1: För att få en bättre anpassning för regressionen av R på Ex införs ytterligare en förklaringsvariabel, Ed =(medelantalet år i utbildning)x1 för personer äldre än 5 år. Resultatet av den multipla regressionen av R på Ex och Ed finns i bilaga 5, med residualplotter i bilaga 6 och med normal probability plott för de skattade residualerna i Bilaga 7. a) Fås en bättre anpassning? b) Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1! c) Är tecknen på regressionskoefficienterna som förväntat? 3. Fortsättning av uppgift : Skatta R med ett approximativt 95%-igt prediktionsintervall då Ex = 9 och Ed = 1! 4. Fortsättning av uppgift 3: Skatta R med ett exakt 95%-igt prediktionsintervall då Ex = 9 och Ed = 1! Ledning: Den skattade kovariansmatrisen för de tre regressionskoefficienterna (i ordning konstant, Ex, Ed)är: 168,96 1,34-16,84 1,34,3 -,3-16,84 -,3,19

5. a) Undersök om modellerna i uppgifterna 1 och uppvisar multikollinjäritet! Korrelationsmatrisen för R, Ex och Ed finns i Bilaga 8. b) Redogör kortfattat för konsekvenserna av eventuell multikollinjäritet! 6. Fortsättning av uppgift : För att få en bättre anpassning för regressionen av R på Ex och Ed införs ytterligare två förklaringsvariabler, NW = andel icke-vita i delstatens befolkning ( i promille)och U1 = andel arbetslöshet för män i åldrarna 14-4 i städer. Resultatet av den multipla regressionen av R på Ex, Ed, NW och U1 finns i bilaga 9. Är tecknen på regressionskoefficienterna som förväntat? Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1 respektive modellen i uppgift! 7. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då R är beroende variabel och Ex, Ed, NW och U1 är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 1. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilkas resultat finns i bilaga 11 och 1! 8. Betrakta den enkla linjära regressionsmodellen: Y = α + β X + u med de sedvanliga antagandena om u t. t t t a) Visa att MK-skattningen av β är ˆ ( X t X)( Yt Y) β = ( X X) b) Hur skattas σ? t! c) Visa att ˆβ är väntevärdesriktig samt bestäm V( ˆβ )!

BILAGA 1 R = 14,4464 +,894848 Ex S = 8,396 R-Sq = 47,3 % R-Sq(adj) = 46,1 % R 1 Regression 95% CI 95% PI 5 1 15 Ex BILAGA Regression Analysis: R versus Ex The regression equation is R = 14,4 +,895 Ex Predictor Coef SE Coef T P Constant 14,45 1,67 1,14,6 Ex,8948,149 6,35, S = 8,39 R-Sq = 47,3% R-Sq(adj) = 46,1% PRESS = 41794,9 R-Sq(pred) = 39,6% Analysis of Variance Source DF SS MS F P Regression 1 3533 3533 4,36, Error 45 3676 86 Lack of Fit 36 3398 94 3,58,4 Pure Error 9 369 63 Total 46 6889 31 rows with no replicates Unusual Observations Obs Ex R Fit SE Fit St Resid 13 163,5 16,6 4,86 56,88,3R 6 16 199,3 157,6 11,35 41,68 1,6 X 9 166 14,3 16,99 1,14-58,69 -,9RX 46 16 5,8 19,3 5,9-58,5 -,9R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic =,1 Possible lack of fit at outer X-values (P-Value =,4) Overall lack of fit test is significant at P =,4 BILAGA 3 Normal Plot of s I Chart of s 5 1 UCL=91,4 Mean=3,7E-14-5 -1 LCL=-91,4 - -1 1 Normal Score 1 3 4 Observation Number 5 Histogram of s s vs. Fits 1 5 Frequency 5-5 -5 5 5 1 Fit 15 BILAGA 4,999,99,95 Probability,8,5,,5,1,1 Average:, StDev: 8,83 N: 47-5 RESI1 5 Anderson-Darling Normality Test A-Squared:,35 P-Value:,454

BILAGA 5 Regression Analysis: R versus Ex; Ed The regression equation is R = 18, +,9 Ex -,4 Ed Predictor Coef SE Coef T P VIF Constant 18,1 41,,44,659 Ex,94,167 5,55, 1,3 Ed -,417,431 -,1,94 1,3 S = 8,71 R-Sq = 47,3% R-Sq(adj) = 44,9% PRESS = 4314,7 R-Sq(pred) = 37,49% Analysis of Variance Source DF SS MS F P Regression 3541 167 19,74, Error 44 3669 84 Total 46 6889 No replicates. Cannot do pure error test. Source DF Seq SS Ex 1 3533 Ed 1 8 Unusual Observations Obs Ex R Fit SE Fit St Resid 13 163,5 16,45 5, 57,5,R 9 166 14,3 163,55 13,56-59,5 -,34RX 46 16 5,8 19,53 5,66-58,73 -,9R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence. Durbin-Watson statistic =,1 No evidence of lack of fit (P >,1)

BILAGA 6 Normal Plot of s I Chart of s 5 1 UCL=91,9 Mean=4,9E-14-5 -1 LCL=-91,9 - -1 1 Normal Score 1 3 4 Observation Number 5 Histogram of s s vs. Fits 1 5 Frequency 5-5 -5 5 5 1 Fit 15 BILAGA 7,999,99,95 Probability,8,5,,5,1,1 Average:, StDev: 8,793 N: 47-5 RESI 5 Anderson-Darling Normality Test A-Squared:,371 P-Value:,49

BILAGA 8 Correlations: R; Ex; Ed R Ex Ex,688 Ed,33,483 Cell Contents: Pearson correlation BILAGA 9 Regression Analysis: R versus Ex; Ed; NW; U1 The regression equation is R = - 8,7 +,845 Ex +,776 Ed +,1 NW +,53 U1 Predictor Coef SE Coef T P VIF Constant -8,68 64,41-1,5,17 Ex,8455,1597 5,9, 1,3 Ed,7757,5569 1,39,171,3 NW,14,555,,3 1,9 U1,58,318,3,81 1, S = 7,79 R-Sq = 5,8% R-Sq(adj) = 48,4% PRESS = 451,1 R-Sq(pred) = 38,89% Analysis of Variance Source DF SS MS F P Regression 4 36364, 991,1 11,77, Error 4 3445, 77,5 Total 46 6889,3 No replicates. Cannot do pure error test. Source DF Seq SS Ex 1 3533, Ed 1 7,7 NW 1 3783,5 U1 1 4,1 Unusual Observations Obs Ex R Fit SE Fit St Resid 9 166 14,3 158,38 13,34-54,8 -,R R denotes an observation with a large standardized residual Lack of fit test Possible interactions with variable Ed (P-Value =,6) Possible curvature in variable NW (P-Value =,9) Overall lack of fit test is significant at P =,6

BILAGA 1 Best Subsets Regression: R versus Ex; Ed; NW; U1 Response is R E x E N U Vars R-Sq R-Sq(adj) C-p S d W 1 1 47,3 46,1 4, 8,393 X 1 1,4 8,4 36,8 37,1 X 5,7 48,4 3, 7,778 X X 47,3 44,9 5,9 8,7 X X 3 5,8 49,5 3,1 7,486 X X X 3 5,7 47, 4,9 8,96 X X X 4 5,8 48,4 5, 7,794 X X X X BILAGA 11 Stepwise Regression: R versus Ex; Ed; NW; U1 Alpha-to-Enter:,15 Alpha-to-Remove:,15 Response is R on 4 predictors, with N = 47 Step 1 Constant 14,446,843 Ex,89,95 T-Value 6,35 6,71 P-Value,, NW,71 T-Value 1,74 P-Value,9 S 8,4 7,8 R-Sq 47,8 5,66 R-Sq(adj) 46,11 48,4 C-p 4, 3, PRESS 41794,9 459,4 R-Sq(pred) 39,6 41,1

BILAGA 1 Stepwise Regression: R versus Ex; Ed; NW; U1 Backward elimination. Alpha-to-Remove:,1 Response is R on 4 predictors, with N = 47 Step 1 3 Constant -8,679-74,11,843 Ex,85,84,95 T-Value 5,9 5,35 6,71 P-Value,,, Ed,78,76 T-Value 1,39 1,39 P-Value,171,171 NW,1,1,71 T-Value,,4 1,74 P-Value,3,3,9 U1,5 T-Value,3 P-Value,81 S 7,8 7,5 7,8 R-Sq 5,85 5,79 5,66 R-Sq(adj) 48,36 49,5 48,4 C-p 5, 3,1 3, PRESS 451,1 4797, 459,4 R-Sq(pred) 38,89 4,71 41,1

Svar till skrivning i ekonometri.den 1 juni 4: 1) a) Regressionen är signifikant (P=.) med måttligt R =47.3%, men lägre R (pred)=39.%. Dåliga P-värden i linjaritetstesten, P=.4 i båda testen. Ingen autokorrelation ty tvärsnittsdata. Bra nf residual (P=.454). plotten indikerar ingen större heteroskedasticitet (bortsett från outliers). ˆ β 1.8948 1 b) t= = =-.75 så H :β=1 kan inte förkastas på någon rimlig nivå. s.149 ˆ β ) a) R samma som i den enkla regressionen men R (pred) minskar. Bra P-värden i linjaritetstestet, P>.1. Bra nf residual (P=.49). plotten indikerar ingen större heteroskedasticitet. b) t=-.1 för Ed med P=.94, så denna modell är ej överlägsen den enkla på 1%-nivån. c) Fel tecken för ˆ β, men rätt tecken för 3 ˆβ. 3) Punktskattningen blir Yˆ = ˆ β + ˆ + ˆ 1 β Ex β 3Ed = 18.1+.94 *9.417 * 1 = 95.56, så intervallskattningen blir 95.56 ± t (44)* s.5 = ( 37, 153) med sedvanliga formler. 4) V ˆ( e) = s + s 9 * + s 1 * s + + *9* s + *1* s + *9*1* s =983.16 ˆ ˆ ˆ ˆ 1 3 1, ˆ ˆ 1, ˆ ˆ ˆ 3, 3 β β β β β β β β β så intervallskattningen blir 95.56 ± t (44)* s.5 e= ( 3, 159) 5) a) VIF-värdena ligger nära 1, små korr. mellan de ober. var., dock ett icke-sign. t-test, så mc tycks inte vara något problem här. b) Se läroboken! ( RSSU RSS R ) / (3783.5 + 4.1) / 6) H : β 3 = β 4 = prövas med F-test. Obs. F= = =.47 MSEU 77.5 med k.o.:f>f.1 (,4)=5.16, så denna modell är inte bättre än den i uppg.. H : β = β 3 = β 4 = prövas med F-test. ( RSSU RSS R ) / 3 (7.7 + 3783.5 + 4.1) / 3 Obs. F= = = 1.65 med k.o.:f>f.1 (3,4)=4.7, MSEU 77.5 så denna modell är inte bättre än den i uppg. 1. 7) a) Bäst justerad förklaringsgrad 49.5 % för Ex, Ed, NW med bra Cp=3.1. Näst bäst justerad förklaringsgrad 48.4 % för Ex, NW med bra Cp=3.. b) Vanlig stegvis regr. ger också Ex, NW med R (pred)=41.1%. Bakåt stegvis regr. ger samma modell. Denna modell verkar bäst, ty den har störst R (pred). Dock ger modellen Ex, Ed, NW nästan samma R (pred)=4.71% Vi såg också från bilaga 9 att Ed var klart icke-signifikant, så det är rimligt. 8) Se läroboken!