LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Relevanta dokument
Skrivning i ekonometri lördagen den 25 augusti 2007

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressions- och Tidsserieanalys - F4

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Exempel 1 på multipelregression

Exempel 1 på multipelregression

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F7

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F5

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Metod och teori. Statistik för naturvetare Umeå universitet

10.1 Enkel linjär regression

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I STATISTIK B,

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Föreläsning 4. Kap 5,1-5,3

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F3

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Examinationsuppgifter del 2

Läs noggrant informationen nedan innan du börjar skriva tentamen

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Regressions- och Tidsserieanalys - F1

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

tentaplugg.nu av studenter för studenter

Tentamen i matematisk statistik

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F7 Polynomregression och Dummyvariabler

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Regressions- och Tidsserieanalys - F1

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

8.1 General factorial experiments

Läs noggrant informationen nedan innan du börjar skriva tentamen

Laboration 2 multipel linjär regression

Tentamen Tillämpad statistik A5 (15hp)

Följande resultat erhålls (enhet: 1000psi):

Regressions- och Tidsserieanalys - F3

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Prediktion av huspriser i Falun

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Statistik för teknologer, 5 poäng Skrivtid:

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen Tillämpad statistik A5 (15hp)

Regressions- och Tidsserieanalys - F3

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i Matematisk statistik Kurskod S0001M

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Föreläsning G60 Statistiska metoder

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Räkneövning 3 Variansanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Statistisk undersökningsmetodik (Pol. kand.)

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i matematisk statistik

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Tentamen i matematisk statistik

tentaplugg.nu av studenter för studenter

Tentamen Tillämpad statistik A5 (15hp)

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

7.5 Experiment with a single factor having more than two levels

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Tentamen i matematisk statistik

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

7.5 Experiment with a single factor having more than two levels

Tentamen i Matematisk statistik Kurskod S0001M

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift a b c d e f (vet ej) Poäng

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

LABORATION 3 - Regressionsanalys

2.1 Minitab-introduktion

Lösningar till SPSS-övning: Analytisk statistik

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Transkript:

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB2 Skrivning i ekonometri onsdagen den 1 juni 211 1. Vi vill undersöka hur variationen i försäljningspriset för ett hus (i en liten stad i USA och i amerikanska dollar) = price förklaras av variationen i sqrft = storleken av huset (i kvadratfot). Därför bestämdes regressionen av price på sqrft för dessa hus. En Fitted Line Plot finns i Bilaga 1, medan den skattade enkla linjära regressionen av price på sqrft finns i Bilaga 2. plotter för denna regression finns i Bilaga 3. a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Tolka intercept och regressionskoefficient i denna regression! 2. Fortsättning av uppgift 1: För att få en bättre anpassning för regressionen av price på sqrft införs ytterligare en förklaringsvariabel, lotsize = tomtstorlek ( i kvadratfot). Resultatet av den multipla regressionen av price på sqrft och lotsize finns i bilaga 4 och med residualplotter i bilaga 5. Fås en bättre anpassning? Pröva på 1%-nivån om denna modell är överlägsen den enkla modellen i uppgift 1! 3. Fortsättning av uppgift 1 och 2: a) Skatta price med ett 95%-igt prediktionsintervall då sqrft = 4 i den enkla regressionen! b) Skatta price med ett approximativt 95%-igt prediktionsintervall då sqrft = 4 och lotsize= 4 i den multipla regressionen! Beskrivande statistik för price, sqrft och lotsize finns i bilaga 6. 4. Fortsättning av uppgift 1: Redovisa resultaten i uppgift 1,dvs skattade intercept och regressionskoefficient, deras standardfel, deras t-kvoter, skattad residualvarians och förklaringsgrad, i svenska (metriska) enheter, dvs. i svenska kronor och meter. Ledning: 1 fot =,3479 m, och 1 US dollar = 6,3 Svenska kronor.

5. a) Undersök om modellerna i uppgift 1 och 3 uppvisar multikollinjäritet! Då kan man också utnyttja korrelationskoefficienterna i bilaga 7. b) Redogör kortfattat för konsekvenserna av eventuell multikollinjäritet! 6. Vi vill nu jämföra huspriset = price med ett av mäklare uppskattat huspris = assess. Därför bestäms den enkla regressionen av price på assess. Resultatet av denna finns i bilaga 8. Pröva hypotesen att regressions-koefficienten är 1 och att interceptet är! Beskrivande statistik för variablerna price och assess finns i bilaga 9. 7. Vi använder nu bästa delmängdsregression för att bestämma lämpliga förklaringsvariabler, då price är beroende variabel och sqrft och lotsize är tänkbara förklaringsvariabler. Resultatet av denna körning finns i bilaga 1. a) Vilken modell verkar vara bäst? b) Jämför med tidigare resultat samt med stegvis regression, vilket resultat finns i bilaga 11! 8. Betrakta den vanliga enkla linjära regressionen av y på x, y= + x + u, med de sedvanliga antagandena. Antag att vi nu skattar en enkel linjär regressionsmodell genom origo, y= x + u. Undersök om skattningen av regressionskoefficienten i denna enkla regression genom origo är väntevärdesriktig för! Vad blir eventuell skevhet (bias), och när blir denna?

Bilaga 1. 8 7 6 5 Fitted Line Plot price = 1124 + 14,2 sqrft Regression 95% CI 95% PI S 63617,1 R-Sq 62,1% R-Sq(adj) 61,6% price 4 3 1 1 15 2 25 sqrft 3 35 4 BILAGA 2 Regression Analysis: price versus sqrft The regression equation is price = 1124 + 14 sqrft Predictor Coef SE Coef T P VIF Constant 1124 24743,45,652 sqrft 14,21 11,82 11,87, 1, S = 63617,1 R-Sq = 62,1% R-Sq(adj) = 61,6% PRESS = 381288288756 R-Sq(pred) = 58,46% Analysis of Variance Source DF SS MS F P Regression 1 5,6981E+11 5,6981E+11 14,79, Error 86 3,4853E+11 447132941 Lack of Fit 83 3,4632E+11 416959433 6,19,78 Pure Error 3 2215 673833333 Total 87 9,17855E+11 82 rows with no replicates

Unusual Observations Obs sqrft price Fit SE Fit St Resid 13 3375 45 484416 17457-79416 -1,3 X 29 3529 4775 569 19147-2859 -,47 X 38 388 575 555223 2373 19777,33 X 42 3331 7135 478247 16979 235253 3,84RX 48 3733 4175 534612 21418-117112 -1,96 X 73 3662 725 524657 2624 2343 3,33RX 76 152 425 22181 986 23199 3,23R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Durbin-Watson statistic = 1,72872 Lack of fit test Possible curvature in variable sqrft (P-Value =,38 ) Possible lack of fit at outer X-values (P-Value =,) Overall lack of fit test is significant at P =, Bilaga 3. Plots for price Normal Probability Plot Versus Fits 99,9 99 Percent 9 5 1 1 1,1 - -1 1-1 3 4 Fitted Value 5 6 Histogram Versus Order 2 Frequency 15 1 5-1 -5 5 1 15 1-1 1 1 2 3 4 5 6 7 Observation Order 8

BILAGA 4 Regression Analysis: price versus sqrft; lotsize The regression equation is price = 5932 + 133 sqrft + 2,11 lotsize Predictor Coef SE Coef T P VIF Constant 5932 23512,25,81 sqrft 133,36 11,4 11,7, 1,35 lotsize 2,1135,6466 3,27,2 1,35 S = 6311,5 R-Sq = 66,3% R-Sq(adj) = 65,5% PRESS = 796774658383 R-Sq(pred) = 13,19% Analysis of Variance Source DF SS MS F P Regression 2 6,8669E+11 3,4334E+11 83,67, Error 85 3,9186E+11 3637482274 Total 87 9,17855E+11 There are no replicates. Minitab cannot do the lack of fit test based on pure error. Source DF Seq SS sqrft 1 5,6981E+11 lotsize 1 38867439681 Unusual Observations Obs sqrft price Fit SE Fit St Resid 38 388 575 556419 21877 18581,33 X 42 3331 7135 59827 18774 23673 3,55R 48 3733 4175 52917 2733-13417 -1,83 X 73 3662 725 559822 22317 165178 2,95RX 76 152 425 217919 8695 2781 3,47R 77 1696 318 427995 55248-19995 -4,55RX R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Durbin-Watson statistic = 1,97464 Lack of fit test Possible curvature in variable sqrft (P-Value =,46 ) Possible interaction in variable sqrft (P-Value =, ) Possible interaction in variable lotsize (P-Value =,1 ) Possible lack of fit at outer X-values (P-Value =,) Overall lack of fit test is significant at P =,

Bilaga 5. Plots for price Normal Probability Plot Versus Fits 99,9 99 Percent 9 5 1 1 1,1 - -1 1-1 3 4 Fitted Value 5 6 Histogram Versus Order 16 Frequency 12 8 4-8 -4 4 8 12 16 1-1 1 1 2 3 4 5 6 7 Observation Order 8 BILAGA 6 Descriptive Statistics: price; sqrft; lotsize Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 price 88 293546 1949 12713 111 23 2655 32875 sqrft 88 213,7 61,5 577,2 1171, 1657,5 1845, 2271, lotsize 88 92 185 1174 1 5672 643 8596 Variable Maximum Skewness Kurtosis price 725 2,3 5,78 sqrft 388, 1,41 1,9 lotsize 92681 6,75 53,68 BILAGA 7 Correlations: price; sqrft; lotsize price sqrft sqrft,788 lotsize,347,184 Cell Contents: Pearson correlation

BILAGA 8 Regression Analysis: price versus assess The regression equation is price = - 14472 +,976 assess Predictor Coef SE Coef T P VIF Constant -14472 16273 -,89,376 assess,97555,4937 19,76, 1, S = 43887,3 R-Sq = 82,% R-Sq(adj) = 81,7% PRESS = 17812185881 R-Sq(pred) = 8,6% Analysis of Variance Source DF SS MS F P Regression 1 7,5221E+11 7,5221E+11 39,54, Error 86 1,65645E+11 192699183 Total 87 9,17855E+11 There are no replicates. Minitab cannot do the lack of fit test based on pure error. Unusual Observations Obs assess price Fit SE Fit St Resid 12 4165 3 391846 6829-91846 -2,12R 42 6554 7135 62496 1748 88594 2,2RX 66 5436 495 515839 12183-2839 -,49 X 68 5151 38 48836 1897-1836 -2,54R 69 437 325 411845 7598-86845 -2,1R 73 786 725 67686 1995 48194 1,23 X 76 2525 425 231856 5624 193144 4,44R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Durbin-Watson statistic = 1,92516 Possible lack of fit at outer X-values (P-Value =,9) Overall lack of fit test is significant at P =,9

BILAGA 9 Descriptive Statistics: price; assess Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 price 88 293546 1949 12713 111 23 2655 32875 assess 88 315736 1161 95314 1987 2537 292 353375 Covariances: price; assess price assess price 15551819 assess 8862752171 984841881 BILAGA 1 Best Subsets Regression: price versus sqrft; lotsize Response is price l o s t q s r i Mallows f z Vars R-Sq R-Sq(adj) Cp S t e 1 62,1 61,6 11,7 63617 X 1 12, 11, 137,9 96885 X 2 66,3 65,5 3, 6312 X X

BILAGA 11 Stepwise Regression: price versus sqrft; lotsize Alpha-to-Enter:,15 Alpha-to-Remove:,15 Response is price on 2 predictors, with N = 88 Step 1 2 Constant 1124 5932 sqrft 14 133 T-Value 11,87 11,7 P-Value,, lotsize 2,11 T-Value 3,27 P-Value,2 S 63617 6312 R-Sq 62,8 66,31 R-Sq(adj) 61,64 65,52 Mallows Cp 11,7 3, PRESS 381288288756 796774658383 R-Sq(pred) 58,46 13,19 Stepwise Regression: price versus sqrft; lotsize Backward elimination. Alpha-to-Remove:,1 Response is price on 2 predictors, with N = 88 Step 1 Constant 5932 sqrft 133 T-Value 11,7 P-Value, lotsize 2,11 T-Value 3,27 P-Value,2 S 6312 R-Sq 66,31 R-Sq(adj) 65,52 Mallows Cp 3, PRESS 796774658383 R-Sq(pred) 13,19