TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS, 204-0-3 Skrivtid: kl 8-2 Hjälpmedel: Räknedosa. Bowerman, B.J., O'Connell, R, Koehler, A.: Forecasting, Time Series and Regression. 4th ed. Duxbury, 2005 som inte får innehålla anteckningar men får ha markeringar och flärpar. Flärpar får ha en liten anteckning. Med tentan vidhäftat formelblad. Jourhavande lärare: Lotta Hallberg Redovisa och motivera kort alla dina lösningar Följande data är hämtat från SCB hemsida. Försäljning (inkl moms) av livsmedel Handel År 2000 202. (Enhet saknas men anta att det är i miljoner kr) Nedan visas en graf över försäljningen i löpande och fasta priser. Även en tabell med försäljningsvärdena ges. Scatterplot of Försälj livsmedel löpand; Försälj livsmedel fasta vs år 80000 70000 Variable Försälj livsmedel löpande Försälj livsmedel fasta 000 Y-Data 50000 40000 30000 20000 0000 2000 2002 2004 200 år 2008 200 202 ÅR FÖRSÄLJ LIVSMEDEL FASTA FÖRSÄLJ LIVSMEDEL LÖPANDE 2000 248 248 200 535 938 2002 8802 27495 2003 2352 30829 2004 245 3348 2005 2755 337 200 32570 4230 2007 350 5007 2008 35974 5933 2009 37408 32 200 3809 8955 20 4208 74535 202 43724 79490
a) Förklara vad som menas med att försäljningsvärdena är i löpande priser respektive fasta priser. Ange också vilket år som är basår. 2p b) Beräkna implicitprisindex med hjälp av de båda försäljningsserierna ovan för år 2009 till år 202. p Följande regressionsekvation har anpassats: Försälj livsmedel fasta = - 542450 + 228 År Predictor Coef SE Coef T P Constant -542450 2897-8,24 0,000 År 228,2 40,5 8,70 0,000 S = 895,94 R-Sq = 97,0% R-Sq(adj) = 9,7% Durbin-Watson statistic = 0,8989 c) Hur stor är ökningen i försäljning av livsmedel per år enligt modellen ovan? p d) Tolka förklaringsgraden. p e) Kan residualerna antas vara okorrelerade? Förklara. p 2 Följande data är antalet dagar till distribution av en viss vara. Beräkna ett fem-punkters centrerat glidande medelvärde för tidsserien: 38, 40, 25, 23, 35, 38, 35, 32, 4, 33, 3, 2 2p 3 Man vill undersöka hur försäljningen för en viss typ av affär påverkas av antalet hushåll i närområdet samt av hur affären är placerad. Under juli ett visst år i en viss stad valde man slumpmässigt ut 5 affärer som låg utmed en gata, 5 affärer som låg i centrala staden samt 5 affärer som låg i ett köpcentrum. Variablerna är betecknade: Y= försäljning i 000-tal dollar x= antal hushåll i 000-tal D= om affär placerad i köpcentrum och 0 annars D2= om affär placerad i centrala staden och 0 annars Så vi ser att den kvalitativa variabeln som beskriver placering av affär är hanterad som två dummyvariabler D och D2. Vidare är: xd och xd2 interaktionstermer mellan x och D, D2. Sist kommer ett spridningsdiagram över data Följande 3 modeller har anpassats: 2
Modell Regression Analysis: Y versus x; D; D2; xd; xd2 Y = 7,9 + 0,92 x + 42,7 D + 0,3 D2-0,092 xd - 0,034 xd2 Predictor Coef SE Coef T P VIF Constant 7,90 7,04 0,4 0,54 x 0,9207 0,234 7,4 0,000,723 D 42,73 2,50,99 0,078 33,340 D2 0,2 2,28 0,48 0,4 32,58 xd -0,097 0,4-0,5 0,533 53,04 xd2-0,033 0,382-0,24 0,83 59,8 S =,79953 R-Sq = 98,8% R-Sq(adj) = 98,% Analysis of Variance Source DF SS MS F P Regression 5 3329, 59,2 44,03 0,000 Residual Error 9 4, 4,2 Total 4 3372,2 Modell 2 Regression Analysis: Y versus x; D; D2 Y = 5,0 + 0,89 x + 28,4 D +,8 D2 Predictor Coef SE Coef T P VIF Constant 4,978,88 2,42 0,034 x 0,8859 0,04049 2,45 0,000,447 D 28,374 4,4,3 0,000,4 D2,84 4,770,44 0,78,882 S =,3494 R-Sq = 98,7% R-Sq(adj) = 98,3% Analysis of Variance Source DF SS MS F P Regression 3 3329 090 275,07 0,000 Residual Error 443 40 Total 4 3372 Modell 3 Regression Analysis: Y versus x Y = 4,9 + 0,937 x Predictor Coef SE Coef T P VIF Constant 4,87 3,3,3 0,278 x 0,9372 0,07305 2,83 0,000,000 S = 3,7779 R-Sq = 92,7% R-Sq(adj) = 92,% 3
Analysis of Variance Source DF SS MS F P Regression 3244 3244 4,59 0,000 Residual Error 3 248 90 Total 4 3372 Uppgifter: a) Pröva med ett test om de båda interaktionstermerna i modell kan tas bort. 5% signifikansnivå. 2p b) Skriv upp modellen för försäljningen i en affär placerad i ett köpcentrum med ett godtyckligt antal hushåll med hjälp av modell.,5p c) Studera VIF i de tre modellerna och förklara vilka värden som är bra och vilka som är dåliga. Vad mäter VIF och hur beräknas de? 2p 2 d) Vilken av modellerna är bäst om man använder justerad R som ett jämförande mått? 0,5p e) Tolka regressionskoefficienten för D2 i modell 2. p f) Prediktera försäljningen för en affär som har 50000 hushåll i sin närhet och ligger i ett köpcentrum enligt modell 2. p Y 2 240 220 200 80 40 20 00 Scatterplot of Y vs x kat centr gata köpc 00 20 40 80 x 200 220 240 2 4
4 Följande tidsserie ska analyseras: Time Series Plot of Food 75 70 Food 5 55 50 2 8 24 30 Index 3 42 48 54 Tidsserien Food är sysselsättningen i en industri som tillverkar helfabricerad mat, månadsdata för fem år. Modell : Time Series Decomposition Plot for Food Multiplicative Model Fitted Trend Equation Yt = 5,305 + 0,079*t Food 75 70 5 55 50 2 8 24 30 Index 3 42 48 54 Variable Actual Fits Trend Accuracy Measures MAPE,57473 MAD 0,94 MSD,54935 Seasonal Indices Period Index 0,9852 2 0,9092 3 0,9085 4 0,9040 5 0,9855 0,97342 7,79 8,20940 9,94 0,0338 0,985 2 0,93732 5
Modell 2 Food 80 75 70 5 Smoothing Plot for Food Double Exponential Method Variable Actual Fits Smoothing Constants Alpha (level),5333 Gamma (trend) 0,0389 Accuracy Measures MAPE 3,8800 MAD 2,3505 MSD 2,8782 55 50 2 8 24 30 3 Index 42 48 54 a) Modell. Tolka säsongskomponenten för juni och juli. p b) Modell. Beräkna prognoser för Food för månad och 2. p c) Modell 2. Förklara varför detta är en dålig modell. Ge förslag på förbättring. 2p