Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28
Tidsserieregressionsanalys Exempel: Hushållens konsumtion (mkr, 2012 års priser) inom restauranger, caféer, hotell och annan övernattningsservice 28000 26000 24000 Konsumtion 22000 20000 18000 16000 14000 12000 Quarter Year 1993 1996 1999 2002 2005 2008 2011 Wänström (Linköpings universitet) F7 November 25 2 / 28
Tidsserieregressionsanalys En tidsserie kan (ibland) delas upp i följande komponenter: Trend Cykel Säsongsvariation Slumpvariation Wänström (Linköpings universitet) F7 November 25 3 / 28
Tidsserier med endast trend Vi börjar med det enklaste fallet och tittar på en tidsserie som (vi tror) endast innehåller trend (och slump) Trendmodell: y t = TR t + ɛ t där y t är värdet på y vid tidpunkt t, TR t är trenden i tidpunkt t, och ɛ t är feltermen vid tidpunkt t. Wänström (Linköpings universitet) F7 November 25 4 / 28
Olika former för trenden Beroende på hur trenden ser ut, kan den modelleras på olika sätt. y t = TR t + ɛ t Ingen trend: TR t = β 0 Linjär trend: TR t = β 0 + β 1 t Kvadratisk trend: TR t = β 0 + β 1 t + β 2 t 2 Antagande ɛ t N(0, σ) Wänström (Linköpings universitet) F7 November 25 5 / 28
KPI Exempel: KPI, månadsvis 1980:1-2010:10. 300 250 KPI 200 150 100 Month Year jan 1980 jan 1985 jan 1990 jan 1995 jan 2000 jan 2005 jan 2010 Wänström (Linköpings universitet) F7 November 25 6 / 28
Ingen trend De första KPI-värdena ges nedan. Om vi först (felaktigt) antar att vi inte har någon trend skattar vi följande modell: y t = β 0 + ɛ t, där β 0 skattas som [ medelvärdet av KPI: ] b 0 = 233.57. Ett 95%-igt P.I. för y t fås som y ± t 1 (n 1) (α/2) s + 1 n där s är vanliga standardavvikelsen för y dvs s = (yt y ) 2 n 1. 1980M01 95,30 1980M02 96,75 1980M03 97,24 1980M04 97,90 1980M05 98,21 1980M06 98,47 1980M07 99,30 1980M08 99,86 1980M09 102,70 1980M10 104,16 1980M11 104,80 Wänström (Linköpings universitet) F7 November 25 7 / 28
Minitabutskrift I Minitab kan man anpassa en regressionsmodell med endast en skärning (intercept) genom att skapa en variabel med endast 1:or (här kallad "intercept") och skatta modellen genom klicka av rutan "fit intercept" under "options". Regression Analysis: KPI versus Intercept The regression equation is KPI = 234 Intercept Predictor Coef SE Coef T P Noconstant Intercept 233,569 3,149 74,17 0,000 S = 63,4510 Analysis of Variance Source DF SS MS F P Regression 1 22149032 22149032 5501,45 0,000 Error 405 1630543 4026 Total 406 23779575 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 233,57 3,15 (227,38; 239,76) (108,68; 358,46) Values of Predictors for New Observations NewObs Intercept 1 1,00 Wänström (Linköpings universitet) F7 November 25 8 / 28
Linjär trend Om vi tror att KPI ökar linjärt över tid kan vi skatta en linjär trendmodell: y t = β 0 + β 1 t + ɛ t. Då skapar vi en tidsvariabel, t, med värdena 1, 2, 3,..., 406 De vanliga formlerna för enkel linjär regressionsanalys kan användas. Regression Analysis: KPI versus t The regression equation is KPI = 128 + 0,520 t Predictor Coef SE Coef T P Constant 127,776 1,737 73,54 0,000 t 0,519866 0,007398 70,27 0,000 S = 17,4715 R Sq = 92,4% R Sq(adj) = 92,4% Analysis of Variance Source DF SS MS F P Regression 1 1507221 1507221 4937,63 0,000 Error 404 123322 305 Total 405 1630543 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 339,361 1,737 (335,946; 342,777) (304,846; 373,877) Values of Predictors for New Observations Wänström (Linköpings universitet) F7 November 25 9 / 28
350 300 Fitted Line Plot KPI = 127,8 + 0,5199 t S 17,4715 R Sq 92,4% R Sq(adj) 92,4% 250 KPI 200 150 100 0 100 200 t 300 400 Wänström (Linköpings universitet) F7 November 25 10 / 28
Kvadratisk trend Om vi tror att ökningen i KPI minskar gradvis kan vi skatta en kvadratisk trendmodell: y t = β 0 + β 1 t + β 2 t 2 + ɛ t. Detta kan då ses som en vanlig multipel regressionsmodell. Regression Analysis: KPI versus t; t*t The regression equation is KPI = 93,3 + 1,03 t 0,00125 t*t Predictor Coef SE Coef T P Constant 93,299 1,252 74,52 0,000 t 1,02688 0,01421 72,28 0,000 t*t 0,00124573 0,00003380 36,85 0,000 S = 8,36790 R Sq = 98,3% R Sq(adj) = 98,3% Analysis of Variance Source DF SS MS F P Regression 2 1602324 801162 11441,63 0,000 Error 403 28219 70 Total 405 1630543 Source DF Seq SS t 1 1507221 t*t 1 95103 R denotes an observation with a large standardized residual. Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 304,870 1,240 (302,433; 307,308) (288,241; 321,500) Wänström (LinköpingsValues universitet) of Predictors for New ObservationsF7 November 25 11 / 28
Fitted Line Plot KPI = 93,30 + 1,027 t 0,001246 t**2 300 S 8,36790 R Sq 98,3% R Sq(adj) 98,3% 250 KPI 200 150 100 0 100 200 t 300 400 Wänström (Linköpings universitet) F7 November 25 12 / 28
Autokorrelation Ett av antagandena i regressionsanalys är att feltermerna är oberoende. Detta antagande är ofta inte uppfyllt när man har tidsserier. Positiv autokorrelation: En positiv felterm vid tid t tenderar att följas av en positiv felterm vid tid t + 1 En negativ felterm vid tid t tenderar att följas av en negativ felterm vid tid t + 1 Negativ autokorrelation: En positiv felterm vid tid t tenderar att följas av en negativ felterm vid tid t + 1 En negativ felterm vid tid t tenderar att följas av en positiv felterm vid tid t + 1 Wänström (Linköpings universitet) F7 November 25 13 / 28
Autokorrelation: Ingen trend-modellen Vi tittar på den fjärde plotten: er plottade mot tid. Ser det ut som att vi har positiv/negativ autokorrelation? Plots for KPI Normal Probability Plot Versus Fits 99,9 Percent 99 90 50 10 1 0,1 200 100 0 100 200 50 0 50 100 150 200 225 250 Fitted Value 275 60 Histogram Versus Order Frequency 45 30 15 50 0 50 100 0 120 90 60 30 0 30 60 150 1 50 100 150 200 250 300 Observation Order 350 400 Wänström (Linköpings universitet) F7 November 25 14 / 28
Durbin-Watson test för positiv autokorrelation H 0 : Feltermerna är ej autokorrelerade H a : Feltermerna är positivt autokorrelerade d = n t=2(e t e t 1 ) 2 n t=2 e 2 t Förkasta H 0 om d < d L,α Förkasta ej H 0 om d > d U,α Om d L,α d d U,α ger testet inget svar Värden på d L,α och d U,α fås från tabell sid 598 samt 599. Wänström (Linköpings universitet) F7 November 25 15 / 28
Exempel: Ingen trendmodell forts. 138,269 136,819 136,329 135,669 135,359 135,099 134,269 133,709 130,869 129,409 128,769 128,319 126,359 124,319 123,729 123,069 122,399 121,989 Wänström (Linköpings universitet) F7 November 25 16 / 28
Minitabutskrift Regression Analysis: KPI versus Intercept The regression equation is KPI = 234 Intercept Predictor Coef SE Coef T P Noconstant Intercept 233,569 3,149 74,17 0,000 S = 63,4510 Analysis of Variance Source DF SS MS F P Regression 1 22149032 22149032 5501,45 0,000 Error 405 1630543 4026 Total 406 23779575 Durbin Watson statistic = 0,000410648 Wänström (Linköpings universitet) F7 November 25 17 / 28
Linjär trendmodell samt kvadratisk trendmodell Linear trend Kvadratisk trend Normal Probability Plot Versus Fits Normal Probability Plot Versus Fits 99,9 99 40 99,9 99 20 Percent 90 50 10 20 0 20 Percent 90 50 10 10 0 1 0,1 50 25 0 25 50 40 150 200 250 Fitted Value 300 350 1 0,1 20 10 0 10 20 10 100 150 200 250 Fitted Value 300 Histogram Versus Order Histogram Versus Order 40 40 48 20 Frequency 30 20 10 0 30 20 10 0 10 20 30 20 0 20 40 1 50 100 150 200 250 300 350 400 Observation Order Frequency 36 24 12 0 13,5 9,0 4,5 0,0 4,5 9,0 13,5 18,0 10 0 10 1 50 100 150 200 250 300 350 400 Observation Order Durbin Watson statistic (linjär trend)= 0,00446985 Durbin Watson statistic (kvadratisk trend) = 0,0186930 Wänström (Linköpings universitet) F7 November 25 18 / 28
Säsongsvariation Många tidsserier som är mätta månadsvis, kvartalsvis osv uppvisar säsongsvariation. Om säsongsvariationen inte beror på nivån är den konstant. Wänström (Linköpings universitet) F7 November 25 19 / 28
Säsongsvariation Om säsongsvariationen beror på nivån på tidsserien är den ökande eller minskande. Wänström (Linköpings universitet) F7 November 25 20 / 28
Ökande säsongvariation Vid ökande säsongsvariation kan man transformera y för att få konstant säsongsvariation. Ex: y = y = y 0.5 y = y 0.25 y = ln y Wänström (Linköpings universitet) F7 November 25 21 / 28
Wänström (Linköpings universitet) F7 November 25 22 / 28
Dummyvariabler för att modellera säsongsvariation Om en tidsserie har konstant säsongvariation kan vi använda följande modell: y t = TR t + SN t + ɛ t där y t är värdet på y vid tidpunkt t, TR t är trenden vid tidpunkt t, SN t är säsongsfaktorn vid tidpunkt t och ɛ t är feltermen vid tidpunkt t. Vi kan skatta säsongsfaktorerna om vi skapar dummyvariabler: Om vi har L säsonger skapar vi L 1 dummyvariabler. Wänström (Linköpings universitet) F7 November 25 23 / 28
Exempel: Hushållens konsumtion (se första slide): Transformering 28000 170 26000 160 24000 Konsumtion 22000 20000 18000 rotkonsumtion 150 140 130 16000 14000 120 12000 Quarter Year 1993 1996 1999 2002 2005 2008 2011 110 Quarter Year 1993 1996 1999 2002 2005 2008 2011 13,0 10,3 10,2 12,5 10,1 Konsumtion^0.25 12,0 11,5 lnkonsumtion 10,0 9,9 9,8 9,7 11,0 9,6 9,5 10,5 Quarter Year 1993 1996 1999 2002 2005 2008 2011 9,4 Quarter Year 1993 1996 1999 2002 2005 2008 2011 Wänström (Linköpings universitet) F7 November 25 24 / 28
Multipel regressionsanalys med dummyvariabler Modellen lny t = β 0 + β 1 t + β 2 x 1 + β 3 x 2 + β 4 x 3 + ɛ t skattas i Minitab som en vanlig multipel regressionsmodell, där x 1 = 1 om kvartal 1, 0 annars, x 2 = 1 om kvartal 2, 0 annars och x 3 = 1 om kvartal 3, noll annars. Regression Analysis: lny versus t; x1; x2; x3 The regression equation is lny = 9,47 + 0,00683 t + 0,0704 x1 + 0,130 x2 + 0,174 x3 Predictor Coef SE Coef T P Constant 9,46699 0,01146 826,41 0,000 t 0,0068275 0,0001798 37,98 0,000 x1 0,07041 0,01204 5,85 0,000 x2 0,13039 0,01204 10,83 0,000 x3 0,17380 0,01218 14,26 0,000 S = 0,0385259 R Sq = 95,6% R Sq(adj) = 95,3% Analysis of Variance Source DF SS MS F P Regression 4 2,46993 0,61748 416,03 0,000 Error 77 0,11429 0,00148 Total 81 2,58422 Source DF Seq SS t 1 2,12638 x1 1 0,01548 x2 1 0,02606 x3 1 0,30201 Durbin Watson statistic = 1,22532 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 10,2075 0,0115 (10,1847; 10,2303) (10,1274; 10,2875) Values of Predictors for New Observations New Obs t x1 x2 x3 1 83,0 0,000000 0,000000 1,00 Wänström (Linköpings universitet) F7 November 25 25 / 28
Signifikanstest och utvärdering Eftersom vi har skattat en vanlig multipel regressionsmodell kan vi använda de vanliga signifikanstesten. F-test för hela modellen Signifikanstest för trend: t-test Signifikanstest för säsongsvaraition: Partiellt F-test för dummyvariablerna Modellen utvärderas sedan på vanligt sätt, dvs vi kan titta på förklaringsgrad samt s (eller MSE), samt undersöka residualplottar och testa för autokorrelation. Wänström (Linköpings universitet) F7 November 25 26 / 28
Observerade värden och skattade värden i samma diagram 10,3 10,2 Variable lny FITS 10,1 10,0 Data 9,9 9,8 9,7 9,6 9,5 9,4 Quarter Year 1993 1996 1999 2002 2005 2008 2011 Wänström (Linköpings universitet) F7 November 25 27 / 28
plottar 99,9 99 Normal Probability Plot 0,10 Versus Fits 90 0,05 Percent 50 10 0,00 0,05 1 0,1 0,10 0,05 0,00 0,05 0,10 0,10 9,4 9,6 9,8 Fitted Value 10,0 10,2 Frequency 20 15 10 5 Histogram 0,10 0,05 0,00 0,05 Versus Order 0 0,08 0,04 0,00 0,04 0,08 0,10 1 10 20 30 40 50 60 Observation Order 70 80 Wänström (Linköpings universitet) F7 November 25 28 / 28