732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29
Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann (IDA, LiU) 732G71, Statistik B 2 / 29
Tidsserieregressionsanalys (kap. 6.1-6.4) En tidsserie kan möjligen delas upp i följande komponenter: Trend Cykel Säsongsvariation Slumpvariation Bertil Wegmann (IDA, LiU) 732G71, Statistik B 3 / 29
Tidsserier med endast trend Det enklaste fallet är en tidsserie som endast innehåller en trend- och slumpkomponent. Trendmodell: y t = TR t + ɛ t, där y t är värdet på y vid tidpunkt t, TR t är trenden vid tidpunkt t och ɛ t är feltermen vid tidpunkt t. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 4 / 29
Olika modeller för trenden Beroende på hur trenden ser ut, kan den modelleras på olika sätt. y t = TR t + ɛ t Ingen trend: TR t = β 0 Linjär trend: TR t = β 0 + β 1 t Kvadratisk trend: TR t = β 0 + β 1 t + β 2 t 2 Regressionsantaganden: ɛ t N (0, σ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B 5 / 29
Exempel: KPI, månadsvis 2006:1-2015:10 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 6 / 29
Exempel: Ingen trend Om vi först (felaktigt) antar att vi inte har någon trend skattar vi följande modell: y t = β 0 + ɛ t, där β 0 skattas som medelvärdet av KPI: b 0 = 108.85. Ett 95 % prediktionsintervall för y t för denna modell ges av ȳ ± t [0.05/2],(n 1) s 1 + 1 n, där s är den vanliga skattningen av (y standardavvikelsen för y, d.v.s. s = t ȳ) 2. n 1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 7 / 29
Exempel: skattad KPI utan trend Bertil Wegmann (IDA, LiU) 732G71, Statistik B 8 / 29
Exempel: Linjär trend Om vi tror att KPI ökar linjärt över tid kan vi skatta en linjär trendmodell med tidsvariabeln t som förklaringsvariabel, där t = 1, 2, 3,..., 118: y t = β 0 + β 1 t + ɛ t De vanliga formlerna för en enkel linjär regressionsanalys kan användas för att anpassa modellen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 9 / 29
Exempel: Linjär trend Regression Analysis: KPI versus t Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 1383,3 1383,30 633,37 0,000 t 1 1383,3 1383,30 633,37 0,000 Error 116 253,3 2,18 Total 117 1636,7 Model Summary S R-sq R-sq(adj) R-sq(pred) 1,47785 84,52% 84,39% 83,89% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 102,871 0,274 375,67 0,000 t 0,10052 0,00399 25,17 0,000 1,00 Regression Equation KPI = 102,871 + 0,10052 t Bertil Wegmann (IDA, LiU) 732G71, Statistik B 10 / 29
Exempel: Linjär trend Bertil Wegmann (IDA, LiU) 732G71, Statistik B 11 / 29
Exempel: Kvadratisk trend Om vi tror att KPI ökar gradvis kan vi skatta en kvadratisk trendmodell: y t = β 0 + β 1 t + β 2 t 2 + ɛ t Den kvadratiska trendmodellen kan anpassas med vanlig multipel linjär regressionsanalys. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 12 / 29
Exempel: Kvadratisk trend Regression Analysis: KPI versus t; tsquared Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 1553,42 776,708 1073,08 0,000 t 1 477,81 477,810 660,13 0,000 tsquared 1 170,11 170,111 235,02 0,000 Error 115 83,24 0,724 Total 117 1636,65 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,850769 94,91% 94,83% 94,72% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 100,117 0,239 418,90 0,000 t 0,23821 0,00927 25,69 0,000 16,26 tsquared -0,001157 0,000075-15,33 0,000 16,26 Regression Equation KPI = 100,117 + 0,23821 t - 0,001157 tsquared Bertil Wegmann (IDA, LiU) 732G71, Statistik B 13 / 29
Exempel: Kvadratisk trend Bertil Wegmann (IDA, LiU) 732G71, Statistik B 14 / 29
Autokorrelation Ett av antagandena i linjär regressionsanalys är att feltermerna är oberoende av varandra. Detta antagande är ofta inte uppfyllt när man har tidsserier. Positiv autokorrelation: En positiv felterm vid tidpunkt t tenderar att följas av en positiv felterm vid tidpunkt t + 1. En negativ felterm vid tidpunkt t tenderar att följas av en negativ felterm vid tidpunkt t + 1. Negativ autokorrelation: En positiv felterm vid tidpunkt t tenderar att följas av en negativ felterm vid tidpunkt t + 1. En negativ felterm vid tidpunkt t tenderar att följas av en positiv felterm vid tidpunkt t + 1. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 15 / 29
Exempel: autokorrelation för linjär trendmodell Vi undersöker om vi har positiv/negativ autokorrelation i den fjärde residualplotten. Vad verkar vara fallet? Bertil Wegmann (IDA, LiU) 732G71, Statistik B 16 / 29
Exempel: autokorrelation för kvadratisk trendmodell Vi undersöker om vi har positiv/negativ autokorrelation i den fjärde residualplotten. Vad verkar vara fallet? Bertil Wegmann (IDA, LiU) 732G71, Statistik B 17 / 29
Durbin-Watson test för positiv autokorrelation H 0 : Feltermerna är ej autokorrelerade H a : Feltermerna är positivt autokorrelerade d = n t=2 (e t e t 1 ) 2 n, t=2 et 2 där e t är residualen (skattade feltermen) vid tidpunkt t. Förkasta H 0 om d < d L,α Förkasta ej H 0 om d > d U,α Om d L,α d d U,α ger testet inget svar om hypoteserna. Värden på d L,α och d U,α ges från tabeller på sidan 598 och 599. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 18 / 29
Durbin-Watson test för negativ autokorrelation H 0 : Feltermerna är ej autokorrelerade H a : Feltermerna är negativt autokorrelerade d = n t=2 (e t e t 1 ) 2 n, t=2 et 2 där e t är residualen (skattade feltermen) vid tidpunkt t. Förkasta H 0 om (4 d) < d L,α Förkasta ej H 0 om (4 d) > d U,α Om d L,α (4 d) d U,α ger testet inget svar om hypoteserna. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 19 / 29
Exempel: Durbin-Watson test för Linjär trendmodell Regression Analysis: KPI versus t Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 1383,3 1383,30 633,37 0,000 t 1 1383,3 1383,30 633,37 0,000 Error 116 253,3 2,18 Total 117 1636,7 Model Summary S R-sq R-sq(adj) R-sq(pred) 1,47785 84,52% 84,39% 83,89% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 102,871 0,274 375,67 0,000 t 0,10052 0,00399 25,17 0,000 1,00 Regression Equation KPI = 102,871 + 0,10052 t Durbin-Watson Statistic = 0,102533 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 20 / 29
Exempel: Durbin-Watson test för Kvadratisk trendmodell Regression Analysis: KPI versus t; tsquared Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 1553,42 776,708 1073,08 0,000 t 1 477,81 477,810 660,13 0,000 tsquared 1 170,11 170,111 235,02 0,000 Error 115 83,24 0,724 Total 117 1636,65 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,850769 94,91% 94,83% 94,72% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 100,117 0,239 418,90 0,000 t 0,23821 0,00927 25,69 0,000 16,26 tsquared -0,001157 0,000075-15,33 0,000 16,26 Regression Equation KPI = 100,117 + 0,23821 t - 0,001157 tsquared Durbin-Watson Statistic = 0,303298 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 21 / 29
Säsongsvariation Många tidsserier som är mätta månadsvis, kvartalsvis osv. uppvisar säsongsvariation. Om säsongsvariationen inte beror på nivån är den konstant. Är säsongsvariationen konstant för detaljhandelns försäljning per kvartal? Bertil Wegmann (IDA, LiU) 732G71, Statistik B 22 / 29
Ökande säsongsvariation Om säsongsvariationen beror på nivån på tidsserien är den ökande eller minskande. Vid ökande säsongsvariation kan man transformera y för att få konstant säsongsvariation. Nedan följer tre vanliga transformationer som man kan pröva med om man har detta problem. y = y = y 0.5 y = y 0.25 y = ln y Bertil Wegmann (IDA, LiU) 732G71, Statistik B 23 / 29
Ökande säsongsvariation för detaljhandelns försäljning Bertil Wegmann (IDA, LiU) 732G71, Statistik B 24 / 29
Dummyvariabler för att modellera säsongsvariation Om en tidsserie har konstant säsongsvariation kan vi använda följande modell: y t = TR t + SN t + ɛ t, där y t är värdet på y vid tidpunkt t, TR t är trenden vid tidpunkt t, SN t är säsongsfaktorn vid tidpunkt t och ɛ t är feltermen vid tidpunkt t. Säsongsfaktorerna kan skattas om vi skapar dummyvariabler: om vi har L säsonger skapar vi L 1 dummyvariabler. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 25 / 29
Multipel linjär regressionsanalys med dummyvariabler Modellen ln y t = β 0 + β 1 t + β 2 D 1 + β 3 D 2 + β 4 D 3 + ɛ t skattas i Minitab som en vanlig linjär multipel regressionsmodell, där D 1 = 1 om kvartal 1, 0 annars, D 2 = 1 om kvartal 2, 0 annars, D 3 = 1 om kvartal 3, 0 annars. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 26 / 29
Skattad multipel linjär regressionsmodell Regression Analysis: ln y versus t; D_1; D_2; D_3 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 6,68290 1,67073 429,84 0,000 t 1 6,25034 6,25034 1608,06 0,000 D_1 1 0,38878 0,38878 100,02 0,000 D_2 1 0,08288 0,08288 21,32 0,000 D_3 1 0,10065 0,10065 25,90 0,000 Error 94 0,36537 0,00389 Total 98 7,04827 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,0623449 94,82% 94,60% 94,19% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 3,9674 0,0168 236,16 0,000 t 0,008795 0,000219 40,10 0,000 1,00 D_1-0,1782 0,0178-10,00 0,000 1,53 D_2-0,0823 0,0178-4,62 0,000 1,53 D_3-0,0907 0,0178-5,09 0,000 1,53 Regression Equation ln y = 3,9674 + 0,008795 t - 0,1782 D_1-0,0823 D_2-0,0907 D_3 Durbin-Watson Statistic = 0,161703 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 27 / 29
Signikanstest och modellutvärdering Eftersom vi har skattat en vanlig multipel linjär regressionsmodell kan vi använda de vanliga signikanstesten. F-test för hela modellen Signikanstest för trend: t-test för förklaringsvariabel t Signikanstest för säsongsvariation: Partiellt F-test för dummyvariablerna Modellen utvärderas sedan på vanligt sätt, d.v.s. vi kan undersöka förklaringsgraden och s (eller MSE) samt undersöka residualplottar och testa för autokorrelation. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 28 / 29
Residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B 29 / 29