Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I Sebastian Andersson Statistiska institutionen Senast uppdaterad: 15 december 2015
Data kan generellt sett delas in i tre kategorier: 1 Tvärsnittsdata: en observation per individ med flera individer. Individer kan vara personer, hushåll, städer, länder, etc. 2 Tidsseriedata: flera observationer för enbart en individ. 3 Paneldata: data i båda dimensioner, dvs vi har flera observationer för flera individer. Exempel: 1 Antal invånare i Sveriges kommuner år 2015 (tvärsnitt) 2 Antal invånare i Uppsala år 1968 t o m 2015 (tidsserie) 3 Antal invånare i Sveriges kommuner år 1968 t o m 2015 (panel)
En tidsserie är en serie ordnade observationer över tid. Vi använder i regel index t istället för i som är vanligt vid tvärsnittsdata: y t ; där n är tidsseriens slutpunkt. t = 1, 2, 3,..., n Notera att 1 Med tvärssnittsdata spelar ordningen ingen roll. Om Uppsala är vår första eller vår hundrade observation är för oss ointressant. Med tidsseriedata spelar ordningen roll, eftersom 2014 ju kommer före 2015. 2 Vi använder även här n för att ange antal observationer, men det är vanligt att använda T för att tydliggöra att det är en tidsserie.
I regel har perioderna vid vilka vi har observationer jämna mellanrum: årsvis, halvårsvis, kvartalsvis, månadsvis, etc. Indexet kan då vara: t = 1968, 1969,..., 2014 t = 1968:1, 1968:2, 1969:1, 1969:2,..., 2014:2 (Årsdata) (Halvårsdata) t = 1968:1, 1968:2, 1968:3, 1968:4, 1969:1,..., 2014:4 (Kvartalsdata) I dessa fall är antalet observationer n = 47 (årsdata), n = 94 (halvårsdata) och n = 188 kvartalsdata. Ibland utelämnar man de specifika datumen i indexeringen och låter helt enkelt t = 1, 2,..., n. I fallet med kvartalsdata motsvarar då t = 1 1968:1, t = 2 1968:2, etc.
220 Antal invånare (tusental) 200 180 160 140 120 100 1960 1969 1978 1987 År 1996 2005 Uppsalas befolkningsmängd, 1960-2013.
Något grovt skulle man kunna se tidsserieanalysen som bestående av tre huvudsakliga områden: Strukturell analys. Ex: hur påverkas fastighetspriser av reporäntan? baserade enbart på tidsseriens egna historiska utveckling. Ex: givet utvecklingen av fastighetspriser hittills, hur förväntas de utvecklas? baserade på den historiska utvecklingen av serien själv samt andra förklarande variabler. Ex: givet låg inflation, låg ränta och blygsam tillväxt, hur förväntas fastighetspriserna utvecklas?
En tidsserie kan delas upp i. Vi antar att den kan bestå av fyra olika delar: trend (T ), säsongsvariation (S), cyklisk variation (C) och slumpeffekt (R). Vi kommer under föreläsningarna att diskutera två olika sammansättningar av dessa fyra : y t = T t + S t + C t + R t y t = T t S t C t R t (Additiv modell) (Multiplikativ modell) För det mesta kommer vi att behandla den cykliska komponenten som en del av trenden.
Trend (T ): Trenden beskriver den långsiktiga utvecklingen. Den innehåller alltså inga kortsiktiga förändringar. Säsong (S): Säsongsvariation är regelbunden och kortsiktig variation. Cykel (C): Cyklisk variation är långsiktig variation som inte är del av varken trend eller säsong. T ex konjunkturen. Slump (R): Icke-systematiska effekter, t ex slumpmässiga mätfel eller andra kortsiktiga störningar.
Trend Säsong 20 40 60 80 100 Cykel 20 40 60 80 100 Slumpeffekt 20 40 60 80 100 Komponenter av en tidsserie 20 40 60 80 100
T T + S 20 40 60 80 100 T + S + C 20 40 60 80 100 T + S + C + R 20 40 60 80 100 Komponenter av en tidsserie 20 40 60 80 100
T T + S T + S + C T + S + C + R 10 20 30 40 50 60 70 80 90 100 Komponenter av en tidsserie
För en multiplikativ serie har vi samma typ av, men sammansättningen är annorlunda: y t = T t + S t + C t + R t y t = T t S t C t R t (Additiv modell) (Multiplikativ modell) För att underlätta illustrationen på nästa sida utelämnar vi den cykliska komponenten Jämför figurerna för trend och säsong, de ökande svängningarna i den multiplikativa modellen är ett typiskt tecken på att modellen inte är linjär
T T S 20 40 60 80 100 T S R 20 40 60 80 100 T, T S,T S R 20 40 60 80 100 Komponenter av en tidsserie 20 40 60 80 100
Ofta är det centrala syftet med en tidsseriemodell att göra prognoser 1 Hur många varor kommer ett företag att sälja nästa år? 2 Hur många turister kommer att besöka Uppsala nästa sommar? 3 Hur stort är statens budgetutrymme de nästkommande fyra åren? 4 Hur många nya användare kommer Netflix att få under nuvarande år? En prognos är alltså ett uttalande om vad som förväntas hända i framtiden. Ofta är prognoserna underlag till beslut av varierande vikt: 1 Hur många varor ska företaget producera? 2 Hur många hotellrum, restauranger, campingplatser, etc behöver Uppsala? 3 Hur stora reformer är möjliga att genomföra? 4 Hur behöver Netflix utöka sin serverkapacitet och sitt utbud?
I praktiken är prognoser alltid fel, frågan är bara hur fel. Man kan också fråga sig om prognoserna är systematiskt felaktiga på något sätt. Exempel: är regeringens prognoser för optimistiska? Det är därför viktigt att utvärdera sina prognoser för att veta hur stor tillförlitlighet man kan ha till dem. Det finns en mängd olika s k utvärderingsmått för just detta syfte.
Vi säger att vi gör en prognos vid tidpunkt n för y k perioder framåt. Detta skrivs som: ŷ n+k eller ŷ n (k) där k ofta kallas prognoslängd (k = 1, 2, 3,... ) och n + k är tidpunkten vi gör prognos för. Exempel: Datatyp n k n + k Prognos År 2015 1 2016 ŷ 2016 Kvartal 2015:3 4 2016:3 ŷ 2016:3 Månad 2015:11 13 2016:12 ŷ 2016:12
Några vanliga prognosutvärderingsmått: (yi ŷ i ) Medelfel (ME) = m (yi ŷ i ) 2 Medelkvadratfel (MSE) = m (yi ŷ i ) Rotmedelkvadratfel (RMSE) = 2 m yi ŷ i Medelabsolutfel (MAD) = m Medelabsolutprocentfel (MAPE) = 1 y i ŷ i m y i där m = antal prognoser Av dessa är enbart MAPE lämpligt för jämförelse mellan olika tidsserier
Är regeringens prognoser för optimistiska? SvD, 27 mars 2013:
Om vi tittar i Konjunkturinstitutets rapport ing av prognoserna för 2012 samt 1997 2012 Konjunkturbarometern (mars 2013): Tabell 54 Medelfel för prognoser för 2012 publicerade under 2011 och 2012 Procentenheter BNP Sysssättn. Arb.- löshet Timlön KPI KPIF Off. fin. spar. ESV 0,5 0,2 0,2 0,0 0,6 0,1 0,8 Reg 1,0 0,2 0,3 0,0 0,5 0,0 1,0 HUI 0,7 0,4 0,8 KI 0,7 0,1 0,2-0,1 0,6 0,2 0,6 LO 0,4 0,1 0,1-0,1 0,7 0,3 0,4 NO 0,2 0,4 0,2 0,2 0,8 0,4 0,8 RB 0,6 0,1 0,4-0,1 0,8 0,3 1,2 SEB 0,5 0,0 0,5 0,5 0,7 0,3 0,8 SHB 0,6 0,3 0,1 0,0 0,4 0,1 0,7 SN 0,1 0,1 0,0 0,7 0,5 SB 0,5 0,1 0,2 0,0 1,0 0,4 0,9 Medelvärde 0,5 0,2 0,2 0,1 0,7 0,3 0,8 Anm. Prognosinstituten är Ekonomistyrningsverket (ESV), regeringen (Reg), Handelns utredningsinstitut (HUI), Konjunkturinstitutet (KI), Landsorganisationen
Men om vi istället utvärderar över en längre period: Ko Tabell 57 Medelfel, medelabsolutfel och rotmedelkvadratfel för prognoser för 1997 2012 Procentenheter BNP Arbetslöshet KPI MF MAF RMKF MF MAF RMKF MF MAF RMKF Reg 0,3 1,2 1,9 0,1 0,5 0,8 0,1 0,5 0,8 HUI 0,2 1,1 1,8 0,0 0,5 0,7 0,2 0,5 0,8 KI 0,4 1,1 1,9 0,1 0,5 0,8 0,1 0,5 0,8 LO 0,3 1,3 1,9 0,0 0,6 0,8 0,0 0,5 0,8 NO 0,3 1,1 1,7 0,1 0,5 0,7 0,2 0,6 0,9 RB 0,3 1,1 1,8 0,0 0,5 0,8 0,2 0,5 0,9 SEB 0,2 1,1 1,7 0,1 0,4 0,6 0,3 0,5 0,8 SHB 0,4 1,2 1,9 0,0 0,5 0,8 0,3 0,6 0,9 SN 0,1 1,3 1,9 0,1 0,5 0,8 0,2 0,6 0,8 SB 0,1 1,6 2,2 0,2 0,6 0,9 0,1 0,6 0,8 Medelvärde 0,2 1,2 1,9 0,0 0,5 0,8 0,2 0,5 0,8 Anm. MF = medelfel, MAF = medelabsolutfel, RMKF = rotmedelkvadratfel. Prognosinstituten är regeringen (Reg), Handelns utredningsinstitut (HUI), Konjunkturinstitutet (KI), Landsorganisationen (LO), Nordea (NO) Riksbanken (RB), SEB, Handelsbanken (SHB), Svenskt näringsliv (SN), Swedbank (SB).
Vi kommer nu att börja med skattning av trendkomponenten. Antag tills vidare att tidsserien består enbart av trend och slump, dvs y t = T t + R t eller y t = T t R t Vi kommer att använda två metoder för skattning av trenden T t : 1 Regressionsanalys 2 Glidande medelvärden Med den skattade trenden kan vi: 1 Trendrensa serien 2 Göra prognoser (extrapolering)
Vid användning av regressionsanalys kan vi modellera många olika slags trender med hjälp av lämpligt valda matematiska funktioner. Det som krävs är att modellen är linjär eller kan bli linjär genom transformation (t ex logaritmering). Några exempel på möjliga trendfunktioner: T t = β 0 + β 1 t T t = β 0 + β 1 t + β 2 t 2 + + β q t q T t = β 0 + β 1 ln t T t = β 0 β1 t ln T t = ln β 0 + t ln β 1 (Linjär trend) (Polynom av q:te graden) (Logaritmisk trend) (Exponentiell trend)
t 200t t 2 20 40 60 80 100 ln(t) 20 40 60 80 100 (1.02) t 20 40 60 80 100 20 40 60 80 100 Exempel på olika trendfunktioner
Antagandena för multipel linjär regression bör fortfarande vara uppfyllda: 1 Modellen är korrekt specificerad (den sanna modellen är linjär) 2 Låg multikollinearitet Om perfekt modellen går ej att skatta Om hög medelfelen är ofta för stora 3 Feltermerna är oberoende (ingen autokorrelation) Om det bryts medelfel, t- och F -test är missvisande 4 Feltermerna har konstant varians (homoskedasticitet) Om det bryts medelfel, t- och F -test är missvisande 5 Feltermerna är normalfördelade (eller stort stickprov)
Tolkningen av riktningskoefficienterna varierar: Linjär trend: den absoluta trendmässiga förändringstakten är konstant. När t ökar med en enhet förändras trenden T t med β enheter Polynom av q:te graden: ingen enskild tolkning. Trendförändringen beror på t (se figuren!) Logaritmisk trend: trendförändringen beror på t och avtar med tiden Exponentialfunktionen: lämplig i de fall då den procentuella förändringstakten i trenden är konstant. Då t förändras en enhet förändras T t med 100(β 1)%.
Några exempel på tidsserier med trend och slumpeffekter: y t = T t + R t = β 0 + β 1 t + β 2 t 2 + + β q t q + ɛ }{{}}{{} t T t R t (additiv) y t = T t + R t = β 0 + β 1 ln t + ɛ }{{} t (additiv) }{{} T t R t (multiplikativ) y t = T t R t = β 0 β1 t }{{} T t e ɛt }{{} R t
Eftersom den multiplikativa modellen inte är linjär kan vi inte skatta den med minsta i modellens nuvarande form. Logaritmera serien: Nu har vi: y t = β 0 β t 1e ɛt ln y t = ln β 0 + (ln β 1 )t + ɛ t. där y t = β 0 + β 1t + ɛ t y t = ln y t, β 0 = ln β 0, β 1 = ln β 1. Den transformerade modellen kan vi enkelt skatta med minsta och få skattningarna ˆβ 0, ˆβ 1. Genom att transformera tillbaka får vi skattningar för den multiplikativa modellen: ˆβ 0 = e ˆβ 0, ˆβ1 = e ˆβ 1.
Exempel på linjär trend y t = β 0 + β 1 t + ɛ t Antal personer, tusental 4700 4600 4500 4400 4300 4200 4100 4000 3900 3800 Quarter Q1 Year 1997 Q1 2003 Q1 2009 Sysselsättningen i Sverige, 1997:1-2014:4. Skattad modell: y t = 3986,9 + 8,7t varje kvartal förväntas sysselsättningen öka med 8700 personer
Är linjär trend ett rimligt antagande? Antal personer, tusental 4700 4600 4500 4400 4300 4200 4100 4000 3900 Variable Syssels Syssels Trend 3800 Quarter Q1 Year 1976 Q1 1982 Q1 1988 Q1 1994 Q1 2000 Q1 2006 Q1 2012 Sysselsättningen i Sverige, 1976:1-2014:4.
Exempel på exponentiell trend y t = β 0 β1e t ɛt skatta ln y t = ln β 0 + t ln β 1 + ɛ t Tusentals kronor 1750 1500 1250 1000 750 500 2000 2002 2004 2006 2008 År 2010 2012 2014 Medelpris för bostadsrätter i Uppsala län, 2000-2014. Skattad modell: y t = 405,5 1,10 t varje år förväntas medelpriset på bostadsrätter i Uppsala län öka med ca 10 %
Precis som i regressionsanalys med tvärsnittsdata kan vi beskriva osäkerheten i våra prognoser med prediktionsintervall. Se avsnitt 3.9 för detta.
Skörd av höstvete, kg per hektar, 1965-2014.
Utvecklingen ser inte ut att vara särskilt linjär (med avseende på tiden), utan avtar med t. Därför anpassar vi följande två modeller för att skatta trenden: Modell 1 Andragradspolynom: ŷ t = ˆβ 0 + ˆβ 1 t + ˆβ 2 t 2 Modell 2 Logaritmisk trend: ŷ t = ˆβ 0 + ˆβ 1 ln t
Vi skattar modell 1 med Minitab och får: Ekvation: ŷ t = 3480 + 112,5t 1,094t 2 Koefficienterna är signifikanta (t-test: p-värden 0,000 och 0,003) Modellen är signifikant (F -test: p-värde 0,000) Förklaringsgraden är R 2 = 78%
Skörd av höstvete, data och trend
Residualanalys, är våra antaganden uppfyllda? Residualanalys, kvadratisk trend
Om vi vill se hur utvecklingen ser ut om vi bortser från trenden kan vi trendrensa serien, vilket vi gör genom att subtrahera trenden: y t ˆT t = y t ( ˆβ 0 + ˆβ 1 t + ˆβ 2 t 2 )
Trendrensad skörd av höstvete, kvadratisk trend
Modell 2 i Minitab ger: Ekvation: ŷ t = 2676 + 920,7 ln t Koefficienten är signifikant (t-test: p-värde 0,000) Modellen är signifikant (F -test: p-värde 0,000) Förklaringsgraden är R 2 = 72%
Residualanalys, logaritmisk trend
Trendrensningen är nu istället: y t ˆT t = y t ( ˆβ 0 + ˆβ 1 ln t)
Trendrensad skörd av höstvete, logaritmisk trend
Skörd av höstvete och trendskattningar
Några saker att se upp med vid regression på tidsseriedata: Inspektera residualerna. Det är vanligt med korrelerade residualer, vilket betyder att medelfelen är felaktiga. Detta påverkar test och intervall. Punktskattningarna är fortfarande väntevärdesriktiga och således även prognoserna. Men korrelationen är information som kan användas och det finns därför andra metoder som är bättre och mer effektiva. Dessutom: om vi har två serier som båda uppvisar trend kan man ofta få höga förklaringsvärden även om serierna är helt oberoende. Därför bör man inte övertolka ett högt förklaringsvärde.
Exempel: förväntad livslängd i Afghanistan och Uppsalas befolkningsmängd Förv. livslängd (antal år) 65 60 55 50 45 40 35 30 1960 1970 1980 1990 År 2000 2010 220 200 180 160 140 120 100 Antal inv. (1000-tals personer) Variable Afgh Uppsala Förväntad livslängd i Afghanistan (vänster) och Uppsalas befolkningsmängd (höger). I regressionen Afgh t = β 0 + β 1 Uppsala t + ɛ t är R 2 = 0,9903 och p-värdet för t-test 0,000