Senast ändrad 200-03-23. Säsongrensning i tidsserier. Kompletterande text till kapitel.5 i Tamhane och Dunlop. Inledning. Syftet med säsongrensning är att dela upp en tidsserie i en trend u t, en säsongkomponent s t och en slumpkomponent ɛ t : x t = u t + s t + ɛ t, t =, 2,... T, där T = tidsseriens längd. Trenden är en långsiktig förändring i seriens nivå. Säsongkomponenten är en periodisk avvikelse från trenden. Den antas bero endast på säsongen. Om vi exempelvis har månadsvisa data antar vi att säsongkomponenten är densamma för alla februari, oavsett år. Om periodens längd är m kan vi uttrycka detta så här: s t = s t+m = s t+2m..., för alla index där vi har data. Slumpkomponenten, slutligen, är den slumpmässiga variationen utöver trend och säsongkomponent. Vi illustrerar med ett exempel. Det dataset vi använder är hämtat ur Andersson, Jorner och Ågren, Regressions- och tidsserieanalys. Exemplet handlar i likhet med det i Tamhane och Dunlop om försäljning av bilar, men i vårt exempel har vi data för varje kvartal, inte bara årsvis. Det kommer att visa sig att bilförsäljningen varierar en del med tiden på året. I denna tidsserie har vi således en säsongkomponent med periodlängd m =. Nedanstående tabell visar den totala försäljningen av bilar i Sverige under tioårsperioden 98:-990:, dvs fr o m kvartal år 98 t o m kvartal år 990. Försäljningen är uttryckt i 980 års priser (miljoner kronor). 98 982 983 98 985 986 987 988 989 990 Kvartal 2583 305 2592 273 3096 337 28 53 6 072 Kvartal 2 2662 3320 2890 2909 3828 205 6279 6259 5353 3997 Kvartal 3 275 26 236 28 222 3263 3775 500 368 2568 Kvartal 3032 3850 3532 366 290 783 6026 5859 506 2863
Grafiskt ser försäljningssiffrorna ut så här. På den vågräta axeln har vi infört en variabel t för löpande tid: vi låter t = svara mot 98:, t = 2 mot 98:2,... t = 0 mot 990:. Bilar 7000 6000 5000 Milj kr 000 3000 Bilar 2000 000 0 7 0 3 6 9 22 25 28 3 3 37 0 t 2 Centrerade glidande medelvärden. I läroboken Tamhane och Dunlop beskrivs hur man kan använda glidande medelvärden (moving averages) för att. göra prediktioner, och 2. jämna ut en kurva (smoothing) så att en eventuell övergripande trend framträder tydligare. I det senare fallet får man, men de utjämningsmetoder som beskrivs i Tamhane och Dunlop, en utjämnad kurva som tenderar att vara förskjuten till höger i förhållande till den ursprungliga kurvan. Detta syns tydligt i Fig..20 på sidan 5. Orsaken är att exempelvis det utjämnade värdet för 993 (i Fig..20) är ett medelvärde av värdena för 99, 992 och 993 och således påverkas även av trenden under de båda tidigare åren, vars värden återfinns till vänster om den punkt på den streckade kurvan som svarar mot 993. Om vi vill beräkna en trend som ligger i fas med den ursprungliga tidsserien måste vi därför använda centrerade glidande medelvärden, som symmetriskt väger in värden före och efter den aktuella tidpunkten. Nära tidsseriens ändpunkter kommer dessa medelvärden att involvera observationer som inte finns. Vi betraktar då det utjämnade värdet som ett saknat värde, så att den utjämnade tidsserien blir något kortare än den ursprungliga. Det enklaste är att ta medelvärdet av ett udda antal w = 2k + observationer: MA t = x t k + x t k+ +... + x t + x t + x t+ +... + x t+k + x t+k 2k + för t = k +, k + 2... T k, där T betecknar tidsseriens längd., Mera allmänt kan man tänka sig vikter c 0, c,... c k : MA t = c k x t k +... + c x t + c 0 x t + c x t+ +... + c k x t+k. 2
Här måste vi kräva att c 0 + 2 k i=0 c i =. I de flesta fall kräver man också att c i 0. 3 Utjämning av säsongvariation med glidande medelvärden. Det finns en tredje användning av glidande medelvärden: man kan använda dem för att jämna ut säsongvariation. Detta kräver emellertid att man ger lika vikt åt varje säsong, så att inte olika säsonger dominerar vid olika tidpunkter i det glidande medelvärdet. I vårt exempel måste alltså varje kvartal ha samma vikt. Om vi dessutom vill beräkna centrerade glidande medelvärden, kan vi således inte använda den enkla metoden att ta medelvärdet av ett udda antal observationer: perioden är ju, ett jämnt tal. Istället använder vi följande glidande medelvärde MA t = x t 2 + 2x t + 2x t + 2x t+ + x t+2 8 för t = 3,... 38. Ett liknande glidande medelvärde går naturligtvis att räkna ut för godtyckliga jämna perioder. I tabellform blir resultatet följande (avrundat till hela miljoner): 98 982 983 98 985 986 987 988 989 990 Kvartal 2922 293 2860 3073 3306 76 566 980 060 Kvartal 2 3060 2880 2793 305 367 935 5536 776 368 Kvartal 3 2667 309 2858 2793 307 09 5236 52 607 Kvartal 2803 3003 2878 2953 328 392 5378 595 369, En graf över de glidande medelvärdena ser ut såhär: MA 6000 5000 000 Milj kr 3000 2000 000 MA 0 7 0 3 6 9 22 25 28 3 3 t Uppenbarligen har proceduren även haft effekten att släta ut lokala variationer. Ibland kan man emellertid vilja ha dessa kvar, utan att förvillas av säsongvariation. Det är detta som är syftet med säsongrensning. 3
Säsongrensning. När man genomför en säsongrensning, räknar man först ut trenden. Denna är förstås inte någon objektiv storhet; distinktionen mellan vad som är lokala variationer ( slump ) och vad som är trend beror i mångt och mycket på vad man vet om datas uppkomst, och kanske också på vad man vill använda data till. Det finns därför ett antal olika sätt att räkna ut trend, och de ger inte samma resultat. En möjlighet är att anpassa en regressionslinje till data. En annan är att använda glidande medelvärden, och det är detta vi ska göra här. (I Andersson, Jorner och Ågren utförs dock en mera komplicerad form av säsongrensning på detta dataset.) Vi använder härvid ett glidande medelvärde som inte bara jämnar ut lokala variationer, utan också tar bort säsongvariationen. Se ovan! För att återgå till exemplet, så har vi således just räknat ur trenden u t. Hur får vi tag i säsongkomponenten? Den borde vara den medelmåttiga avvikelsen från trenden för varje kvartal. Vi sätter därför s j = 9 t j mod (x t u t ), j =, 2, 3,. Vi har nämligen 9 observationer av trenden, och därmed av x t u t, för varje kvartal. (I början av tidsserien går kvartal och 2 bort, och i slutet 3 och.) Vi får följande värden på säsongkomponenten för de fyra kvartalen: s = 2.9, s 2 = 52.8, s 3 = 793.0, s = 55.. Nu skulle man kunna tro att säsongkomponenten över en period skulle ha medelvärdet noll, eftersom den representerar avvikelse från trenden, men detta stämmer inte exakt beroende på att observationerna i början och slutet av serien inte ingår med samma vikt som de andra vid beräkning av trenden u t. I vårt fall får vi i själva verket s = s j = 5.6. j= Vi subtraherar därför detta medelvärde från säsongkomponenten och definierar den justerade säsongkomponenten s j = s j s, j =, 2, 3,. Detta ger s = 37.5, s 2 = 506.3, s 3 = 808.6, s = 39.8. Av dessa värden (eller för all del av de ojusterade) ser man att om man bortser från trend och lokala variationer så tenderar folk att köpa minst bilar under kvartal 3, alltså under månaderna juli, augusti och september, dvs under semestern och strax efter. Flest bilar köper de under kvartal 2, alltså under månaderna april, maj och juni. Kanske vill man ha en ny bil att åka på semester i? Den säsongrensade serien r t fås nu genom att man subtraherar säsongkomponenterna från den ursprungliga tidsserien: r t = x t s t,
där vi definierat s t för alla t =, 2,... T genom att sätta s t = s j om t j mod. Vi har alltså r = x + 37.5, r 2 = x 2 506.3, r 3 = x 3 + 808.6, r = x 39.8, r 5 = x 5 + 37.5 etc. Vi får tabellen 98 982 983 98 985 986 987 988 989 990 Kvartal 272 353 2730 2872 323 3509 9 558 752 20 Kvartal 2 256 28 238 203 3322 3699 5773 5753 87 39 Kvartal 3 298 3273 355 2990 3030 072 58 5309 93 3377 Kvartal 2592 30 3092 2726 26 33 5586 59 606 223 Notera att den rensade serien har värden även i början och slutet av serien. Vi har att r t = x t s j = u t + ɛ t för t = 3,... 38. dvs bortsett från början och slutet är den rensade serien trend plus slumpkomponent. De lokala variationerna finns alltså kvar, för den händelse man vill kunna studera dem utan att störas av säsongvariation. I exemplet har den rensade serien följande utseende: Rensad 7000,0 6000,0 5000,0 Milj kr 000,0 3000,0 2000,0 000,0 0,0 Rensad 7 0 3 6 9 22 25 28 3 3 37 0 t 5
5 Övningsuppgift. I tabellen nedan står angiven elenergiförbrukningen per kvartal (enhet: GWh) i ett litet samhälle: År Kvartal Kvartal 2 Kvartal 3 Kvartal 997 80 5 32 58 998 70 50 2 5 999 8 33 26 63 a) Beskriv hur man uppskattar tidsseriens trend med hjälp av centrerade glidande medelvärden. b) Räkna ut det första glidande medelvärdet. c) Övriga trendvärden ges av nedanstående tabell; symbolen står för det värde som du har räknat ut i i b). Uppskatta säsongkomponenten! År Kvartal Kvartal 2 Kvartal 3 Kvartal 997 - - 5,875 998 5,5 50 50,875 50,25 999 8,25 9,625 - - d) Gör en tabell över den säsongrensade serien. 6