Säsongrensning i tidsserier.



Relevanta dokument
Regressions- och Tidsserieanalys - F8

Tidsserier, forts från F16 F17. Tidsserier Säsongrensning

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Tidsserier. Data. Vi har tittat på två typer av data

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

ÖVNINGSUPPGIFTER KAPITEL 7

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

Vad Betyder måtten MAPE, MAD och MSD?

Lektionsanteckningar 11-12: Normalfördelningen

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Räkneövning 4. Om uppgifterna. 1 Uppgift 1. Statistiska institutionen Uppsala universitet. 14 december 2016

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tidsserier. Tre modeller för tidsserier är den multiplikativa, additiva och säsongdummymetoden.

En typisk medianmorot

Repetition kapitel 1, 2, 5 inför prov 2 Ma2 NA17 vt18

Tillämpad statistik (A5), HT15 Föreläsning 24: Tidsserieanalys III

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prognoser. ekonomisk-teoretisk synvinkel. Sunt förnuft i kombination med effektiv matematik ger i regel de bästa prognoserna.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

Prognostisering med exponentiell utjämning

Statistiska samband: regression och korrelation

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finansiell statistik

F11. Kvantitativa prognostekniker

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Sammanfattningar Matematikboken X

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Prognostisering med glidande medelvärde

Regressions- och Tidsserieanalys - F7

vux GeoGebraexempel 2b/2c Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

STATISTIKUNDERLAG för befolkningsprognoser

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

Hantera andragradskurvor del 2

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Justeringar och tillägg till Svar till numeriska uppgifter i Andersson, Jorner, Ågren: Regressions- och tidsserieanalys, 3:uppl.

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Tisdag v. 2. Speglingar, translationer och skalningar

Vägledning till statistisk redovisning i NFTS försöksdokumentation

Sänkningen av parasitnivåerna i blodet

1 Föreläsning I, Mängdlära och elementär sannolikhetsteori,

Beskrivande statistik

Checklista för funktionsundersökning

Arbeta med normalfördelningar

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Lösa ekvationer på olika sätt

Kort om mätosäkerhet

Hur länge ska fisken vara i dammen?

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

2301 OBS! x används som beteckning för både vinkeln x och som x-koordinat

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

SF1625 Envariabelanalys Lösningsförslag till tentamen DEL A

Föreläsning G60 Statistiska metoder

InStat Exempel 4 Korrelation och Regression

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

, s a. , s b. personer från Alingsås och n b

Korrelation och autokorrelation

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Anvisningar till del 2 av den obligatoriska inlämningsuppgiften (HT 2007)

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Kapitel 4. Funktioner. 4.1 Definitioner

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Datoraritmetik. Från labben. Från labben. Några exempel

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Välja prognosmetod En översikt

Lösningar och kommentarer till uppgifter i 2.2

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Föreläsning G60 Statistiska metoder

f(x) = x 2 g(x) = x3 100

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Planering av flygplatser

2320 a. Svar: C = 25. Svar: C = 90

Regressions- och Tidsserieanalys - F1

6-2 Medelvärde och median. Namn:

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs B, kapitel 2

f(x) = x 2 g(x) = x3 100 h(x) = x 4 x x 2 x 3 100

MVE051/MSG Föreläsning 7

Forskningsmetodik 2006 Lektion 3

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Regressions- och Tidsserieanalys - F1

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Facit till Extra övningsuppgifter

Kapitel Ekvationsräkning

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Bearbetning och Presentation

Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I

ÖVNINGSUPPGIFTER KAPITEL 2

Transkript:

Senast ändrad 200-03-23. Säsongrensning i tidsserier. Kompletterande text till kapitel.5 i Tamhane och Dunlop. Inledning. Syftet med säsongrensning är att dela upp en tidsserie i en trend u t, en säsongkomponent s t och en slumpkomponent ɛ t : x t = u t + s t + ɛ t, t =, 2,... T, där T = tidsseriens längd. Trenden är en långsiktig förändring i seriens nivå. Säsongkomponenten är en periodisk avvikelse från trenden. Den antas bero endast på säsongen. Om vi exempelvis har månadsvisa data antar vi att säsongkomponenten är densamma för alla februari, oavsett år. Om periodens längd är m kan vi uttrycka detta så här: s t = s t+m = s t+2m..., för alla index där vi har data. Slumpkomponenten, slutligen, är den slumpmässiga variationen utöver trend och säsongkomponent. Vi illustrerar med ett exempel. Det dataset vi använder är hämtat ur Andersson, Jorner och Ågren, Regressions- och tidsserieanalys. Exemplet handlar i likhet med det i Tamhane och Dunlop om försäljning av bilar, men i vårt exempel har vi data för varje kvartal, inte bara årsvis. Det kommer att visa sig att bilförsäljningen varierar en del med tiden på året. I denna tidsserie har vi således en säsongkomponent med periodlängd m =. Nedanstående tabell visar den totala försäljningen av bilar i Sverige under tioårsperioden 98:-990:, dvs fr o m kvartal år 98 t o m kvartal år 990. Försäljningen är uttryckt i 980 års priser (miljoner kronor). 98 982 983 98 985 986 987 988 989 990 Kvartal 2583 305 2592 273 3096 337 28 53 6 072 Kvartal 2 2662 3320 2890 2909 3828 205 6279 6259 5353 3997 Kvartal 3 275 26 236 28 222 3263 3775 500 368 2568 Kvartal 3032 3850 3532 366 290 783 6026 5859 506 2863

Grafiskt ser försäljningssiffrorna ut så här. På den vågräta axeln har vi infört en variabel t för löpande tid: vi låter t = svara mot 98:, t = 2 mot 98:2,... t = 0 mot 990:. Bilar 7000 6000 5000 Milj kr 000 3000 Bilar 2000 000 0 7 0 3 6 9 22 25 28 3 3 37 0 t 2 Centrerade glidande medelvärden. I läroboken Tamhane och Dunlop beskrivs hur man kan använda glidande medelvärden (moving averages) för att. göra prediktioner, och 2. jämna ut en kurva (smoothing) så att en eventuell övergripande trend framträder tydligare. I det senare fallet får man, men de utjämningsmetoder som beskrivs i Tamhane och Dunlop, en utjämnad kurva som tenderar att vara förskjuten till höger i förhållande till den ursprungliga kurvan. Detta syns tydligt i Fig..20 på sidan 5. Orsaken är att exempelvis det utjämnade värdet för 993 (i Fig..20) är ett medelvärde av värdena för 99, 992 och 993 och således påverkas även av trenden under de båda tidigare åren, vars värden återfinns till vänster om den punkt på den streckade kurvan som svarar mot 993. Om vi vill beräkna en trend som ligger i fas med den ursprungliga tidsserien måste vi därför använda centrerade glidande medelvärden, som symmetriskt väger in värden före och efter den aktuella tidpunkten. Nära tidsseriens ändpunkter kommer dessa medelvärden att involvera observationer som inte finns. Vi betraktar då det utjämnade värdet som ett saknat värde, så att den utjämnade tidsserien blir något kortare än den ursprungliga. Det enklaste är att ta medelvärdet av ett udda antal w = 2k + observationer: MA t = x t k + x t k+ +... + x t + x t + x t+ +... + x t+k + x t+k 2k + för t = k +, k + 2... T k, där T betecknar tidsseriens längd., Mera allmänt kan man tänka sig vikter c 0, c,... c k : MA t = c k x t k +... + c x t + c 0 x t + c x t+ +... + c k x t+k. 2

Här måste vi kräva att c 0 + 2 k i=0 c i =. I de flesta fall kräver man också att c i 0. 3 Utjämning av säsongvariation med glidande medelvärden. Det finns en tredje användning av glidande medelvärden: man kan använda dem för att jämna ut säsongvariation. Detta kräver emellertid att man ger lika vikt åt varje säsong, så att inte olika säsonger dominerar vid olika tidpunkter i det glidande medelvärdet. I vårt exempel måste alltså varje kvartal ha samma vikt. Om vi dessutom vill beräkna centrerade glidande medelvärden, kan vi således inte använda den enkla metoden att ta medelvärdet av ett udda antal observationer: perioden är ju, ett jämnt tal. Istället använder vi följande glidande medelvärde MA t = x t 2 + 2x t + 2x t + 2x t+ + x t+2 8 för t = 3,... 38. Ett liknande glidande medelvärde går naturligtvis att räkna ut för godtyckliga jämna perioder. I tabellform blir resultatet följande (avrundat till hela miljoner): 98 982 983 98 985 986 987 988 989 990 Kvartal 2922 293 2860 3073 3306 76 566 980 060 Kvartal 2 3060 2880 2793 305 367 935 5536 776 368 Kvartal 3 2667 309 2858 2793 307 09 5236 52 607 Kvartal 2803 3003 2878 2953 328 392 5378 595 369, En graf över de glidande medelvärdena ser ut såhär: MA 6000 5000 000 Milj kr 3000 2000 000 MA 0 7 0 3 6 9 22 25 28 3 3 t Uppenbarligen har proceduren även haft effekten att släta ut lokala variationer. Ibland kan man emellertid vilja ha dessa kvar, utan att förvillas av säsongvariation. Det är detta som är syftet med säsongrensning. 3

Säsongrensning. När man genomför en säsongrensning, räknar man först ut trenden. Denna är förstås inte någon objektiv storhet; distinktionen mellan vad som är lokala variationer ( slump ) och vad som är trend beror i mångt och mycket på vad man vet om datas uppkomst, och kanske också på vad man vill använda data till. Det finns därför ett antal olika sätt att räkna ut trend, och de ger inte samma resultat. En möjlighet är att anpassa en regressionslinje till data. En annan är att använda glidande medelvärden, och det är detta vi ska göra här. (I Andersson, Jorner och Ågren utförs dock en mera komplicerad form av säsongrensning på detta dataset.) Vi använder härvid ett glidande medelvärde som inte bara jämnar ut lokala variationer, utan också tar bort säsongvariationen. Se ovan! För att återgå till exemplet, så har vi således just räknat ur trenden u t. Hur får vi tag i säsongkomponenten? Den borde vara den medelmåttiga avvikelsen från trenden för varje kvartal. Vi sätter därför s j = 9 t j mod (x t u t ), j =, 2, 3,. Vi har nämligen 9 observationer av trenden, och därmed av x t u t, för varje kvartal. (I början av tidsserien går kvartal och 2 bort, och i slutet 3 och.) Vi får följande värden på säsongkomponenten för de fyra kvartalen: s = 2.9, s 2 = 52.8, s 3 = 793.0, s = 55.. Nu skulle man kunna tro att säsongkomponenten över en period skulle ha medelvärdet noll, eftersom den representerar avvikelse från trenden, men detta stämmer inte exakt beroende på att observationerna i början och slutet av serien inte ingår med samma vikt som de andra vid beräkning av trenden u t. I vårt fall får vi i själva verket s = s j = 5.6. j= Vi subtraherar därför detta medelvärde från säsongkomponenten och definierar den justerade säsongkomponenten s j = s j s, j =, 2, 3,. Detta ger s = 37.5, s 2 = 506.3, s 3 = 808.6, s = 39.8. Av dessa värden (eller för all del av de ojusterade) ser man att om man bortser från trend och lokala variationer så tenderar folk att köpa minst bilar under kvartal 3, alltså under månaderna juli, augusti och september, dvs under semestern och strax efter. Flest bilar köper de under kvartal 2, alltså under månaderna april, maj och juni. Kanske vill man ha en ny bil att åka på semester i? Den säsongrensade serien r t fås nu genom att man subtraherar säsongkomponenterna från den ursprungliga tidsserien: r t = x t s t,

där vi definierat s t för alla t =, 2,... T genom att sätta s t = s j om t j mod. Vi har alltså r = x + 37.5, r 2 = x 2 506.3, r 3 = x 3 + 808.6, r = x 39.8, r 5 = x 5 + 37.5 etc. Vi får tabellen 98 982 983 98 985 986 987 988 989 990 Kvartal 272 353 2730 2872 323 3509 9 558 752 20 Kvartal 2 256 28 238 203 3322 3699 5773 5753 87 39 Kvartal 3 298 3273 355 2990 3030 072 58 5309 93 3377 Kvartal 2592 30 3092 2726 26 33 5586 59 606 223 Notera att den rensade serien har värden även i början och slutet av serien. Vi har att r t = x t s j = u t + ɛ t för t = 3,... 38. dvs bortsett från början och slutet är den rensade serien trend plus slumpkomponent. De lokala variationerna finns alltså kvar, för den händelse man vill kunna studera dem utan att störas av säsongvariation. I exemplet har den rensade serien följande utseende: Rensad 7000,0 6000,0 5000,0 Milj kr 000,0 3000,0 2000,0 000,0 0,0 Rensad 7 0 3 6 9 22 25 28 3 3 37 0 t 5

5 Övningsuppgift. I tabellen nedan står angiven elenergiförbrukningen per kvartal (enhet: GWh) i ett litet samhälle: År Kvartal Kvartal 2 Kvartal 3 Kvartal 997 80 5 32 58 998 70 50 2 5 999 8 33 26 63 a) Beskriv hur man uppskattar tidsseriens trend med hjälp av centrerade glidande medelvärden. b) Räkna ut det första glidande medelvärdet. c) Övriga trendvärden ges av nedanstående tabell; symbolen står för det värde som du har räknat ut i i b). Uppskatta säsongkomponenten! År Kvartal Kvartal 2 Kvartal 3 Kvartal 997 - - 5,875 998 5,5 50 50,875 50,25 999 8,25 9,625 - - d) Gör en tabell över den säsongrensade serien. 6