Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs mätningarna vid vissa tidpunkter och med samma avstånd mellan dem. T ex en gång i veckan, månaden eller året. Låt oss se på några exempel.
Sveriges bruttonationalprodukt 1861-1988 Årsdata. En kraftig trend.
Procentuella förändringar i BNP 1951-1982 Årsdata. Varför var det ca 6% tillväxttakt i ekonomin 1970 och ca 0% året efter? Förändringar p g a konjunktur.
Dödsorsak: olycksfall. USA 1973-1978. Månadsdata. Ett tydligt säsongsmönster.
Orsakerna till variationen i en tidsserie Byggstenarna eller komponenterna (med olika analogier) i en tidsserie är: 1 TREND Den allmänna utveckling som föreligger under en längre period. 2 KONJUNKTUR Kring den trend vi i stora drag kan urskilja finner vi kanske att värdena fluktuerar mer eller mindre regelbundet. 3 SÄSONG Periodiska mönster som återkommer varje år. 4 SLUMP De variationer som inte kan förklaras av ovan utan snarare av tillfälligheter.
Vad är prognoser? En förutsägelse angående framtida händelser eller tillstånd kallas en prognos (forecast). Olika metoder: kvalitativa och kvantitativa. Behövs dem? Människan måste göra prognoser. Prognoserna kan vara punktskattningar eller intervallskattningar.
Vad är prognoser?-kvalitativa metoder Experters åsikter. Historiska data saknas. Subjektiv kurvanpassning. S-kurvor. Delfi-metoden: (oraklet i Delfi) Rand Corporation; en grupp experter samlas; använts för att bedöma utvecklingen inom olika teknologiska områden. Teknologiska jämförelser.
Vad är prognoser?-kvantitativa metoder Univariata prognosmodeller använder uteslutande tidigare värden. Kausala prognosmodeller söker finna andra variabler som påverkar den variabel som skall prognosticeras.
När man gör en prognos kommer framtiden troligen visa att det inte var rätt tänkt Det observerade värdet i period t betecknas y t. Prognosen betecknas ŷ t. Prognosfelet(forecast error) för prognosen ŷ t definieras som e t = y t ŷ t. Utseendet kan avslöja brister i modellvalet.
Mått på prognosernas noggrannhet Vi definierar även det absoluta felet(absolute deviations) Absoluta felet = e t = y t ŷ t. Genom att bilda det aritmetiska medelvärdet av de absoluta felen erhåller vi den genomsnittliga absoluta avvikelsen(mean absolute deviation (MAD)) Genomsnittliga absoluta avvikelsen = 1 n n e t = 1 n t=1 n y t ŷ t. t=1
Mått på prognosernas noggrannhet Vi kvadrerar prognosfelen e 2 t = (y t ŷ t ) 2 och bildar det aritmetiska medelvärdet av de kvadrerade felen. Då erhåller vi medelkvadratavvikelsen(mean squared error(mse)) Medelkvadratavvikelsen = 1 n n et 2 = 1 n t=1 n (y t ŷ t ) 2. t=1
Mått på prognosernas noggrannhet Absoluta procentuella felet ges som APT t = e t y t (100) = y t ŷ t y t (100). Bildar aritmetiska medelvärdet. Då erhåller vi den genomsnittliga absoluta procentavvikelsen(mean absolute percentage error(mape)) Genomsnittliga absoluta procentavvikelsen = 1 n n t=1 y t ŷ t y t (100).
Korrelation och autokorrelation Låt oss begrunda uttrycket r = n i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva. I nämnaren har vi alltså ett positivt tal. Vilket tecken som r antar beror således på täljaren (x 1 x) (y 1 y) + (x 2 x) (y 2 y) + + (x n x) (y n y). Om denna summa av produkter skall bli positiv eller negativ beror på om de ingående termerna är positiva eller negativa, samt förstås på deras storlek. Följande figur är oftast till hjälp för att gissa storlek och tecken på korrelationskoefficienten.
Korrelation och autokorrelation Y (y i y) > 0 (y i y) > 0 (x i x) < 0 (x i x) > 0 y (x i x) (y i y) < 0 (x i x) (y i y) > 0 (y i y) < 0 (y i y) < 0 (x i x) < 0 (x i x) > 0 (x i x) (y i y) > 0 (x i x) (y i y) < 0 x X
Korrelation och autokorrelation För 8 individer har ålder och längd uppmätts: Barn A B C D E F G H x 1 2 3 3 4 4 5 6 y 68 91 102 107 105 114 115 127 Vi bildar de ordnade paren och plottar dem: (1, 68), (2, 91),..., (6, 127)
Korrelation och autokorrelation Korrelationen är r = 0.94130.
Korrelation och autokorrelation Nu vet vi hur två variabler korrelerar med varandra. Nu påstår jag att en tidsserie y t kan korrelera med sig själv! Hur då? Vi skapar en ny variabel utav den gamla så att vi uppfyller tanken om två variabler som korrelerar med varandra. I varje tidpunkt låter vi den nya variabeln vara lika med y t :s värde i den förra tidpunkten. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4
Korrelation och autokorrelation Vi har tio observationer på denna tidsserie. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4 6 12 4 7 11 12 8 7 11 9 14 7 10 12 14 Summa 100 Korrelerar variablerna y t och y t 1? Vi börjar med ett spridningsdiagram.
Korrelation och autokorrelation Vi har den laggade variabeln y t 1 på y-axeln och den ursprungliga y t på x-axeln. Alltså är det första paret i tabellen är (8, 13). Längst till vänster ser vi de två paren (4, 4) och (4, 15). (y = 10)
Korrelation och autokorrelation Med inspiration av definitionen ovan av korrelation mellan två variabler, söker vi nu något liknande mellan y t och y t 1. Om vi har en tidsserie y 1, y 2,..., y n, så definieras stickprovets autokorrelationsfunktion i laggen 1 som r 1 = n t=2 (y t y) (y t 1 y) n t=1 (y t y) 2. (1) Vi har n = 10 observationer. Summan av observationerna är etthundra, så medelvärdet för y t är tio.
Korrelation och autokorrelation För att beräkna täljaren i (1) fyller vi på tabellen nedan t y t y t 1 y t 10 y t 1 10 (y t 10)(y t 1 10) 1 13 3 2 8 13-2 3-6 3 15 8 5-2 -10 4 4 15-6 5-30 5 4 4-6 -6 36 6 12 4 2-6 -12 7 11 12 1 2 2 8 7 11-3 1-3 9 14 7 4-3 -12 10 12 14 2 4 8 Summa -27
Korrelation och autokorrelation Ur kolumn 4 i tabellen kan vi även beräkna nämnaren i (1). Den blir 3 2 + ( 2) 2 + + 2 2 = 144. Alltså blir r 1 = 27 144 = 0.1875. Med detta värde är vi inte så långt från att y t och y t 1 är okorrelerade. Tecknet kunde anas utav plotten ovan. Storleken mycket svår att se.
Korrelation och autokorrelation Allt som sagts ovan om korrelationen hos en tidserie mellan observationerna på ett stegs tidsavstånd kan generaliseras till två stegs avstånd, tre steg o s v. För att kunna gissa vad korrelationen är på två stegs avstånd, så kan man plotta y t mot y t 2. Genom formeln n t=3 r 2 = (y t y) (y t 2 y) n t=1 (y t y) 2. definieras stickprovets autokorrelationsfunktion i laggen 2. I vårt exempel kan man visa att r 2 = 0.201389. Ämnet återkommer i samband med ARIMA-modeller.
Om minstakvadratmetodens förutsättningar Feltermerna skall vara oberoende stokastiska variabler. Residualerna y t ŷ skattar feltermerna. Residualerna skall bevara oberoendet. Tyvärr är detta ett för kraftigt antagande när vi använder regressionsmetoder på tidsseriedata. Vi tittar på några exempel för feltermerna.
Vi måste ha en specifik typ av korrelation mellan feltermerna! Föreställ er att på ett stegs avstånd mellan feltermerna ε t och ε t 1 så har vi korrelationen φ. två stegs avstånd mellan feltermerna ε t och ε t 2 så har vi korrelationen φ 2. tre stegs avstånd mellan feltermerna ε t och ε t 3 så har vi korrelationen φ 3. till slut på k stegs avstånd mellan feltermerna ε t och ε t k så har vi korrelationen φ k. Korrelationerna på de olika tidsavstånden utgör alltså en talföljd φ, φ 2, φ 3,..., φ k.
AR(1)-modellen En modell med en sådan korrelationsstruktur är ε t = φε t 1 + a t, 1 < φ < 1, (2) där de stokastiska variablerna a t är nya feltermer med vanligt beteende. (E(a t ) = 0; Var(a t ) = σ 2 a och Cov(a t, a t+k ) = 0. Ibland även normalfördelning med dessa moment.) Modellen (2) kallas för en autoregressiv modell av första ordningen, vanligen förkortad AR(1). Studiet av sådana modeller återkommer i den senare delen av kursen.
Durbin-Watsons test: nollhypotesen Om φ = 0 i ekvation (2) ovan, så blir ε t = a t och feltermerna är som vanligt igen. Om φ > 0, så har vi en geometriskt fallande talföljd av uttrycket φ k vars samtliga medlemmar är positiva. (Se Sydsæter/Hammond, sidan 248 för talföljder). Låt oss därför testa H 0 : φ = 0 mot alternativet H a : φ > 0. Vi kan även uttrycka dessa hypoteser som mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade.
Durbin-Watsons test: testvariabeln Durbin-Watsons testvariabel ges som d = n t=2 (e t e t 1 ) 2 n, t=1 e2 t där e 1, e 2,..., e n är residualerna. Om vi använder den andra kvadreringsregeln i täljaren får vi n (e t e t 1 ) 2 = t=2 n et 2 + t=2 n et 1 2 2 t=2 n e t e t 1. Summan i mitten skriver vi från 1 till n 1 istället för som den står nu från 2 till n. t=2
Durbin-Watsons test: testvariabeln Då kan vi skriva Durbin-Watsons testvariabel som d n t=2 e2 t n t=1 e2 t + n 1 t=1 e2 t n t=1 e2 t 2 n t=2 e te t 1 n. t=1 e2 t De första två termerna torde bli mycket nära ett om antalet observationer n inte är för litet, så då har vi n t=2 d 1 + 1 2 e te t 1 n. (3) t=1 e2 t
Durbin-Watsons test: testvariabeln Lår oss skriva upp stickprovets autokorrelationsfunktion i laggen 1 för residualerna e 1, e 2,..., e n. Då har vi r 1 = n t=2 (e t e) (e t 1 e) n t=1 (e t e) 2. Nu är ju summan av residualerna noll, så e = 0, vilket ger r 1 = n t=2 e te t 1 n. t=1 e2 t Detta känner vi igen från (3) ovan, som alltså kan skrivas d 1 + 1 2r 1 = 2 2r 1 = 2(1 r 1 ).
Durbin-Watsons test: testvariabeln En approximation av testvariabeln är alltså d 2(1 r 1 ). Om nollhypotesen (ingen autokorrelation) är sann, så bör r 1 bli mycket nära noll och således d 2. Om vi har allvarlig positiv autokorrelation i feltermerna, blir r 1 > 0, så 1 r 1 < 1 och d < 2.
Durbin-Watsons test: testvariabeln För alla korrelationer gäller att 1 korrelationen 1. Då kan vi bestämma variationsområdet för d. Vi har att 1 r 1 1 r 1 2 1 r 0 4 2(1 r) 0. Alltså ligger d approximativt mellan 0 och 4.
Durbin-Watsons test: gränserna Låt d α vara det tal sådant att, om nollhypotesen är sann, så P (d < d α ) = α. Alltså är α sannolikheten att begå ett fel av första slaget, d v s att förkasta en sann nollhypotes. Testvariabelns fördelning är utomordentligt komplicerad. Den beror av de oberoende variablerna X i regressionen. Omöjligt att åstadkomma en tabell som tar hänsyn till alla möjliga värden som de oberoende variablerna kan anta. För att rädda situationen åstadkom Durbin och Watson två tal sådana att d L,α < d α < d U,α.
Durbin-Watsons test: gränserna De bägge gränserna d L,α och d U,α finns i tabell 12 på sidorna 872-73 i sjunde upplagan (876-77 i sjätte). Tabellerna ger rätt värden på d L,α och d U,α för olika värden på den valda signifikansnivån α; antalet oberoende variabler i modellen som betecknas k; stickprovsstorleken n. Sidan 872 behandlar fallet då α = 0.05 och sidan 873 fallet då α = 0.01. Stickprovsstorleken går n = 15 till n = 100. Antalet oberoende variabler går från k = 1 till k = 5.
Durbin-Watsons test Ställ upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ > 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om d < d L,α, så förkastar vi H 0. 2 Om d > d U,α, så förkastar vi inte H 0. 3 Om d L,α d d U,α, så kan ingen slutsats dragas.
Durbin-Watsons test:alternativ mothypotes Sätt upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är negativt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ < 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om 4 d < d L,α, så förkastar vi H 0. (Detta händer om d är stor, större än 3) 2 Om 4 d > d U,α, så förkastar vi inte H 0. 3 Om d L,α 4 d d U,α, så kan ingen slutsats dragas.
Komponenter Vi har en tidsserie X 1, X 2,..., X n. Låt T t (trendkomponenten) S t (säsongskomponenten) C t (konjunkturkomponenten) I t (slumpkomponenten) Två modeller för X t : X t = T t + S t + C t + I t (additiv modell) X t = T t S t C t I t (multiplikativ modell) Den additiva modellen är lämpad för växande eller avtagande säsongsvariation. Den multiplikativa modellen för konstant säsongsvariation.
Löpande medeltal För att rensa x t, t = 1, 2,..., n på den slumpmässiga komponenten kan man använda löpande medeltal x t = 1 2m + 1 m j= m x t+j t = m + 1, m + 2,..., n m. Vi kommer att använda m = 1 (eftersom det täcker hela kalenderåret nedan), så x t = x t 1 + x t + x t+1 3
Ett företags omsättning Ett företag redovisar följande omsättning i miljoner kronor för en femårsperiod: År jan-apr maj-aug sep-dec 1997 7,9 12,9 14,6 1998 8,9 14,5 16,4 1999 10,0 16,3 18,3 2000 11,0 18,4 20,4 2001 12,2 20,5 22,3
Ett företags omsättning
Löpande medeltals beräkning Period Obs. 3-punkt-summa Medelvärde 1997: I 7,9 II 12,9 35,4 11,800 III 14,6 36,4 12,133 1998: I 8,9 38,0 12,667 II 14,5 39,8 13,267 III 16,4 40,9 13,633 1999: I 10,0 42,7 14,233 II 16,3 44,6 14,867 III 18,3 45,6 15,200 2000: I 11,0 47,7 15,900 II 18,4 49,8 16,600 III 20,4 51,0 17,000 2001: I 12,2 53,1 17,700 II 20,5 55,0 18,333 III 22,3
Observerat värde/beräknat trendvärde i % Vi jämför observationsvärdet och trendvärdet. År I II III 1997 109,3 120,3 1998 70,3 109,3 120,3 1999 70,3 109,6 120,4 2000 69,2 110,8 120,0 2001 68,9 111,8
Medelvärdet av varje tertial Tertial I II III Summa Medelvärde 69,675 110,160 120,250 300,085
Säsongsindex Tertial I II III Säsongsindex 69,7 110,1 120,2 Under första tertialet ligger omsättningen på grund av att det är lågsäsong drygt 30 % under det beräknade trendvärdet.
Säsongsrensade värden Säsongsrensat värde=(observerat värde)/(säsongsindex) T ex för tertial 1 1997 7, 9 = 11, 3. 0, 697 För tertial 2 1997 12, 9 = 11, 7. 1, 101 För övriga tidpunkter gör vi liknande beräkningar.
Säsongsrensade värden
Enkel exponentiell utjämning Antag att vi har en tidsserie x 1, x 2,..., x t utan (märkbar) trend eller säsong. Vi önskar utjämna tidsserien för att göra prognoser. Varför inte använda alla tidigare observationer från innevarande tidpunkt t, men med olika vikt? Det utjämnade värdet i t ges av ˆx t = αx t + α(1 α)x t 1 + α(1 α) 2 x t 2 + där α är ett tal mellan 0 och 1. α kallas utjämningskonstant.
Enkel exponentiell utjämning Man kan härleda ett rekursivt uttryck för det utjämnade värdet i t som ˆx t = (1 α) ˆx t 1 + αx t. Vi behöver ett startvärde ˆx 1 för att få igång rekursionen. Man kan välja den första observationen x 1 eller någon sorts medelvärde. I tidsperiod t gör vi prognoser för framtida värden på tidsserien genom uttrycket Prognosfelet beräknas som ˆx t+h = ˆx t h = 1, 2, 3,... e t = x t ˆx t 1.
Enkel exponentiell utjämning Hur ska α väljas? Man kan välja ett specifikt värde på α och beräkna kvadratsumman av prognosfelen: t ei 2 = i=2 t (x i ˆx i 1 ) 2. i=2
Holt-Winters metod för tidsserier utan säsong Antag att vi har en tidsserie x 1, x 2,..., x t med trend men utan säsong. Förändringar i trenden mäter vi genom skillnaden mellan det utjämnade värdet i tidpunkten t och det utjämnade värdet i tidpunkten t 1, d v s ˆx t ˆx t 1. Skattningen av trenden betecknas T t. Rekursionerna för algoritmen ges som ˆx t = (1 α) (ˆx t 1 + T t 1 ) + αx t, 0 < α < 1 T t = (1 β) T t 1 + β (ˆx t ˆx t 1 ), 0 < β < 1 Startvärden: ˆx 2 = x 2 T 2 = x 2 x 1.
Holt-Winters metod för tidsserier utan säsong I tidsperiod t gör vi prognoser för framtida värden på tidsserien genom uttrycket ˆx t+h = ˆx t + ht t h = 1, 2, 3,...