Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22

Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig En sekvens av stokastiska variabler, X 1, X 2,... som är ordnade tidsmässigt efter t = 1, 2,... Stokastiska processer är vanliga inom ekonometrisk och finansiell analys då man studerar tidsseriers förändring med tiden och gör prognoser. Vi kan dela in de stokastiska processerna efter vissa kriterier: Processens värden kan vara kontinuerliga eller diskreta. Tiden för mätningarna kan vara kontinuerlig eller diskret. 2 / 22

Stokastiska processer i diskret tid Om tiden kan räknas upp som en serie klart separerade värden med lika avstånd mellan mätningarna har vi en stokastisk process i diskret tid. Ex. på mätningar av detta slag är år, månader, veckor, etc. I alla stokastiska processer i diskret tid finns ett beroende mellan de inkluderade stokastiska variablerna X 1, X 2,.... 4 / 22

Stokastiska processer med kontinuerlig tid När tiden är kontinuerlig så har man all tid mellan alla tidpunkter hur nära de än är varandra! Man har så att säga all tid! Då säger man att man har en familj av stokastiska variabler {X (t), t T }. De stokastiska variablerna i familjen kan återigen vara diskreta eller kontinuerliga. Man pratar då om diskreta- respektive kontinuerliga stokastiska processer i kontinuerlig tid. Kontinuerlig tid motsvarar att man mäter hela tiden utan upphåll. Vi påminner: i alla stokastiska processer med kontinuerlig tid finns det ett beroende mellan två variabler X ti och X tj.

Stokastiska processer i kontinuerlig tid En analys av en process kan ses i flera steg: Kontinuerlig process Slutsatser om processen Mätningar på processen Skattar en modell När vi modellerar en kontinuerlig process har vi alltid diskreta data, men om mätintervallen är väldigt små kan vi ändå modellera observationerna som om de vore kontinuerliga. 5 / 22

Typologi för våra stokastiska processer Process\Tid Diskret Kontinuerlig Diskret Markovkedjor, slumpvandring Kontinuerlig ARIMA Brownsk rörelse

Diskret process i diskret tid

Kontinuerlig process i diskret tid

Kontinuerlig process i kontinuerlig tid

Reder ut begreppen Det är viktigt att vi håller tungan rätt i mun: Processen är en helt slumpmässig sekvens som vi aldrig kan förutse helt och hållet. Modellen vi skattar är vår bästa matematiska gissning för processens rörelser. En realisering är en simulering av en given process som används för att studera verkliga händelser vi inte kan få data på. Vi tänker oss att det för varje tidsserie finns en sann process som vi vill skatta så bra som möjligt. Bra skattningar bra prognoser. 6 / 22

ARIMA Vi kommer att lägga stort fokus på de kontinuerliga stokastiska processer uppmätta i diskret tid som kallas ARIMA (AutoRegrssive Integrated Moving Average): ARIMA är ett samlingsnamn för AR, MA, ARMA och ARIMA processer. ARIMA-modeller baseras på tidigare värden av en tidsserie Y t. Vi gör univariata prognoser. ARIMA är en av de mest använda prognosmetoderna och anpassas ofta på makroekonomiska datamaterial, t.ex. inflation, arbetslöshet, etc. 7 / 22

Vitt brus Det finns två stokastiska processer som är viktiga för förståelsen av ARIMA-modeller: - Vitt brus (White noise). Det är den enklaste av stokastiska processer. Y t = a t I ett vitt brus saknas mönster (dvs. ingen trend, säsong etc.). Det består av en följd av stokastiska variabler a t, som alla är sinsemellan oberoende (ingen korrelation!) och lika fördelade med väntevärde 0 och konstant varians σ 2. Om det vita bruset dessutom är normalfördelat, har vi vad som kallas Gaussiskt vitt brus. Processen används mycket sällan för prognoser, men är en viktig grundpelare för mer avancerade tidsseriemodeller.

Slumpvandring - Slumpvandring (Random Walk). Y t = Y t 1 + a t, där a t är vitt brus. Y t = Y t 1 + a t = (Y t 2 + a t 1 ) + a t = Y t 2 + a t 1 + a t = (Y t 3 + a t 2 ) + a t 1 + a t = Y t 3 + a t 2 + a t 1 + a t. = Y 0 + a 1 + a 2 + + a t 2 + a t 1 + a t Här ser vi att Y t är en summa av oberoende stokastiska variabler, samt en konstant Y 0.

Slumpvandring Tolkningen av en slumpvandring är att vi har en modell där seriens värde vid tidpunkt t är detsamma som förra tidpunktens värde, med en avvikelse som är helt slumpmässig. Ibland har vi även med ett intercept i slumpvandringen. Modellen kallas då en slumpvandring med drift: där a t är vitt brus. Y t = δ + Y t 1 + a t = δ + Y 0 + a t 8 / 22

Slumpvandring Den skattade modellen för en enkel slumpvandring kan skrivas ŷ t = y t 1 Prognosen en tidsperiod framåt är lika med dagens värde på tidsserien! Därför är slumpvandring ofta en referenspunkt vid prognosticering. om dagens värde är en lika bra gissning för morgondagens värde som gissningen baserat på en avancerad modell, då borde den avancerade modellen nog skrotas... 9 / 22

Autoregressiva modeller av olika ordning I modellerna nedan antas a t vara en följd av (gaussiskt) vitt brus. AR(1)-modellen Y t = φ 1 Y t 1 + a t AR(2)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 + a t AR(p)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 +... + φ p Y t p + a t

Glidande medelvärdes-modeller av olika ordning MA(1)-modellen Y t = a t θ 1 a t 1 MA(2)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2 MA(q)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2... θ q a t q

AR, MA och ARMA-modeller I AR-modellerna förklaras Y t av tidigare värden på tidsserien. Modellens utseende avgörs av de parvisa korrelationer φ, φ 2,..., φ p som finns mellan Y t och dess laggar Y t 1, Y t 2,..., Y t p. I MA-modellerna förklaras Y t av ett glidande medelvärde (Moving average) av en följd oberoende stokastiska feltermer, a t, a t 1,..., a t q. Dessa viktas genom parametrarna θ 1, θ 2,..., θ q Vi kan kombinera en AR(p) och en MA(q) till en ARMA(p,q)-modell: Y t = φ 1Y t 1 + φ 2Y t 2,... + φ py t p + a t θ 1a t 1 θ 2a t 2... θ qa t q 10 / 22

ARMA-modeller ARMA(p,q) modellen kan tyckas logisk eftersom en tidsserie, t.ex. ett börsindex: Påverkas av (och korrelerar med) tidigare indexvärden. Också påverkas av yttre (slumpmässiga) faktorer, exempelvis prischocker. Vi kan aldrig helt förutspå börsens index. Men det finns nackdelar med modellen: 1 Om vi har hög korrelation mellan Y t och laggade värden beter sig AR-modellen som en slumpvandring. För att detta inte ska ske måste Y t vara stationär. 2 Vi tar bara hänsyn till andra variablers påverkan på Y t genom slumptermerna. Vi fokuserar på stationäritetsvillkoret. 11 / 22

Stationäritet Stationäritet kan delas upp i två styrkor: 1 Strikt stationäritet - Kräver att E(Y t ) och V (Y t ) är konstanta för alla t. Dessutom ställs högra krav på fördelningens egenskaper, t.ex. skevhet och kurtosis. 2 Svag stationäritet - E(Y t ) = µ och V (Y t ) = σ 2 är konstanta. Dessutom är kovariansen mellan två punkter 1 och 2 på serien densamma som för två andra punkter 3 och 4, givet att avstånden 1-2 och 3-4 är desamma: Cov(Y t, Y t+k ) = γ k Med andra ord beror γ k på avståndet k och inte tiden t. 12 / 22

Stationäritet Varför bryr vi oss om stationäritet? ARIMA-modellerna ställer kravet att tidsserien ska vara svagt stationär, detta för att parametrarna i modellen ska kunna skattas: Om Y t har en unik fördelning vid varje tidpunkt: Y t N(µ t, σ 2 t ) måste vi skatta totalt 2t parametrar! Detta är teoretiskt omöjligt då vi har bara har t observationer Kom ihåg ifrån regression att vi bara kan skatta parametrarna om antalet observationer är större antalet parametrar, n > k. 13 / 22

Stationäritet Under övningarna ska bevisa att Vitt brus Y t = a t är en stationär tidsserie. En slumpvandring Y t = Y t 1 + a t är inte stationär. Nu fokuserar vi istället på bevisen för att en stationär tidsserie Z t i AR(1) och MA(1) modellerna uppfyller: E(Z t ) = µ V (Z t ) = σ 2 Cov(Z t, Z t+k ) = γ k 14 / 22

AR(1) modellens egenskaper Den autoregressiva modellen av ordning 1, AR(1), har följande form z t = φ 1 z t 1 + a t. Konstanten φ 1 är en okänd parameter som måste skattas utifrån stickprovet, och slumptermen a t är vitt brus. Ibland vill man en konstant med i modellen som då skrivs: z t = δ + φ 1 z t 1 + a t Det teoretiska medelvärdet fås genom att vi tar väntevärdet av båda sidor: E(z t ) = δ + φ 1 E (z t 1 ) + E (a t ) (1)

AR(1) modellens egenskaper Eftersom z t antas vara stationär gäller att E(z t ) = E (z t 1 ) = µ så att (1) kan skrivas som dvs. µ = δ + φ 1 µ + 0 µ = δ 1 φ 1 För att räkna ut den teoretiska variansen använder vi en annan form på modellen. Låt δ = µ (1 φ 1 ), d v s z t = µ (1 φ 1 ) + φ 1 z t 1 + a t eller (z t µ) = φ 1 (z t 1 µ) + a t (2)

AR(1) modellens egenskaper Kvadrera bägge sidor av (2) och tag väntevärdet av resultatet, vilket ger E (z t µ) 2 = φ 2 1E (z t 1 µ) 2 +2φ 1 E [(z t 1 µ) a t ]+E ( a 2 t ) (3) Då z t är stationär, så har vi E (z t µ) 2 = E (z t 1 µ) 2 = V (z t ) Vilket medför att vi kan skriva om (3) som: V (z t ) = φ 2 1V (z t ) + 0 + σ 2 a dvs. σ2 a V (z t ) = 1 φ 2 1

AR(1)-modellens egenskaper Vi har alltså både E(Z t ) och V (Z t ) som inte beror på t. Det går även att bevisa att Cov(Z t k, Z t ) endast beror på laggen k och inte t. Eftersom Cov(Z t k, Z t ) beror på k och V (Z t ) är konstant beror autokorrelationen Corr(Z t k, Z t ) också endast på k. Den teoretiska autokorrelationen Corr(Z t k, Z t ) för AR(1)-modellen är: ρ k = φ k 1 Som vi kan se så är ρ k en avtagande funktion av k. 15 / 22

MA(1)-modellens egenskaper På samma sätt kan vi undersöka egenskaperna för en stationär tidsserie Z t i en MA(1)-modell med driftterm: Z t = µ + a t + θ 1 a t 1 Där a t är vitt brus. Väntevärdet beräknas som: E(Z t ) = E(µ + a t θ 1 a t 1 ) = E(µ) + E(a t ) E(θ 1 a t 1 ) = E(µ) + E(a t ) θ 1 E(a t 1 ) = µ Eftersom E(a t ) = E(a t 1 ) = 0 16 / 22

MA(1)-modellens egenskaper Vi fortsätter med att beräkna variansen för MA(1)-modellen: V (Z t ) = V (µ + a t θ 1 a t 1 ) = V (µ) + V (a t θ 1 a t 1 ) = V (µ) + V (a t ) + θ1v 2 (a t 1 ) 2Cov(a t, a t 1 ) = 0 + σa 2 + θ1σ 2 a 2 0 = σa(1 2 + θ1) 2 Eftersom V (a t ) = V (a t 1 ) = σa 2 och Cov(a t, a t 1 ) = 0 17 / 22

MA(1)-modellens egenskaper Det går att visa att den teoretiska autokorrelationen Corr(Z t k, Z t ) för MA(1)-modellen kan beskrivas med funktionen: ρ k = { θ 1 om k = 1 1+θ1 2 0 om k > 1 Vi kan se att ρ k bryts av vid lag k = q = 1. 18 / 22

Autokorrelation och Partiell autokorrelation Förutom den teoretiska autokorrelationen så är den teoretiska partiella autokorrelationen en funktion som är användbar i analysen av AR och MA modeller. den teoretiska partiella autokorrelationen betecknas ρ kk Är den avskalade autokorrelationen mellan två tidpunkter t och t + k, där korrelationen som går igenom mellanliggande tidpunkter har eliminerats. 19 / 22

Autokorrelation och Partiell autokorrelation Det går att visa att ρ kk för AR(1) modellen är: { ρ k om k = 1 ρ kk = 0 om k > 1 och att ρ kk för MA(1) modellen är: Vi kan se att: ρ kk = θk 1 (1 θ2 1 ) 1 θ 2(k+1) 1 ρ kk för AR(1) modellen bryts av vid lag k=p=1. ρ kk för MA(1) modellen är en avtagande funktion av k. 20 / 22

Autokorrelation och Partiell autokorrelation Generellt kan vi beskriva utseendet för funktionerna ρ k och ρ kk för AR(p), MA(q) och ARMA(p,q) processer: Process ρ k ρ kk AR(p) Avtar Bryts vid lag p MA(q) Bryts vid lag q Avtar ARMA(p,q) Avtar Avtar 21 / 22

Sammanfattning Vi har nu sett de teoretiska förutsättningarna för: Stationäritet hos tidsserier hur vi matematiskt kan undersöka om en process är stationär. Autokorrelation och partiell autokorrelation för olika processer Nästa lektion tillämpar vi resultaten för att svara på frågorna: Hur kan vi upptäcka, testa och lösa problemet med icke-stationära tidsserier? Hur ser vi vilken ARIMA-modell man bör anpassa på en tidsserie? Hur skattar vi parametrarna i en ARIMA-modell? Hur gör vi prognoser? 22 / 22