Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna kan vara diskreta eller kontinuerliga. Man pratar då om diskreta- respektive kontinuerliga stokastiska processer. Om tiden räknas upp av en en mängd som 1, 2,... säges tiden vara diskret. Det motsvarar att man träffar på de stokastiska variablerna vid bestämda tidpunkter där en viss tid har förflutit emellan. Tidpunkterna kan vara sekunder, minuter, timmar, dagar, veckor, månader eller år. I alla stokastiska processer med diskret tid finns det ett beroende mellan de ingående variablerna X 1, X 2,....
Stokastiska processer med kontinuerlig tid När tiden är kontinuerlig så har man all tid mellan alla tidpunkter hur nära de än är varandra! Man har så att säga all tid! Då säger man att man har en familj av stokastiska variabler {X (t), t T }. De stokastiska variablerna i familjen kan återigen vara diskreta eller kontinuerliga. Man pratar då om diskreta- respektive kontinuerliga stokastiska processer i kontinuerlig tid. Kontinuerlig tid motsvarar att man mäter hela tiden utan upphåll. Vi påminner: i alla stokastiska processer med kontinuerlig tid finns det ett beroende mellan två variabler X ti och X tj.
Realisering Om varje stokastisk variabel i en stokastisk process spottar ur sig ett tal så säger man att alla dessa tal tillsammans utgör en realisering. Även trajektoria.
Typologi för våra stokastiska processer Process\Tid Diskret Kontinuerlig Diskret Markovkedjor, slumpvandring Kontinuerlig ARIMA Brownsk rörelse
Diskret process i diskret tid
Diskret process i diskret tid
Kontinuerlig process i diskret tid
Kontinuerlig process i kontinuerlig tid
Tidsserier, korrelation och stokastiska processer Låt oss säga att vi har en tidsserie x 1, x 2,..., x n. Eftersom dessa mätvärden har observerats i ekvidistanta tidpunkter, så skulle en modell för denna tidsserie vara en stokastiska process i diskret tid. Då mätvärdena inte nödvändigtvis är heltal, så är det vettigt att anta att varje observation är gjord på en kontinuerlig stokastisk variabel. Vi söker alltså en kontinuerlig stokastisk process i diskret tid som sannolikhetsmodell för tidsserien x 1, x 2,..., x n. Det finns alltid korrelation mellan observationerna i en tidsserie. De ingående stokastiska variablerna X 1, X 2,... är således beroende.
Korrelation och realiseringar Vi söker stokastiska processer som har intressanta realiseringar i den meningen att de ser ut som verklighetens tidsserier. Vi kan då tänka att vi har en maskin som kan trolla fram den tidsserie vi är intresserade av. Det visar sig att ARIMA-modellerna kan ge realistiska realiseringar. Andra krav är att modellerna ska vara hanterbara, d v s inte för komplicerade.
Simulering och slumptalsgeneratorer På många miniräknare finns en knapp som heter ungefär RAN#. När jag tryckte på min CASIO fx-82lb fick jag 0.536 på skärmen. Detta är ett s k slumpmässigt tal. Slumptal genereras (räknas fram) med hjälp av slumptalsgeneratorer som är rekursiva formler av typen x n+1 = ax n + b mod m, där a, b och m är givna naturliga tal. Man behöver alltid ett första värde x 0, det s k startvärdet eller fröet. Man väljer talen a, b och m på ett klokt sätt för att metoden skall fungera.
Simulering och slumptalsgeneratorer För att få tal mellan 0 och 1 används uttrycket x n m. Slumptalen mellan 0 och 1 uppfattas som observationer på en kontinuerlig stokastisk variabel X som är likformigt fördelad över intervallet [0.1]. Genom t ex Box-Müllers metod kan man förvandla ett likformigt slumptal till ett slumptal på normalfördelningen med väntevärde noll och varians ett. Man säger att man har simulerat ett tal på standard normalfördelningen.
Vitt brus Det finns två stokastiska processer som är viktiga för förståelsen av ARIMA-modeller: - Vitt brus (White noise). Det är den enklaste av stokastiska processer. Y t = a t I ett vitt brus saknas mönster (dvs. ingen trend, säsong etc.). Det består av en följd av stokastiska variabler a t, som alla är sinsemellan oberoende (ingen korrelation!) och lika fördelade med väntevärde 0 och konstant varians σ 2. Om det vita bruset dessutom är normalfördelat, har vi vad som kallas Gaussiskt vitt brus. Processen används mycket sällan för prognoser, men är en viktig grundpelare för mer avancerade tidsseriemodeller.
Slumpvandring - Slumpvandring (Random Walk). Y t = Y t 1 + a t, där a t är vitt brus. Y t = Y t 1 + a t = (Y t 2 + a t 1 ) + a t = Y t 2 + a t 1 + a t = (Y t 3 + a t 2 ) + a t 1 + a t = Y t 3 + a t 2 + a t 1 + a t. = Y 0 + a 1 + a 2 + + a t 2 + a t 1 + a t Här ser vi att Y t är en summa av oberoende stokastiska variabler, samt en konstant Y 0.
Autoregressiva modeller av olika ordning I modellerna nedan antas a t vara en följd av (gaussiskt) vitt brus. AR(1)-modellen Y t = φ 1 Y t 1 + a t AR(2)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 + a t AR(p)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 +... + φ p Y t p + a t
Glidande medelvärdes-modeller av olika ordning MA(1)-modellen Y t = a t θ 1 a t 1 MA(2)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2 MA(q)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2... θ q a t q
ARMA-modeller: I vissa fall används kombinationer av AR, och MA-modeller, t.ex. ARMA(p,q): Y t = φ 1 Y t 1 +φ 2 Y t 2 +...+φ p Y t p +a t θ 1 a t 1 θ 2 a t 2... θ q a t q
Stationäritet-struktur på den stokastiska processen ARIMA-modellerna ställer andra krav på tidsserien än tidigare. Det viktigaste kravet nu är stationäritet, vilket innebär att modellen kräver att tidsserien ska ha: (1) Konstant väntevärde (2) Konstant varians σ 2 I allmänhet är inte tidsserier inte stationära utan man måste tillämpa vissa tekniker för att transformera dem så att den transformerade serien blir stationär.
Transformera din tidsserie så att den blir stationär! Den vanligaste transformationen är bildandet av (första)differenser, t.ex. z t = y t y t 1 Här har vi tagit första differensen av tidsserien y t. Förhoppningsvis är serien z t nu stationär och redo att analyseras med ARIMA-modeller. Ibland räcker det inte med första differenser för att skapa en stationär serie, vanligt är att man då beräknar ytterligare en första differens på första differenserna. Man säger att man då skapat andra differenserna av tidsserien. z t = (y t y t 1 ) (y t 1 y t 2 ) = y t 2y t 1 + y t 2
Effekten av första differensen t y t z t = y t y t 1 1 1 * 2 3 2 3 5 2 4 7 2 5 9 2 6 11 2
Gör tidsserien stationär.
Korrelationen som en funktion av tidsavståndet k Autokorrelationsfunktionen utgörs av de befintliga värdena r 1, r 2,..., vanligtvis beskrivna i lämpligt diagram. Generellt gäller att: (1) om autokorrelationsfunktionen (SAC) avtar snabbt, anses tidsserien vara stationär. (2) om SAC däremot avtar långsamt anses tidsserien vara icke-stationär.
Partiella (stickprovs) autokorrelationsfunktionen Ett viktig verktyg för att bestämma bästa ARIMA-modell är att (tillsammans med autokorrelationsfunktionen) studera den partiella (stickprovs) autokorrelationsfunktionen för den stationära serien z b, z b+1,..., z n.. Denna funktionen beskriver korrelationen mellan två tidpunkter på t ex k tidsavstånd då effekten av de mellanliggande variablerna har eliminerats.
AR(1) modellens egenskaper Den autoregressiva modellen av ordning 1, AR(1), har följande form z t = φ 1 z t 1 + a t. Konstanten φ 1 är en okänd parameter som måste skattas utifrån stickprovet, och slumptermen a t är vitt brus. Ibland vill man en konstant med i modellen som då skrivs: z t = δ + φ 1 z t 1 + a t Det teoretiska medelvärdet fås genom att vi tar väntevärdet av båda sidor: E(z t ) = δ + φ 1 E (z t 1 ) + E (a t ) (1)
AR(1) modellens egenskaper Eftersom z t antas vara stationär gäller att E(z t ) = E (z t 1 ) = µ så att (1) kan skrivas som dvs. µ = δ + φ 1 µ + 0 µ = δ 1 φ 1 För att räkna ut den teoretiska variansen använder vi en annan form på modellen. Låt δ = µ (1 φ 1 ), d v s z t = µ (1 φ 1 ) + φ 1 z t 1 + a t eller (z t µ) = φ 1 (z t 1 µ) + a t (2)
AR(1) modellens egenskaper Kvadrera bägge sidor av (2) och tag väntevärdet av resultatet, vilket ger E (z t µ) 2 = φ 2 1E (z t 1 µ) 2 +2φ 1 E [(z t 1 µ) a t ]+E ( a 2 t ) (3) Då z t är stationär, så har vi E (z t µ) 2 = E (z t 1 µ) 2 = V (z t ) Vilket medför att vi kan skriva om (3) som: V (z t ) = φ 2 1V (z t ) + 0 + σ 2 a dvs. σ2 a V (z t ) = 1 φ 2 1
AR(1) modellens egenskaper Vi skriver (igen) AR(1)-processen på formen z t µ = φ 1 (z t 1 µ) + a t, Multiplicera på bägge sidor med (z t k µ), så (z t k µ)(z t µ) = φ 1 (z t k µ)(z t 1 µ) + (z t k µ)a t Om vi tar väntevärdet på varje sida, erhåller vi E [(z t k µ)(z t µ)] = φ 1 E [(z t k µ)(z t 1 µ)] + 0. Kovariansen mellan z t och z t k definieras som Cov(z t k, z t ) = E [(z t k µ)(z t µ)].
AR(1) modellens egenskaper Alltså kan vi skriva Cov(z t k, z t ) = φ 1 Cov(z t k, z t 1 ) och eftersom ρ k = Cov(z t k,z t) Var(z t) fås att ρ k = φ 1 ρ k 1. Efter rekursiv utveckling av ρ k 1 fås att den teoretiska autokorrelationsfunktionen för AR(1)-modellen är: ρ k = φ k 1 Det går att visa att den partiella korrelationsfunktionen för AR(1)-processen är: { ρ1 = φ ρ kk = 1 k = 1, 0 om k 2.
Villkor för stationäritet Det finns speciella stationäritetsrestriktioner för dessa autoregressiva parametrar: φ 1 < 1 för AR(1)-modellen och φ 1 + φ 2 < 1 φ 2 φ 1 < 1 φ 2 < 1 för AR(2)-modellen
Effekten av olika värden på φ 1 Vi vet att AR(1)-modellen är stationär, om 1 < φ 1 < 1. I figuren ser vi hur realiseringarna förändras då φ 1 antar olika värden i detta intervall. (I figuren används istället beteckningen a 1 för φ 1.)
Skattning Givet en tidsserie x 1,..., x n önskar vi använda dessa observationer för att skatta parametrarna i någon ARIMA-modell som vi har valt. För en ARIMA-modell måste vi använda datorn. För AR-modeller kan vi tänka på modellen som en regressionsmodell och använda de metoder som vi känner därifrån.
Regression genom origo Vi har tidigare studerat modellen Nu ska vi studera en variant Y i = β 0 + β 1 x i + ε i, i = 1, 2,..., n. Y i = β 1 x i + ε i, i = 1, 2,..., n. som vi kan använda för att skatta parametern i en AR(1)-modell utan konstant Y t = φ 1 Y t 1 + a t. Denna regressionsmodell kallas regression genom origo eller enkel lineär regression utan intercept.
Regression genom origo Då blir summan av kvadraterna på residualerna istället n SSE(b 1 ) = (y i b 1 x i ) 2. i=1 Vi får endast en normalekvation: n xi 2 = b 1 i=1 n x i y i i=1 som kan lösas för minstakvadratskttningen av β 1 b 1 = n i=1 x iy i n i=1 x 2 i De anpassade värden ges nu av ŷ = b 1 x. Vi använder denna metod i en övning senare i kursen.
Prognos Om vi begränsar oss till AR-modeller så har vi skattat AR(p)-modellen x t = ˆγ + ˆφ 1 x t 1 + ˆφ 2 x t 2 + + ˆφ p x t p. Nu då vi befinner oss i tidpunkten n önskar vi göra prognos för framtida värden. Då använder vi: ˆx t+h = ˆγ+ ˆφ 1ˆx n+h 1 + ˆφ 2ˆx n+h 2 + + ˆφ pˆx n+h p (h = 1, 2, 3,...)
Prognos Prognosfelet e t (h) = x t+h ˆx t+h (h = 1, 2, 3,...) Fallet då h = 1 är intressant för ARCH-modellen och man kan visa att e t (1) = x t+1 ˆx t+1 = ε t+1 för ARIMA-modeller. Prognosfelet är alltså en stokastisk variabel med väntevärde noll och varians Variansen är alltså konstant. V (e t (1)) = V (ε t+1 ) = σ 2 a.
Box-Jenkins metod 1. Datapreperation (ev. transformeringar) 2. Modellval (efter studium av div. figurer) 3. Estimering (skattning av parametrar) 4. Verifiera modellen (diagnostik, test) 5. Modellen håller -använd modellen -skapa prognoser = = Modellen håller inte -Prova ny eller modifierad modell