Stokastiska processer med diskret tid

Relevanta dokument
Stokastiska processer med diskret tid

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Lektionsanteckningar 11-12: Normalfördelningen

Något om val mellan olika metoder

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Finansiell statistik. Multipel regression. 4 maj 2011

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

MVE051/MSG Föreläsning 14

Korrelation och autokorrelation

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Hemuppgift 3 modellval och estimering

TMS136. Föreläsning 10

Föreläsning 12: Linjär regression

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Formler och tabeller till kursen MSG830

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Finansiell statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Analys av egen tidsserie

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för B, K, N, BME och Kemister

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

MVE051/MSG Föreläsning 7

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Matematisk statistik för D, I, Π och Fysiker

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

TMS136. Föreläsning 4

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

2.1 Mikromodul: stokastiska processer

SF1901 Sannolikhetsteori och statistik I

Grundläggande matematisk statistik

9. Konfidensintervall vid normalfördelning

F13 Regression och problemlösning

Föreläsning 11: Mer om jämförelser och inferens

Uppgift a b c d e Vet inte Poäng

Matematisk statistik KTH. Formelsamling i matematisk statistik

Hemuppgift 2 ARMA-modeller

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

FÖRELÄSNING 7:

Regressions- och Tidsserieanalys - F8

AMatematiska institutionen avd matematisk statistik

Tentamen i Matematisk Statistik, 7.5 hp

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

TMS136. Föreläsning 7

TENTAMEN I STATISTIKENS GRUNDER 2

TAMS79: Föreläsning 6. Normalfördelning

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Utökade användningsområden för trafikarbetets förändring Expanded uses for the change in traffic density Magnus Kjellman

Monte Carlo-metoder. Bild från Monte Carlo

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen MVE301 Sannolikhet, statistik och risk

Kurssammanfattning MVE055

Lärmål Sannolikhet, statistik och risk 2015

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FÖRELÄSNING 8:

F9 SAMPLINGFÖRDELNINGAR (NCT

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 12: Repetition

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 7: Punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

Statistik B Regressions- och tidsserieanalys Föreläsning 1

F11. Kvantitativa prognostekniker

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Föreläsning 12: Regression

Föreläsning 4: Konfidensintervall (forts.)

Samplingfördelningar 1

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Regressions- och Tidsserieanalys - F1

STATISTISK ANALYS AV KOMPLEXA DATA

4 Diskret stokastisk variabel

Tentamen MVE301 Sannolikhet, statistik och risk

Repetitionsföreläsning

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

3 Maximum Likelihoodestimering

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Tentamen MVE301 Sannolikhet, statistik och risk

Statistisk försöksplanering

TENTAMEN I MATEMATISK STATISTIK

Transkript:

Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna kan vara diskreta eller kontinuerliga. Man pratar då om diskreta- respektive kontinuerliga stokastiska processer. Om tiden räknas upp av en en mängd som 1, 2,... säges tiden vara diskret. Det motsvarar att man träffar på de stokastiska variablerna vid bestämda tidpunkter där en viss tid har förflutit emellan. Tidpunkterna kan vara sekunder, minuter, timmar, dagar, veckor, månader eller år. I alla stokastiska processer med diskret tid finns det ett beroende mellan de ingående variablerna X 1, X 2,....

Stokastiska processer med kontinuerlig tid När tiden är kontinuerlig så har man all tid mellan alla tidpunkter hur nära de än är varandra! Man har så att säga all tid! Då säger man att man har en familj av stokastiska variabler {X (t), t T }. De stokastiska variablerna i familjen kan återigen vara diskreta eller kontinuerliga. Man pratar då om diskreta- respektive kontinuerliga stokastiska processer i kontinuerlig tid. Kontinuerlig tid motsvarar att man mäter hela tiden utan upphåll. Vi påminner: i alla stokastiska processer med kontinuerlig tid finns det ett beroende mellan två variabler X ti och X tj.

Realisering Om varje stokastisk variabel i en stokastisk process spottar ur sig ett tal så säger man att alla dessa tal tillsammans utgör en realisering. Även trajektoria.

Typologi för våra stokastiska processer Process\Tid Diskret Kontinuerlig Diskret Markovkedjor, slumpvandring Kontinuerlig ARIMA Brownsk rörelse

Diskret process i diskret tid

Diskret process i diskret tid

Kontinuerlig process i diskret tid

Kontinuerlig process i kontinuerlig tid

Tidsserier, korrelation och stokastiska processer Låt oss säga att vi har en tidsserie x 1, x 2,..., x n. Eftersom dessa mätvärden har observerats i ekvidistanta tidpunkter, så skulle en modell för denna tidsserie vara en stokastiska process i diskret tid. Då mätvärdena inte nödvändigtvis är heltal, så är det vettigt att anta att varje observation är gjord på en kontinuerlig stokastisk variabel. Vi söker alltså en kontinuerlig stokastisk process i diskret tid som sannolikhetsmodell för tidsserien x 1, x 2,..., x n. Det finns alltid korrelation mellan observationerna i en tidsserie. De ingående stokastiska variablerna X 1, X 2,... är således beroende.

Korrelation och realiseringar Vi söker stokastiska processer som har intressanta realiseringar i den meningen att de ser ut som verklighetens tidsserier. Vi kan då tänka att vi har en maskin som kan trolla fram den tidsserie vi är intresserade av. Det visar sig att ARIMA-modellerna kan ge realistiska realiseringar. Andra krav är att modellerna ska vara hanterbara, d v s inte för komplicerade.

Simulering och slumptalsgeneratorer På många miniräknare finns en knapp som heter ungefär RAN#. När jag tryckte på min CASIO fx-82lb fick jag 0.536 på skärmen. Detta är ett s k slumpmässigt tal. Slumptal genereras (räknas fram) med hjälp av slumptalsgeneratorer som är rekursiva formler av typen x n+1 = ax n + b mod m, där a, b och m är givna naturliga tal. Man behöver alltid ett första värde x 0, det s k startvärdet eller fröet. Man väljer talen a, b och m på ett klokt sätt för att metoden skall fungera.

Simulering och slumptalsgeneratorer För att få tal mellan 0 och 1 används uttrycket x n m. Slumptalen mellan 0 och 1 uppfattas som observationer på en kontinuerlig stokastisk variabel X som är likformigt fördelad över intervallet [0.1]. Genom t ex Box-Müllers metod kan man förvandla ett likformigt slumptal till ett slumptal på normalfördelningen med väntevärde noll och varians ett. Man säger att man har simulerat ett tal på standard normalfördelningen.

Vitt brus Det finns två stokastiska processer som är viktiga för förståelsen av ARIMA-modeller: - Vitt brus (White noise). Det är den enklaste av stokastiska processer. Y t = a t I ett vitt brus saknas mönster (dvs. ingen trend, säsong etc.). Det består av en följd av stokastiska variabler a t, som alla är sinsemellan oberoende (ingen korrelation!) och lika fördelade med väntevärde 0 och konstant varians σ 2. Om det vita bruset dessutom är normalfördelat, har vi vad som kallas Gaussiskt vitt brus. Processen används mycket sällan för prognoser, men är en viktig grundpelare för mer avancerade tidsseriemodeller.

Slumpvandring - Slumpvandring (Random Walk). Y t = Y t 1 + a t, där a t är vitt brus. Y t = Y t 1 + a t = (Y t 2 + a t 1 ) + a t = Y t 2 + a t 1 + a t = (Y t 3 + a t 2 ) + a t 1 + a t = Y t 3 + a t 2 + a t 1 + a t. = Y 0 + a 1 + a 2 + + a t 2 + a t 1 + a t Här ser vi att Y t är en summa av oberoende stokastiska variabler, samt en konstant Y 0.

Autoregressiva modeller av olika ordning I modellerna nedan antas a t vara en följd av (gaussiskt) vitt brus. AR(1)-modellen Y t = φ 1 Y t 1 + a t AR(2)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 + a t AR(p)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 +... + φ p Y t p + a t

Glidande medelvärdes-modeller av olika ordning MA(1)-modellen Y t = a t θ 1 a t 1 MA(2)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2 MA(q)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2... θ q a t q

ARMA-modeller: I vissa fall används kombinationer av AR, och MA-modeller, t.ex. ARMA(p,q): Y t = φ 1 Y t 1 +φ 2 Y t 2 +...+φ p Y t p +a t θ 1 a t 1 θ 2 a t 2... θ q a t q

Stationäritet-struktur på den stokastiska processen ARIMA-modellerna ställer andra krav på tidsserien än tidigare. Det viktigaste kravet nu är stationäritet, vilket innebär att modellen kräver att tidsserien ska ha: (1) Konstant väntevärde (2) Konstant varians σ 2 I allmänhet är inte tidsserier inte stationära utan man måste tillämpa vissa tekniker för att transformera dem så att den transformerade serien blir stationär.

Transformera din tidsserie så att den blir stationär! Den vanligaste transformationen är bildandet av (första)differenser, t.ex. z t = y t y t 1 Här har vi tagit första differensen av tidsserien y t. Förhoppningsvis är serien z t nu stationär och redo att analyseras med ARIMA-modeller. Ibland räcker det inte med första differenser för att skapa en stationär serie, vanligt är att man då beräknar ytterligare en första differens på första differenserna. Man säger att man då skapat andra differenserna av tidsserien. z t = (y t y t 1 ) (y t 1 y t 2 ) = y t 2y t 1 + y t 2

Effekten av första differensen t y t z t = y t y t 1 1 1 * 2 3 2 3 5 2 4 7 2 5 9 2 6 11 2

Gör tidsserien stationär.

Korrelationen som en funktion av tidsavståndet k Autokorrelationsfunktionen utgörs av de befintliga värdena r 1, r 2,..., vanligtvis beskrivna i lämpligt diagram. Generellt gäller att: (1) om autokorrelationsfunktionen (SAC) avtar snabbt, anses tidsserien vara stationär. (2) om SAC däremot avtar långsamt anses tidsserien vara icke-stationär.

Partiella (stickprovs) autokorrelationsfunktionen Ett viktig verktyg för att bestämma bästa ARIMA-modell är att (tillsammans med autokorrelationsfunktionen) studera den partiella (stickprovs) autokorrelationsfunktionen för den stationära serien z b, z b+1,..., z n.. Denna funktionen beskriver korrelationen mellan två tidpunkter på t ex k tidsavstånd då effekten av de mellanliggande variablerna har eliminerats.

AR(1) modellens egenskaper Den autoregressiva modellen av ordning 1, AR(1), har följande form z t = φ 1 z t 1 + a t. Konstanten φ 1 är en okänd parameter som måste skattas utifrån stickprovet, och slumptermen a t är vitt brus. Ibland vill man en konstant med i modellen som då skrivs: z t = δ + φ 1 z t 1 + a t Det teoretiska medelvärdet fås genom att vi tar väntevärdet av båda sidor: E(z t ) = δ + φ 1 E (z t 1 ) + E (a t ) (1)

AR(1) modellens egenskaper Eftersom z t antas vara stationär gäller att E(z t ) = E (z t 1 ) = µ så att (1) kan skrivas som dvs. µ = δ + φ 1 µ + 0 µ = δ 1 φ 1 För att räkna ut den teoretiska variansen använder vi en annan form på modellen. Låt δ = µ (1 φ 1 ), d v s z t = µ (1 φ 1 ) + φ 1 z t 1 + a t eller (z t µ) = φ 1 (z t 1 µ) + a t (2)

AR(1) modellens egenskaper Kvadrera bägge sidor av (2) och tag väntevärdet av resultatet, vilket ger E (z t µ) 2 = φ 2 1E (z t 1 µ) 2 +2φ 1 E [(z t 1 µ) a t ]+E ( a 2 t ) (3) Då z t är stationär, så har vi E (z t µ) 2 = E (z t 1 µ) 2 = V (z t ) Vilket medför att vi kan skriva om (3) som: V (z t ) = φ 2 1V (z t ) + 0 + σ 2 a dvs. σ2 a V (z t ) = 1 φ 2 1

AR(1) modellens egenskaper Vi skriver (igen) AR(1)-processen på formen z t µ = φ 1 (z t 1 µ) + a t, Multiplicera på bägge sidor med (z t k µ), så (z t k µ)(z t µ) = φ 1 (z t k µ)(z t 1 µ) + (z t k µ)a t Om vi tar väntevärdet på varje sida, erhåller vi E [(z t k µ)(z t µ)] = φ 1 E [(z t k µ)(z t 1 µ)] + 0. Kovariansen mellan z t och z t k definieras som Cov(z t k, z t ) = E [(z t k µ)(z t µ)].

AR(1) modellens egenskaper Alltså kan vi skriva Cov(z t k, z t ) = φ 1 Cov(z t k, z t 1 ) och eftersom ρ k = Cov(z t k,z t) Var(z t) fås att ρ k = φ 1 ρ k 1. Efter rekursiv utveckling av ρ k 1 fås att den teoretiska autokorrelationsfunktionen för AR(1)-modellen är: ρ k = φ k 1 Det går att visa att den partiella korrelationsfunktionen för AR(1)-processen är: { ρ1 = φ ρ kk = 1 k = 1, 0 om k 2.

Villkor för stationäritet Det finns speciella stationäritetsrestriktioner för dessa autoregressiva parametrar: φ 1 < 1 för AR(1)-modellen och φ 1 + φ 2 < 1 φ 2 φ 1 < 1 φ 2 < 1 för AR(2)-modellen

Effekten av olika värden på φ 1 Vi vet att AR(1)-modellen är stationär, om 1 < φ 1 < 1. I figuren ser vi hur realiseringarna förändras då φ 1 antar olika värden i detta intervall. (I figuren används istället beteckningen a 1 för φ 1.)

Skattning Givet en tidsserie x 1,..., x n önskar vi använda dessa observationer för att skatta parametrarna i någon ARIMA-modell som vi har valt. För en ARIMA-modell måste vi använda datorn. För AR-modeller kan vi tänka på modellen som en regressionsmodell och använda de metoder som vi känner därifrån.

Regression genom origo Vi har tidigare studerat modellen Nu ska vi studera en variant Y i = β 0 + β 1 x i + ε i, i = 1, 2,..., n. Y i = β 1 x i + ε i, i = 1, 2,..., n. som vi kan använda för att skatta parametern i en AR(1)-modell utan konstant Y t = φ 1 Y t 1 + a t. Denna regressionsmodell kallas regression genom origo eller enkel lineär regression utan intercept.

Regression genom origo Då blir summan av kvadraterna på residualerna istället n SSE(b 1 ) = (y i b 1 x i ) 2. i=1 Vi får endast en normalekvation: n xi 2 = b 1 i=1 n x i y i i=1 som kan lösas för minstakvadratskttningen av β 1 b 1 = n i=1 x iy i n i=1 x 2 i De anpassade värden ges nu av ŷ = b 1 x. Vi använder denna metod i en övning senare i kursen.

Prognos Om vi begränsar oss till AR-modeller så har vi skattat AR(p)-modellen x t = ˆγ + ˆφ 1 x t 1 + ˆφ 2 x t 2 + + ˆφ p x t p. Nu då vi befinner oss i tidpunkten n önskar vi göra prognos för framtida värden. Då använder vi: ˆx t+h = ˆγ+ ˆφ 1ˆx n+h 1 + ˆφ 2ˆx n+h 2 + + ˆφ pˆx n+h p (h = 1, 2, 3,...)

Prognos Prognosfelet e t (h) = x t+h ˆx t+h (h = 1, 2, 3,...) Fallet då h = 1 är intressant för ARCH-modellen och man kan visa att e t (1) = x t+1 ˆx t+1 = ε t+1 för ARIMA-modeller. Prognosfelet är alltså en stokastisk variabel med väntevärde noll och varians Variansen är alltså konstant. V (e t (1)) = V (ε t+1 ) = σ 2 a.

Box-Jenkins metod 1. Datapreperation (ev. transformeringar) 2. Modellval (efter studium av div. figurer) 3. Estimering (skattning av parametrar) 4. Verifiera modellen (diagnostik, test) 5. Modellen håller -använd modellen -skapa prognoser = = Modellen håller inte -Prova ny eller modifierad modell