Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Relevanta dokument
Stokastiska processer med diskret tid

Stokastiska processer med diskret tid

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Korrelation och autokorrelation

Finansiell statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Något om val mellan olika metoder

SF1901 Sannolikhetsteori och statistik I

Mer om konfidensintervall + repetition

TMS136. Föreläsning 10

Föreläsning 12: Linjär regression

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Hemuppgift 2 ARMA-modeller

MVE051/MSG Föreläsning 7

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 7: Punktskattningar

Formler och tabeller till kursen MSG830

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Diskussionsproblem för Statistik för ingenjörer

Föreläsning 7: Punktskattningar

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Hemuppgift 3 modellval och estimering

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Uppgift a b c d e Vet inte Poäng

Sannolikhet och statistik XI

SF1901: Sannolikhetslära och statistik

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Tentamen MVE301 Sannolikhet, statistik och risk

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

TAMS79: Föreläsning 6. Normalfördelning

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

SF1911: Statistik för bioteknik

9. Konfidensintervall vid normalfördelning

Uppgift 1. f(x) = 2x om 0 x 1

Matematisk statistik för B, K, N, BME och Kemister

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Matematisk Statistik, 7.5 hp

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 7: Punktskattningar

Stokastiska vektorer

LMA201/LMA521: Faktorförsök

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Regressions- och Tidsserieanalys - F8

MVE051/MSG Föreläsning 14

FÖRELÄSNING 8:

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Utökade användningsområden för trafikarbetets förändring Expanded uses for the change in traffic density Magnus Kjellman

Repetitionsföreläsning

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Matematisk statistik KTH. Formelsamling i matematisk statistik

FÖRELÄSNING 7:

Kap 2. Sannolikhetsteorins grunder

SF1901: Sannolikhetslära och statistik

Kapitel 5 Multivariata sannolikhetsfördelningar

Stokastiska Processer

Finansiell statistik FÖRELÄSNING 11

Föreläsning 12: Repetition

Föreläsning 7. Statistikens grunder.

F9 Konfidensintervall

Föreläsning 6, Matematisk statistik Π + E

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

SF1901: Sannolikhetslära och statistik. Väntevärde; Väntevärde för funktioner av s.v:er; Varians; Tjebysjovs olikhet. Jan Grandell & Timo Koski

Tentamen MVE301 Sannolikhet, statistik och risk

TMS136. Föreläsning 7

Analys av egen tidsserie

Föreläsning 6, FMSF45 Linjärkombinationer

Matematisk statistik för D, I, Π och Fysiker

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Kurssammanfattning MVE055

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Stokastiska vektorer och multivariat normalfördelning

Homework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis

Föreläsning 12, FMSF45 Hypotesprövning

Matematisk statistik för B, K, N, BME och Kemister

Transkript:

Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22

Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig En sekvens av stokastiska variabler, X 1, X 2,... som är ordnade tidsmässigt efter t = 1, 2,... Stokastiska processer är vanliga inom ekonometrisk och finansiell analys då man studerar tidsseriers förändring med tiden och gör prognoser. Vi kan dela in de stokastiska processerna efter vissa kriterier: Processens värden kan vara kontinuerliga eller diskreta. Tiden för mätningarna kan vara kontinuerlig eller diskret. 2 / 22

Stokastiska processer i diskret tid Om tiden kan räknas upp som en serie klart separerade värden med lika avstånd mellan mätningarna har vi en stokastisk process i diskret tid. Ex. på mätningar av detta slag är år, månader, veckor, etc. I alla stokastiska processer i diskret tid finns ett beroende mellan de inkluderade stokastiska variablerna X 1, X 2,.... 4 / 22

Stokastiska processer med kontinuerlig tid När tiden är kontinuerlig så har man all tid mellan alla tidpunkter hur nära de än är varandra! Man har så att säga all tid! Då säger man att man har en familj av stokastiska variabler {X (t), t T }. De stokastiska variablerna i familjen kan återigen vara diskreta eller kontinuerliga. Man pratar då om diskreta- respektive kontinuerliga stokastiska processer i kontinuerlig tid. Kontinuerlig tid motsvarar att man mäter hela tiden utan upphåll. Vi påminner: i alla stokastiska processer med kontinuerlig tid finns det ett beroende mellan två variabler X ti och X tj.

Stokastiska processer i kontinuerlig tid En analys av en process kan ses i flera steg: Kontinuerlig process Slutsatser om processen Mätningar på processen Skattar en modell När vi modellerar en kontinuerlig process har vi alltid diskreta data, men om mätintervallen är väldigt små kan vi ändå modellera observationerna som om de vore kontinuerliga. 5 / 22

Typologi för våra stokastiska processer Process\Tid Diskret Kontinuerlig Diskret Markovkedjor, slumpvandring Kontinuerlig ARIMA Brownsk rörelse

Diskret process i diskret tid

Diskret process i diskret tid

Kontinuerlig process i diskret tid

Kontinuerlig process i kontinuerlig tid

Reder ut begreppen Det är viktigt att vi håller tungan rätt i mun: Processen är en helt slumpmässig sekvens som vi aldrig kan förutse helt och hållet. Modellen vi skattar är vår bästa matematiska gissning för processens rörelser. En realisering är en simulering av en given process som används för att studera verkliga händelser vi inte kan få data på. Vi tänker oss att det för varje tidsserie finns en sann process som vi vill skatta så bra som möjligt. Bra skattningar bra prognoser. 6 / 22

ARIMA Vi kommer att lägga stort fokus på de kontinuerliga stokastiska processer uppmätta i diskret tid som kallas ARIMA (AutoRegrssive Integrated Moving Average): ARIMA är ett samlingsnamn för AR, MA, ARMA och ARIMA processer. ARIMA-modeller baseras på tidigare värden av en tidsserie Y t. Vi gör univariata prognoser. ARIMA är en av de mest använda prognosmetoderna och anpassas ofta på makroekonomiska datamaterial, t.ex. inflation, arbetslöshet, etc. 7 / 22

Vitt brus Det finns två stokastiska processer som är viktiga för förståelsen av ARIMA-modeller: - Vitt brus (White noise). Det är den enklaste av stokastiska processer. Y t = a t I ett vitt brus saknas mönster (dvs. ingen trend, säsong etc.). Det består av en följd av stokastiska variabler a t, som alla är sinsemellan oberoende (ingen korrelation!) och lika fördelade med väntevärde 0 och konstant varians σ 2. Om det vita bruset dessutom är normalfördelat, har vi vad som kallas Gaussiskt vitt brus. Processen används mycket sällan för prognoser, men är en viktig grundpelare för mer avancerade tidsseriemodeller.

Slumpvandring - Slumpvandring (Random Walk). Y t = Y t 1 + a t, där a t är vitt brus. Y t = Y t 1 + a t = (Y t 2 + a t 1 ) + a t = Y t 2 + a t 1 + a t = (Y t 3 + a t 2 ) + a t 1 + a t = Y t 3 + a t 2 + a t 1 + a t. = Y 0 + a 1 + a 2 + + a t 2 + a t 1 + a t Här ser vi att Y t är en summa av oberoende stokastiska variabler, samt en konstant Y 0.

Slumpvandring Tolkningen av en slumpvandring är att vi har en modell där seriens värde vid tidpunkt t är detsamma som förra tidpunktens värde, med en avvikelse som är helt slumpmässig. Ibland har vi även med ett intercept i slumpvandringen. Modellen kallas då en slumpvandring med drift: där a t är vitt brus. Y t = δ + Y t 1 + a t = δ + Y 0 + a t 8 / 22

Slumpvandring Den skattade modellen för en enkel slumpvandring kan skrivas ŷ t = y t 1 Prognosen en tidsperiod framåt är lika med dagens värde på tidsserien! Därför är slumpvandring ofta en referenspunkt vid prognosticering. om dagens värde är en lika bra gissning för morgondagens värde som gissningen baserat på en avancerad modell, då borde den avancerade modellen nog skrotas... 9 / 22

Autoregressiva modeller av olika ordning I modellerna nedan antas a t vara en följd av (gaussiskt) vitt brus. AR(1)-modellen Y t = φ 1 Y t 1 + a t AR(2)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 + a t AR(p)-modellen Y t = φ 1 Y t 1 + φ 2 Y t 2 +... + φ p Y t p + a t

Glidande medelvärdes-modeller av olika ordning MA(1)-modellen Y t = a t θ 1 a t 1 MA(2)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2 MA(q)-modellen Y t = a t θ 1 a t 1 θ 2 a t 2... θ q a t q

AR, MA och ARMA-modeller I AR-modellerna förklaras Y t av tidigare värden på tidsserien. Modellens utseende avgörs av de parvisa korrelationer φ, φ 2,..., φ p som finns mellan Y t och dess laggar Y t 1, Y t 2,..., Y t p. I MA-modellerna förklaras Y t av ett glidande medelvärde (Moving average) av en följd oberoende stokastiska feltermer, a t, a t 1,..., a t q. Dessa viktas genom parametrarna θ 1, θ 2,..., θ q Vi kan kombinera en AR(p) och en MA(q) till en ARMA(p,q)-modell: Y t = φ 1Y t 1 + φ 2Y t 2,... + φ py t p + a t θ 1a t 1 θ 2a t 2... θ qa t q 10 / 22

ARMA-modeller ARMA(p,q) modellen kan tyckas logisk eftersom en tidsserie, t.ex. ett börsindex: Påverkas av (och korrelerar med) tidigare indexvärden. Också påverkas av yttre (slumpmässiga) faktorer, exempelvis prischocker. Vi kan aldrig helt förutspå börsens index. Men det finns nackdelar med modellen: 1 Om vi har hög korrelation mellan Y t och laggade värden beter sig AR-modellen som en slumpvandring. För att detta inte ska ske måste Y t vara stationär. 2 Vi tar bara hänsyn till andra variablers påverkan på Y t genom slumptermerna. Vi fokuserar på stationäritetsvillkoret. 11 / 22

Stationäritet Stationäritet kan delas upp i två styrkor: 1 Strikt stationäritet - Kräver att E(Y t ) och V (Y t ) är konstanta för alla t. Dessutom ställs högra krav på fördelningens egenskaper, t.ex. skevhet och kurtosis. 2 Svag stationäritet - E(Y t ) = µ och V (Y t ) = σ 2 är konstanta. Dessutom är kovariansen mellan två punkter 1 och 2 på serien densamma som för två andra punkter 3 och 4, givet att avstånden 1-2 och 3-4 är desamma: Cov(Y t, Y t+k ) = γ k Med andra ord beror γ k på avståndet k och inte tiden t. 12 / 22

Stationäritet Varför bryr vi oss om stationäritet? ARIMA-modellerna ställer kravet att tidsserien ska vara svagt stationär, detta för att parametrarna i modellen ska kunna skattas: Om Y t har en unik fördelning vid varje tidpunkt: Y t N(µ t, σ 2 t ) måste vi skatta totalt 2t parametrar! Detta är teoretiskt omöjligt då vi har bara har t observationer Kom ihåg ifrån regression att vi bara kan skatta parametrarna om antalet observationer är större antalet parametrar, n > k. 13 / 22

Stationäritet Under övningarna ska bevisa att Vitt brus Y t = a t är en stationär tidsserie. En slumpvandring Y t = Y t 1 + a t är inte stationär. Nu fokuserar vi istället på bevisen för att en stationär tidsserie Z t i AR(1) och MA(1) modellerna uppfyller: E(Z t ) = µ V (Z t ) = σ 2 Cov(Z t, Z t+k ) = γ k 14 / 22

AR(1) modellens egenskaper Den autoregressiva modellen av ordning 1, AR(1), har följande form z t = φ 1 z t 1 + a t. Konstanten φ 1 är en okänd parameter som måste skattas utifrån stickprovet, och slumptermen a t är vitt brus. Ibland vill man en konstant med i modellen som då skrivs: z t = δ + φ 1 z t 1 + a t Det teoretiska medelvärdet fås genom att vi tar väntevärdet av båda sidor: E(z t ) = δ + φ 1 E (z t 1 ) + E (a t ) (1)

AR(1) modellens egenskaper Eftersom z t antas vara stationär gäller att E(z t ) = E (z t 1 ) = µ så att (1) kan skrivas som dvs. µ = δ + φ 1 µ + 0 µ = δ 1 φ 1 För att räkna ut den teoretiska variansen använder vi en annan form på modellen. Låt δ = µ (1 φ 1 ), d v s z t = µ (1 φ 1 ) + φ 1 z t 1 + a t eller (z t µ) = φ 1 (z t 1 µ) + a t (2)

AR(1) modellens egenskaper Kvadrera bägge sidor av (2) och tag väntevärdet av resultatet, vilket ger E (z t µ) 2 = φ 2 1E (z t 1 µ) 2 +2φ 1 E [(z t 1 µ) a t ]+E ( a 2 t ) (3) Då z t är stationär, så har vi E (z t µ) 2 = E (z t 1 µ) 2 = V (z t ) Vilket medför att vi kan skriva om (3) som: V (z t ) = φ 2 1V (z t ) + 0 + σ 2 a dvs. σ2 a V (z t ) = 1 φ 2 1

AR(1)-modellens egenskaper Vi har alltså både E(Z t ) och V (Z t ) som inte beror på t. Det går även att bevisa att Cov(Z t k, Z t ) endast beror på laggen k och inte t. Eftersom Cov(Z t k, Z t ) beror på k och V (Z t ) är konstant beror autokorrelationen Corr(Z t k, Z t ) också endast på k. Den teoretiska autokorrelationen Corr(Z t k, Z t ) för AR(1)-modellen är: ρ k = φ k 1 Som vi kan se så är ρ k en avtagande funktion av k. 15 / 22

MA(1)-modellens egenskaper På samma sätt kan vi undersöka egenskaperna för en stationär tidsserie Z t i en MA(1)-modell med driftterm: Z t = µ + a t + θ 1 a t 1 Där a t är vitt brus. Väntevärdet beräknas som: E(Z t ) = E(µ + a t θ 1 a t 1 ) = E(µ) + E(a t ) E(θ 1 a t 1 ) = E(µ) + E(a t ) θ 1 E(a t 1 ) = µ Eftersom E(a t ) = E(a t 1 ) = 0 16 / 22

MA(1)-modellens egenskaper Vi fortsätter med att beräkna variansen för MA(1)-modellen: V (Z t ) = V (µ + a t θ 1 a t 1 ) = V (µ) + V (a t θ 1 a t 1 ) = V (µ) + V (a t ) + θ1v 2 (a t 1 ) 2Cov(a t, a t 1 ) = 0 + σa 2 + θ1σ 2 a 2 0 = σa(1 2 + θ1) 2 Eftersom V (a t ) = V (a t 1 ) = σa 2 och Cov(a t, a t 1 ) = 0 17 / 22

MA(1)-modellens egenskaper Det går att visa att den teoretiska autokorrelationen Corr(Z t k, Z t ) för MA(1)-modellen kan beskrivas med funktionen: ρ k = { θ 1 om k = 1 1+θ1 2 0 om k > 1 Vi kan se att ρ k bryts av vid lag k = q = 1. 18 / 22

Autokorrelation och Partiell autokorrelation Förutom den teoretiska autokorrelationen så är den teoretiska partiella autokorrelationen en funktion som är användbar i analysen av AR och MA modeller. den teoretiska partiella autokorrelationen betecknas ρ kk Är den avskalade autokorrelationen mellan två tidpunkter t och t + k, där korrelationen som går igenom mellanliggande tidpunkter har eliminerats. 19 / 22

Autokorrelation och Partiell autokorrelation Det går att visa att ρ kk för AR(1) modellen är: { ρ k om k = 1 ρ kk = 0 om k > 1 och att ρ kk för MA(1) modellen är: Vi kan se att: ρ kk = θk 1 (1 θ2 1 ) 1 θ 2(k+1) 1 ρ kk för AR(1) modellen bryts av vid lag k=p=1. ρ kk för MA(1) modellen är en avtagande funktion av k. 20 / 22

Autokorrelation och Partiell autokorrelation Generellt kan vi beskriva utseendet för funktionerna ρ k och ρ kk för AR(p), MA(q) och ARMA(p,q) processer: Process ρ k ρ kk AR(p) Avtar Bryts vid lag p MA(q) Bryts vid lag q Avtar ARMA(p,q) Avtar Avtar 21 / 22

Sammanfattning Vi har nu sett de teoretiska förutsättningarna för: Stationäritet hos tidsserier hur vi matematiskt kan undersöka om en process är stationär. Autokorrelation och partiell autokorrelation för olika processer Nästa lektion tillämpar vi resultaten för att svara på frågorna: Hur kan vi upptäcka, testa och lösa problemet med icke-stationära tidsserier? Hur ser vi vilken ARIMA-modell man bör anpassa på en tidsserie? Hur skattar vi parametrarna i en ARIMA-modell? Hur gör vi prognoser? 22 / 22