Statistisk modellering av tidsserier



Relevanta dokument
Stokastiska processer med diskret tid

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Analys av egen tidsserie

Hemuppgift 2 ARMA-modeller

Stokastiska processer med diskret tid

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Något om val mellan olika metoder

Homework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Hemuppgift 3 modellval och estimering

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

3 Maximum Likelihoodestimering

TSRT62 Modellbygge & Simulering

Datorövningar i systemidentifiering Del 2

Regressions- och Tidsserieanalys - F8

Regressions- och Tidsserieanalys - F7

Analys/syntes-kodning

AUTOMATISK VIKTNING AV

Prognostisering av växelkursindexet KIX En jämförande studie. Forecasting the exchange rate index KIX A comparative study

Parameterskattning i linjära dynamiska modeller. Kap 12

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Biostatistikutbildning vid Universiteten i Uppsala och Stockholm 2002

TENTAMEN Modellering av dynamiska system 5hp

Utökade användningsområden för trafikarbetets förändring Expanded uses for the change in traffic density Magnus Kjellman

Dina anteckningar: Semifysikalisk modellering i kursen Modellering

Tidsserieanalys av dödsfall i trafiken

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Validering av data för energimätning

Tidsserier och Prognoser

2.1 Mikromodul: stokastiska processer

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Vad Betyder måtten MAPE, MAD och MSD?

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Statistik inom miljö och klimat

Simulering av ekonomiska och finansiella variabler i det svenska pensionssystemet

Kap 10 - Modeller med störningar. Hur beskriva slumpmässiga störningar?

Modellbygge och simulering av L. Ljung och T. Glad - Kap 1-2

Systemteknik/Processreglering F6

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

INLEDNING. Promemorior från P/STM / Statistiska centralbyrån. Stockholm : Statistiska centralbyrån, Nr 1-24.

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Befolkningsprognos för kommunerna i Stockholms län under perioden

ARIMA-modellering av anlagda bilbränder i Sverige. Amelie Persson

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Test av tidstrender. Anders Grimvall SLU-workshop,

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TIDSDISKRETA SYSTEM SYSTEMEGENSKAPER. Minne Kausalitet Tidsinvarians. Linjäritet Inverterbarhet Stabilitet. System. Tillämpad Fysik och Elektronik 1

Prediktion av elproduktion.

Konjunkturförändringar i åländsk ekonomi

Regressions- och Tidsserieanalys - F4

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Exempel: reglering av en plattreaktor. Varför systemteknik/processreglering? Blockdiagram. Blockdiagram för en (del)process. Exempel: tankprocess

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen Tillämpad statistik A5 (15hp)

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

ANN fk. Örjan Ekeberg. Framåtkopplade Nät. återkopplade nät. Olika arkitekturer. BackPropagation through Time. Kalman-Filter tekniker

Regressions- och Tidsserieanalys - F1

Transferfunktionsmodeller - modellering och prognoser av Sjötransportindex

Svensk varuhandel. Tidsserieanalys över

Regressions- och Tidsserieanalys - F1

Beskrivning av signaler i frekvensdomänen - sammanfattning

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Metod och teori. Statistik för naturvetare Umeå universitet

Linjär regressionsanalys. Wieland Wermke

Signal- och Bildbehandling FÖRELÄSNING 4. Multiplikationsteoremet. Derivatateoremet

Regressionsanalys av lägenhetspriser i Spånga

Föreläsning 12: Regression

Spektrala Transformer

Estimering av Value at Risk baserat på ARCH/GARCH-modeller för index tillhörande Largecap och Smallcap

LUNDS TEKNISKA HÖGSKOLA Inst. for Elektro- och Informationsteknik. SIGNALBEHANDLING I MULTIMEDIA, ETI265 Inlämningsuppgift 1 (av 2), Task 1 (out of 2)

Har (förändringar i) klimat eller markanvändning störst betydelse för ändringen i höga flöden?

REGLERTEKNIK Laboration 5

Optimering och simulering: Hur fungerar det och vad är skillnaden?

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Skrivning i ekonometri torsdagen den 8 februari 2007

Analytisk statistik. Tony Pansell, optiker Universitetslektor

LUNDS TEKNISKA HÖGSKOLA Institutionen för Elektro- och Informationsteknik

Anpassning av ARIMA-modeller till försäljningsdata

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Differentiell psykologi

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Reglerteknik AK. Tentamen 24 oktober 2016 kl 8-13

HELT NY VERSION. Uppgradera till version 13. Statistica förvandlar data till information

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Avsnitt 2. Modell: intuitiv statistisk

Finansiell statistik

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Transkript:

Statistisk modellering av tidsserier Inledning Tidsserie: följd av data med deterministiskt eller stokastiskt beroende mellan olika komponenter och mellan olika mättillfällen Tidsserieanalys: att beskriva och förklara tidsseriens komponenter och deras inbördes beroende vid olika tidpunkter. Det modellerade systemet kan förutsättas vara påverkat både av mätbara externa signaler och slumpmässiga variationer (störningar)

Inledning Varför modellera? T ex för att kunna - prediktera - reglera och kontrollera - filtrera ut signaler, mönster - simulera system, optimera 3 Inledning En tidsserie kan se ut i princip hur som helst 4

Inledning Typisk generell modell består av flera delar: Slumpmässig del stokastisk variation Deterministiska funktioner trender, säsongsvariation Återkopplade gamla värden påverkar framtida Korrelation mellan storheter (kausalitet) en storhet A(t) kan påverka en annan B(t) 5 Inledning - Typisk generell model Slumpmässig del stokastisk variation Ex: brus 4 0 - -4 0 0 40 60 80 00 6 3

Inledning - Typisk generell model Deterministiska funktioner säsongsvariation, trender 00 80 60 40 0 0 0 0 40 60 80 00 7 Inledning - Typisk generell model Återkopplade gamla värden påverkar framtida 3 y(t)=0.5*y(t-3)-0.*y(t-)+0.5*y(t-)+randn(,) 0 - - -3 0 0 0 30 40 50 8 4

Inledning - Typisk generell model Beroende mellan storheter (kausalitet) en storhet A(t) kan påverka en annan B(t) 600 tillverkningspris och försäljningspris kr 500 400 300 00 00 0 0 0 40 60 80 00 tidsenheter 9 Inledning - Typisk generell model p m n y(t) + a iy(t i) = biu(t i) +... + b jus(t j) + cie(t i) + e(t) + df +... + dkfk 44 43 4 0 j= 0 44444 3 44444 44444 3 4444 3 determiniska functioner återkoppling externa storheter q stokastisk del y(t) modellerad storhet e(t) ( innovationerna driver processen) förutsätts vara vitt brus och okorrelerad med tidigare y-värden och u-värden. Krav måste ställas på koefficienterna för att få en stabil process 0 5

Inledning Olika typer av modeller Många vanliga modeller bygger på AR, MA eller ARMAprocesser. Stationära processer (dvs medelvärde är konstant i tiden och kovariansfunktion r(s,t) beror enbart på tidsskillnaden (t-s)) En instationär serie kan transformeras om till att bli stationär (för att återkomma till den ursprungliga serien görs sedan en invers tranformation) Inledning ACF autokorrelationsfunktion beskriver korrelationen mellan tidsförskjutna värden ρ k = Corr ( Y,Y ) t t+ k = N k (Y Y)(Y i N i+ k (Y Y) i Y) PACF partial autokorrelationsfunktion beskriver korrelationen mellan tidsförskjutna värden med effekten av autokorrelation mellan mellanliggande värden borttagen. ρ = Corr k ( Y,Y Y,..., Y ) t t k t k+ t 6

Inledning Klassiskt sätt att hitta lämplig modellstruktur General characteristics of ACF and PACF Process AR(p) ARMA(p,q) MA(q) IID (noise) ACF Decaying to zero, exponential or alternately changing sign, infinite q spikes indicating the order, finite All zero or near zero PACF p spikes indicating the order, finite damps out, infinite damps out, infinite All zero or near zero 3 Inledning Arbetsgång - Kontrollera stationäritet - Om ej stationär, gör stationär - Val av modelltyp (t ex ARMA) p q y(t) + a i y(t i) = cie(t i) + e(t) 44444 3 4444 3 AR part MApart - Val av modellordning (t ex hur många värden skall återkopplas) - Skattning av parametrarna - Validering (Viktigt! reproduction av data, prediktionsförmåga etc.) - Önskvärda modelegenskaper: praktiskt användbar, tillförlitlig och gärna generell i sin tillämpning - Utnyttja ev. fysikalisk koppling mellan olika variabler Vid skattning och validering skall man inte använda samma tidssekvens finns risk att modellparametrar knyts hårt till att stämma för en viss sekvens men har dålig generaliserbarhet (har du 000 värden, använd 500 för skattning och 500 för validering) 4 7

Modellering Ett av de allra enklaste sätten att modellera en tidserie vore att anpassa en fördelning till befintlig datamängd och sen slumpmässigt dra nya värden från den fördelningen Dock inget bra sätt: missar helt dynamiken, återkoppling och korrelation mm. 5 Modellering Stationär? Visuell bedömning av plot (praktiskt vanligt) Beräkna varians och medelvärde på delavsnitt (Auto)kovariansfunktion (långsamt avtagande?) Range-mean plot Diverse test finns också (ex. Dickey-Fuller) V(RH) under år 6 8

Modellering Om ej stationär måste serien görs stationär ( dekomposition - uppdelning) Detrending (trender kan vara olika över tiden) Säsongsvariation ev. periodisk funktion Varierande varians o λ o ((Y ) ) / λ; Box-Cox transformation F( Y ) = o ln(y ) λ 0 λ = 0 Dividera bort variansen över delinterval (t ex månad) 7 Modellering - Exempel Modellering av temperatur och luftfuktighet Data från SMHI från olika orter i Sverige T, RF, v Omgjort till dagliga medelvärden 8 9

Modellering - Exempel Not stationary 9 Modellering - Exempel Not stationary 0 0

Modellering - Exempel Not stationary Modellering - Exempel I detta fall valdes till slut en ARMA-modell för temperaturen och en ARMAX-modell för luftfuktigheten med T som extern input p r y(t) + ai y(t i) = biu(t i) + cie(t i) + e(t) 0 44444 3 443 4444 3 AR part external input q MApart

Modellering - Exempel Temperatur range-mean plot range = x max -x min Interval of 30 days Fairly stable variance 3 Modellering - Exempel Temperatur - säsongsvariationer 4

Modellering - Exempel Luftfuktighet range-mean plot Interval of 30 days Non-constant variance 5 Modellering - Exempel Luftfuktighet range-mean plot F o ( y ) (y = o λ ) λ Variance stabilized 6 3

Modellering - Exempel Luftfuktighet - säsongsvariationer Luftfuktigheten Box- Cox transformerades alltså innan en periodisk funktion d(t) subtraherades y(t) = F o ( y (t)) d(t) 7 Modellering - Exempel Modellskattning Slutlig model Temperatur: ARMA(4,) Luftfuktighet: ARMAX(4,,) 8 4

Modellering - Exempel Validering - Stämmer förutsättningarna? - Statistisk överensstämmelse mellan reproduktion/mätdata 9 Modellering - Exempel Residualer (-stegs prediktionsfel) OK? 30 5

Modellering - Exempel Statistisk överensstämmelse ACF 3 Modellering - Exempel Slutlig model över simulering av de stationära delarna 3 6

Ytterligare om tidserier I litteratur om tidsserier används ofta begreppen poler och nollställen för en process eller filter. Som tidigare visats kan t ex ARMA-processen skrivas: p q y(t) + a i y(t i) = cie(t i) + e(t) 44444 3 AR part 4444 3 Men kanske vanligare är att man skriver i formen Y(t) C(z ) + cz e(t) = A(z ) + a z med (komplexa) q nollställen (n) och p poler (π). För stabilitet krävs att alla poler ligger strikt innanför enhetscirkeln ( π i <) och för inverterbarhet att nollställena ligger strikt innanför enhetscirkeln ( n i <) MApart +... + c z z e(t) = z q q q = p p +... + a pz (z n)... (z n q ) e(t) (z π )... (z π ) p 33 Ytterligare om tidserier Sammanfattningsvis erbjuder ARMA-modeller ett flexibelt sätt att efterlikna många olika typer av spektrum. Genom att välja ett filter med tillräckligt hög ordning kan man efterlikna de flesta spektrum (dvs även om den tidserie man vill studera inte är en äkta ARMAprocess så kan man ofta komma nära med gott resultat. 34 7

Ytterligare om tidserier Missing data Ibland saknas data för enstaka tider eller interval. Kan t ex bero på mätutrustning som slutat fungera. Hur hanterar man detta? 35 Ytterligare om tidserier Estimering kan även göras genom ickeparametriska metoder Skattning av spektraltätheter Skattning av kovariansfunktion 36 8

9 37 Ytterligare om tidserier ARMAGUI Grafiskt hjälpmedel för ARMA processer 38 Skattning av AR-process Minstakvadratskattning som minimerar kvadratsumman av residualerna är: e Xa Y + = = N y y y M Y = ) ( ) ( ) ( () () () () () () N x N x N x x x x x x x n n n K M O M M K K X = a n a a M a = e N e e M e ) ( ) ( Y Xa Y Xa e e = T T Y X X X a T T ) ( ˆ =

Skattning av AR-process % Återkopplande värden y=ones(,0000); y()= ; y()= 5; y(3)= -; for 4:0000 y(i)=0.5*y(i-)-0.*y(i-)+0.35*y(i-3)+randn(,); end %plot(y,'.-') y=y'; X=[y(:end-) y(3:end-) y(4:end)]; Y=y(:end-3); a=x\y a = 0.5097-0.085 0.353 39 Vidare läsning References Olbjer L, Holst U, and Holst J. Tidsserieanalys. (Time series analysis). Div. of Mathematical Statistics, Lund University; 00. Brockwell PJ. and Richard AD. An introduction to time series and forecasting. New York: Springer; 996. Aguiar R. and Collarespereira M. Tag - A Time-Dependent, Autoregressive, Gaussian Model For Generating Synthetic Hourly Radiation. Solar Energy 99; 49(3): 67-74. Boland J. Time-Series Analysis Of Climatic Variables. Solar Energy 995; 55(5): 377-388. Hokoi S., Matsumoto M. et al. Stochastic models of solar radiation and outdoor temperature. ASHRAE Transactions. St Louis, Missouri. 990; 96:45-5. Kiraly A. and Janosi IM. Stochastic modeling of daily temperature fluctuations. Physical Review E 00; 65(5). Knight KM., Klein SA, et al. A Methodology For The Synthesis Of Hourly Weather Data. Solar Energy 99; 46(): 09-0. Elek P. and Markus L. A long range dependent model with nonlinear innovations for simulating daily river flows. Natural Hazards And Earth System Sciences 004; 4(): 77-83. Ljung L. System Identification: Theory for the User. nd. ed. Upper Saddle River, N.J.: Prentice-Hall; 999. Hjorth U JS. Computer intensive statistical methods: validation, model selection and bootstrap. London: Chapman & Hall; 994. 40 0

Slut 4