Statistisk modellering av tidsserier Inledning Tidsserie: följd av data med deterministiskt eller stokastiskt beroende mellan olika komponenter och mellan olika mättillfällen Tidsserieanalys: att beskriva och förklara tidsseriens komponenter och deras inbördes beroende vid olika tidpunkter. Det modellerade systemet kan förutsättas vara påverkat både av mätbara externa signaler och slumpmässiga variationer (störningar)
Inledning Varför modellera? T ex för att kunna - prediktera - reglera och kontrollera - filtrera ut signaler, mönster - simulera system, optimera 3 Inledning En tidsserie kan se ut i princip hur som helst 4
Inledning Typisk generell modell består av flera delar: Slumpmässig del stokastisk variation Deterministiska funktioner trender, säsongsvariation Återkopplade gamla värden påverkar framtida Korrelation mellan storheter (kausalitet) en storhet A(t) kan påverka en annan B(t) 5 Inledning - Typisk generell model Slumpmässig del stokastisk variation Ex: brus 4 0 - -4 0 0 40 60 80 00 6 3
Inledning - Typisk generell model Deterministiska funktioner säsongsvariation, trender 00 80 60 40 0 0 0 0 40 60 80 00 7 Inledning - Typisk generell model Återkopplade gamla värden påverkar framtida 3 y(t)=0.5*y(t-3)-0.*y(t-)+0.5*y(t-)+randn(,) 0 - - -3 0 0 0 30 40 50 8 4
Inledning - Typisk generell model Beroende mellan storheter (kausalitet) en storhet A(t) kan påverka en annan B(t) 600 tillverkningspris och försäljningspris kr 500 400 300 00 00 0 0 0 40 60 80 00 tidsenheter 9 Inledning - Typisk generell model p m n y(t) + a iy(t i) = biu(t i) +... + b jus(t j) + cie(t i) + e(t) + df +... + dkfk 44 43 4 0 j= 0 44444 3 44444 44444 3 4444 3 determiniska functioner återkoppling externa storheter q stokastisk del y(t) modellerad storhet e(t) ( innovationerna driver processen) förutsätts vara vitt brus och okorrelerad med tidigare y-värden och u-värden. Krav måste ställas på koefficienterna för att få en stabil process 0 5
Inledning Olika typer av modeller Många vanliga modeller bygger på AR, MA eller ARMAprocesser. Stationära processer (dvs medelvärde är konstant i tiden och kovariansfunktion r(s,t) beror enbart på tidsskillnaden (t-s)) En instationär serie kan transformeras om till att bli stationär (för att återkomma till den ursprungliga serien görs sedan en invers tranformation) Inledning ACF autokorrelationsfunktion beskriver korrelationen mellan tidsförskjutna värden ρ k = Corr ( Y,Y ) t t+ k = N k (Y Y)(Y i N i+ k (Y Y) i Y) PACF partial autokorrelationsfunktion beskriver korrelationen mellan tidsförskjutna värden med effekten av autokorrelation mellan mellanliggande värden borttagen. ρ = Corr k ( Y,Y Y,..., Y ) t t k t k+ t 6
Inledning Klassiskt sätt att hitta lämplig modellstruktur General characteristics of ACF and PACF Process AR(p) ARMA(p,q) MA(q) IID (noise) ACF Decaying to zero, exponential or alternately changing sign, infinite q spikes indicating the order, finite All zero or near zero PACF p spikes indicating the order, finite damps out, infinite damps out, infinite All zero or near zero 3 Inledning Arbetsgång - Kontrollera stationäritet - Om ej stationär, gör stationär - Val av modelltyp (t ex ARMA) p q y(t) + a i y(t i) = cie(t i) + e(t) 44444 3 4444 3 AR part MApart - Val av modellordning (t ex hur många värden skall återkopplas) - Skattning av parametrarna - Validering (Viktigt! reproduction av data, prediktionsförmåga etc.) - Önskvärda modelegenskaper: praktiskt användbar, tillförlitlig och gärna generell i sin tillämpning - Utnyttja ev. fysikalisk koppling mellan olika variabler Vid skattning och validering skall man inte använda samma tidssekvens finns risk att modellparametrar knyts hårt till att stämma för en viss sekvens men har dålig generaliserbarhet (har du 000 värden, använd 500 för skattning och 500 för validering) 4 7
Modellering Ett av de allra enklaste sätten att modellera en tidserie vore att anpassa en fördelning till befintlig datamängd och sen slumpmässigt dra nya värden från den fördelningen Dock inget bra sätt: missar helt dynamiken, återkoppling och korrelation mm. 5 Modellering Stationär? Visuell bedömning av plot (praktiskt vanligt) Beräkna varians och medelvärde på delavsnitt (Auto)kovariansfunktion (långsamt avtagande?) Range-mean plot Diverse test finns också (ex. Dickey-Fuller) V(RH) under år 6 8
Modellering Om ej stationär måste serien görs stationär ( dekomposition - uppdelning) Detrending (trender kan vara olika över tiden) Säsongsvariation ev. periodisk funktion Varierande varians o λ o ((Y ) ) / λ; Box-Cox transformation F( Y ) = o ln(y ) λ 0 λ = 0 Dividera bort variansen över delinterval (t ex månad) 7 Modellering - Exempel Modellering av temperatur och luftfuktighet Data från SMHI från olika orter i Sverige T, RF, v Omgjort till dagliga medelvärden 8 9
Modellering - Exempel Not stationary 9 Modellering - Exempel Not stationary 0 0
Modellering - Exempel Not stationary Modellering - Exempel I detta fall valdes till slut en ARMA-modell för temperaturen och en ARMAX-modell för luftfuktigheten med T som extern input p r y(t) + ai y(t i) = biu(t i) + cie(t i) + e(t) 0 44444 3 443 4444 3 AR part external input q MApart
Modellering - Exempel Temperatur range-mean plot range = x max -x min Interval of 30 days Fairly stable variance 3 Modellering - Exempel Temperatur - säsongsvariationer 4
Modellering - Exempel Luftfuktighet range-mean plot Interval of 30 days Non-constant variance 5 Modellering - Exempel Luftfuktighet range-mean plot F o ( y ) (y = o λ ) λ Variance stabilized 6 3
Modellering - Exempel Luftfuktighet - säsongsvariationer Luftfuktigheten Box- Cox transformerades alltså innan en periodisk funktion d(t) subtraherades y(t) = F o ( y (t)) d(t) 7 Modellering - Exempel Modellskattning Slutlig model Temperatur: ARMA(4,) Luftfuktighet: ARMAX(4,,) 8 4
Modellering - Exempel Validering - Stämmer förutsättningarna? - Statistisk överensstämmelse mellan reproduktion/mätdata 9 Modellering - Exempel Residualer (-stegs prediktionsfel) OK? 30 5
Modellering - Exempel Statistisk överensstämmelse ACF 3 Modellering - Exempel Slutlig model över simulering av de stationära delarna 3 6
Ytterligare om tidserier I litteratur om tidsserier används ofta begreppen poler och nollställen för en process eller filter. Som tidigare visats kan t ex ARMA-processen skrivas: p q y(t) + a i y(t i) = cie(t i) + e(t) 44444 3 AR part 4444 3 Men kanske vanligare är att man skriver i formen Y(t) C(z ) + cz e(t) = A(z ) + a z med (komplexa) q nollställen (n) och p poler (π). För stabilitet krävs att alla poler ligger strikt innanför enhetscirkeln ( π i <) och för inverterbarhet att nollställena ligger strikt innanför enhetscirkeln ( n i <) MApart +... + c z z e(t) = z q q q = p p +... + a pz (z n)... (z n q ) e(t) (z π )... (z π ) p 33 Ytterligare om tidserier Sammanfattningsvis erbjuder ARMA-modeller ett flexibelt sätt att efterlikna många olika typer av spektrum. Genom att välja ett filter med tillräckligt hög ordning kan man efterlikna de flesta spektrum (dvs även om den tidserie man vill studera inte är en äkta ARMAprocess så kan man ofta komma nära med gott resultat. 34 7
Ytterligare om tidserier Missing data Ibland saknas data för enstaka tider eller interval. Kan t ex bero på mätutrustning som slutat fungera. Hur hanterar man detta? 35 Ytterligare om tidserier Estimering kan även göras genom ickeparametriska metoder Skattning av spektraltätheter Skattning av kovariansfunktion 36 8
9 37 Ytterligare om tidserier ARMAGUI Grafiskt hjälpmedel för ARMA processer 38 Skattning av AR-process Minstakvadratskattning som minimerar kvadratsumman av residualerna är: e Xa Y + = = N y y y M Y = ) ( ) ( ) ( () () () () () () N x N x N x x x x x x x n n n K M O M M K K X = a n a a M a = e N e e M e ) ( ) ( Y Xa Y Xa e e = T T Y X X X a T T ) ( ˆ =
Skattning av AR-process % Återkopplande värden y=ones(,0000); y()= ; y()= 5; y(3)= -; for 4:0000 y(i)=0.5*y(i-)-0.*y(i-)+0.35*y(i-3)+randn(,); end %plot(y,'.-') y=y'; X=[y(:end-) y(3:end-) y(4:end)]; Y=y(:end-3); a=x\y a = 0.5097-0.085 0.353 39 Vidare läsning References Olbjer L, Holst U, and Holst J. Tidsserieanalys. (Time series analysis). Div. of Mathematical Statistics, Lund University; 00. Brockwell PJ. and Richard AD. An introduction to time series and forecasting. New York: Springer; 996. Aguiar R. and Collarespereira M. Tag - A Time-Dependent, Autoregressive, Gaussian Model For Generating Synthetic Hourly Radiation. Solar Energy 99; 49(3): 67-74. Boland J. Time-Series Analysis Of Climatic Variables. Solar Energy 995; 55(5): 377-388. Hokoi S., Matsumoto M. et al. Stochastic models of solar radiation and outdoor temperature. ASHRAE Transactions. St Louis, Missouri. 990; 96:45-5. Kiraly A. and Janosi IM. Stochastic modeling of daily temperature fluctuations. Physical Review E 00; 65(5). Knight KM., Klein SA, et al. A Methodology For The Synthesis Of Hourly Weather Data. Solar Energy 99; 46(): 09-0. Elek P. and Markus L. A long range dependent model with nonlinear innovations for simulating daily river flows. Natural Hazards And Earth System Sciences 004; 4(): 77-83. Ljung L. System Identification: Theory for the User. nd. ed. Upper Saddle River, N.J.: Prentice-Hall; 999. Hjorth U JS. Computer intensive statistical methods: validation, model selection and bootstrap. London: Chapman & Hall; 994. 40 0
Slut 4