Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14
Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov och stokastiska variabler. I tidsserieanalys är intresserade av hur en variabel y t korrelerar med sig själv mellan olika tidpunkter. Denna typ av korrelation kallas autokorrelation 3 / 14
Korrelation och autokorrelation Det vi vill göra är att beräkna autokorrelationen mellan y t och y t 1 i en observerad tidsserie. Vi har observerat serien y t. Vi skapar serien y t 1 genom att genom att skjuta fram serien y t en tidsperiod. t y t y t 1 1 13 * 2 8 13 3 15 8 4 4 15 y t 1 kallas det laggade värdet av y t.... 4 / 14
Korrelation och autokorrelation Vi har tio observationer på denna tidsserie. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4 6 12 4 7 11 12 8 7 11 9 14 7 10 12 14 Summa 100 Korrelerar variablerna y t och y t 1? Vi börjar med ett spridningsdiagram.
Korrelation och autokorrelation Vi har den laggade variabeln y t 1 på y-axeln och den ursprungliga y t på x-axeln. Alltså är det första paret i tabellen är (8, 13). Längst till vänster ser vi de två paren (4, 4) och (4, 15). (y = 10)
Korrelation och autokorrelation Med inspiration av definitionen ovan av korrelation mellan två variabler, söker vi nu något liknande mellan y t och y t 1. Om vi har en tidsserie y 1, y 2,..., y n, så definieras stickprovets autokorrelationsfunktion i laggen 1 som r 1 = n t=2 (y t y) (y t 1 y) n t=1 (y t y) 2. (1) Vi har n = 10 observationer. Summan av observationerna är etthundra, så medelvärdet för y t är tio.
Korrelation och autokorrelation För att beräkna täljaren i (1) fyller vi på tabellen nedan t y t y t 1 y t 10 y t 1 10 (y t 10)(y t 1 10) 1 13 3 2 8 13-2 3-6 3 15 8 5-2 -10 4 4 15-6 5-30 5 4 4-6 -6 36 6 12 4 2-6 -12 7 11 12 1 2 2 8 7 11-3 1-3 9 14 7 4-3 -12 10 12 14 2 4 8 Summa -27
Korrelation och autokorrelation Ur kolumn 4 i tabellen kan vi även beräkna nämnaren i (1). Den blir 3 2 + ( 2) 2 + + 2 2 = 144. Alltså blir r 1 = 27 144 = 0.1875. Med detta värde är vi inte så långt från att y t och y t 1 är okorrelerade. Tecknet kunde anas utav plotten ovan. Storleken mycket svår att se.
Korrelation och autokorrelation Allt som sagts ovan om korrelationen hos en tidserie mellan observationerna på ett stegs tidsavstånd kan generaliseras till två stegs avstånd, tre steg o s v. För att kunna gissa vad korrelationen är på två stegs avstånd, så kan man plotta y t mot y t 2. Genom formeln n t=3 r 2 = (y t y) (y t 2 y) n t=1 (y t y) 2. definieras stickprovets autokorrelationsfunktion i laggen 2. I vårt exempel kan man visa att r 2 = 0.201389. Ämnet återkommer i samband med ARIMA-modeller.
Korrelation och autokorrelation Vi får till slut autokorrelationen vid lag k som r k = n t=k+1 (y t ȳ)(y t k ȳ) n t=1 (y t ȳ) 2 Eftersom vi i täljaren summerar över alla tidpunkter från k och framåt så tappar vi k observationer i början av tidsserien y t i beräkningarna. 5 / 14
Autokorrelerade feltermer Hittills har vi endast undersökt autokorrelation i y t men vi är också ofta intresserade av om det finns autokorrelation i feltermerna ε t : ε t i en linjär modell antas vara oberoende stokastiska variabler. Är feltermerna oberoende medför detta att Corr(ε t,ε t k )=0. Eftersom residualerna e t = y t ŷ t skattar ε i ska residualerna bevara oberoendet. Tyvärr är detta ett för kraftigt antagande när vi använder regressionsmetoder på tidsseriedata. 6 / 14
Autokorrelerade feltermer Förklaringar till att feltermer i olika laggar är autokorrelerade kan vara att man inte har tagit hänsyn till cykliska effekter eller säsongsfluktuationer i en tidsserie. Detta blir ett problem eftersom Vi missar att modellera effekter i y t vilket ger dåliga prognoser. Skattningarna gjorda med minsta kvadratmetoden påverkas. s 2 e kommer att underskatta den sanna variasen σ 2. Därför kommer s 2 b k att underskatta V (b k ). Konsekvensen är att inferensen (t-test, F -test, konfidensintervall, etc) blir opålitlig! 7 / 14
Autokorrelerade feltermer - Grafisk analys Två sätt att upptäcka autokorrelation grafiskt är att plotta residualerna e t mot tiden t respektive de laggade residualerna e t 1. Residualer mot t Residualer mot laggade residualer residualer -1.0-0.5 0.0 0.5 1.0 1.5 2.0 residualer -1.0-0.5 0.0 0.5 1.0 1.5 2.0 1990 1995 2000 2005 2010 Time -1.0-0.5 0.0 0.5 1.0 1.5 2.0 lag(residualer, 1) 8 / 14
Autokorrelerade feltermer - Grafisk analys De två spridningsdiagrammen är baserade på samma tidsserie. Vi kan se tydliga tecken på autokorrelation: Plot 1 - många residualer i följd med samma tecken indikerar en positiv autokorrelation. Plot 2 - tolkar sambandet som vanlig korrelation. Positivt, starkt linjärt samband indikerar positiv autokorrelation nära 1. Hur kan vi avgöra om autokorrelationen för feltermerna är signifikant skild ifrån 0? 9 / 14
Vi måste ha en specifik typ av korrelation mellan feltermerna! Föreställ er att på ett stegs avstånd mellan feltermerna ε t och ε t 1 så har vi korrelationen φ. två stegs avstånd mellan feltermerna ε t och ε t 2 så har vi korrelationen φ 2. tre stegs avstånd mellan feltermerna ε t och ε t 3 så har vi korrelationen φ 3. till slut på k stegs avstånd mellan feltermerna ε t och ε t k så har vi korrelationen φ k. Korrelationerna på de olika tidsavstånden utgör alltså en talföljd φ, φ 2, φ 3,..., φ k.
Autokorrelerade feltermer En modell med en sådan autokorrelationsstruktur är: ε t = φε t 1 + a t, t = 1, 2,... (2) Enligt definitionen för korrelationer gäller att 1 φ 1. Denna modell kallas för en autoregressiv modell av första ordningen, vilket ofta förkortas som AR(1). De nya feltermerna a t har egenskaperna E(a t ) = 0, V (a t ) = σ 2 a, Corr(a t, a t k ) = 0 Om feltermer,a t, för en tidsserie har dessa egenskaper säger man att att a t är vitt brus (white noise). Vi förklarar begreppen vitt brus och AR(1) under nästa föreläsning. 10 / 14
Durbin-Watsons test: nollhypotesen Om φ = 0 i ekvation (2) ovan, så blir ε t = a t och feltermerna är som vanligt igen. Om φ > 0, så har vi en geometriskt fallande talföljd av uttrycket φ k vars samtliga medlemmar är positiva. (Se Sydsæter/Hammond, sidan 248 för talföljder). Låt oss därför testa H 0 : φ = 0 mot alternativet H a : φ > 0. Vi kan även uttrycka dessa hypoteser som mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade.
Durbin-Watsons test: testvariabeln Durbin-Watsons testvariabel ges som: d obs = n t=2 (e t e t 1 ) 2 n t=1 e2 t Där e t är residualerna vid tidpunkt t. Eftersom n n et 2 et 2 n t=1 t=2 t=2 e 2 t 1 då n är tillräckligt stort, kan d obs approximeras med: d obs 1 + 1 2 n t=2 e te t 1 n t=1 e2 t (3) 11 / 14
Durbin-Watsons test: testvariabeln Lår oss skriva upp stickprovets autokorrelationsfunktion i laggen 1 för residualerna e 1, e 2,..., e n. Då har vi r 1 = n t=2 (e t e) (e t 1 e) n t=1 (e t e) 2. Nu är ju summan av residualerna noll, så e = 0, vilket ger r 1 = n t=2 e te t 1 n. t=1 e2 t Detta känner vi igen från (3) ovan, som alltså kan skrivas d 1 + 1 2r 1 = 2 2r 1 = 2(1 r 1 ).
Durbin-Watsons test: testvariabeln En approximation av testvariabeln är alltså d 2(1 r 1 ). Om nollhypotesen (ingen autokorrelation) är sann, så bör r 1 bli mycket nära noll och således d 2. Om vi har allvarlig positiv autokorrelation i feltermerna, blir r 1 > 0, så 1 r 1 < 1 och d < 2.
Durbin-Watsons test: testvariabeln För alla korrelationer gäller att 1 korrelationen 1. Då kan vi bestämma variationsområdet för d. Vi har att 1 r 1 1 r 1 2 1 r 0 4 2(1 r) 0. Alltså ligger d approximativt mellan 0 och 4.
Durbin-Watsons test: beslutsregler Fördelningen för testvariabeln d är komplicerad och kan inte approximeras med någon känd fördelning. Därför skapade Durbin och Watson en egen tabell med gränsvärden för olika urvalsstorlekar n, signifikansnivåer α och antalet förklarande variabler k. Beslutsreglerna finns angivna i föreläsningsanteckningarna. Men man får en bra överblick av de kritiska gränserna genom att rita upp dem längs en tallinje som på s. 585 i NCT. 12 / 14
Durbin-Watsons test Ställ upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ > 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om d < d L,α, så förkastar vi H 0. 2 Om d > d U,α, så förkastar vi inte H 0. 3 Om d L,α d d U,α, så kan ingen slutsats dragas.
Durbin-Watsons test:alternativ mothypotes Sätt upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är negativt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ < 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om 4 d < d L,α, så förkastar vi H 0. (Detta händer om d är stor, större än 3) 2 Om 4 d > d U,α, så förkastar vi inte H 0. 3 Om d L,α 4 d d U,α, så kan ingen slutsats dragas.
Durbin-Watsons test: Ett exempel Vi såg tidigare ett exempel på en tidsserie där residualerna visuellt såg ut att vara autokorrelerade. Vi ska testa om vi statistiskt kan säkerställa en autokorrelation. Hypotesuppställning är: H 0 : φ = 0 H 1 : φ > 0 I detta fall hade vi n = 60 observationer och en modell med k = 1 förklarande variabel. Om vi sätter signifikansnivån α = 5% kan vi i tabellen hitta gränsvärdena d L,0.05 och d U,0.05 : d L,0.05 = 1.55 och d U,0.05 = 1, 62 4 d L,0.05 = 2.45 och 4 d U,0.05 = 2.38 13 / 14
Durbin-Watsons test: Ett exempel Då vi har n = 60 tar vi hjälp av R för att beräkna r 1 : [1] 0.8965074 Vi beräknar testvariabelns approximativa värde: d obs 2(1 r 1 ) = 2(1 ( 0.8965)) = 0.207 Då d obs < d L,0.05 förkastas H 0 och vi drar slutsatsen att det finns en signifikant positiv autokorrelation mellan feltermerna i denna modell. 14 / 14