Korrelation och autokorrelation

Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva. I nämnaren har vi alltså ett positivt tal. Vilket tecken som r antar beror således på täljaren (x 1 x) (y 1 y) + (x 2 x) (y 2 y) + + (x n x) (y n y). Om denna summa av produkter skall bli positiv eller negativ beror på om de ingående termerna är positiva eller negativa, samt förstås på deras storlek. Följande figur är oftast till hjälp för att gissa storlek och tecken på korrelationskoefficienten.

Korrelation och autokorrelation Y (y i y) > 0 (y i y) > 0 (x i x) < 0 (x i x) > 0 y (x i x) (y i y) < 0 (x i x) (y i y) > 0 (y i y) < 0 (y i y) < 0 (x i x) < 0 (x i x) > 0 (x i x) (y i y) > 0 (x i x) (y i y) < 0 x X

Korrelation och autokorrelation För 8 individer har ålder och längd uppmätts: Barn A B C D E F G H x 1 2 3 3 4 4 5 6 y 68 91 102 107 105 114 115 127 Vi bildar de ordnade paren och plottar dem: (1, 68), (2, 91),..., (6, 127)

Korrelation och autokorrelation Korrelationen är r = 0.94130.

Korrelation och autokorrelation Nu vet vi hur två variabler korrelerar med varandra. Nu påstår jag att en tidsserie y t kan korrelera med sig själv! Hur då? Vi skapar en ny variabel utav den gamla så att vi uppfyller tanken om två variabler som korrelerar med varandra. I varje tidpunkt låter vi den nya variabeln vara lika med y t :s värde i den förra tidpunkten. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4

Korrelation och autokorrelation Vi har tio observationer på denna tidsserie. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4 6 12 4 7 11 12 8 7 11 9 14 7 10 12 14 Summa 100 Korrelerar variablerna y t och y t 1? Vi börjar med ett spridningsdiagram.

Korrelation och autokorrelation Vi har den laggade variabeln y t 1 på y-axeln och den ursprungliga y t på x-axeln. Alltså är det första paret i tabellen är (8, 13). Längst till vänster ser vi de två paren (4, 4) och (4, 15). (y = 10)

Korrelation och autokorrelation Med inspiration av definitionen ovan av korrelation mellan två variabler, söker vi nu något liknande mellan y t och y t 1. Om vi har en tidsserie y 1, y 2,..., y n, så definieras stickprovets autokorrelationsfunktion i laggen 1 som r 1 = t=2 (y t y) (y t 1 y) t=1 (y t y) 2. (1) Vi har n = 10 observationer. Summan av observationerna är etthundra, så medelvärdet för y t är tio.

Korrelation och autokorrelation För att beräkna täljaren i (1) fyller vi på tabellen nedan t y t y t 1 y t 10 y t 1 10 (y t 10)(y t 1 10) 1 13 3 2 8 13-2 3-6 3 15 8 5-2 -10 4 4 15-6 5-30 5 4 4-6 -6 36 6 12 4 2-6 -12 7 11 12 1 2 2 8 7 11-3 1-3 9 14 7 4-3 -12 10 12 14 2 4 8 Summa -27

Korrelation och autokorrelation Ur kolumn 4 i tabellen kan vi även beräkna nämnaren i (1). Den blir 3 2 + ( 2) 2 + + 2 2 = 144. Alltså blir r 1 = 27 144 = 0.1875. Med detta värde är vi inte så långt från att y t och y t 1 är okorrelerade. Tecknet kunde anas utav plotten ovan. Storleken mycket svår att se.

Korrelation och autokorrelation Allt som sagts ovan om korrelationen hos en tidserie mellan observationerna på ett stegs tidsavstånd kan generaliseras till två stegs avstånd, tre steg o s v. För att kunna gissa vad korrelationen är på två stegs avstånd, så kan man plotta y t mot y t 2. Genom formeln t=3 r 2 = (y t y) (y t 2 y) t=1 (y t y) 2. definieras stickprovets autokorrelationsfunktion i laggen 2. I vårt exempel kan man visa att r 2 = 0.201389. Ämnet återkommer i samband med ARIMA-modeller.

Om minstakvadratmetodens förutsättningar Feltermerna skall vara oberoende stokastiska variabler. Residualerna y t ŷ skattar feltermerna. Residualerna skall bevara oberoendet. Tyvärr är detta ett för kraftigt antagande när vi använder regressionsmetoder på tidsseriedata. Vi tittar på några exempel för feltermerna.

Vi måste ha en specifik typ av korrelation mellan feltermerna! Föreställ er att på ett stegs avstånd mellan feltermerna ε t och ε t 1 så har vi korrelationen φ. två stegs avstånd mellan feltermerna ε t och ε t 2 så har vi korrelationen φ 2. tre stegs avstånd mellan feltermerna ε t och ε t 3 så har vi korrelationen φ 3. till slut på k stegs avstånd mellan feltermerna ε t och ε t k så har vi korrelationen φ k. Korrelationerna på de olika tidsavstånden utgör alltså en talföljd φ, φ 2, φ 3,..., φ k.

AR(1)-modellen En modell med en sådan korrelationsstruktur är ε t = φε t 1 + a t, 1 < φ < 1, (2) där de stokastiska variablerna a t är nya feltermer med vanligt beteende. (E(a t ) = 0; Var(a t ) = σ 2 a och Cov(a t, a t+k ) = 0. Ibland även normalfördelning med dessa moment.) Modellen (2) kallas för en autoregressiv modell av första ordningen, vanligen förkortad AR(1). Studiet av sådana modeller återkommer i den senare delen av kursen.

Durbin-Watsons test: nollhypotesen Om φ = 0 i ekvation (2) ovan, så blir ε t = a t och feltermerna är som vanligt igen. Om φ > 0, så har vi en geometriskt fallande talföljd av uttrycket φ k vars samtliga medlemmar är positiva. (Se Sydsæter/Hammond, sidan 248 för talföljder). Låt oss därför testa H 0 : φ = 0 mot alternativet H a : φ > 0. Vi kan även uttrycka dessa hypoteser som mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade.

Durbin-Watsons test: testvariabeln Durbin-Watsons testvariabel ges som d = t=2 (e t e t 1 ) 2, t=1 e2 t där e 1, e 2,..., e n är residualerna. Om vi använder den andra kvadreringsregeln i täljaren får vi n (e t e t 1 ) 2 = t=2 n et 2 + t=2 n et 1 2 2 t=2 n e t e t 1. Summan i mitten skriver vi från 1 till n 1 istället för som den står nu från 2 till n. t=2

Durbin-Watsons test: testvariabeln Då kan vi skriva Durbin-Watsons testvariabel som d t=2 e2 t t=1 e2 t + 1 t=1 e2 t t=1 e2 t 2 t=2 e te t 1 n. t=1 e2 t De första två termerna torde bli mycket nära ett om antalet observationer n inte är för litet, så då har vi t=2 d 1 + 1 2 e te t 1 n. (3) t=1 e2 t

Durbin-Watsons test: testvariabeln Lår oss skriva upp stickprovets autokorrelationsfunktion i laggen 1 för residualerna e 1, e 2,..., e n. Då har vi r 1 = t=2 (e t e) (e t 1 e) t=1 (e t e) 2. Nu är ju summan av residualerna noll, så e = 0, vilket ger r 1 = t=2 e te t 1 n. t=1 e2 t Detta känner vi igen från (3) ovan, som alltså kan skrivas d 1 + 1 2r 1 = 2 2r 1 = 2(1 r 1 ).

Durbin-Watsons test: testvariabeln En approximation av testvariabeln är alltså d 2(1 r 1 ). Om nollhypotesen (ingen autokorrelation) är sann, så bör r 1 bli mycket nära noll och således d 2. Om vi har allvarlig positiv autokorrelation i feltermerna, blir r 1 > 0, så 1 r 1 < 1 och d < 2.

Durbin-Watsons test: testvariabeln För alla korrelationer gäller att 1 korrelationen 1. Då kan vi bestämma variationsområdet för d. Vi har att 1 r 1 1 r 1 2 1 r 0 4 2(1 r) 0. Alltså ligger d approximativt mellan 0 och 4.

Durbin-Watsons test: gränserna Låt d α vara det tal sådant att, om nollhypotesen är sann, så P (d < d α ) = α. Alltså är α sannolikheten att begå ett fel av första slaget, d v s att förkasta en sann nollhypotes. Testvariabelns fördelning är utomordentligt komplicerad. Den beror av de oberoende variablerna X i regressionen. Omöjligt att åstadkomma en tabell som tar hänsyn till alla möjliga värden som de oberoende variablerna kan anta. För att rädda situationen åstadkom Durbin och Watson två tal sådana att d L,α < d α < d U,α.

Durbin-Watsons test: gränserna De bägge gränserna d L,α och d U,α finns i tabell 12 på sidorna 872-73 i sjunde upplagan (876-77 i sjätte). Tabellerna ger rätt värden på d L,α och d U,α för olika värden på den valda signifikansnivån α; antalet oberoende variabler i modellen som betecknas k; stickprovsstorleken n. Sidan 872 behandlar fallet då α = 0.05 och sidan 873 fallet då α = 0.01. Stickprovsstorleken går n = 15 till n = 100. Antalet oberoende variabler går från k = 1 till k = 5.

Durbin-Watsons test Ställ upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ > 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om d < d L,α, så förkastar vi H 0. 2 Om d > d U,α, så förkastar vi inte H 0. 3 Om d L,α d d U,α, så kan ingen slutsats dragas.

Durbin-Watsons test:alternativ mothypotes Sätt upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är negativt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ < 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om 4 d < d L,α, så förkastar vi H 0. (Detta händer om d är stor, större än 3) 2 Om 4 d > d U,α, så förkastar vi inte H 0. 3 Om d L,α 4 d d U,α, så kan ingen slutsats dragas.