Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Relevanta dokument
Korrelation och autokorrelation

Finansiell statistik

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Föreläsning 12: Regression


Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F22, Icke-parametriska metoder.

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Stokastiska processer med diskret tid

2. Test av hypotes rörande medianen i en population.

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

Grundläggande matematisk statistik

Multipel Regressionsmodellen

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Stokastiska processer med diskret tid

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematisk statistik, Föreläsning 5

Hur man tolkar statistiska resultat

Statistik 1 för biologer, logopeder och psykologer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Sänkningen av parasitnivåerna i blodet

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

MVE051/MSG Föreläsning 14

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

FÖRELÄSNING 8:

Föreläsning 5. Kapitel 6, sid Inferens om en population

F19, (Multipel linjär regression forts) och F20, Chi-två test.

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Föreläsning G60 Statistiska metoder

Matematisk statistik KTH. Formelsamling i matematisk statistik

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen i Matematisk statistik Kurskod S0001M

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Föreläsningsanteckningar till kapitel 9, del 2

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Medicinsk statistik II

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Lufttorkat trä Ugnstorkat trä

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Lektionsanteckningar 11-12: Normalfördelningen

Analys av egen tidsserie

, s a. , s b. personer från Alingsås och n b

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Föreläsning 11: Mer om jämförelser och inferens

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Föreläsning 12, FMSF45 Hypotesprövning

Industriell matematik och statistik, LMA /14

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 5: Hypotesprövningar

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i Dataanalys och statistik för I den 28 okt 2015

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Transkript:

Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14

Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov och stokastiska variabler. I tidsserieanalys är intresserade av hur en variabel y t korrelerar med sig själv mellan olika tidpunkter. Denna typ av korrelation kallas autokorrelation 3 / 14

Korrelation och autokorrelation Det vi vill göra är att beräkna autokorrelationen mellan y t och y t 1 i en observerad tidsserie. Vi har observerat serien y t. Vi skapar serien y t 1 genom att genom att skjuta fram serien y t en tidsperiod. t y t y t 1 1 13 * 2 8 13 3 15 8 4 4 15 y t 1 kallas det laggade värdet av y t.... 4 / 14

Korrelation och autokorrelation Vi har tio observationer på denna tidsserie. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4 6 12 4 7 11 12 8 7 11 9 14 7 10 12 14 Summa 100 Korrelerar variablerna y t och y t 1? Vi börjar med ett spridningsdiagram.

Korrelation och autokorrelation Vi har den laggade variabeln y t 1 på y-axeln och den ursprungliga y t på x-axeln. Alltså är det första paret i tabellen är (8, 13). Längst till vänster ser vi de två paren (4, 4) och (4, 15). (y = 10)

Korrelation och autokorrelation Med inspiration av definitionen ovan av korrelation mellan två variabler, söker vi nu något liknande mellan y t och y t 1. Om vi har en tidsserie y 1, y 2,..., y n, så definieras stickprovets autokorrelationsfunktion i laggen 1 som r 1 = n t=2 (y t y) (y t 1 y) n t=1 (y t y) 2. (1) Vi har n = 10 observationer. Summan av observationerna är etthundra, så medelvärdet för y t är tio.

Korrelation och autokorrelation För att beräkna täljaren i (1) fyller vi på tabellen nedan t y t y t 1 y t 10 y t 1 10 (y t 10)(y t 1 10) 1 13 3 2 8 13-2 3-6 3 15 8 5-2 -10 4 4 15-6 5-30 5 4 4-6 -6 36 6 12 4 2-6 -12 7 11 12 1 2 2 8 7 11-3 1-3 9 14 7 4-3 -12 10 12 14 2 4 8 Summa -27

Korrelation och autokorrelation Ur kolumn 4 i tabellen kan vi även beräkna nämnaren i (1). Den blir 3 2 + ( 2) 2 + + 2 2 = 144. Alltså blir r 1 = 27 144 = 0.1875. Med detta värde är vi inte så långt från att y t och y t 1 är okorrelerade. Tecknet kunde anas utav plotten ovan. Storleken mycket svår att se.

Korrelation och autokorrelation Allt som sagts ovan om korrelationen hos en tidserie mellan observationerna på ett stegs tidsavstånd kan generaliseras till två stegs avstånd, tre steg o s v. För att kunna gissa vad korrelationen är på två stegs avstånd, så kan man plotta y t mot y t 2. Genom formeln n t=3 r 2 = (y t y) (y t 2 y) n t=1 (y t y) 2. definieras stickprovets autokorrelationsfunktion i laggen 2. I vårt exempel kan man visa att r 2 = 0.201389. Ämnet återkommer i samband med ARIMA-modeller.

Korrelation och autokorrelation Vi får till slut autokorrelationen vid lag k som r k = n t=k+1 (y t ȳ)(y t k ȳ) n t=1 (y t ȳ) 2 Eftersom vi i täljaren summerar över alla tidpunkter från k och framåt så tappar vi k observationer i början av tidsserien y t i beräkningarna. 5 / 14

Autokorrelerade feltermer Hittills har vi endast undersökt autokorrelation i y t men vi är också ofta intresserade av om det finns autokorrelation i feltermerna ε t : ε t i en linjär modell antas vara oberoende stokastiska variabler. Är feltermerna oberoende medför detta att Corr(ε t,ε t k )=0. Eftersom residualerna e t = y t ŷ t skattar ε i ska residualerna bevara oberoendet. Tyvärr är detta ett för kraftigt antagande när vi använder regressionsmetoder på tidsseriedata. 6 / 14

Autokorrelerade feltermer Förklaringar till att feltermer i olika laggar är autokorrelerade kan vara att man inte har tagit hänsyn till cykliska effekter eller säsongsfluktuationer i en tidsserie. Detta blir ett problem eftersom Vi missar att modellera effekter i y t vilket ger dåliga prognoser. Skattningarna gjorda med minsta kvadratmetoden påverkas. s 2 e kommer att underskatta den sanna variasen σ 2. Därför kommer s 2 b k att underskatta V (b k ). Konsekvensen är att inferensen (t-test, F -test, konfidensintervall, etc) blir opålitlig! 7 / 14

Autokorrelerade feltermer - Grafisk analys Två sätt att upptäcka autokorrelation grafiskt är att plotta residualerna e t mot tiden t respektive de laggade residualerna e t 1. Residualer mot t Residualer mot laggade residualer residualer -1.0-0.5 0.0 0.5 1.0 1.5 2.0 residualer -1.0-0.5 0.0 0.5 1.0 1.5 2.0 1990 1995 2000 2005 2010 Time -1.0-0.5 0.0 0.5 1.0 1.5 2.0 lag(residualer, 1) 8 / 14

Autokorrelerade feltermer - Grafisk analys De två spridningsdiagrammen är baserade på samma tidsserie. Vi kan se tydliga tecken på autokorrelation: Plot 1 - många residualer i följd med samma tecken indikerar en positiv autokorrelation. Plot 2 - tolkar sambandet som vanlig korrelation. Positivt, starkt linjärt samband indikerar positiv autokorrelation nära 1. Hur kan vi avgöra om autokorrelationen för feltermerna är signifikant skild ifrån 0? 9 / 14

Vi måste ha en specifik typ av korrelation mellan feltermerna! Föreställ er att på ett stegs avstånd mellan feltermerna ε t och ε t 1 så har vi korrelationen φ. två stegs avstånd mellan feltermerna ε t och ε t 2 så har vi korrelationen φ 2. tre stegs avstånd mellan feltermerna ε t och ε t 3 så har vi korrelationen φ 3. till slut på k stegs avstånd mellan feltermerna ε t och ε t k så har vi korrelationen φ k. Korrelationerna på de olika tidsavstånden utgör alltså en talföljd φ, φ 2, φ 3,..., φ k.

Autokorrelerade feltermer En modell med en sådan autokorrelationsstruktur är: ε t = φε t 1 + a t, t = 1, 2,... (2) Enligt definitionen för korrelationer gäller att 1 φ 1. Denna modell kallas för en autoregressiv modell av första ordningen, vilket ofta förkortas som AR(1). De nya feltermerna a t har egenskaperna E(a t ) = 0, V (a t ) = σ 2 a, Corr(a t, a t k ) = 0 Om feltermer,a t, för en tidsserie har dessa egenskaper säger man att att a t är vitt brus (white noise). Vi förklarar begreppen vitt brus och AR(1) under nästa föreläsning. 10 / 14

Durbin-Watsons test: nollhypotesen Om φ = 0 i ekvation (2) ovan, så blir ε t = a t och feltermerna är som vanligt igen. Om φ > 0, så har vi en geometriskt fallande talföljd av uttrycket φ k vars samtliga medlemmar är positiva. (Se Sydsæter/Hammond, sidan 248 för talföljder). Låt oss därför testa H 0 : φ = 0 mot alternativet H a : φ > 0. Vi kan även uttrycka dessa hypoteser som mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade.

Durbin-Watsons test: testvariabeln Durbin-Watsons testvariabel ges som: d obs = n t=2 (e t e t 1 ) 2 n t=1 e2 t Där e t är residualerna vid tidpunkt t. Eftersom n n et 2 et 2 n t=1 t=2 t=2 e 2 t 1 då n är tillräckligt stort, kan d obs approximeras med: d obs 1 + 1 2 n t=2 e te t 1 n t=1 e2 t (3) 11 / 14

Durbin-Watsons test: testvariabeln Lår oss skriva upp stickprovets autokorrelationsfunktion i laggen 1 för residualerna e 1, e 2,..., e n. Då har vi r 1 = n t=2 (e t e) (e t 1 e) n t=1 (e t e) 2. Nu är ju summan av residualerna noll, så e = 0, vilket ger r 1 = n t=2 e te t 1 n. t=1 e2 t Detta känner vi igen från (3) ovan, som alltså kan skrivas d 1 + 1 2r 1 = 2 2r 1 = 2(1 r 1 ).

Durbin-Watsons test: testvariabeln En approximation av testvariabeln är alltså d 2(1 r 1 ). Om nollhypotesen (ingen autokorrelation) är sann, så bör r 1 bli mycket nära noll och således d 2. Om vi har allvarlig positiv autokorrelation i feltermerna, blir r 1 > 0, så 1 r 1 < 1 och d < 2.

Durbin-Watsons test: testvariabeln För alla korrelationer gäller att 1 korrelationen 1. Då kan vi bestämma variationsområdet för d. Vi har att 1 r 1 1 r 1 2 1 r 0 4 2(1 r) 0. Alltså ligger d approximativt mellan 0 och 4.

Durbin-Watsons test: beslutsregler Fördelningen för testvariabeln d är komplicerad och kan inte approximeras med någon känd fördelning. Därför skapade Durbin och Watson en egen tabell med gränsvärden för olika urvalsstorlekar n, signifikansnivåer α och antalet förklarande variabler k. Beslutsreglerna finns angivna i föreläsningsanteckningarna. Men man får en bra överblick av de kritiska gränserna genom att rita upp dem längs en tallinje som på s. 585 i NCT. 12 / 14

Durbin-Watsons test Ställ upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ > 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om d < d L,α, så förkastar vi H 0. 2 Om d > d U,α, så förkastar vi inte H 0. 3 Om d L,α d d U,α, så kan ingen slutsats dragas.

Durbin-Watsons test:alternativ mothypotes Sätt upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är negativt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ < 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om 4 d < d L,α, så förkastar vi H 0. (Detta händer om d är stor, större än 3) 2 Om 4 d > d U,α, så förkastar vi inte H 0. 3 Om d L,α 4 d d U,α, så kan ingen slutsats dragas.

Durbin-Watsons test: Ett exempel Vi såg tidigare ett exempel på en tidsserie där residualerna visuellt såg ut att vara autokorrelerade. Vi ska testa om vi statistiskt kan säkerställa en autokorrelation. Hypotesuppställning är: H 0 : φ = 0 H 1 : φ > 0 I detta fall hade vi n = 60 observationer och en modell med k = 1 förklarande variabel. Om vi sätter signifikansnivån α = 5% kan vi i tabellen hitta gränsvärdena d L,0.05 och d U,0.05 : d L,0.05 = 1.55 och d U,0.05 = 1, 62 4 d L,0.05 = 2.45 och 4 d U,0.05 = 2.38 13 / 14

Durbin-Watsons test: Ett exempel Då vi har n = 60 tar vi hjälp av R för att beräkna r 1 : [1] 0.8965074 Vi beräknar testvariabelns approximativa värde: d obs 2(1 r 1 ) = 2(1 ( 0.8965)) = 0.207 Då d obs < d L,0.05 förkastas H 0 och vi drar slutsatsen att det finns en signifikant positiv autokorrelation mellan feltermerna i denna modell. 14 / 14