Korrelation och autokorrelation

Relevanta dokument
Finansiell statistik

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska processer med diskret tid

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F7

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistik 1 för biologer, logopeder och psykologer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Finansiell statistik. Multipel regression. 4 maj 2011

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

FÖRELÄSNING 8:

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistiska samband: regression och korrelation

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Stokastiska processer med diskret tid

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

2. Test av hypotes rörande medianen i en population.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning G60 Statistiska metoder

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

F22, Icke-parametriska metoder.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Matematisk statistik, Föreläsning 5

Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Grundläggande matematisk statistik

8 Inferens om väntevärdet (och variansen) av en fördelning

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 12, FMSF45 Hypotesprövning

Exempel på tentamensuppgifter

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Tentamen i Matematisk statistik Kurskod S0001M

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Regressions- och Tidsserieanalys - F1

Linjär regressionsanalys. Wieland Wermke

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsningsanteckningar till kapitel 9, del 2

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Regressions- och Tidsserieanalys - F1

Medicinsk statistik II

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Gamla tentor (forts) ( x. x ) ) 2 x1

Medicinsk statistik II

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Industriell matematik och statistik, LMA /14

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Hur man tolkar statistiska resultat

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 12: Linjär regression

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

SF1901 Sannolikhetsteori och statistik I

Uppgift a b c d e Vet inte Poäng

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Föreläsning 5: Hypotesprövningar

0 om x < 0, F X (x) = c x. 1 om x 2.

Matematisk statistik för B, K, N, BME och Kemister

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Tenta i Statistisk analys, 15 december 2004

Tentamen i Matematisk statistik Kurskod S0001M

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

, s a. , s b. personer från Alingsås och n b

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Laboration 4: Hypotesprövning och styrkefunktion

Om statistisk hypotesprövning

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Avd. Matematisk statistik

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Transkript:

Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva. I nämnaren har vi alltså ett positivt tal. Vilket tecken som r antar beror således på täljaren (x 1 x) (y 1 y) + (x 2 x) (y 2 y) + + (x n x) (y n y). Om denna summa av produkter skall bli positiv eller negativ beror på om de ingående termerna är positiva eller negativa, samt förstås på deras storlek. Följande figur är oftast till hjälp för att gissa storlek och tecken på korrelationskoefficienten.

Korrelation och autokorrelation Y (y i y) > 0 (y i y) > 0 (x i x) < 0 (x i x) > 0 y (x i x) (y i y) < 0 (x i x) (y i y) > 0 (y i y) < 0 (y i y) < 0 (x i x) < 0 (x i x) > 0 (x i x) (y i y) > 0 (x i x) (y i y) < 0 x X

Korrelation och autokorrelation För 8 individer har ålder och längd uppmätts: Barn A B C D E F G H x 1 2 3 3 4 4 5 6 y 68 91 102 107 105 114 115 127 Vi bildar de ordnade paren och plottar dem: (1, 68), (2, 91),..., (6, 127)

Korrelation och autokorrelation Korrelationen är r = 0.94130.

Korrelation och autokorrelation Nu vet vi hur två variabler korrelerar med varandra. Nu påstår jag att en tidsserie y t kan korrelera med sig själv! Hur då? Vi skapar en ny variabel utav den gamla så att vi uppfyller tanken om två variabler som korrelerar med varandra. I varje tidpunkt låter vi den nya variabeln vara lika med y t :s värde i den förra tidpunkten. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4

Korrelation och autokorrelation Vi har tio observationer på denna tidsserie. t y t y t 1 1 13 2 8 13 3 15 8 4 4 15 5 4 4 6 12 4 7 11 12 8 7 11 9 14 7 10 12 14 Summa 100 Korrelerar variablerna y t och y t 1? Vi börjar med ett spridningsdiagram.

Korrelation och autokorrelation Vi har den laggade variabeln y t 1 på y-axeln och den ursprungliga y t på x-axeln. Alltså är det första paret i tabellen är (8, 13). Längst till vänster ser vi de två paren (4, 4) och (4, 15). (y = 10)

Korrelation och autokorrelation Med inspiration av definitionen ovan av korrelation mellan två variabler, söker vi nu något liknande mellan y t och y t 1. Om vi har en tidsserie y 1, y 2,..., y n, så definieras stickprovets autokorrelationsfunktion i laggen 1 som r 1 = t=2 (y t y) (y t 1 y) t=1 (y t y) 2. (1) Vi har n = 10 observationer. Summan av observationerna är etthundra, så medelvärdet för y t är tio.

Korrelation och autokorrelation För att beräkna täljaren i (1) fyller vi på tabellen nedan t y t y t 1 y t 10 y t 1 10 (y t 10)(y t 1 10) 1 13 3 2 8 13-2 3-6 3 15 8 5-2 -10 4 4 15-6 5-30 5 4 4-6 -6 36 6 12 4 2-6 -12 7 11 12 1 2 2 8 7 11-3 1-3 9 14 7 4-3 -12 10 12 14 2 4 8 Summa -27

Korrelation och autokorrelation Ur kolumn 4 i tabellen kan vi även beräkna nämnaren i (1). Den blir 3 2 + ( 2) 2 + + 2 2 = 144. Alltså blir r 1 = 27 144 = 0.1875. Med detta värde är vi inte så långt från att y t och y t 1 är okorrelerade. Tecknet kunde anas utav plotten ovan. Storleken mycket svår att se.

Korrelation och autokorrelation Allt som sagts ovan om korrelationen hos en tidserie mellan observationerna på ett stegs tidsavstånd kan generaliseras till två stegs avstånd, tre steg o s v. För att kunna gissa vad korrelationen är på två stegs avstånd, så kan man plotta y t mot y t 2. Genom formeln t=3 r 2 = (y t y) (y t 2 y) t=1 (y t y) 2. definieras stickprovets autokorrelationsfunktion i laggen 2. I vårt exempel kan man visa att r 2 = 0.201389. Ämnet återkommer i samband med ARIMA-modeller.

Om minstakvadratmetodens förutsättningar Feltermerna skall vara oberoende stokastiska variabler. Residualerna y t ŷ skattar feltermerna. Residualerna skall bevara oberoendet. Tyvärr är detta ett för kraftigt antagande när vi använder regressionsmetoder på tidsseriedata. Vi tittar på några exempel för feltermerna.

Vi måste ha en specifik typ av korrelation mellan feltermerna! Föreställ er att på ett stegs avstånd mellan feltermerna ε t och ε t 1 så har vi korrelationen φ. två stegs avstånd mellan feltermerna ε t och ε t 2 så har vi korrelationen φ 2. tre stegs avstånd mellan feltermerna ε t och ε t 3 så har vi korrelationen φ 3. till slut på k stegs avstånd mellan feltermerna ε t och ε t k så har vi korrelationen φ k. Korrelationerna på de olika tidsavstånden utgör alltså en talföljd φ, φ 2, φ 3,..., φ k.

AR(1)-modellen En modell med en sådan korrelationsstruktur är ε t = φε t 1 + a t, 1 < φ < 1, (2) där de stokastiska variablerna a t är nya feltermer med vanligt beteende. (E(a t ) = 0; Var(a t ) = σ 2 a och Cov(a t, a t+k ) = 0. Ibland även normalfördelning med dessa moment.) Modellen (2) kallas för en autoregressiv modell av första ordningen, vanligen förkortad AR(1). Studiet av sådana modeller återkommer i den senare delen av kursen.

Durbin-Watsons test: nollhypotesen Om φ = 0 i ekvation (2) ovan, så blir ε t = a t och feltermerna är som vanligt igen. Om φ > 0, så har vi en geometriskt fallande talföljd av uttrycket φ k vars samtliga medlemmar är positiva. (Se Sydsæter/Hammond, sidan 248 för talföljder). Låt oss därför testa H 0 : φ = 0 mot alternativet H a : φ > 0. Vi kan även uttrycka dessa hypoteser som mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade.

Durbin-Watsons test: testvariabeln Durbin-Watsons testvariabel ges som d = t=2 (e t e t 1 ) 2, t=1 e2 t där e 1, e 2,..., e n är residualerna. Om vi använder den andra kvadreringsregeln i täljaren får vi n (e t e t 1 ) 2 = t=2 n et 2 + t=2 n et 1 2 2 t=2 n e t e t 1. Summan i mitten skriver vi från 1 till n 1 istället för som den står nu från 2 till n. t=2

Durbin-Watsons test: testvariabeln Då kan vi skriva Durbin-Watsons testvariabel som d t=2 e2 t t=1 e2 t + 1 t=1 e2 t t=1 e2 t 2 t=2 e te t 1 n. t=1 e2 t De första två termerna torde bli mycket nära ett om antalet observationer n inte är för litet, så då har vi t=2 d 1 + 1 2 e te t 1 n. (3) t=1 e2 t

Durbin-Watsons test: testvariabeln Lår oss skriva upp stickprovets autokorrelationsfunktion i laggen 1 för residualerna e 1, e 2,..., e n. Då har vi r 1 = t=2 (e t e) (e t 1 e) t=1 (e t e) 2. Nu är ju summan av residualerna noll, så e = 0, vilket ger r 1 = t=2 e te t 1 n. t=1 e2 t Detta känner vi igen från (3) ovan, som alltså kan skrivas d 1 + 1 2r 1 = 2 2r 1 = 2(1 r 1 ).

Durbin-Watsons test: testvariabeln En approximation av testvariabeln är alltså d 2(1 r 1 ). Om nollhypotesen (ingen autokorrelation) är sann, så bör r 1 bli mycket nära noll och således d 2. Om vi har allvarlig positiv autokorrelation i feltermerna, blir r 1 > 0, så 1 r 1 < 1 och d < 2.

Durbin-Watsons test: testvariabeln För alla korrelationer gäller att 1 korrelationen 1. Då kan vi bestämma variationsområdet för d. Vi har att 1 r 1 1 r 1 2 1 r 0 4 2(1 r) 0. Alltså ligger d approximativt mellan 0 och 4.

Durbin-Watsons test: gränserna Låt d α vara det tal sådant att, om nollhypotesen är sann, så P (d < d α ) = α. Alltså är α sannolikheten att begå ett fel av första slaget, d v s att förkasta en sann nollhypotes. Testvariabelns fördelning är utomordentligt komplicerad. Den beror av de oberoende variablerna X i regressionen. Omöjligt att åstadkomma en tabell som tar hänsyn till alla möjliga värden som de oberoende variablerna kan anta. För att rädda situationen åstadkom Durbin och Watson två tal sådana att d L,α < d α < d U,α.

Durbin-Watsons test: gränserna De bägge gränserna d L,α och d U,α finns i tabell 12 på sidorna 872-73 i sjunde upplagan (876-77 i sjätte). Tabellerna ger rätt värden på d L,α och d U,α för olika värden på den valda signifikansnivån α; antalet oberoende variabler i modellen som betecknas k; stickprovsstorleken n. Sidan 872 behandlar fallet då α = 0.05 och sidan 873 fallet då α = 0.01. Stickprovsstorleken går n = 15 till n = 100. Antalet oberoende variabler går från k = 1 till k = 5.

Durbin-Watsons test Ställ upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är positivt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ > 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om d < d L,α, så förkastar vi H 0. 2 Om d > d U,α, så förkastar vi inte H 0. 3 Om d L,α d d U,α, så kan ingen slutsats dragas.

Durbin-Watsons test:alternativ mothypotes Sätt upp hypoteserna mot alternativet H 0 : feltermerna är ej autokorrelerade H a : feltermerna är negativt autokorrelerade (eller H 0 : φ = 0 mot alternativet H a : φ < 0 i modellen ε t = φε t 1 + a t för feltermerna) Testet är då följande: 1 Om 4 d < d L,α, så förkastar vi H 0. (Detta händer om d är stor, större än 3) 2 Om 4 d > d U,α, så förkastar vi inte H 0. 3 Om d L,α 4 d d U,α, så kan ingen slutsats dragas.