F8 Avvikelser från modellantagandena I

Relevanta dokument
Stokastiska processer med diskret tid

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Stokastiska processer med diskret tid

Grundläggande matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Korrelation och autokorrelation

Regressions- och Tidsserieanalys - F7

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 12: Linjär regression

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Enkel och multipel linjär regression

Föreläsning 7: Stokastiska vektorer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Formler och tabeller till kursen MSG830

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Lycka till!

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Något om val mellan olika metoder

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Metod och teori. Statistik för naturvetare Umeå universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F13 Regression och problemlösning

MVE051/MSG Föreläsning 14

Paneldata och instrumentvariabler/2sls

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Stokastiska vektorer

7.5 Experiment with a single factor having more than two levels

Stokastiska vektorer och multivariat normalfördelning

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Finansiell statistik

7.5 Experiment with a single factor having more than two levels

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Examinationsuppgifter del 2

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

3 Maximum Likelihoodestimering

Matematisk statistik, Föreläsning 5

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

SF1901 Sannolikhetsteori och statistik I

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Sannolikheter och kombinatorik

Finansiell statistik. Multipel regression. 4 maj 2011

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Skrivning i ekonometri lördagen den 29 mars 2008

AMatematiska institutionen avd matematisk statistik

Regressions- och Tidsserieanalys - F1

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Uppgift a b c d e Vet inte Poäng

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

TENTAMEN I STATISTIKENS GRUNDER 2

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

F7 Polynomregression och Dummyvariabler

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Följande resultat erhålls (enhet: 1000psi):

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Tentamen i Matematisk statistik Kurskod S0001M

Statistiska metoder för säkerhetsanalys

FÖRELÄSNING 8:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i matematisk statistik

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 4: Konfidensintervall (forts.)

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

TMS136. Föreläsning 7

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F4

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8: Konfidensintervall

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

TMS136. Föreläsning 13

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Transkript:

Heteroskedasticitet F8 Avvikelser från modellantagandena I Enligt antagandena för linjär regression ska slumptermernaε i varaiidoberoende,likafördelade)enligt ε i N 0,σ 2) dvsvariansenförslumptermenärkonstantσ 2 oavsett var eller när vi tittar på Y i och X i, mao oavsett i. Tidigareskrevviσ 2 ε menvikansläppaindexettillfälligtvis.) Mendettaärintealltidfalletnärmantittarpåverkliga datamaterial. Istället ser man något som skulle kunna skrivas som ε i N 0,σ 2 ) i dvs slumptermsvariansen är inte längre nödvändigtvis konstant för alla i σ 2 i σ2 j för i j Vi har heteroskedasticitet i slumptermerna. Orsaker till heteroskedasticitet. Error-learning models: ju mer man tränar desto färre fel mindre variation 2. Discretionary income: högre inkomst större variation i hur man disponerar sin inkomst, tex sparande 3. Datainsamlingsmetoder förbättras mindre variation 4. Outliers: beroende på hur många som avviker och vardeliggeroutlieriy elleroutlierixellerbåda) kan man ofta om materialet är litet få indikationer på varierande varians. 5. Felaktig modellspecifikation: saknas en väsentlig term? Tex linjär regression när den"sanna" modellen är ett polynom. 6. Skevhet skewness) i regressorerna: tex inkomst, förmögenhet. 7. Olämpliga a) transformationer: tex kvoter, differenser b) funktionella former: tex linjärt kontra log-linjärt Vanligare med heteroskedasticitet i tvärsnittsstudie än i en i tidseriedata. - Tvärsnittsstudie: en observation från många objekt vid samma tidpunkt, oftast). Objekten tenderar att variera - Tidseriedata: flera observationer från ett objektflera tidpunkter). Objektet tenderar att vara stabili någon mening) - Paneldata, longitudinella studier: flera observationer från många objekt. Vad händer med OLS-skattningarna om data är heteroskedastiskt? Utgå från den enkla modellen Y i =β 0 +β X i +ε i Tex,skattningenförβ setidigareoh)ochvariansen för denna var under antagandet om lika varians dvs σ 2 i =σ2 förallai)var Var ˆβ ) = σ 2 xi x) 2 Menomdetärheteroskedastisktochσ 2 i σ2 j för i j,blirvariansenför ˆβ istället Var ˆβ ) = xi x) 2 σ 2 i xi x) 2) 2 Vad spelar detta för roll egentligen?.2.2) Skattningarna är fortfarande väntevärdesriktiga unbiased), konsistenta, asymptotiskt normalfördelade. Men de är inte längre effektiva.

GLS- Generaliserad Minsta Kvadratskattning Vi skriver Y i =β 0 X 0i +β X i +ε i därx 0i =förallai.antagaattσ 2 i ärkändföralla iochskriv ) ) ) Y i X0i Xi εi =β 0 +β + σ i σ i σ i σ i eller Y i =β 0 X 0i +β X i +ε i och observera att ) Eε εi i )=E σ i = σ i Eε i )=0 och Varε i ) = E ε i )2) =E ) 2 εi σ i = σ 2 ie ε 2 ) i = σ 2 σ 2 i = i Idé: ge observationer från områden med stor variation låg vikt och de med liten variation stor vikt. För de senare är mer samlade kring sina medelvärden och man kan få en bättre precision och därmed skatta regressionslinjen"bättre". vilketärkonstantlikamedföralli,dvsvihartransformeratε i tillε i somärhomoskedastiskt! Genom att transformera enligt,x i,y i ), X i, Y ) i =X0i σ i σ i σ,x i,y i ) i och sedan köra på med vanlig OLS MK) så kommer man runt problemet. Vanlig OLS: minimera n ) 2= n Q= yi ˆβ 0 ˆβ x i e 2 i i= i= Vadhänderomman"görfel"? OLS skattning med hänsyn till heteroskedasticitet - enligt.2.2): GLS: minimera där Q n ) 2= n = w i y i ˆβ 0 ˆβ x i i e i= i=w 2 i w i = σ i Kan visas att Var ˆβGLS ) <Var ˆβOLS ) ochkikommerattvaraförbredaochp-värdenkommer att vara missvisande. OLS skattning utan någon hänsyn alls Beteckningen w i kommer av weights eller vikter, dvs varje observation i datamaterialet viktas med inversen till"sin" slumptermsvarians. Därav den vanliga benämningen Weighted Least Squares eller WLS. - inte ens enligt.2.2): Kan visas att Var ˆβ OLS ) Se 2 = xi x) 2 inte är väntevärdesriktig biased). Vi vet inte ens om den över- eller underskattar den sanna variansen. Slutsatser av en sådan analys kan var helt missvisande.

När är det heteroskedastiskt? Oftaharmanjuingenaningförränmanharettstickprovatttittapå. - Skatta som om det vore homoskedastiskt, dvs vanlig OLS skattning och analysera residualerna. Grafiskt: Titta på residualplottar. Typiskt utseende kan vara Residual 5 0 5 0-5 -0-5 Residuals vs X Formella test: Finns olika beskrivna i litteraturen -Parktest - Glejser test - Spearman s rangkorrelationstestse tidigare OH) - Goldfeld-Quandt test - Breusch-Pagan-Godfrey test Vi behöver inte fördjupa oss i detaljerna om dessa test. Men vi ska veta att det finns sätt att testa för lika variansh 0 ärtypisktattdetinteärheteroskedastiskt, lågap-värdengörattattviförkastarh 0 ). 0 0 20 30 40 x 50 60 70 80 90 Åtgärder i skattningsförfarandet Ex)Antagatt Närσ 2 i ärkänd:wlsseexempel) E ε 2 i) =σ 2 X 2 i Närσ 2 i ärokänd:whitesheteroskedasticity-consistent Variances and Standard Errors kanske tveksamt vid små stickprov). dvs residualvariansen ser ut att vara proportionell mot kvadraten på prediktorn. Transformera data enligt När man har en kvalificerad gissning: man kan ibland se att variansen i residualerna kan skrivas som en funktion av prediktornprediktorerna) dvs σ 2 i =fx i) Y i σ i = β 0 = β 0 X0i X i ) ) ) X0i Xi εi +β σ + i σ i σ ) ) i ) Xi εi +β + X i X i = β 0 X i +β +ε i ochdärx i 0>0).

Ex2)Antagatt Ex3)Antagatt E ε 2 i) =σ 2 X i dvs residualvariansen ser ut att vara proportionell mot prediktorn. Transformera data enligt Y i X0i = β σ 0 i σ i ) ) Xi +β + σ i ) εi ) X0i Xi = β 0 +β )+ Xi Xi = β 0 Xi +β X i +ε i ochdärx i >0. σ i ) εi Xi E ε 2 ) i =σ 2 EY i X) 2 =σ 2 β 0 +β X i ) 2 dvs residualvariansen ser ut att vara proportionell mot kvadraten på prediktorn. Transformera data enligt ) ) ) Y i X0i Xi εi =β 0 +β + σ i σ i σ i σ ) i ) X =β 0i X 0 )+β i ε + i EY i X) EY i X) EY i X) och där EY i X) 0 > 0). Förutsätter att man vetvadβ 0 ochβ är! Tvåstegsförfarande:. Skattaβ 0 ochβ medols 2. BeräknaŶ i fråndenskattademodellenochanvänd dettaisfey i X). Ex 4) Antag en modell med log-transformation enligt Hurgörmanipraktiken? eller eller lny i =β 0 X 0i +β X i +ε i Y i =β 0 X 0i +β lnx i +ε i lny i =β 0 X 0i +β lnx i +ε i Ex Minitab: Options-knappen ger följande dialogfönster. Observera"Weights"-rutan. Detta kan ofta reducera heteroskedasticiteten i observerade datamaterial. Ex EViews: vid estimering, Options-fliken. Observera "Weights"-rutan.

Autokorrelation F9 Avvikelser från modellantagandena II Enligt antagandena för linjär regression ska slumptermernaε i varafördeladeenligt iid ε i N 0,σ 2 ) ε iid = oberoende, lika fördelade). Förragångentittadevipåvadsomhänderomdeinte var lika fördelade, speciellt att de hade olika varians. Nuskavitittavadsomhänderomdeinteäroberoende. Vad är problemet? Samma som förra gången: Formellt antar vi vid vanlig enkel linjär regression att E ε i ε j ) =0 i j men nu gäller alltså att för vissa par, kombinationer el. liknade) att E ε i ε j ) 0 i j Om detta är fallet säger vi att autokorrelation. Speciellt vanligt och intressant är det i samband med analys av tidsseriermen även spatiala data). Typiskt när i tiden närliggande observationerslumptermer) ser ut att samvariera, tex Eε t ε t+s ) 0 s 0 Skattningarna är fortfarande väntevärdesriktiga unbiased), konsistenta, asymptotiskt normalfördelade. Men de är inte längre effektiva. Orsaker till autokorrelation Specifikationsfel: variabel saknas i modellen. Antag att den"sanna" modellen är Y t =β 0 +β X t +β 2 X 2t +ε t men vi prövar modellen Detta innebär att Y t =β 0 +β X t +ν t ν t =β 2 X 2t +ε t ochvikanfåinenautokorrelationviadetlinjärasambandetmellanx 2t ochdeövriga. Lösning: kör båda och se om autokorrelationen försvinner med den utökade modellen. Specifikationsfel: felaktig funktionell form. Antag att den"sanna" modellen är Y t =β 0 +β X t +β 2 X 2 t +ε t men vi prövar modellen Y t =β 0 +β X t +ν t Detta innebär att att vi kommer se det typiska mönstret för kvadrater i residualerna vilket kan ge upphov till en falsk) autokorrelation. Cobweb fenomen En återkopplande effekt, tex om priset är högt, producerarmanmernästaår,prisetgårnerochnästaår producerar man mindre Tillång t =β 0 +β Pris t +ε t Effektenblir attdethela hoppar framochtillbaka autokorrelation.

Laggarlags) Transformering av data Typiskt ser man ofta en seriell korrelation i ekonomiska sammanhang,texprisetidagärungefärsomigår,bnp ändras långsamtcyklist) mm. En modell skulle kunna skrivas enligt Y t =β 0 +β X t +β 2 Y t +ε t Kan ses som specialfall av "Specifikationsfel: variabel saknas i modellen" Manipulering av data: aggregering/ interpolering Säg att man har dagskurser men aggregerar till månadsmedelvärden. Detta får till följd att små dagliga störningar dämpas ut, en uppåt kommer tas ut av en störning neråt. Serien blir "mjukare" än innan. autokorrelation. Eller man har årsdata men man interpolerar till månader. Eftersom årsdata är"mjuk" från början kommer interpolationerna också att spegla detta autokorrelation. Säg att ni tittar på differenser från en dag till nästa, dvs antag att modellen kan skrivas och antag att Y t = β 0 +β X t +ε t Y t = β 0 +β X t +ε t iid ε i N 0,σ 2 ) ε Men differenserna kan skrivas där ochvifår Y t =β X t +ν t ν t = ε t =ε t ε t Eν t ν t ) = E[ε t ε t )ε t ε t 2 )] dvs autokorrelation. = Eε t ε t ) Eε t ε t 2 ) Eε t ε t )+Eε t ε t 2 ) = 0 0+σ 2 ε +0 Stationäritet och icke-stationäritet OLS skattning när man har autokorrelation om en tidserie är svagt) stationär behåller den sina statistiska egenskaper genom hela serien, dvs Eε t )=0 Varε t )=σ 2 ε Covε t,ε t+s )=γ s Omovanståendeinteäruppfylltsägerviattserienär icke-stationärochvikanisåfallseteckenpåautokorrelation som egentligen är effekten av en trend i serien. Antag att modellen kan skrivas enligt Y t =β 0 +β X t +υ t och där υ t =ρυ t +ε t ρ < ochdärserienavε t ärstationärdvs Eε t )=0 Varε t )=σ 2 ε och dessutom ej autokorrelerade Covε t,ε t+s )=0 s 0 Då har vi det somkallas enförsta ordningens autoregressiv modellellerenar)islumptermernaυ t.

Mankanvisaattvifår Varυ t )= σ2 ε ρ 2 homosked.) Covυ t,υ t+s )=Eυ t υ t+s )=ρ s σ 2 ε ρ 2 Corrυ t,υ t+s )=ρ s Observera att ovanstående innbär att serien av υ t är stationär men poängen är att de inte är oberoende. Serienavε t ärdäremotoberoendeochstationär). Under den vanliga modellen med oberoende) är den vanligaols-skattningenavβ somvanligt ˆβ OLS xt y t = x 2 t vi antar nu att vi har medelvärdesjusterat observationernasåatt x,ȳ=0)medvariansen Var ˆβ OLS ) = σ2 ε 2.2.7) x 2 t Men under AR) modellen blir variansen istället Observeraocksåattυ t ärkorreleradeinteendastmed υ t ρ = ρ ovan ) utan med varje tidpunkt υ t s innan ρ s ovan). Om det gäller att ρ < inses att styrkan i beroendet också avtar med s. ˆβOLS ) Var AR n +2 s= = σ2 ε x 2 t ρ s xt x t s x 2 t 2.2.8) och om vi bortser ifrån AR) komponenten riskerar vi grova felskattningar av variansen! Ex)AntagattävenX t följerärenar)process,dvs X t =rx t +δ t r < där r är X t s autokorrelationskoefficient. Det kan då visas att BLUE-estimat vid autokorrelerade slumptermer VitartillenvariantavGLSochdetkanvisasattBLUEskattning blir Var ˆβ OLS ) =Var AR ˆβ OLS ) ) +rρ rρ ˆβ GLS xt ρx t )y t ρy t ) = xt ρx t ) 2 +C Beroende på vilka värden r respektive ρ antar kan vi antingen över- eller underskatta den sanna variansen för ˆβ. och variansen är Var ˆβ GLS ) σ 2 ε = xt ρx t ) 2+D där C och D är korrektionsfaktorer som kan bortses ifrån. Denna skattning är BLUE. Allmänt om GLS är att man använder mer information änvadolsgör.)

Vadhänderomman"görfel"? OLS skattning med hänsyn till autokorrelation - enligt2.2.8): Kan visas att Var ˆβ GLS ) <Var ˆβ OLS ) AR ochkikommerattvaraförbredaochp-värdenkommer att vara missvisande. OLS skattning utan någon hänsyn alls - inte ens enligt2.2.8) utan med2.2.7): Manriskerarattunderskattaσ 2 ε ochdärmedöverskatta R 2.Ävenommaninteunderskattarσ 2 ε riskerarmanatt felskatta2.2.8) om man anväder2.2.7) och därmed kommer t och F-test vara missvisande felaktiga p- värden). Slutsatser av en sådan analys kan var helt missvisande. Hur upptäcker man att det är autokorrelerat? Oftaharmanjuingenaningförränmanharettstickprovatttittapå. - Skatta som om det inte finns atuokorrelation, dvs vanlig OLS skattning, och analysera residualerna, dvs vikommerattfåenserieavˆυ t. Grafiskt: Titta på residualplottar. Kan man se mönsteriˆυ t?vilkaisåfall? Exempel) 6 4 2 0-2 -4-6 926 928 930 932 934 936 938 940 CBE Residuals Härkanmanseattserienavresidualermöjligenrörsig lite för mjukt, närliggande residualer är relativt lika. Formella test: Finns olika beskrivna i litteraturen -RunstestsetidigareOH) - Durbin-Watson d-test: Används för att detektera om det finns en AR), ej högre ordningar typ AR2). Deiniera nt=2 ˆυ t ˆυ t ) 2 d= nt=ˆυ 2 2 ˆρ) t där nt=2ˆυ tˆυ ˆρ= t nt=ˆυ 2 t ärenskattningavρ.eftersom ρ <gälleratt 0<d<4 -omρ=0,dvsingenautokorrelationsåärd=2. -omρärnärasåärdnära0 -omρärnära-såärdnära4. Manletarupptvåkritiskagränserd L ochd U idurbin- Watson tabellengränserna beror på n och p-värde). Om d ligger i intervallet -d U,4 d U )såärdetinteautokorrelerat. -0,d L )elleri4 d L,4)såärdetautokorrelerat -d L,d U )elleri4 d U,4 d L )vetmanintesäkert. Nackdel med metoden är att det finns s.k. "indecisive zones" och att man endast testar för autokorrelation på lagg. Dessutom kan autokorrelation i en regressor maskera autokorrelation i slumptermerna. - Breusch-GodfreyBG) test också känd som Lagrange MultiplierLM) test: Se texten.

- Box-Ljung Q-statistikor: Definiera M ˆρ 2 Q=nn+2) k n k) k= därˆρ k ärenskattningavautokorrelationenpålaggk. Observera att Q är ett test för flera autokorreleationer samtidigt, ett s.k. portmanteau test. Mycket vanligt är att man tittar på AutokorrelationsfunktionenACF) vilket är skattningar av Corrυ t,υ t+s )=ρ s dvs autkorrelationer på olika laggar s, dvs olika tidsavstånd s. Dessa kan åskådliggöras i diagram. Ex) Tecken på atuokorrelation Q är approximativt χ 2 -fördelad om modellen är korrekt specifierad och vid stora värden på Q förkastas nollhypotesen om inga autokorrelationer upp till lagg M. Autocorrelation,0 0,8 0,6 0,4 0,2 0,0-0,2-0,4-0,6-0,8 -,0 Autocorrelation Function for X with 5% significance limits for the autocorrelations) 2 4 6 8 0 2 Lag 4 6 8 20 22 24 Ex) Tecken på avsaknad av autokorrelation Autocorrelation Function for X2 with 5% significance limits for the autocorrelations),0 0,8 0,6 Autocorrelation 0,4 0,2 0,0-0,2-0,4-0,6-0,8 -,0 2 4 6 8 0 2 Lag 4 6 8 20 22 24..

X Y F0 Ekonometriska tidserier Stationära processer Stokastiska processer Om en tidserie är svagt stationär behåller den sina statistiska egenskaper genom hela serien, dvs En stokastisk process är en samling slumpvariabler ordnade efter tid. TexomY ärenslumpvariabelsomviobserverarflera gånger i tiden) kan vi betrakta det som stokastisk process. Förtydligande: Om tiden är kontinuerlig skriver man Y t),omtidenärdiskretskrivermany t. Y t självtärtypisktkontinuerlig. EY t )=µ, VarY t )=σ 2 Y Cov Y t,y t+k ) =γk Dvs oavsett t så ska ovanstående gälla. Om ovanstående inte är uppfyllt säger vi att serien är icke-stationär och vikanisåfallseteckenpåautokorrelationsomegentligenäreffektenaventrendiserien. Mankansägaattenstörningsomfårserienatt"hoppa till" inte kommer att ha en bestående effekt utan serien kommer relativt snabbt tillbaks till värden runt medelvärdet mean reversion). Dessutom ska fluktuationerna runt medelvärdet vara ungefär lika stora ivarians). Finns en definition för det som kallas stark stationäritet men ovanstående räcker ofta i praktiken.) HyfsadstationärseriemöjligenvarierandeVarY t )) Random Walk el Slumpvandring utan drift 2 0 Time Series Plot of Y Klassiskt exempel på icke-stationär serie är en Random Walk ModelRWM) eller slumpvandring dvs en modell enligt - Y t =Y t +u t -2 6 2 8 24 30 36 42 48 54 60 Time EjstationärseriemedavseendepåväntevärdetEY t ) däru t ärvittbruswhitenoise)ellermaoiidslumptermer enligt u t N 0,σ 2) Y t äralltsåenar)process. 5 50 49 48 47 46 45 44 43 42 Time Series Plot of X Man kan skriva Y t = Y t +u t =Y t 2 +u t +u t = Y t 3 +u t +u t +u t 2 =... 4 8 2 6 20 Time 24 28 32 36 40 = Y 0 + t i= u i ochmaninseratt EY t )=Y 0 VarY t )=tσ 2 alltså är den inte stationär med avseende på variansen.

Y t äralltsåensummaavettstartvärdeochensumma avslumpmässigastörningaru t. Vidare ser man effekten av dessa störningarna aldrig dör ut! Men observera att om vi bildar differenser av intilliggandey t fårvi Y t = Y t Y t = Y 0 + t i= u i Y 0 + t i= u i = u t dvs den första ordningens differenser är en serie av slumptermer, vitt brus. Denna serie är staionär eftersom och E Y t )=Eu t )=0 konstant) Var Y t )=Varu t )=σ 2 konstant) och dessutom är dessa oberoende och därmed okorreleradekonstant). Random Walk el Slumpvandring med drift Modifiera RWM-modellen enligt Y t =δ+y t +u t därδärenskdriftparameter ochu t ärsomförutvitt brus. Man kan skriva Y t = δ+y t +u t =2δ+Y t 2 +u t +u t = 3δ+Y t 3 +u t +u t +u t 2 =... = tδ+y 0 + t i= u i ochmaninseratt EY t )=tδ+y 0 VarY t )=tσ 2 alltså är den inte stationär med avseende på väntevärde och varians. Termen tδ i väntevärdet ovan är orskaen till benämningen drift. JulängretidsomgårdestolängrebortfrånY 0 kommer mani förväntan) En RWM-process utan drift däremot förväntas komma tillbakatilly 0 förellersenare. Men i båda fallen ökar variansen. Unit Root Process RVMärexempelpådetsomkallasUnitRootprocesser. Definiera Y t =ρy t +u t dvsenar)process. Omnuρärlikamedett)får vi unit root problem, dvs vi får icke-stationäritet. Definiera B som en bakåtoperator back-shift operator)enligt B k Y t =Y t k Då ser man att tex första differenser kan skrivas enligt Y t =Y t Y t = B)Y t Modellen ovan kan då skrivas som ρb)y t =u t Betrakta ρb) som ett polynom i B. Roten till ekvationen ärförvilkab gällerdetta? ρb=0 Allmänt har man kanske ρ B ρ 2 B 2 ρ 3 B 3... ) =0 Om detta polynom har B = som en lösning får vi unit root problem, dvs icke-sationäritet.

Trend- och Differensstationär Trend är den långsamma utvecklingen i en tidserie. Man skiljer på - deterministiska trender helt och hållet förutsägbar) och - stokastiska trender För att formalisera det hela definierar vi följande modell Y t =β 0 +β Y t +β 2 t+u t Ur detta kan vi studera några specialfall: )Antagattβ 0 =β 2 =0ochβ =,dåfårvi Y t =Y t +u t dvsenrvmutandrift. Menkomihågatt Y t =u t är stationär. En RWM är en differensstationär process. 2)Antagattβ 0 0,β =ochβ 2 =0,dåfårvi Y t =β 0 +Y t +u t dvsenrvmmeddrift. Ochvikommerattseentrend uppåtellernedåtberoendepåtecknetpåβ 0.Dettaär en stokastisk trend. 3)Antagattβ 0 0,β =0ochβ 2 0,dåfårvi Y t =Y t =β 0 +β 2 t+u t får man en trendstationär process. Väntevärdet er ej konstant men variansen är konstant. 4)Antagattβ 0 0,β =ochβ 2 0,dåfårvi Y t =β 0 +Y t +β 2 t+u t får man en RWM-process med drift och deterministisk trend. 5)Antagattβ 0 0, β <ochβ 2 0,dåfårvi Y t =β 0 +βy t +β 2 t+u t får man en process med deterministisk trend och stationär AR) komponent. Denna process är stationär runt den deterministiska trenden. Integrerade stokastiska processer En integrerad stokastisk processip) är en process som typiskt är icke-staionär men som efter en bestämt antal differensbildningar är stationär. Man säger att en IP är av ordning d om det krävs d stycken differenser för att bli stationär, eller kort Y t Id) Ex) En RWM är icke-stationär se ovan) men bildas första differenser enligt så är denna stationär. Y t =Y t Y t =u t Egenskaper hos integrerade stokastiska processer ) Om X t Id) så är en linjär transformation av denna integrerad enligt Z t =ax t +b Id) dvs den behåller sin ordning. 2)OmX t Id )ochy t Id 2 )ochd <d 2 så är en linjärkombination av dessa integrerad enligt Z t =ax t +by t +c Id 2 ) dvsdenstörstaavd ochd 2 3) Om X t Id) och Y t Id), dvs samma ordning, så är en linjärkombination av dessa integrerad enligt Z t =ax t +by t +c Id ) därd d,dvsordningenärgenerelltlikameddmen ivissalägenkandenvaralägreochmansägerisåfall attx t ochy t kointegrerar. - Kan bli problem vid regressionsanalyser om prediktor och respons är av olika integrerande ordning. Om tex Y t I0)ochX t I)kanseattvariansenförX t växermedticke-stationär)ochattskattningenförβ går mot noll. - Regressionsanalyser med integrerande processer kan leda till spuriösa resultat tex starkölsförsäljning och antal inskrivna vid universitet).

Test för stationäritet Grafiskt: Titta på tidserieplottar. Ser det stationärt ut? Exempel) 2800 Time Series Plot of Xt Skattas med och ˆγ k = ) Y t Ȳ) Y t k Ȳ ˆρ k = ˆγ k ˆγ 0 Plottasedandessaförk=,2,3,...tex n 2600 2400 2800 Time Series Plot of Xt ACF för Xt with 5% significance limits for the autocorrelations) Xt 2200 2000 800 600 400 200 000 4 8 2 6 20 24 t 28 32 36 40 44 Xt 2600 2400 2200 2000 800 600 400 200 000 4 8 2 6 20 24 t 28 32 36 40 44 Autocorrelation,0 0,8 0,6 0,4 0,2 0,0-0,2-0,4-0,6-0,8 -,0 2 3 4 5 6 Lag 7 8 9 0 Ökande trendej stationärt medelvärde). Icke stationärt beteende AutokorrelationerACF): 60 50 Time Series Plot of DiffXt),0 0,8 0,6 ACF för första ordningens differenser av Xt with 5% significance limits for the autocorrelations) ACFvidlaggkdefinieras ρ k = γ k = Cov ) ) Yt,Y t k Yt γ 0 CovY t,y t 0 ) =Cov,Y t k VarY t ) Xt 40 30 20 0 0 4 8 2 6 20 24 28 32 36 40 44 t Autocorrelation 0,4 0,2 0,0-0,2-0,4-0,6-0,8 -,0 2 3 4 5 6 7 8 9 Lag Fortfarande beroende men möjligen stationärt. 0 FöratttestaomACFärsignifikantskildfrånnollmer formellt kan man titta på Ljung-Pierce Q statistika M Q=n ˆρ 2 k k= eller ännu hellre Ljung-Box Q-testLB Q test), M ˆρ 2 Q=nn+2) k n k) k= NollhypotesenivarderafallärH 0 :samtligaautokorrelationerupptilllaggm ärnoll. Unit Root test Vi såg att RWM utan drift var icke-stationär. Vi såg också att den kunde formuleras enligt Y t =Y t +u t B)Y t =u t Vidaresågviattengenerellprocessavdettaslagkan skrivas Y t =ρy t +u t ρb)y t =u t där ρ ochattomρ=såärdetenrwm.nu skriver detta som Y t = Y t Y t =ρy t Y t +u t = ρ )Y t +u t = δy t +u t

Frågansomärintressantnuärattavgöraom vilket är ekvivalent med δ=0 eller δ<0 ρ= eller ρ< Om δ = 0 så har vi en enhetsrot unit root) och en RWM och således icke-stationäritet. Dickey-FullerDF) test Gällernäru t ärvittbrusdvsokorreleradeslumptermer. Använd formuleringen Y t =δy t +u t och titta på skattningen av δ. Är denna signifikant skild från noll eller inte? Går ej med vanlig t-test ty teststatistikan är inte t- fördelad utan τ-fördelad tau) vilket kräver speciella tabeller. Vidare måste man ta hänsyn till vilken sorts process det är frågan om: )Y t ärenrwmutandrift 2)Y t ärenrwmmeddrift 3)Y t ärenrwmmeddriftruntenstokastisktrend Beroende vilket som gäller gäller olika kritiska värden från τ-fördelningen. Augmented Dickey-FullerADF) test Omdetfinnskorrelationeriu t finnsenvidareutveckling av DF-testet, ADF. Transformationer Inte så komplicerat, läs själva.