Kandidatuppsats. Att prognosticera svensk inflation med Vektor Autoregressiva Modeller

Relevanta dokument
Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Stokastiska processer med diskret tid

Prognostisering av växelkursindexet KIX En jämförande studie. Forecasting the exchange rate index KIX A comparative study

Finansiell statistik

The effect of a reduced mortgage interest deduction. Pardis Ghadrdan och Samuel Hultqvist

Korrelation och autokorrelation

Stokastiska processer med diskret tid

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Statistiska institutionen. Bachelor thesis, Department of Statistics. Reporäntegenomslaget skattat med felkorrigeringsmodeller

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Utvärdering av regeringens prognoser

Promemoria Finansdepartementet. Ekonomiska avdelningen. Utvärdering av makroekonomiska prognoser Inledning

Sveriges bruttonationalprodukt Årsdata. En kraftig trend.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Grundläggande matematisk statistik

Föreläsning 7: Punktskattningar

Osäkerhetsindex för Sverige. - ett verktyg för svensk realekonomi. Uncertainty index for Sweden - an instrument for Swedish real economic

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

2.1 Mikromodul: stokastiska processer

Multipel Regressionsmodellen

Lektionsanteckningar 11-12: Normalfördelningen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 7: Punktskattningar

F9 SAMPLINGFÖRDELNINGAR (NCT

F3 Introduktion Stickprov

Vilka indikatorer kan prognostisera BNP?

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

TMS136. Föreläsning 13

Promemoria. Utvärdering av makroekonomiska prognoser 2015

Regressions- och Tidsserieanalys - F1

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Analys av egen tidsserie

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

MVE051/MSG Föreläsning 14

Svenska inflationsprognoser

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Statistik 1 för biologer, logopeder och psykologer

- en statistisk analys

Paneldata och instrumentvariabler/2sls

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Föreläsning 4: Konfidensintervall (forts.)

Regressions- och Tidsserieanalys - F1

Taylorregeln och prediktabiliteten av reporäntan

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Repetitionsföreläsning

Stokastiska vektorer och multivariat normalfördelning

Stokastiska vektorer

7.5 Experiment with a single factor having more than two levels

Föreläsning 7: Stokastiska vektorer

TENTAMEN I STATISTIKENS GRUNDER 2

Något om val mellan olika metoder

Föreläsning 12: Linjär regression

Hypotestestning och repetition

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Matematisk statistik KTH. Formelsamling i matematisk statistik

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I

Avsnitt 2. Modell: intuitiv statistisk

SF1901 Sannolikhetsteori och statistik I

Föreläsning 12: Regression

3 Maximum Likelihoodestimering

Prognostisering av svensk inflation

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Den Moderna Centralbankens Prognosmetod. Statistikfrämjandets årsmöte

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Teknisk not: Lönealgoritmen

Riksbanken och Taylorregeln

F13 Regression och problemlösning

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F11. Kvantitativa prognostekniker

Härledning av Black-Littermans formel mha allmänna linjära modellen

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Avd. Matematisk statistik

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

MVE051/MSG Föreläsning 7

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Linjär regressionsanalys. Wieland Wermke

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Transkript:

Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2014:8 Att prognosticera svensk inflation med Vektor Autoregressiva Modeller Forecasting Swedish inflation with Vector Autoregressive Models Magnus Gidlund och Markus af Ugglas Åberg Självständigt arbete 15 högskolepoäng inom Statistik III, VT2014 Handledare: Pär Stockhammar

Sammanfattning Går det att göra bra prognoser för den underliggande inflationen utan vara bunden av ekonomisk teori? För att undersöka detta tog vi hjälp av så kallade Vektor Autoregressiva-modeller (VAR). Denna metod bygger inte på några antagande om variablernas natur utan behandlar alla variabler som endogena. Genom systematisk gallring var målet att skapa en modell vars prognoser skulle vara jämförbara med Konjunkturinstitutets (KI). Vi fann att en VAR-modell som inkluderar den underliggande inflationen och enhetsarbetskostnad lyckades bäst. På ett års sikt var VAR-modellens och KI:s prognoser likvärdiga. På två års horisont var vår modell behäftad mer större systematiskt fel fast med högre precision. Nyckelord: Vektor autoregressiva modeller, inflation, prognoser. Abstract Is it possible to create good forecasts for the core inflation without being bound by economic theory? To investigate this question we used so called Vector Autoregressive Models (VAR), which method isn t built on any assumptions about the nature of the variables, but instead treats them as endogenous. By a systematic sorting process our goal was to create a model which could give us a forecast comparable with Konjunkturinstitutets. The VAR-model consisted of core inflation and Unit Labour Cost proved to be best. On one year horizon our models forecast and KI s were equal. On a two year horizon our model was afflicted with bigger systematic error but with greater forecast precision. Keywords: Vector autoregressive models, inflation, forecasts. 3

Innehållsförteckning 1 INLEDNING... 6 1.1 SYFTE... 6 1.2 METOD... 6 1.3 AVGRÄNSNINGAR... 7 1.4 INFLATION... 7 1.5 DISPOSITION... 7 2 DATA... 8 2.1 VARIABLER... 8 2.2 FREKVENS... 9 3 METOD...10 3.1 STATIONÄRITET... 10 3.1.1 Slumpvandring... 11 3.1.2 Enhetsrot... 11 3.1.2 Det utökade Dickey-Fuller testet... 12 3.2 VEKTOR AUTOREGRESSIVA MODELLER (VAR)... 12 3.2.1 Autoregressiv process... 12 3.2.2 VAR... 13 3.2.3 Optimalt antal laggar... 14 3.2.4 Prognoser med VAR... 14 3.2.5 Modelldiagnostik... 15 3.3 GRANGERS KAUSALITETSTEST... 17 3.4 KOINTEGRATION... 18 3.4.1 Johansens Kointegrationstest... 18 3.5 PROGNOSPRECISION... 19 3.5.1 Korsvalidering... 19 3.5.2 Prognosfel... 19 3.5.3 Mått på prognosprecision... 20 3.5.4 Theils U statistika... 21 4 RESULTAT...22 4.1 STATIONÄRITET... 22 4.2 GRANGERS KAUSALITETS TEST... 22 4.3 PRÖVNING AV VAR MODELL... 23 4.3.1 Optimalt antal laggar... 24 4.3.2 Kointegration... 25 4.3.3 VAR-modellernas Goodness-of-fit och modelldiagnostik... 25 4.3.4 Modellval... 26 4.4 PROGNOSUTVÄRDERING... 27 4.4.1 Jämförelse med KI:s prognoser.... 27 4.4.2 Prognoser över perioden 2008-2011... 31 4.4.3 Prognoser på längre sikt... 32 4.4.4 Framtidsprognos 2014-2015... 32 5 SLUTSATS OCH DISKUSSION...34 LITTERATURFÖRTECKNING...36 APPENDIX A...38 A.1 BESKRIVNING AV VARIABLERNA... 38 A.2. KÄLLFÖRTECKNING VARIABLER... 39 APPENDIX B...41 4

TABELL B.1: VARIABLERNAS REFERENS I UPPSATSEN, VILKET TILLSTÅND DE ÄR STATIONÄRA OCH URVALSSTORLEKEN.... 41 TABELL B.2: MÖJLIGA VAR-MODELLER... 42 TABELL B.3: JOHANSENS KOINTEGRATIONSTEST... 43 TABELL B.4: GOODNESS-OF-FIT FÖR DE MODELLER SOM INTE REDOVISADE NÅGRA KOINTEGRERADE EKVATIONER.... 44 TABELL B.5: RESIDUALDIAGNOSTIK FÖR DE MODELLER SOM REDOVISADE BÄST GOODNESS-OF-FIT RESULTAT... 44 TABELL B.6: PROGNOSDIAGNOSTIK PÅ FAST HORISONT FÖR MODELL 14... 45 TABELL B.7: PROGNOSDIAGNOSTIK PÅ FAST HORISONT FÖR MODELL 30... 45 TABELL B.8: PROGNOSDIAGNOSTIK PÅ FAST HORISONT FÖR KI:S MODELLER... 45 APPENDIX C...46 TABELL C.1: MODELL 30 OUTPUT.... 46 FIGUR C.1: KORRELOGRAM FÖR MODELL 30... 47 TABELL C.2: REDUCERAT KOINTEGRATIONSRANKTEST (TRACE), MODELL 14, 5 LAGGAR... 48 TABELL C.3: REDUCERAD KOINTEGRATIONSRANKTEST (MAXIMUM EIGENVALUE) MODELL 14, 4 LAGGAR... 48 TABELL C.4: REDUCERAD KONITEGRATIONSRANKTEST (TRACE), MODELL 14, 1 LAGG... 48 TABELL C.5: REDUCERAD KOINTEGRATIONSRANKTEST (MAXIMUM EIGENVALUE) MODELL 14, 1 LAGG... 48 TABELL C.6: MODELL 14S OUTPUT... 49 FIGUR C.2: KORRELOGRAM FÖR MODELL 14... 49 5

1 Inledning Inflation is always and everywhere a monetary phenomenon sa den kända ekonomen och nobelpristagaren Milton Friedman. Därför är behovet stort av bra prognoser för inflationen. Inte bara för Riksbanken och penningpolitiska beslutsfattare utan även för näringslivet. Om inflationen i ett land är hög ger det besvärliga konsekvenser för ett lands ekonomi, bland annat en icke önskvärd prislönespiral. Även en för låg inflation ger problem med bland annat hög arbetslöshet. Riksbanken försöker parera inflationen med styrräntan. Under de senaste åren har en del av Riksbankens direktion velat hålla en lägre räntebana än vad den styrande majoriteten gjort. Detta har varit anledningen till öppet bråk på Sveriges Riksbank 1. Värdet av bra prognoser är tydligt i detta fall. I en studie Konjunkturinstitutet publicerade augusti 2013 2 visas att Riksbankens systematiskt överskattat inflationen vilket bidragit till en stramare penningpolitik än vad som skulle bedrivit om inflationsprognoserna inte varit behäftade med systematiskt fel. Denna bias har därmed bidragit till högre arbetslöshet och lägre inflation än nödvändigt Hur görs då en bra prognos för inflationen? Det finns flera olika utgångspunkter när inflationen ska prognosticeras. Enligt neoklassisk nationalekonomisk teori är arbetslösheten och inflationen intimt sammankopplade i den så kallade Phillipskurvan 3. Ur denna relation härleds ekonometriska modeller som används för att predicera inflationen. Ett annat förhållningssätt är att göra prognoser för enskilda beståndsdelarna som är viktiga för den allmänna prisnivån, som till exempel boendekostnader, olja- och energipriser, etc. Därefter viktas dessa ihop till en prognos för aggregatet. Ett tredje sätt är den ateoretiska utgångspunkten. Man tittar på hur inflationen har betett sig historiskt och låter framtida värden av inflationen bestämmas av dess tidigare utfall utan några exogena förklarande variabler. Alla dessa metoder har sin för- och nackdelar och det är inte förvånande att det finns mängder av akademisk litteratur där deras prognosförmågor utvärderas 4. 1.1 Syfte I denna uppsats försöker vi hitta en objektiv modell för prognostisering som inte har sin grund i någon ekonomisk teori men samtidigt drar nytta av den information som förändringar i makroekonomiska data ger oss. Många saker påverkar inflationen och därför är det rimligt att tro att dessa förändringar kan användas för att göra bra prognoser. Mer konkret syftar den till att undersöka huruvida konsumentprisindex med fast ränta, den så kallade underliggande inflationen kan prognostiseras med hjälp av så kallade Vektor Autoregressiva-modeller på ett tillfredställande sätt. Vi försöker ta fram en VAR-modeller som både möter kraven för modellantaganden och ger bra prognoser för KPIF. 1.2 Metod Utifrån en bruttolista med makroekonomiska variabler tas två VAR-modeller fram genom en systematisk gallring. I detta moment tar vi ingen hänsyn till ekonomisk teori utan framtagandet av modeller sker på statistiska grunder. Vi använder Grangers kausalitets test för att urskilja vilka variabler vi bör överväga i våra modeller. Sen 1 Se t.ex. Zachrison (2012) 2 Konjunkturinstitutet (2013) 3 Och den förväntningsutvidgade Phillips-kurvan. Se t.ex. Blanchard et. al (2010) 4 Se t.ex. Ang och Bekaert (2007) 6

börjar en elimineringsprocess där vi först testar för kointegration, sedan tittar på goodness-of-fit och modelldiagnostik. Två modeller väljs ut och deras prognosförmåga testas sedan genom korsvalidering. Under perioden 2010-2013 jämförs prognoserna mot Konjunkturinstitutets prognoser. Även modellernas kapacitet under finanskrisen undersöks. Slutligen görs prognos görs även för 2014-2015. Eviews 7 används som statistisk mjukvara för estimering av modeller. För beräkning av prognosvärderingsmåtten ME, RMSE, MAD, MAPE och Theils U används Excel 2013. 1.3 Avgränsningar Denna uppsats har begränsats till att prognosticera den svenska inflationen mätt i KPIF. Vad det gäller VAR-modeller finns det många vägar att gå men denna studie begränsas till att undersöka reducerade (unrestricted) VAR:s prognosförmåga. Särskild vikt läggs vid prognoser upp till två år. 1.4 Inflation Inflation definieras vanligtvis som förändring i ett lands priser. I Sverige mäts detta i konsumentprisindex (KPI). KPI är en korg av varor och tjänster som värderas varje månad av Statistiska Centralbyrå (SCB) som då får fram prisförändringen för varukorgen. Den 15 januari 1993 annonserade riksbanken att penningpolitikens nya mål var prisstabilitet i Sverige. Efter en tid av stormig valutamarknad och spekulationer mot svenska kronan övergav man den fasta växelkursen mot ECU:n 5, vilket resulterade i att kronan försvagades. Riksbanken införde då ett inflationsmål på två procent, med andra ord ska den årliga förändringen av KPI vara 2 procent. Ett annat viktig term är den underliggande inflationen. Med underliggande inflation menas den inflation som endast påverkas av makroekonomiska faktorer, inte av fluktuationer som beror av till exempel ränteförändringar. KPI med fast ränta kallas KPIF, vars syfte är att bort effekten av förändrade bostadsräntor. Juli 2008, på order av Riksbanken, började SCB beräkna KPIF, som då också beräknade KPIF tillbaka till januari 1987. En nyckelfråga inom penningpolitiken är vilket prisindex inflationsmålet ska avse. Idag använder sig riksbanken utav måttet KPI som är av god kvalitet och som sällan revideras. Dock diskuteras det om andra mått är mer relevanta för att prognostisera och analysera inflationens utveckling. KPI påverkas ofta av faktorer som ger kortvariga förändringar och som riksbanken därför ej bör reagera på. KPI påverkas dessutom direkt av Riksbankens egna verktyg (Hansson et al. 2008). Av denna anledning har vi valt att studera ett mått på underliggande inflation, nämligen KPIF. 1.5 Disposition I avsnitt 2 beskrivs val av data och datafrekvens. I nästa avsnitt förklaras först grundläggande begrepp och statistiska test som är förknippade med tidsserieanalys, VAR-modeller och prognosprecision. I resultatdelen redovisas den systematiska utprovningen av VAR-modeller och en prognosjämförelse. Slutligen en diskussion och förslag på vidare studier. 5 European Currency Unit. En föregångare till euron. 7

2 Data 2.1 Variabler Denna studie utgår från en bruttolista av 20 makroekonomiska variabler 6 som kan tros påverka den underliggande inflationen. Listan kunde inte vara för omfattande men måste samtidigt innehålla de viktigaste ekonomiska storheterna. Vi har utgått från gängse makroekonomiska föreställningar kring inflation och tidigare forskning. 7 Variablerna är hämtade från statistiska centralbyrån, Sveriges Riksbank, Konjunkturinstituetets, The World Bank och Europeiska centralbanken (För fullständiga sökvägar se Appendix A, A.2). Några av variablerna publiceras på månadsbasis, varav dessa konverterats till kvartalsdata genom aritmetiskt medelvärde. De variabler som använts i denna uppsats slutgiltiga modeller är konsumentprisindex fast ränta (KPIF), producentprisindex, hyres- och bostadsrättslägenhets hyresprisindex, importprisindex och enhetsarbetskraftskostnadsindex. Variabeln KPIF är ett index över inflationen(kpi) men undantaget effekten av förändrade räntesatser, som publiceras månatligen av SCB, där året 1987 definieras som 100, se figur 2.1. Figur 2.1: KPIF index 1987 2013 220 200 180 160 140 120 100 80 1987Q1 1988Q1 1989Q1 1990Q1 1991Q1 1992Q1 1993Q1 1994Q1 1995Q1 1996Q1 1997Q1 1998Q1 1999Q1 2000Q1 2001Q1 2002Q1 2003Q1 2004Q1 2005Q1 2006Q1 2007Q1 2008Q1 2009Q1 2010Q1 2011Q1 2012Q1 2013Q1 PPI, eller producentprisindex redovisar den genomsnittliga prisutvecklingen i producentledet och redovisas månadsvis av SCB, där år 2005 har indextalet 100. 6 Samtliga variabler är arbetslöshet, BNP, exportprisindex, hyresprisindex, importprisindex, konfidensindikator totala näringslivet, konfidensindikator för tillverkningsindustrin, konsumentprisindex fast ränta, MO, M1, M3, Oljepris i dollar per fat, oljepris i kronor per fat, producentprisindex, reporänta, KIX, växelkurs KR/$, växelkurs KR/, växelkurs SDR, växelkurs TCW, enhetsarbetskraftskostnad, 7 Henry och Pesaran (1993) 8

Hyres- och bostadsrättslägenhets hyresindex är ett index över hyrpriserna för hyresoch bostadsrätter, beräknat från och med 1980. Detta index är en av de många varor som är grund för KPI och KPIF i SCBs kalkyler. Importprisindex (IMPI) avser den genomsnittliga prisutveckligen för alla Sveriges importvaror, där år 2005 har indextalet 100. Enhetsarbetskraftskostnad (ULC) beskriver den totala arbetskostnaden per enhet, beräknat i förhållande till arbetsproduktiviteten. Datamaterialet, som är hämtat från Europeiska Centralbanken, ECB, har sedan säsongsjusterats. Figur 2.2: Producentprisindex, Hyresprisindex, Importprisindex och Enhetsarbetskostnadsindex. 130 120 110 100 90 80 70 60 PPI 1990Q1 1992Q1 1994Q1 1996Q1 1998Q1 2000Q1 2002Q1 2004Q1 2006Q1 2008Q1 2010Q1 2012Q1 600 500 400 300 200 100 0 Hyresprisindex 1980Q1 1982Q4 1985Q3 1988Q2 1991Q1 1993Q4 1996Q3 1999Q2 2002Q1 2004Q4 2007Q3 2010Q2 2013Q1 130 120 110 100 90 80 70 60 50 IMPI 1990Q1 1991Q4 1993Q3 1995Q2 1997Q1 1998Q4 2000Q3 2002Q2 2004Q1 2005Q4 2007Q3 2009Q2 2011Q1 2012Q4 120 115 110 105 100 95 90 85 80 Enhetsarbetskostnadsindex 1993Q1 1994Q4 1996Q3 1998Q2 2000Q1 2001Q4 2003Q3 2005Q2 2007Q1 2008Q4 2010Q3 2012Q2 Alla variabler som är inblandade i denna uppsats finns beskrivna i Appendix A, A.1. 2.2 Frekvens Motiveringen till valet av kvartalsdata är att många intressanta makroekonomiska variabler endast publiceras kvartalsvis, exempelvis BNP. Därför, för att inte riskera att utesluta någon relevant variabel, använder vi oss av kvartalsdata. 9

3 Metod 3.1 Stationäritet Inom tidsserieanalys är begreppet stationäritet grundläggande. Man talar om strikt och svag stationäritet. En tidsserie är strikt stationär om den simultana täthetsfunktionen för observationerna y t, y t+1,, y t+n är precis den samma som den simultana täthetsfunktionen för y t+k, y t+k+1,, y t+k+n. I praktisk tillämpning är svag stationäritet ofta tillräckligt för att göra tidsserieanalys (Gujarati och Porter, 2009). För att en stokastisk process ska kallas svagt stationär ska tidsserien ha konstant väntevärde och varians. Vidare ska kovariansen mellan tidsperioder endast bero på avståndet mellan perioderna (laggarna) och inte vid vilken tidpunkt som kovariansen beräknades. Om Y t är en stokastisk tidsserie ska alltså följande gälla: Väntevärde: E(Y t ) = μ Varians: V(Y t ) = E(Y t μ) 2 = σ 2 Kovarians: γ k = E[(Y t μ)(y t+k μ)] (3.1a) (3.2a) (3.3a) Där γ k är kovariansen mellan värdena på Y t och Y t+k, När vi i fortsättning pratar om stationäritet menas svag stationäritet. Varför är stationäritet då så viktigt? Om tidsserien inte är stationär så är våra slutsatser av tidserien bara giltiga för den aktuella perioden som undersöks. Det går alltså inte att generalisera och tillämpa sina resultat på andra tidsperioder. Prognoser för framtida värden på den aktuella variabeln blir då av föga praktiskt värde. Vidare kan användande av icke-stationära data leda till falska slutsatser, så kallade spuriösa samband. Ett viktigt specialfall av (stationära) tidsserier är så kallat Vitt brus. Det betyder att en stokastisk process har väntevärde lika med noll, konstant varians σ 2 och att observationerna inte är korrelerade. Om de dessutom är normalfördelade kallas de Gaussiskt vitt brus. I en modell antas ofta att feltermen är vitt brus. Nödvändigheten av stationäritet följer såklart med när vi jobbar med multipla tidsserier. Villkoret för svag stationäritet för multipla tidsserier är en generalisering av villkoren i ekvationerna 3.1a - 3.3a: Om Y t = (y 1t, y 2t y mt ) är en vektor med m tidserier så är Y t stationär om följande kriterier är uppfyllda: E(Y t )= μ, för alla t V(Y t )=E[(Y t μ)(y t μ) ] = Γ(0) Cov(Y t, Y t+s ) = Γ(s), beror bara av s (3.1b) (3.2b) (3.3b) Där μ är en vektor av förväntade värden. 10

3.1.1 Slumpvandring En vanlig icke-stationär process är en så kallade slumpvandring (random walk), där vi har tre varianter att ta hänsyn till; slumpvandring utan drift (3.4), slumpvandring med drift (3.5) och slumpvandring med drift och deterministisk trend (3.6). Y t = Y t 1 + u t (3.4) Y t = α + Y t 1 + u t (3.5) Y t = α + βt + Y t 1 + u t (3.6) Där u t är vitt brus med väntevärde 0 och varians σ 2 i alla ekvationer. I den första slumpvandringen (3.4) är värdet på Y i tidpunkten t lika med dess värde i tidpunkten (t-1) plus en slumpmässig chock (u t ). Visserligen har denna konstant väntevärde E(Y t )= Y 0, där Y 0 är startvärdet. Men dess varians är V(Y t ) = tσ 2, d.v.s. den ökar med tiden vilket gör den icke-stationär. Ett kännetecken hos slumpvandringar är att effekten från en slumpmässig chock inte dör ut med tiden utan stannar kvar. Om t.ex. u t = 3 istället för u t = 0 så kommer alla Y:n från Y 3 och framåt var 3 enheter större. En annan intressant egenskap är om vi flyttar över Y t 1 till vänsterledet Y t Y t 1 = ΔY t = u t, där är första differensoperatorn, får vi bara kvar feltermen i högerledet. Första differensen av en slumpvandring är vitt brus, d.v.s. en stationär process. I slumpvandring med drift (3.5) inkluderar vi driftparametern α. Om vi återigen flyttar över Y t 1 får vi Y t Y t 1 = ΔY t = α + u t. Det betyder att Y t kommer uppvisa en så kallad stokastisk trend. Om α>1 har Y t en positiv trend och vice versa. Om vi gör samma procedur med slumpvandring med drift och deterministisk trend får vi Y t Y t 1 = ΔY t = α + βt + u t. Första differensen av Y t är stationär runt sin trend (α + βt) vilket betyder att Y t inte är stationär. 3.1.2 Enhetsrot På grund av slumpvandringarnas egenskaper är det därför vanligt att testa stationäriten hos en tidserie genom att testa om den är en slumpvandring eller ej. Y t = ρy t 1 + u t 1 ρ 1 (3.7) Om ρ = 1 i (3.7) har vi en enhetsrot. Vi har redan sett att denna modell är ickestationär därför kan vi använda termerna slumpvandring, enhetsrot och ickestationäritet synonymt. (Gujarati och Porter, 2009). För att testa om ρ = 1 måste vi först manipulera ekvationen. Först subtraherar vi Y t 1 i båda leden: Y t Y t 1 = ρy t 1 Y t 1 + u t (3.8) Y t = (ρ 1)Y t 1 + u t (3.9) Y t = δy t 1 + u t (3.10) Där δ = (ρ 1). Så istället för att testa ρ = 1 testas δ = 0, vilket är ekvivalent. Under nollhypotesen (δ = 0) följer δ tau-fördelning. Om δ är lika med noll får vi kvar Y t = u t vilket är slumpvandring utan drift (3.4), där Y t 1 är överflyttat till vänsterled, alltså serien har en enhetsrot och är ej stationär. Denna metod kallas 11

Dickey-Fuller-test (Dickey och Fuller, 1979). Med samma logik testar man för enhetsrot i slumpvandring med drift och slumvandring med drift och deterministisk trend. Ekvation 3.5 och 3.6 blir då: Y t = α+ δy t 1 + u t (3.11) Y t = α+ βt + δy t 1 + u t (3.12) 3.1.2 Det utökade Dickey-Fuller testet I ekvation 3.10-3.12 antas att feltermerna, u t, inte är korrelerade. I de fall de är det så utvecklade Dickey och Fuller sitt test där man tar hänsyn till detta. Testet kallas det utökade Dickey Fuller (ADF)-test och genom att lägga till laggade värden av den beroende variabeln Y t så plockas eventuell korrelation i residualerna upp. Hur många laggar man ska inkluderas i regressionen bestäms av något modellkriterium, vanligen AIC eller SIC 8. Nollhypoteserna är samma som i DF-testet, d.v.s. serien innehåller enhetsrot och är ej stationär. Om vi utgår från (3.12) ska vi alltså estimera följande regression: m Y t = β 1 + β 2 + δy t 1 + i=1 α i Y t i + ε t (3.13) Där ε t är vitt brus term och Y t 1 = (Y t 1 Y t 2 ), Y t 2 = (Y t 2 Y t 3 ), osv. 3.2 Vektor Autoregressiva modeller (VAR) De flesta makroekonomiska modeller är strukturella modeller som försöker visa kopplingar och samband i ekonomin. Varje koppling baseras på ekonomisk teori och på så sätt styr teorin vilka restriktioner som sätts på variablerna. Sådana strukturella makroekonomiska modeller används både för att prognostisera och för att analysera effekter av politiska beslut. Christopher Sims (1980) 9 kritiserade användandet av strukturella modeller där vissa variabler ansågs vara exogena och andra endogena och utvecklade Vektor Autoregressiva Modeller (VAR) som är ett icke- strukturellt alternativ där alla variabler betraktas som endogena. 3.2.1 Autoregressiv process För att ta språnget mot VAR-modeller tittar vi först närmare på den univariata ARprocessen. En autoregressiv modell är en process där dagens värde av variabeln, Y t ; endast förklaras av tidigare värden av variabeln i sig, plus en felterm. En autoregressiv process med p laggade termer kan skrivas som: y t = δ + φ 1 y t 1 + φ 2 y t 2 + + φ p y t p + u t (3.14) Där u t är vitt brus. Ekvation 3.14 kan även skrivas mer kompakt som: p y t = δ + i=1 φ i y t i + u t (3.15) 8 Ett alternativt sätt att välja antal laggar är att titta på frekvensen i datamaterialet. Om månadsdata används så inkluderas 12 laggar, för kvartalsdata 4 laggar osv. (Brooks 2008) 9 Christopher Sims tilldelades 2011 Sveriges Riksbanks pris i ekonomisk vetenskap till Alfred Nobels minne. 12

Eller: φ(b)y t = δ + u t (3.16) Där t.ex. (1 B)y t = y t y t 1 = Δy t och φ(b) = 1 φ 1 B φ 2 B 2... φ p B p En AR(p) är stationär om absolutvärdet av rötterna till polynomet m p φ 1 m p 1 φ 2 m p 2 φ p = 0, är mindre än ett. Om detta villkor är uppfyllt går tidsserien y t att skrivas i formen av en oändlig Moving Average-process, MA( ). Se Montgomery et al. (2008, s.247). 3.2.2 VAR En Vektor Autoregressiv (VAR) modell är uppsättning statistiska ekvationer där variablerna i vänsterledet förklaras av tidigare värden av samma variabler i högerledet. Det är en generalisering av univariata autoregressiva modeller. Vi skapar med andra ord en vektor av variabler. Anta att vi har en bivariat VAR-modell, d.v.s. två stycken tidserier, y 1t och y 2t, där båda dess värden beror av m tidigare perioder av båda variablerna. y 1t = δ 10 + α 11 y 1t 1 + + α 1m y 1t m + β 11 y 2t 1 + + β 1m y 2t m +u 2t y 2t = δ 20 + α 21 y 2t 1 + + α 2m y 2t m + β 21 y 1t 1 + + β 2m y 1t m +u 2t (3.17) Där u it är vitt brus. Om vi inkluderar k variabler i VAR-modellen där alla beror av varandra med m tidigare perioder blir föregående sätt att skriva en aning otympligt och matrisnotation är att föredra. y t = δ + Φ 1 y t 1 + Φ 2 y t 2 + + Φ m y t m + u t (3.18) φ 11,i φ 1k,i Där y t = (y 1t, y 2t,.., y kt ), δ = (δ 1, δ 2 δ k ) och Φ i = φ k1,i φ kk,i Med bakåtoperator skrivs 3.18 som: Φ(B)y t = δ + u t (3.19) Där Φ(B) = Φ 0 L 0 Φ 1 L 1 Φ m L m och Φ 0 = I. I VAR-modeller i formen av (3.19), d.v.s. reducerad VAR, skattas parametrarna i varje ekvation separat med vanlig OLS. Ett problem som uppstår när VAR ska modelleras är att det lätt blir många parametrar som ska estimeras. Om vi har k ekvationer, en för var och en av de k variablerna och med m laggar av varje variabel ger det (k + mk 2 ) parametrar att skatta. Med andra ord konsumeras frihetsgrader snabbt vilket leder till stora standardfel och breda konfidensintervall. Detta i kombination med VAR-modellers ateoretiska natur gör att estimerade modeller blir svåra att tolka. Speciellt om en variabels koefficienter inte har samma tecken över alla laggar utan är positiv för vissa laggar och negativ för andra. Det kan vara svårt att se 13

den framtida effekten av en ändring i en viss variabel. Detta gör att VAR-modeller är mindre lämpade för teoretisk analys utan mer anpassade för prediktion. 3.2.3 Optimalt antal laggar Att välja antal laggar som ska inkluderas i en modell är ett kritiskt moment när VARmodellen ska specificeras. Om vi inkluderar för många laggar konsumeras frihetsgraderna. För få laggar kan å andra sidan leda till modellen blir felspecificerad (Gujarati och Porter, 2009). Ett sätt är att använda sig av likelihood ratio test. Man testar om tillagda parametrar (laggar) är simultant skilda från noll. Testsstatistikan definieras: LR = T log Σ r log Σ u (3.20) LR är χ 2 fördelad med samma antal frihetsgrader som totala antalet restriktioner. Σ r är determinanten för varians-kovarians-matrisen för residualerna hos modellen med restriktioner (utan tillagda laggar) och Σ u är determinanten för varianskovarians-matrisen för residualerna hos modellen utan restriktioner (med tillagda laggar). T är antal observationer. Ett problem med detta tillvägagångssätt är att teststatistikan endast är χ 2 fördelad om residualerna i respektive ekvation i VARmodellen är normalfördelad. Ett antagande som sällan uppfylls på finansiella data (Brooks, 2008). Ett alternativt sätt att bestämma optimalt antal laggar är att använda sig av något informationskriterium, t.ex. Akaike Information Criterion (AIC) eller Schwarz Information Criterion (SIC) 10 och välja den modell (antal laggar) som ger lägst värde på dessa kriterier. Se avsnitt 3.5.3 för vidare diskussion. En fördel med detta tillvägagångssätt är att dessa kriterier inte bygger på något normalantagande för fördelningen av residualerna utan bestraffar residualkvadratsumman i varje ekvation när fler parametrar (laggar) läggs till. I VAR-modeller utan restriktioner används samma antal laggar i varje ekvation. Då är det lämpligt att titta på de multivariata versionerna av AIC och SIC (Brooks, 2008). MAIC = log Σ + 2k /T (3.21) MSIC = log Σ + k log (T) (3.22) T Ett annat kriterium är Hannan-Quinn informationskriterium. MHQIC = log Σ + 2k log (log(t)) (3.23) T Där Σ är varians-kovarians-matris för residualerna, T är antal observationen och k är totala antalet regressorer i alla ekvationer. 3.2.4 Prognoser med VAR Vi har sett att i en VAR-modell bestäms varje variabel av dess tidigare och de tidigare värdena av de andra variablerna i modellen. Detta gör att vi kan göra prognoser för en period framåt för alla variabler samtidigt, så kallas dynamiska prediktioner. Dessa prognosvärden används för att göra prognos ytterligare en period framåt och så 10 AIC = log T e t t=1 T + 2k, SIC = log e T T t=1 t T + klog(t) T där e t = y t y t 14

vidare. Om vi står i tidpunkt T och vill göra en prognos för h perioder framåt med modell (3.18) får vi: y T+1 = δ + Φ 1 y T + Φ 2 y T 1 + + Φ m y t m+1 (3.24) y T+2 = δ + Φ 1 y T+1 + Φ 2 y T + + Φ m y t m+2 y T+h = δ + Φ 1 y T+h 1 + Φ 2 y T+h 2 + + Φ m y t+h m Där y T+h är det prognosticerade värderna i tidpunkt T+h. När vi använder autoregressiva processer för prediktion gör vi antagandet att vi använder all användbar information i de tidigare perioderna av y i, och endast lämnar kvar en stokastisk felterm (Lütkepohl, 2005). Man antar även att estimerade formen på modellen inte förändras över prognosperioden. I detta avseende skiljer sig VAR från andra makroekonomiska modeller för prediktion, där antaganden görs om t.ex. trender i exogena variabler. I en VAR-modell görs prognoser för alla variabler inom modellen. Sims (1980) argumenterar för att prognoser genererade med VAR-modeller är bättre än traditionella strukturella modeller. Dessa modeller har ofta dålig prognosprecision utanför urvalet. (Brooks, 2008) 3.2.5 Modelldiagnostik Vid framtagande av en VAR-modell och antal laggar som ska inkluderas är ett visst mått av trial and error ofrånkomligt (Gujarati och Porter, 2009). De vanliga univariata procedurerna för att testa en modell följer med i det multivariata modellbyggandet. Vi har testat för enhetsrot hos samtliga variabler med individuella ADF-test. Ett annat sätt att kontrollera stationäritet för hela modellen är att undersöka om processen är stabil. En VAR-process sägs vara stabil om dess omvända karaktäristiska polynom 11 ( Φ(B) ) inte har några rötter på eller innanför enhetscirkeln 12. Stabilitet medför att VAR-processen är stationär 13. Antagandet om residualernas oberoende kontrolleras enkelt genom att granska modellens korrelogram och korskorrelogram. Det är en visualisering av autokorrelationen (ACF) mellan residualerna. I multivariata modeller måste vi ta hänsyn till autokorrelationen mellan alla variablers residualer. T.ex. i en VAR(3) återfinns nio korrelogram och korskorrelogram. Om processen är vitt brus så är den estimerade korrelationen vid en viss lag, ρ m approximativt normalfördelad med väntevärde noll och standardavvikelse 1/ T. Om någon korrelation är större än två standardavvikelser (2/ T) är den inte statistisk skild från noll (på 5 % nivå) och bör undersökas närmare. 11 Ett karaktäristiskt polynom löses genom att hitta en matris egenvärden. 12 Eviews rapporterar rötter till karaktäristisk polynom, och därmed ska rötterna vara innanför enhetscirkeln för att indikera stabilitet (Agung 2010) 13 Motsatsen behöver dock inte gälla, d.v.s icke-stabila processer behöver inte nödvändigtvis vara ickestationära. (Lütkepohl 2005, s.25) 15

Istället för att testa varje estimerad korrelation individuellt utvecklade Box och Pierce (1970) en metod för att testa huruvida en hel serie med m autokorrelationer kommer från vitt brus eller ej. Teststatistikan i det univariat fallet definieras som: Q BP = T M 2 m=1 ρ m (3.25) Där T är antal observationer och M är maximal längd. Under nollhypotesen, att autokorrelationer på tidsavstånd m=1,2,..m är lika med noll, är Q BP asymptotiskt χ 2 fördelad med m - v frihetsgrader, där v är antalet parametrar i modellen. I det multivariata fallet generaliseras (3.25). Teststatistikan är fortfarande approximativt χ 2 fördelad men nu med k 2 (m p) frihetsgrader, där p är lagglängden på VARmodellen och k antalet endogena variabler. Box och Pierce kallade testet för Portmonnä-testet eftersom det testar hur väl autokorrelationsfunktionen (ACF) passar autokorrelationsfunktion hos vitt brus. Ljung och Box (1978) utvecklade en modifikation av detta test, Ljung-Box-testet, där man viktar den kvadrerade autokorrelationen med (T + 2)/(T m). Denna variant funkar bättre i små urval men på stora värden av T blir dessa vikter ungefär ett och testen ger nästan samma resultat (Montgomery et al. 2008). Residualernas normalitet testas genom en multivariat förlängning av Jarque-Beranormalitets test (Jarque och Bera, 1980). Där jämförs skevheten (S) och kurtosis (K) hos residualerna med motsvarande moment i en normalfördelning. I det univariata fallet definieras JB som: JB = n S2 + (K 3)2 6 24 (3.26) Där n = urvalsstorlek. I en normalfördelning är S = 0 och K = 3. Under nollhypotesen är residualerna normalfördelade och JB-statistikan är approximativt χ 2 fördelad med två frihetsgrader och med 2k frihetsgrader i det multivariata perspektivet. Heteroskedasticitet i residualerna testas med en förlängning av White s hetroskedasticitetstest (White, 1980). Vi utgår från den univariata proceduren. Anta att vi har följande modell: Y i = β 1 + β 2 X 2i + β 3 X 3i + u i. (3.27) Modellen estimeras och vi beräknar residualerna, u i. Sedan estimeras en hjälp - regression: u 2 i = α 1 + α 2 X 2i + α 3 X 3i + α 4 X 2 2i + α 5 X 2 2i + α 6 X 2i X 3i + υ i (3.28) Under noll hypotesen att residualerna inte är hetroskedastiska, är urvalsstorleken n gånger R 2 -värde erhållet från (3.28) asymptotiskt χ 2 -fördelat, d.v.s. nr 2 ~χ 2 df. Frihetsgraderna är lika med antalet regressorer i hjälp-regressionen (utan konstanten inräknat). I exemplet testas alltså om α 2 = α 3 = α 4 = α 5 = α 6 = 0. Förkastas nollhypotesen indikerar det heteroskedasticitet. När testet generaliseras för att testa VAR-modeller är antalet frihetsgrader mn, där m = k(k + 1)/2 som är antalet korsprodukter i systemet och n är antalet vanliga (inte korsprodukter) termer i hjälpregressionen. 16

Se t.ex. Lütkepohl (2005) för fullständig beskrivning av de multivariata generaliseringarna. 3.3 Grangers kausalitetstest Idén bakom Grangers kausalitetstest är att framtiden inte orsakar det förflutna. Om händelse B inträffar efter händelse A är det omöjligt att B orsakar A. Men det är möjligt att A orsakar B. När man pratar om Granger-kausalitet menar man inte kausalitet i vanlig menig eller i någon filosofisk bemärkelse. Utan om hur användbar variabeln y 2 är för att prognosticera y 1. Om y 2 Granger-orsakar y 1 så hjälper y 2 till att prognosticera y 1 Testet bygger på att man estimerar följande regressioner: n n y 1t = i=1 α i y 2t i + i=1 β i y 1t j + u 1t (3.29) n n y 2t = i=1 γ i y 2t i + i=1 δ i y 1t j + u 2t (3.30) Feltermerna u 1t och u 2t antas vara okorrelerade. I testet antas även att alla variablerna är stationära. För att utreda eventuell Granger-kausalitet så börjar man med att regressera y 1t med bara de laggade värdena för y 1t i (3.29) Från denna regression får vi vår begränsade residualkvadratsumma, RSS R. Sedan gör vi om regressionen men inkluderar även de laggade värdena för y 2t och beräknar RSS UR. Nollhypotesen är H 0 : α i = 0, i=1,2,,n, dvs laggade y 2 -termer tillför inget i regressionen. F = (RSS R RSS UR )/m RSS UR /(n k) (3.31) För att testa nollhypotesen utför vi ett F-test (3.31) som har en F-fördelning med m och (n-k) frihetsgrader. M är antal laggade y 2 -termer och k är antal estimerade parametrar i den obegränsade regressionen. Om det observerade F-värdet är signifikant så hör de laggade y 2 -termer hemma i regressionen. Vi säger då att y 2 Granger-orsakar y 1. Sedan görs samma procedur om fast med y 2 som beroende variabel, ekvation (3.30). Vi har då fyra möjliga utfall: 1. Kausalitet i en riktning från y 2 till y 1 indikeras om de estimerade koefficienterna av laggade y 1 -termerna i ekvation (3.29) är som grupp statistiskt skilda från noll och de estimerade koefficienterna från de laggade y 2 -termerna i ekvation (3.30) inte är statistiskt skilt från noll. 2. Kausalitet i en riktning från y 1 till y 2 kan motiveras om de estimerade koefficienterna av laggade y 1 -termerna i ekvation (3.29) inte är statistiskt skilda från noll och de estimerade koefficienterna från de laggade y 2 i ekvation (3.30) är det. 3. Feedback, eller ömsesidig kausalitet indikeras om både grupperna av y 1 - och y 2 -koefficienter är statistiskt skilda från noll i både regressionerna. 4. Om ingen av grupperna av y 1 - och y 2 -koefficienter är statistiskt skilda från noll så talar det för oberoende. Antal laggar som ska inkluderas i testen kan påverka riktningen på kausaliteten och därför utför vi testen i avsnitt 3.2.3, med olika antal laggar. 17

Ekvation (3.29) och (3.30) kan ses som en bivariat VAR(p) modell ur vilken Grangerkausalitet lätt kan testas. Vi skriver (3.29) (3.30) i matrisnotation: Φ(B)y t = Φ 11(B) Φ 12 (B) Φ 12 (B) Φ 22 (B) y 1t y = u t (3.32) 2t Där u t är vitt brus. Om t.ex. Φ 12 (B) = 0 så Granger-orsakar y 2t inte y 1t (Kirchgässner et al. 2013) 3.4 Kointegration När man ska skatta en VAR-modell måste man förvissa sig om att variablerna inte är kointegrerade, d.v.s. två eller flera variabler inte rör sig tillsammans över tiden. Det indikerar att serierna är bundna av något samband på lång sikt. T.ex. om två variabler är I(1) 14, d.v.s. har stokastisk trend, så blir i de flesta fallen en linjär kombination av dessa I(1). Men i vissa kan den linjära kombinationen upphäva de stokastiska trenderna i serierna och den nya serien är I(0). Om så är fallet är reducerad VAR inte lämpliga eftersom dessa modeller inte tar detta långsiktiga samband i beräkning. Med andra ord blir modellerna felspecificerade. Felkorrigeringsmodeller (ECM/VECM) 15 är då att föredra. Inom ramen för denna uppsats ryms inte djupare undersökning av ECM/VECM mer än att vi behöver identifiera de VAR-modeller där det finns kointegreade samband. För mer ingående beskrivning i ämnet se t.ex. Lütkepohl (2005) och Brooks (2008). 3.4.1 Johansens Kointegrationstest För att undersöka huruvida en uppsättning variabler är kointegrerade eller ej finns en samling statistiska test att utföra. Om det bara är två variabler som ska kontrolleras så är t.ex. Engle-Granger (AG) Testet eller Augmented Engle-Granger (AEG) testet där man testar ifall residualerna i den linjära kombinationen har en enhetsrot med Dickey- Fuller eller Augmented Dickey Fuller testet. Om det observerade värdet på statistikan är signifikant så är serien stationär, d.v.s. variablerna är kointegrerade. Med två variabler kan det som mest finnas ett linjärt samband. Om vi däremot har fler än två variabler, säg k stycken, så kan det finnas upp till r linjära oberoende samband (där r k 1). Vilket skapar problem, för OLS-regressioner (som används i AG och AGD) kan bara identifiera som mest ett kointegrerat samband i ett system. För att kunna bestämma alla r kointegrerade samband kan man använda t.ex. Johansenmetoden (Johansen, 1988) som utgår från ett system av ekvationer. Anta att vi har k variabler ( k 2) som alla är I(1) och där vi misstänker att det finns kointegrerade samband. Utgångspunkt är en VAR med m laggar: y t = β 1 y t 1 + β 2 y t 2 + + β m y t m + u t (3.33) k x 1 k x k k x 1 k x k k x 1 k x k k x 1 k x 1 För att kunna använda Johnsens kointegrationstest måste vi omvandla VAR modellen i ekvation (3.33) till en VECM modell med formen: 14 Integrerade av första ordningen, d.v.s. serien är ej stationär i sig själv utan blir det efter första differensen. 15 Error Correction Model (ECM) och Vector Error Correction Models (VECM) 18

m y t = Πy t m + Γ 1 Δy t 1 + Γ 2 Δy t 2 + + Γ m 1 Δy t (m 1) + u t (3.34) j Där Π = ( i=1 β i ) I k och Γ i = ( i=1 β j ) I k. Se t.ex. Lütkepohl (2005) för beskrivning. Felkorrigeringsmodeller kallas också jämviktskorrigeringsmodeller då man antar att variablerna konvergerar mot någon långsiktig jämvikt och då inte ändrar i värde, y t = y t 1. Förändring i variabeln y t beror både på förändring i de förklarande variablerna ( y t i ) och på en korrigering av den ojämvikt som fanns i perioden innan. Ekvation (3.34) är en VAR som innehåller k variabler i formen av deras första differenser i vänsterledet. Högerledet består av m-1 laggar av de differentierade oberoende variablerna med respektive Γ koefficientmatris. Dessutom hittar vi Π-matrisen som kan tolkas som långsiktiga sambandskoefficient-matrisen. I jämvikt kommer alla y t i vara lika med noll, och sätter man feltermen, u t, till sitt väntevärde d.v.s noll så ger det Πy t m = 0. Johansentestet kretsar kring granskning av denna Π-matris genom att titta på vilken rang Π har via dess egenvärde. Det är två teststatistikor som beräknas i Johansens test: i) λ trace (r) testar simultant om egenvärderna är skilda från noll. Nollhypoteserna är att antalet kointegrerade vektorer är mindre eller lika med r mot alternativet att det är mer än r st. ii) λ max (r, r + 1) testar egenvärderna separat och nollhypoteserna är antalet kointegrerade vektorer mot alternativet r+1. I båda varianterna testas graden av integration succesivt, först H 0 : r = 0. Om nollhypotesen inte förkastas tyder det på ingen kointegrerad vektor i modellen. Om nollhypotesen förkastas så fortsätter man och testar H 0 : r = 1 och så vidare tills H 0 inte längre förkastas. 3.5 Prognosprecision 3.5.1 Korsvalidering Om man koncentrerar sig för mycket på hur modellen passar det historiska datamaterialet resulterar det ofta i overfitting, d.v.s. man inkluderar för många parametrar i modellen för den dessa ytterligare parametrar ökar oftast modellen goodness-of-fit. För att välja mellan konkurrerande modeller är den generellt bästa metoden att titta på vilken av modeller som genererar de minsta medelfelen och/eller minsta medelkvadratfel för prognosfelen när modellen tillämpas på data som inte används i estimeringsprocessen. Man delar alltså upp tidserien i två segment. Den första används till att anpassa modellen och den andra utnyttjas för att utvärdera modellens prognosprestanda. Metoden kallas korsvalidering. 3.5.2 Prognosfel Prognosfel är utfallet (det faktiska värdet på variabeln) minus prognosen. Ett negativt prognosfel innebär att prognosmodellen överskattat utfallet och positivt värde betyder utfallet underskattas. Prognosfelet för en prognos vid tidpunkt t gjord k tidpunkter tidigare, kan skrivas som: e t (k) = y t y t (t k) (3.35) 19

Där y t är det faktiska värdet, y t (t k) är prognosen som gjordes i period t-k. För att få en bild av om prognosen har systematisk över- eller underskattat utfallen under den aktuella perioden kan man titta på medelfelet (ME), som är det aritmetiska medelvärdet av prognosfelen: n ME = 1 e n t=1 t(k) (3.36) Eftersom ME är en estimator av det förväntade värdet av prognosfelen vill man att denna är noll, d.v.s. ej bias. Negativt värde pekar på systematisk överskattning och positivt värde indikerar systematisk underskattning. 3.5.3 Mått på prognosprecision Medelabsolutfelet (MAD) är det aritmetiska medelvärdet av absolutbeloppen av prognosfelen för prognoser gjorda i period t-k. n MAD = 1 e n t=1 t(k) (3.37) Rotmedelkvadratdel, Root Mean Square Error, (RMSE) definieras som roten ur det aritmetiska medelvärdet av det kvadrerade prognosfelet. Eftersom prognosfelen kvadreras så fås stora över- och underskattningar extra stort genomslag till skillnad från medelabsolutfelet där varje enskilt prognosfel hanteras proportionellt. RMSE = 1 n [e n t=1 t(k)] 2 (3.38) MAD och RMSE är båda beroende av skalan på den beroende variabeln. Dom är lämpliga att använda när man jämför prognoser förmågan hos olika modeller för samma tidserie. Medelabsolutprocentfel MAPE är ett relativt prognosmått och inte beroende av skalan på den beroende variabeln. Här tar man medelvärdet av absolutvärdet av det procentuella prognosfelet. Först definierar vi det procentuella prognosfelet som: re t (k) = y t y t (t k) 100 = e t (k) 100 (3.39) y t y t Sen tar man det aritmetiska medelvärdet av absolutbeloppet på alla procentuella prognosfel. n MAPE = 1 re n t=1 t(k) (3.40) Vid utvärdering av hur väl modellen passar det historiska datat används två mått, Akaike Information kriterium (AIC) och Schwarz Information Kriterium (SIC). Dessa stötte vi även på i avsnitt 3.2.3, vid val av optimala antalet laggar. Ju mindre värden på AIC och SIC desto bättre modeller. Båda dessa mått bestraffar summan av de kvadrerade residualerna för att inkludera ytterligare parametrar i modellen, medan SIC bestraffar hårdare och är därför konsistent modellvals 20

kriterium 16. Mått som R 2, adjusted R 2, och AIC är inkonsistenta modellvalskriterium eftersom de inte bestraffar extra parametrar tillräcklig hårt. Om man stödjer sig för mycket på dessa kriterier är risken stor för overfitting. (Montgomery et al. 2008 s.59) 3.5.4 Theils U statistika Ett annan vanligt kriterium för att utvärdera prognoser är Theils U-statistika (Theil, 1966). Den definieras som: U = y t+s f 2 n t,s t=1 y t+s y t+s fb 2 n t,s t=1 y t+s = RMSE VAR RMSE Naiv (3.41) Där f t,s är prognoserna erhållna från modellen man vill utvärdera, och fb t,s är prognoserna från en referensmodell 17. Vanligen använder man en slumpvandring (se ekvation 3.4) eller naiv modell som referens, d.v.s. man antar ingen förändring i variabeln. Ett observerat värde lika med ett på U-statistikan indikerar att den övervägda modellen och referens-modellen är lika tillförlitliga (eller otillförlitliga). Om U<1 tyder det på den prövade modellen har bättre precision än referensenmodellen och vice versa gäller för U>1. Theils U-statisktika är användbar för att få en uppfattning om modellens kapacitet men har även visa brister. T.ex. pekar Brooks (2008) på att den är känslig för outliers och har liten intuitiv mening. 16 Ett modellvals-kriterium är konsistent om den väljer sanna modellen om den sanna modellen är bland de övervägda med en sannolikhet som går mot 1 när urvalsstorlek går mot oändligheten. 17 S.k benchmark-modell. 21

4 Resultat 4.1 Stationäritet Innan vi kan testa för Granger-kausalitet måste vi undersöka stationäriten hos variablerna. Vi kontrollerar både visuellt och med Augmented Dickey-Fuller-test för enhetsrot. Vi testade för enhetsrot utan och med drift. För att bestämma hur många laggar som skulle inkluderas i testet användes företrädesvis Schwarz Information kriterium. I figur 2.1, redovisas KPIF utvecklingen över tiden. Tidsserien har en tydlig trend så vi undersöker direkt första differensen. Se figur 4.1 Figur 4.1: KPIF differentierad. 6 5 4 3 2 1 0-1 -2 1987Q2 1988Q2 1989Q2 1990Q2 1991Q2 1992Q2 1993Q2 1994Q2 1995Q2 1996Q2 1997Q2 1998Q2 1999Q2 2000Q2 2001Q2 2002Q2 2003Q2 2004Q2 2005Q2 2006Q2 2007Q2 2008Q2 2009Q2 2010Q2 2011Q2 2012Q2 2013Q2 Denna tidserie uppvisar mer önskvärda egenskaper. Observationerna ser ut att röra sig kring ett medelvärde. Test för enhetsrot (med drift) ger ett p-värde på 0.0001 vilket indikerar stationäritet. Från början av 90-talet och ett par år framåt är det kraftiga svängningar. Detta sammanfaller med när Sverige gick över till flytande växelkurs. Samtliga 21 variabler undersöktes i både sin grundform och i dess logaritmerade form och differentierades tills stationäritet. Se appendix B, Tabell B.1. I fortsättningen behandlar vi alla variabler i dess stationära form. Med KPIF menas alltså första differensen på KPIF, d.v.s. KPIF. 4.2 Grangers Kausalitets Test För att begränsa antalet variabler som kan ingå i potentiella VAR-modeller genomförs parvisa Granger-test. Proceduren beskrivs i avsnitt 3.3. Om y 1 Granger-orsakar y 2 så är y 1 användbar för att prediktera y 2. Variablerna Granger-testades både i grundform (differentierade) och i dess logaritmerade form mot KPIF. Eftersom testet är känsligt för hur många laggar som inkluderas så görs testen med 2, 4, 6 och 8 laggar (Gujarati 22

och Porter, 2009) 18. För att hålla resultatet någorlunda översiktligt rapporteras i tabell 4.1 endast de variabler där det fanns signifikans (5 % -nivån) på någon lagg-längd. I testet undersöks både kausalitet från t.ex. arbetslöshet mot KPIF, och kausalitet från KPIF mot t.ex. arbetslöshet. Tabell 4.1: Resultat för de signifikanta variablerna i Granger-testet. Variabler 2 laggar 4 laggar 6 laggar 8 laggar y i KPIF KPIF y i y i KPIF KPIF y i y i KPIF KPIF y i y i KPIF KPIF y i log(arbetslöshet) 0.2614 0.0034** 0.1507 0.0147* 0.3389 0.0265* 0.005** 0.0037** Hyra 0.005* 0.0018* 0.018* 0.0005** 0.0192* 0.0089** 0.0084** 0.0045** log(hyra) 0.0023** 0.0009** 0.0038* 0.0012** 0.0407* 0.0163* 0.0310* 0.0264* M1 0.0430* 0.0570 0.0068** 0.1478 0.1938 0.0653 0.3955 0.2908 log(m1) 0.0152* 0.0333* 0.0329* 0.1067 0.0728 0.0549 0.1769 0.4633 PPI 0.0268* 0.2278 0.0539 0.0744 0.1183 0.3739 0.3797 0.6976 Log(PPI) 0.0103* 0.2583 0.0256* 0.0769 0.0677 0.3821 0.2924 0.5932 log(ulc) 0.001** <0.0001*** 0.003** 0.8899 0.0012** 0.8623 0.0028** 0.5273 Oljepris $ 0.0324* 0.1342 0.2444 0.1272 0.8513 0.1478 0.7787 0.1398 Log(Oljepris $) 0.0704 0.0084** 0.2765 0.0397* 0.7561 0.0929 0.8433 0.1598 Oljepris KR 0.0551 0.0406* 0.1950 0.0639 0.8902 0.0912 0.9349 0.1323 Log(Oljepris Kr) 0.0701 0.0042** 0.1714 0.0276* 0.1603 0.0811 0.9246 0.1603 Konfidens2 0.4648 0.0124* 0.1338 0.0179* 0.2798 0.0315* 0.1164 0.0193* Log(Konfidens2) 0.3915 0.0072** 0.0862 0.0136* 0.2138 0.0214* 0.0895 0.0153* Log(Reporänta) 0.9964 0.3702 0.9069 0.5450 0.9702 0.0615 0.8763 0.0237* p-värde *<0.05, **<0.01***<0.0001 Som Tabell 4.1 redogör så var nio olika variabler signifikanta på någon av laggarna då vi tar hänsyn till kausalitet i båda riktningarna. Övriga 11 variabler var inte signifikanta på 5 % - nivå och eliminerades. 4.3 Prövning av VAR modell 11 av våra 20 ursprungliga variabler togs bort på grund av att de inte påvisat någon signifikans i Grangers kausalitetstest. För att nästa steg i utprovningen av VARmodell skulle vara genomförbar var vi tvungna att reducera antalet ytterligare. Vi beslöt oss för att gå vidare med de variabler som uppvisade ömsesidig kausalitet och/eller kausalitet från variabeln mot KPIF. Därmed uteslöts även Oljepris KR, Konfidens2 och Reporänta. Variabeln Arbetslöshet uteslöts även eftersom den endast var signifikant för kausalitet mot KPIF på den åttonde laggen. Vi ansåg att åtta laggar inte är en relevant för vår modell då varje lagg orsakar förlorade frihetsgrader och därför större osäkerhet i prognosen senare. Detta lämnar kvar fem variabler. Några av variablerna är kausala även logaritmerade, vilket är att föredra eftersom det jämnar ut datamaterialet och minskar risken för heteroskedastisitet i residualerna. Dock märkte vi initialt att log(m1) ökade antal kointegrerade komponenter jämfört med M1 18 Totalt 160 parvisa test. (20x4x2) 23

i sin grundform. Därför tog vi beslutet att även utesluta log(m1). De variabler som nu ska undersökas vidare är följande. Log(Hyra) M1 Log(PPI) Log(ULC) Oljepris $ Utifrån dessa finns det totalt 31 möjliga kombinationer 19 av modeller. Se appendix Tabell B.2 för redogörelse av alla. Här näst följer elimineringsprocessen som till slut leder till val av slutgiltiga modellen. 4.3.1 Optimalt antal laggar 31 möjliga modeller ska nu utvärderas och testas. Vi börjar med att testa optimala antalet laggar för varje modell. I Appendix B, tabell B.2 definieras modellerna till ett nummer som de härefter kommer refereras till. Dessutom beskrivs det optimala antalet laggar för varje modell enligt de olika kriterierna. I tabell 4.2 redovisas resultatet för optimala antal laggar för modell 14. Som man kan se skiljer sig resultaten ganska mycket mellan de olika kriterierna, vilket resulterar i att varje modell har flera optimala lagg-längder beroende på vilket kriterium man väljer att gå efter. Vi har inte tagit någon ställning till vilket kriterium som är bäst utan vi har testat alla valda lagglängder likvärdigt. Den optimala lagg-längden enligt varje kriterium är markerad med asterix. Man kan se att det föreslås en lagg enligt Hannan- Quinn information criteria, HQ, och fem laggar enligt Likelihood ratio test (LR), Final prediction error (FPE) 20 och Akaike information criterion (AIC). Schwarz information criterion föreslår noll laggar, vilket betyder att modellen bara är ett intercept, vilket är ointressant. Tabell 4.2: Resultatet för optimalt antal laggar för modell 14. Lag LogL LR FPE AIC SIC HQ 0 505.4626 NA 8.51e-13-16.44140-16.30298* -16.38715 1 536.0818 56.21878 5.27e-13-16.92071-16.22862-16.64948* 2 549.2129 22.38748 5.84e-13-16.82665-15.58089-16.33843 3 564.4816 24.02944 6.09e-13-16.80268-15.00324-16.09746 4 602.3026 54.56136 3.08e-13-17.51812-15.16501-16.59591 5 624.3109 28.86338* 2.68e-13* -17.71511* -14.80833-16.57592 6 633.4037 10.73245 3.66e-13-17.48864-14.02820-16.13246 LR: Likelihood ratio test statistic FPE: Final Prediction error AIC: Akaike information criteria SIC: Schwarz information criteria HQ: Hannan-Quinn Information criteria 19 5! Antal modeller = + 5! + 5! + 5! + 5! = 1 + 5 + 10 + 10 + 5 = 31 0!(5 0)! 1!(5 1)! 2!(5 2)! 3!(5 3)! 4!(5 4)! 20 För beskrivning se Akaike (1969) 24