Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2013:8 Metoder för att prognostisera inrikes inflyttning till Haninge Methods to forecast domestic migration to Haninge Moa Rosenqvist Självständigt arbete 15 högskolepoäng inom Statistik III, vt 2013 Handledare: Göran Rundqvist
Sammanfattning Den här uppsatsen jämför modeller för att prognostisera inrikes inflyttning till Haninge kommun. Ett flertal multipla regressionsmodeller och ARIMA-modeller skapas och jämförs med varandra, både direkt för variabeln inflyttade och för inflyttade i relation till befolkningens storlek. Jämförelserna visar att prognossäkerheten blir bättre med en AR-modell för inflyttade direkt än med den multipla regressionsmodell som kommunen använder idag. Nyckelord: Inflyttning, demografi, befolkningsprognoser, regression, ARIMA Abstract This thesis compares models to forecast domestic migration to the municipality of Haninge. Several multiple regression models and ARIMA models are created and compared with each other, both for the variable migration directly and migration in relation to population size. The comparisons show that forecast accuracy improves with an AR model as compared to the multiple regression model which the municipality uses today. Keywords: domestic migration, demography, population forecasts, regression, ARIMA
Innehållsförteckning 1 Inledning... 6 1.1 Avgränsningar... 6 1.2 Disposition... 6 2 Allmänt om befolkningsprognoser... 7 2.1 Kohort-komponentmetoden... 7 2.2 Tidigare forskning om flyttningar och befolkningsprognoser... 9 3 Teori... 11 3.1 Regression... 11 3.1.1 Multikollinearitet... 12 3.2 ARIMA... 14 3.3 Hur avgöra vilken av modellerna som är bäst?... 16 4 Analys... 18 4.1 Regression... 19 4.1.1 Kommunens ordinarie regressionsmodell... 19 4.1.2 Kommunens regressionsmodell utan utflyttade... 21 4.1.3 Landstingets befolkningsprognos... 22 4.1.4 Inflyttade logaritmerat... 23 4.1.5 Inflyttade per 1000 invånare... 23 4.2 ARIMA... 24 4.2.1 ARIMA-modell på inrikes inflyttade, otransformerat... 24 4.2.2 ARIMA-modell efter att tidsserien differentierats ett steg... 25 4.2.3 ARIMA-modell med logaritmerad tidsserie... 27 4.2.4 ARIMA-modell med inrikes inflyttade per 1000 invånare... 27 5 Slutsatser... 30 5.1 Test av vilken av modellerna som var bäst... 30 5.2 Förslag till vidare forskning... 36 Litteraturförteckning... 37
Bilaga A: Regressionsmodeller... 38 A.1 Kommunens egen modell, perioden 1968-2005... 38 A.2 Kommunens modell utan utflyttning, 1968-2005... 39 A.3 Hjälpregressioner, test för multikollinearitet... 39 A.4 Landstingets regressionsmodell, 1975-2005... 43 A.5 Logaritmerad inflyttning, 1968-2005... 44 A.6 Inflyttning per 1000 invånare, 1968-2005... 45 A.7 Utan utflyttade och födda... 46 A.8 Utan intercept... 47 Bilaga B: Koefficienter i landstingets regressionsmodell, alla kommuner... 49 Bilaga C: ARIMA-modeller... 50 C.1 AR (1) för inrikes inflyttade, 1968-2005... 50 C.2 AR (1) inrikes inflyttade, 1980-2005... 50 C.3 I (1) inrikes inflyttade, 1968-2005... 51 C.4 AR (1) inrikes inflyttade per 1000 invånare, 1980-2005... 53 C.5 AR (1) inrikes inflyttade per 1000 invånare, 1980-2005... 54
1 Inledning Syftet med den här uppsatsen är att skapa och jämföra olika modeller för att förutsäga inrikes inflyttning till Haninge kommun. Metoder som jag kommer att använda är ARIMA-modeller och multipel regression, med bakgrundsvariablerna utflyttade, födda, döda, och byggande, både totalt och uppdelat på småhus och flerbostadshus. Variabeln inrikes inflyttade analyseras både direkt, och som inrikes inflyttade per 1000 invånare. 1.1 Avgränsningar Jag kommer inte att titta på modeller för att skatta framtida invandring. För att förutsäga invandring krävs det dels att jag har en bild över framtida krig och katastrofer runt om i världen, dels av Sveriges framtida migrationspolitik. Det skulle gå utöver utrymmet i den här uppsatsen, och långt från ämnet statistik. 1.2 Disposition Uppsatsen börjar med inledning, syfte och frågeställningar där jag förklarar att jag ska jämföra multipel regression och ARIMA-modeller för att prognostisera inrikes inflyttning till Haninge. Kapitlet avslutas med en disposition. Kapitel 2 börjar med en allmän introduktion till befolkningsprognoser. Därefter gör jag en kort genomgång av kohort-komponentmodellen med både födda, döda och flyttningar. Sedan gör jag en översikt om tidigare forskning kring flyttningar och kommunala befolkningsprognoser i Sverige. Kapitel 3 är ett teorikapitel, som går igenom de två metoder jag kommer använda; multipel regression och ARIMA-modeller, och de teststatistikor jag ska använda för att avgöra vilken av modellerna som är bäst. I kapitel 4 analyserar jag tidsserien, och skattar ett antal olika modeller, både för inrikes inflyttning direkt, inrikes inflyttning per 1000 invånare och inflyttning logaritmerat. I kapitel 5 gör jag prognoser för perioden 2006-2012 med de olika modeller som skattades i kapitel 4, för att på så sätt se vilka modeller som ger bäst prognoser. Till sist kommer jag med ett förslag till vidare forskning. 6
2 Allmänt om befolkningsprognoser De flesta kommuner i Sverige gör, eller köper in, befolkningsprognoser för den egna kommunen. (Roclawski 2008, 22) Det finns tre huvudsakliga metoder att göra befolkningsprognoser. Med enkla metoder/simple methods tittar prognosmakaren på befolkningens storlek historiskt, och använder olika former av tidsserieanalys för att förutsäga befolkningens storlek i framtiden. Fördelarna med metoden är att den är relativt enkel och inte ställer särskilt stora krav på datakvaliteten, eftersom man inte behöver veta något om andra demografiska händelser som födda, döda och flyttningar. (Smith och Sincich 1990, 368) För svenska kommuner är den här metoden inte särskilt relevant av två skäl. För det första har Sverige befolkningsstatistik av så pass god kvalitet, med data över födda, döda och in- och utflyttade på kommunnivå sedan 1968, och på nationell nivå sedan mitten av 1700-talet. Det andra skälet har att göra med behoven som befolkningsprognoserna ska svara mot. I kommunerna används prognoserna till exempel för att planera för att bygga förskolor, skolor, hemtjänst och äldreboenden i framtiden, verksamheter som förutsätter kommunen har en bild av invånarnas framtida åldersfördelning. Den andra metoden är ekonomisk-demografiska tekniker. Det innebär att de demografiska händelserna skrivs fram utifrån vad prognosmakaren tror om den demografiska och ekonomiska utvecklingen. (Smith och Sincich 1990, 368) Med kohort-komponentmetoden delas befolkningen upp i kohorter bestående av personer med samma ålder och kön. Dessa har sedan ålders- och könsspecifika risker att föda barn, dö eller flytta under året, och vid början av nästa prognosår har de alla blivit ett år äldre, vilket leder till att de åldersspecifika riskerna justerats något (von Rahmel och Raneke 2008, 3-4). Kohortkomponentmetoden är den metod som jag kommer att använda mig av i den här uppsatsen. 2.1 Kohort-komponentmetoden Befolkningen i ett givet område vid slutet av år t ges med kohortkomponentmetoden av: (2.1) Befolkningsförändringen har alltså fyra komponenter, som en befolkningsprognos försöker förutsäga. Sannolikheten (vilken ofta beräknas genom historiska fruktsamhetstal från t.ex. de senaste tre åren) att en kvinna i en viss ålder föder barn multipliceras med antalet kvinnliga invånare i åldern. Detta görs med alla andra åldrar, för att på så sätt få en skattning på antalet födda under det kommande året. Om det finns antal kvinnor i åldern i och sannolikheten att en i-åring kvinna föder barn är så gäller att: (2.2) 7
Här står i för kvinnornas ålder i ettårsklasser, under den fertila perioden. För mindre områden kan det vara lämpligare att istället använda rikets fruktsamhetstal, som eventuellt kan justeras uppåt eller neråt, för att få ett jämnare fruktsamhetstal som ändå tar hänsyn till lokala förutsättningar. De barn som föds kommer året efter in som 0- åringar i prognosen. Dödsrisker skattas med hjälp av historiska observerade dödsfall. För att få mer stabila dödsrisker i mindre områden och i åldersgrupper med få dödsfall går det att använda rikets observerade dödsfall, och sedan justera upp eller ner med en fast procentsats. Antal döda skattas genom att sannolikheten för män respektive kvinnor att dö i en viss ålder multipliceras med antalet individer i det könet och med den åldern. Om sannolikheten för att en person med åldern i={0,1,, w} och kön j={man, kvinna} ska dö är och det finns personer i den åldern och med det könet så ges det prognostiserade antalet döda av: (2.3) Antalet utflyttade kan prognostiseras på flera olika sätt. En metod är med utflyttningsrisker, vilket innebär att prognosmakaren utifrån risken att flytta i en viss ålder skattar hur många personer i den åldern som kommer flytta från kommunen. Om sannolikheten att en viss person ska flytta från kommunen är så gäller (2.4) För alla de här tre komponenterna är kommunens befolkning (startbefolkningen) den population utifrån vilken risken att få barn, dö eller flytta under prognosperioden beräknas. Att skatta framtida inflyttade är inte lika lätt, eftersom det inte finns någon tydligt avgränsad population att räkna ut inflyttningsrisker för. Risken (som här används i statistisk bemärkelse och alltså inte behöver innebära någonting negativt) att flytta till en kommun är sannolikt större för en person som från början bor i grannkommunen än för någon som bor i en helt annan del av landet. Formel (2.1) blir, omorganiserad: Formlerna 2.1 2.5 blir tillsammans: (2.5) (2.6) Även befolkningen förra året är känd, men eftersom befolkningen vid årets slut fortfarande är okänd går det inte att skatta inflyttning den vägen. 8
2.2 Tidigare forskning om flyttningar och befolkningsprognoser Westerlund och Eliasson (Draft October 2009) studerar vilken effekt olika arbetsmarknadsvariabler har på flyttningar mellan olika Lokala Arbetsmarknader (LAregioner). Flyttningar mellan olika LA-regioner tenderar att bero på arbetsmarknad eller studier i större utsträckning, till skillnad från flyttningar över kortare avstånd som oftare handlar om t.ex. bostadsmarknad. (Westerlund och Eliasson Draft October 2009, 4) I Sverige är unga vuxna (20 25-årsåldern) den grupp som flyttar absolut mest. Sedan 1980-talet har det skett en stor ökning i unga vuxnas flyttningar mellan LA-regioner, vilket skett samtidigt som utbyggnad av universitet och högskolor på fler orter i Sverige. (Westerlund och Eliasson Draft October 2009, 7) Flyttbenägenheten i Sverige ökar med högre utbildningsnivå, men minskar med familjebildning. (Westerlund och Eliasson Draft October 2009, 6) Var i en region människor bosätter sig antas vara en effekt av bostadsbyggandet. (von Rahmel och Raneke 2008, 7-8) I den prognos Statisticon gjort för Järfälla 2007-2016 (den ena av de två prognoser som analyseras i deras uppsats) så antas inflyttningen till kommunen ha en direkt relation till byggandet. Ett nybyggt småhus ökar inflyttningen med 3,0 personer, en nybyggd lägenhet i flerbostadshus med 1,8 personer och en nybyggd specialbostad (t.ex. ett rum i studentkorridor eller en plats på ett äldreboende) med 1,0 personer. (von Rahmel och Raneke 2008, 14) Personen på Statisticon som gjort prognosen tycker det är viktigt att ta med byggprognosen i kommuner som är inne i en stark nybyggnationsfas. (von Rahmel och Raneke 2008, 22) Å andra sidan är det inte alla som flyttar till nybyggda bostäder som kommer från andra kommuner. I uppsatsen Från samtid till framtid (2008) undersöker Krzysztof Roclawski vilken ställning kommunala befolkningsprognoser har i Sverige idag, och gör dessutom en litteraturöversikt om olika typer av framtidsforskning. Han gör också en översiktlig analys av befolkningsprognoserna för de 247 kommuner som har tillgång till aktuella prognoser. Roclawski tar upp en typ av bias som kan förekomma i olika studier av framtiden, inklusive befolkningsprognoser: [Det finns] alltid en möjlighet att producenten av framtidsstudier medvetet eller omedvetet anger en alltför positiv bild av uppdragsgivarens nuvarande position eller framtida förutsättningar. Uppdragsgivaren kan även uppfatta materialets innebörd på ett annat sätt än producenten och kräva en revidering av utfallet. Även om studien är korrekt genomförd och redovisad kan således den politiska processen förvrida dess innehåll. Detta beror mestadels på olika värderingar samt emotionella faktorer vilka leder till irrationella ställningstaganden. (Roclawski 2008, 6) I många kommuner önskar sig politiker och andra att kommunens befolkning ska öka, eller iallafall sluta minska. Bias som beror på vilken framtid som uppdragsgivaren önskar sig skulle kunna vara anledningen till att Roclawski i sin genomgång bara hittade tio prognostiserade trendbrott. Samtliga handlar om kommuner med minskande befolkning där trendbrottet innebär att befolkningen börjar öka igen. I samtliga fall ligger trendbrotten i slutet av prognosperioden, ca tio år framåt i tiden. (Roclawski 2008, 25) Befolkningsförändring så långt framåt i tiden har mindre praktisk betydelse. Vid en ökning av t.ex. antalet barn ett eller två år framåt i tiden måste kommunen 9
kanske besluta om en ny förskola eller till och med grundskola ska byggas. Ligger befolkningsökningen längre framåt i tiden finns större utrymme att avvakta, och en eller flera uppdaterade prognoser kommer hinna göras innan den tidpunkt när tidsseriebrottet prognostiserats. I uppsatsen Befolkningsprognos för kommunerna i Stockholms län 2003-2012 anpassar Martin Elfsberg ARMA-modeller för befolkningsutvecklingen i kommunerna i Stockholms län. Dessutom anpassas regressionsmodeller för befolkningsutvecklingen med tiden som prediktor. För Upplands Väsby och Vallentuna görs dessutom univariata prognoser för kommunernas befolkning utan trend, med linjär trend och med kvadratisk trend. (Elfsberg 2004) 10
3 Teori Oavsett vilken typ av kvantitativ prognos som ska göras bygger det på att prognosmakaren analyserar historiska data, för att försöka hitta mönster. Dessa mönster förlängs eller extrapoleras sedan in i framtiden för att kunna göra en prognos. Ett centralt antagande är alltså att det mönster som gäller idag kommer att fortsätta även i framtiden. (Bowerman och O'Connell 1993, 4) Montgomery m.fl. delar upp prognosmakandet i sju steg. Först definieras det problem som ska lösas (1), sedan kommer datainsamling (2) och dataanalys (3). Detta leder vidare till modellval och modellanpassning (4). Därefter valideras hur väl den valda modellen fungerar, med hjälp av olika statistiska test (5). När en modell valts är det dags att börja tillämpa den praktiskt (6). I framtiden är det viktigt att sedan övervaka hur väl modellen stämmer (7), för att kunna förändra den ifall det t.ex. sker ett tidsseriebrott. (Montgomery, Jennings och Kulachi 2008, 12) Fokus för den här uppsatsen är steg fyra och fem, val och anpassning av prognosmodell, och validering. Det finns två huvudtyper av metoder för att göra kvantitativa prognoser om något. Den ena är univariata modeller, dvs. modeller där framtida värden på en variabel bara bestäms av tidigare värden på variabeln. Hit hör bland annat ARIMA-modeller. Univariata metoder är dock inte så bra för att förutsäga förändringar i en tidsserie, eller förändringar som beror på faktorer som ligger utanför tidsserien självt. Den andra typen är kausala modeller, där värdet på en viss variabel bestäms av värdena på olika exogena variabler. Hit hör olika varianter av regressionsmodeller. (Bowerman och O'Connell 1993, 11) För att kunna bedöma hur bra en viss modell är för att skatta framtida värden på en tidsserie går det att ta bort ett antal observationer i slutet på tidsserien när modell och modellparametrar skattas. För att sedan undersöka hur bra modellen är så testas prognosen som gjorts med hjälp av den första delen på tidsserien på de observationer i slutet av tidsserien som togs bort innan modellen skattades. 3.1 Regression Den modell som används för att skatta inflyttning i Haninge kommuns befolkningsprognos idag är en multipel regressionsmodell: utflyttade födda döda byggande dummyvariabel extrem inflyttning dummyvariabel extrem utflyttning (3.1) Med en multipel regressionsmodell antas tidsserien, i det här fallet inrikes inflyttade, ha ett linjärt samband med ett antal bakgrundsvariabler som är lättare att prognostisera, i det här fallet utflyttade, födda, döda, byggande och två dummyvariabler. För att testa hur bra den skattade regressionsmodellen är så undersöks hur stor del av variationen som förklaras av den valda modellen, och hur stor del som inte gör det. 11
Om är värdet på en enskild observation, är det värde på observationen som prognostiserats av modellen och är medelvärdet för alla observationerna är: (3.2) (3.3) (3.4) Målet är såklart att hitta en modell som gör att så stor del av variationen som möjligt förklaras, dvs. att förklaringsgraden (3.5) Blir så hög som möjligt. Å andra sidan premierar modeller modeller med fler prediktorer än vad som hade varit nödvändigt. En teststatistika som tar hänsyn till antalet prediktorer i den testa modellen är F-test, där den testade nollhypotesen (3.6) Testas mot mothypotesen att åtminstone någon av -koefficienterna är signifikant skild från noll. (Bowerman och O'Connell 1993, 159-160) Om vi lyckats välja rätt modell och har fått till rätt bakgrundsvariabler på rätt sätt, så har vi lyckats skapa en modell med rätt funktionell form (Bowerman och O'Connell 1993, 153) Andra viktiga antaganden är att variansen för är konstant, att värdena och respektive och är oberoende av varandra. (Bowerman och O'Connell 1993, 154) Om inte kommer feltermerna antagligen ha ett speciellt mönster. 3.1.1 Multikollinearitet Ett problem som kan tänkas finnas är multikollinearitet, dvs. att de olika variablerna i modellen samvarierar med varandra. I tidsseriedata som rör samhället är det t.ex. vanligt att flera variabler påverkas av samma generella trend (Gujarati och Porter 2009, 323). Den mest extrema formen av multikollinearitet är perfekt multikollinearitet, dvs. att det finns ett perfekt linjärt samband mellan två av bakgrundsvariablerna. Exempelvis: Där (3.7) I så fall blir regressionskoefficienterna och omöjliga att skatta, eftersom standardavvikelserna för koefficienterna blir oändliga. (Gujarati och Porter 2009, 323) 12
Om multikollineariteten är stor men inte helt fatal blir problemet istället att standardavvikelserna för koefficienterna blir väldigt stora. Samma problem kan i och för sig också uppstå om regressionsmodellen bygger på för få observationer, eller prediktorerna {, har för liten varians. (Gujarati och Porter 2009, 326) Finns det multikollinearitet kan det t.ex. synas genom att t-värdena på koefficienterna är insignifikanta, samtidigt som modellen som helhet har ett högt värde på. (Gujarati och Porter 2009, 326) Det finns inga formella test för multikollinearitet, och någon typ av multikollinearitet finns nästan alltid, frågan är snarare hur mycket multikollinearitet det finns. (Gujarati och Porter 2009, 337) Detta kan t.ex. undersökas genom att plotta de olika variablerna mot varandra, och genom att titta på partiella korrelationskoefficienter efter att effekten av övriga variabler rensats bort eller genom att köra hjälpregressioner. Dvs, om huvudmodellen är går det också testa att köra (3.8) (3.9) Om förklaringsgraden för hjälpregressionen är hög tyder det på att det finns problem med multikollinearitet. En tumregel är att om för hjälpregressionen är över 90 procent kan multikollineariteten vara så pass stor att det måste göras någonting åt den. Även fall där för hjälpregressionen är högre än för huvudmodellen kan vara problematiska. (Gujarati och Porter 2009, 338-340) Problem med multikollinearitet kan hanteras på olika sätt, som i sin tur kan föra med sig andra problem. Om prognosmakaren för att komma till rätta med multikollinearitet tar bort en variabel som övrig teori och förkunskaper säger borde vara med finns risk för specifikationsfel. Ett annat alternativ är att transformera variablerna genom att köra regression på förändringstakten på en variabel, istället för på variabeln i sig. Om flera variabler beror på hur stor populationen är så går det också att dela dem med befolkning, för att på så sätt rensa bort en gemensam trend som beror på befolkningsökning. (Gujarati och Porter 2009, 344-5) För en befolkningsprognos i en kommun är det t.ex. troligt att både antalet födda, döda, inflyttade och utflyttade ökar när befolkningen totalt ökar. I Haninge har befolkningen fördubblats sedan slutet av 1960-talet, vilket sannolikt påverkat antalet födda, döda och utflyttade under perioden. För att rensa bort en del multikollinearitet går det att istället analysera dessa variabler som andel av befolkningen. Om syftet bara är att göra prognoser behöver inte multikollinearitet inte vara ett så stort problem, under förutsättning att den kommer att fortsätta se ut på samma sätt även i framtiden (Gujarati och Porter 2009, 347). Å andra sidan blir koefficienterna i en modell med stor multikollinearitet som sagt instabila. 13
3.2 ARIMA ARIMA-modeller är a-teoretiska, kommande värden på tidsserien antas bero på tidigare värden av sig självt och sina feltermer, och inte på någon bakomliggande nationalekonomisk eller demografisk teori. (Gujarati och Porter 2009, 774-775) För att kunna anpassa en ARIMA-modell (kallas också Box-Jenkins) krävs det att tidsserien är stationär, eftersom: The objective of B-J [Box-Jenkins] is to identify and estimate a statistical model which can be interpreted as having generated the sample data. If the estimated model is then to be used for forecasting, we must assume that the features of this model are constant through time, and particularly over future time periods. Thus the simple reason for requiring stationary data is that any model which is inferred from these data can itself be interpreted as stationary or stable, therefore providing [a] valid base for forecasting. (Michael Pokorny, citerad i Gujarati s. 777) Svag stationaritet innebär dels att det förväntade värdet på tidsserien inte är beroende av tiden, dels att kovariansen mellan två observationer med tidsavståndet k är bara en funktion av k, och inte en funktion av var på tidsserien observationerna befinner sig. (Gujarati och Porter 2009, 740) För att testa om tidsserien är stationär går det att undersöka tidsseriens autokorrelationsfunktion (AKF). AKF vid lag k definieras som: (3.10) har alltid ett värde som ligger mellan 1 och 1. Om de enskilda värdena på plottas mot k får en ett autokorrelationsdiagram som kan användas för att grafiskt undersöka om en tidsserie är stationär eller inte. (Gujarati och Porter 2009, 749) En tidsserie är inte stationär om autokorrelationsfunktionen AKF är långsamt avtagande, dvs. att det finns en hög korrelation mellan och. För att testa om hela autokorrelationsfunktionen upp till lag m är signifikant, dvs. nollhypotesen att tidsserien är vitt brus, dvs. att (3.11) mot mothypotesen att åtminstone någon Box (LB) statistikan, som definieras som är skild från 0, går det att använda Ljung- (3.12) Ljung-Box är chitvåfördelat med m frihetsgrader. (Gujarati och Porter 2009, 754) Med Moving Average är en stationär tidsserie en viktad summa av nuvarande och tidigare slumpfel. (Montgomery, Jennings och Kulachi 2008, 234-5) En Moving average-process av ordningen q har formeln: (3.13) 14
Där är vitt brus. Med en MA(q)-process kapas AKF efter lag q. Med en AR-process (autoregressive) är en regression på där k ={1,2,, p}. Formeln för en AR-process av ordningen p blir (3.14) För att kunna hitta värden på p, q, och d i en ARIMA (p, d, q)-modell går det att titta på autokorrelationsfunktionen, AKF, och den partiella autokorrelationsfunktionen, PAKF, som mäter korrelationen mellan två punkter på tidsserien när effekten av mellanliggande observationer rensats bort. (Montgomery, Jennings och Kulachi 2008, 254-255) För att välja värden på p och q gäller att: Tabell 3.1: Nyckel för att bedöma AR-, MA- eller ARMA-modell Modell AKF PAKF AR(p) MA(q) ARMA (p, q) Exponentiellt avtagande och/eller sinuskurva Upphör/minskar kraftigt efter lag q Exponentiellt avtagande och/eller sinuskurva Upphör/minskar kraftigt efter lag p Exponentiellt avtagande och/eller sinuskurva Exponentiellt avtagande och/eller sinuskurva Källa: (Montgomery, Jennings och Kulachi 2008, 256) Om en tidsserie beter sig homogent över tid och innehåller en trendkomponent kan den differentieras för att få den att bli stationär. Tidsserien omvandlas då till en ny tidsserie där (3.15) För differentiering av högre ordning differentieras tidsserien en gång till, så att (3.16) Det här görs för att göra en tidsserie med trendkomponent stationär och kunna anpassa andra ARMA-processer till den. (Montgomery, Jennings och Kulachi 2008, 256) För att faktiskt bygga en ARIMA-modell rekommenderar Montgomery m.fl. ett trestegsförfarande. Först skattas vilken typ av modell och vilka värden som ska användas på p, d och q men hjälp av att titta på AKF och PAKF och använda tabell 3.1. Sen skattas de okända parametrarna,, i något statistikprogram. Därefter genomför 15
vi olika diagnostiska test för att kolla om den modell vi valt är den bästa. (Montgomery, Jennings och Kulachi 2008, 265-6). 3.3 Hur avgöra vilken av modellerna som är bäst? Både med regression och med ARIMA används historiska data för att anpassa modeller. För stor fokus på hur modellen passar till historiska data kan leda till överanpassning, dvs. att prognosmakaren tar med för många prediktorer för att förbättra den historiska anpassningen, utan att det nödvändigtvis leder till bättre prognoser. För att undersöka hur väl modellerna fungerar som prognosinstrument har jag tagit bort åren 2006-2012 när jag skattat modellerna. Dessa har jag sedan använt för att kunna testa hur väl de fungerar för att faktiskt göra prognoser med. Montgomery m.fl. (200858) rekommenderar visserligen att 20-25 observationer används för att testa modellen. Anledningen till att jag bara har plockat bort sju observationer har att göra med den tidsserie jag analyserar. Jag har visserligen data över inflyttningar från 1968, men på grund av möjliga tidsseriebrott och tillgången till bakgrundsvariabler har jag anpassat vissa av modellerna till perioden från 1975 eller 1980. Då vore det för lite att skatta en modell på mindre än 25 observationer. Dessutom har jag inte räknat med att min tidsserie innehåller någon säsongsvariation, något som hade ökat behovet av att ha många borttagna observationer att testa på. Felen eller residualerna är de observerade värdena vid en viss tidpunkt, minus den prognos som gjorts för tidpunkten: Där är residualen vid tiden t, och är prognosen för. (3.17) När det handlar om prognoser för framtiden måste inte summan av residualerna bli noll, men det är såklart önskvärt att de ligger så nära noll som möjligt. Därför är mean error, ME, dvs. medelvärdet av residualerna ett av de kriterier som jag kommer att undersöka när jag jämför de skattade modellerna. (3.18) Andra metoder som kan användas för att undersöka residualerna, både för historiska data och för de prognostiserade värdena för 2006-2012, är mean absolute deviation, mean squared error, och mean absolute percentage error. Mean Absolute Deviation, MAD, har formeln: Mean Squared Error, MSE, har formeln: (3.19) (3.20) 16
Skillnaden mellan MAD och MSE är att MSE förstärker stora fel, och därför straffar den några få stora fel hårdare än många små fel. (Bowerman och O'Connell 1993, 16) Mean absolute percentage error (MAPE) tar, till skillnad från MAD och MSD hänsyn till att variablerna kan ha olika stora värden i absoluta tal, vilket är bra när jag ska jämföra modeller som skattats direkt på inflyttning mot modeller som skattats på inflyttning per 1000 invånare. (3.21) MAPE förutsätter dock att. (Montgomery, Jennings och Kulachi 2008, 180) Två teststatistikor som tar hänsyn till antalet parametrar i modellen är Akaikes informationskriterium (AIC) och Schwartz informationskriterium (SIC). (3.22) Som vanligt är n antalet observationer, och k är antalet parametrar som används i modellen. (3.23) Både AIC och SIC ska vara så låga som möjligt, men SIC bestraffar komplicerade modeller med för många parametrar hårdare. 17
1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 4 Analys 7000 Inrikes inflyttning och total folkökning i Haninge 1969-2012 6000 5000 4000 3000 2000 Inrikes inflyttade Folkökning 1000 0-1000 90 000 Folkmängd i Haninge 1968-2012 80 000 70 000 60 000 50 000 40 000 30 000 20 000 10 000 0 1968 1973 1978 1983 1988 1993 1998 2003 2008 18
1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 4.1 Regression 4.1.1 Kommunens ordinarie regressionsmodell I kommunens egen befolkningsprognos (Rosenqvist 2013) skattas den inrikes inflyttningen med modellen utflyttade födda döda byggande dummyvariabel extrem inflyttning dummyvariabel extrem utflyttning (4.1) Den bakomliggande teorin är att när invånare dör eller flyttar från kommunen ökar mängden ledig bostadsyta. Den minskar däremot med nyfödda barn, men ökar när det byggs nya bostäder. För att modellen ska passa bättre till historiska data finns två dummyvariabler: extrem inflyttning och extrem utflyttning. Byggandet läggs in i modellen i klump, oavsett om det är småhus eller flerbostadshus som byggs. Den första dummyvariabeln heter Dummyvariabel extrem inflyttning. Svarta staplar är de två år (1977 och 1978) som är markerade med dummys: 7 000 6 000 5 000 4 000 3 000 2 000 1 000 0 Inrikes inflyttade Inflyttningen under 1977 och 1978 är inte extrem sedd till hela tidsserien, men ligger däremot ca 1 000 personer högre än åren närmast före och efter. Den andra dummyvariabeln heter extrem utflyttning. I nedanstående diagram över total utflyttning (inklusive utvandring) och inrikes utflyttning (exklusive utvandring) är de svarta staplarna de år som är markerade med dummys (1992, 1993 och 2001): 19
1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 6 000 5 000 4 000 3 000 2 000 1 000 0 Total utflyttning 6 000 5 000 4 000 3 000 2 000 1 000 0 Inrikes utflyttade Kort sagt, dummyvariabeln verkar beskriva någonting annat än extrem utflyttning. 1992-1993 befann sig Haninge kommun i en djup ekonomisk kris, som säkert kan ha påverkat benägenheten att flytta till kommunen. För att undersöka modellen har jag plockat bort åren 2006-2012, för att i efterhand kunna testa min modell. Modellen, för tidsperioden 1968-2005 blir: utflyttade födda döda byggande dummyvariabel extrem inflyttning dummyvariabel extrem utflyttning (4.2) 7 000 Inrikes inflyttade 1968-2005 och kommunens anpassade prognosmodell 6 000 5 000 4 000 3 000 2 000 1 000 Inrikes_inflyttade PRE_ kommunens regressionsmodell 0 för modellen är 0,726. Variabeln för total utflyttning har p-värde 0,598, och dessutom fel tecken. Detta får mig att misstänka att variabeln kanske ska plockas bort ur modellen, trots att övrig teori säger att den borde vara med. Detta kommer i nästa avsnitt. 20
1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 Residualer 1 500 1 000 500 0-500 -1 000-1 500 Residualer kommunens regressionsmodell Residualer mot prognostiserat värde 2 000 1 000 0 2 000 3 000 4 000 5 000 6 000-1 000-2 000 Prognostiserat värde inrikes inflyttad Plottade mot tid ser residualerna ut att följa ett speciellt mönster, de är positiva i början och slutet av tidsserien, och negativa under 1980-talet. Plottade mot prognostiserade värden ser de dock inte ut att följa något särskilt mönster. För att undersöka hur stor multikollineariteten är kör jag hjälpregressionerna: födda döda byggande Dummyvariabel extrem inflyttning dummyvariabel extrem utflyttning (4.3) och motsvarande för de andra fyra bakgrundsvariablerna total utflyttning, födda, döda och byggande. Total_utflytt 0,246 Födda 0,538 Döda 0,748 Byggande 0,793 Ingen av determinationskoefficienterna är högre än 90 procent, men två av hjälpregressionerna, för döda och byggande, har högre än huvudregressionen, vars determinationskoefficient var 0,726. 4.1.2 Kommunens regressionsmodell utan utflyttade Eftersom variabeln utflyttade inte är signifikant undersöker jag vad som händer med modellen om den variabeln tas bort. Den skattade regressionsmodellen blir då: födda döda byggande Dummyvariabel extrem inflyttning dummyvariabel extrem utflyttning (4.4) 21
för modellen är 0,723. Alla koefficienter utom den för födda är signifikanta på 1- procentsnivån. Födda är signifikant på 5-procentsnivån. Efter att jag plockat bort variabeln utflyttade kör jag hjälpregressioner igen, för att testa för multikollinearitet. Födda 0,536 Döda 0,706 Byggande 0,769 Även här är alltså hjälpregressionen för byggande högre än huvudmodellen. Eftersom byggandet uppenbarligen är starkt korrelerat med övriga variabler undersöker jag vad som händer med modellen om byggandet inte är med. Resultatet blir att minskar till 0,307 och koefficienterna är insignifikanta. Med en modell med varken utflytt eller byggande blir istället 0,273, och fortfarande är inga av koefficienterna signifikanta. Att ta bort variabeln för att komma tillrätta med multikollineariteten försämrar alltså modellen så mycket att jag istället låter den vara kvar. 4.1.3 Landstingets befolkningsprognos I den befolkningsprognos som Stockholms läns landsting gör för kommunerna i Stockholms län (Tillväxt, miljö, regionplanering, Stockholms läns landsting. 2012, 76) prognostiseras istället inflyttning med en modell där: utflyttade födda döda nya lägenheter i flerbostadshus nya lägenheter i småhus (4.5) För Haninges del blir den här formeln (uträknad för tidsperioden 1975-2011): utflyttade födda döda nya lägenheter i flerbostadshus nya lägenheter i småhus (4.6) Viktigt att notera är koefficienten för nybyggda flerbostadshus. För varje nybyggd lägenhet i flerbostadshus minskar inflyttningen till Haninge med 1,047 personer. Även för flera andra kommuner finns koefficienter som har andra tecken än de förväntade, och/eller inte är signifikanta. En genomgång av detta finns i bilaga B. Koefficienten för födda är positiv för 12 av 24 kommuner, dvs. teorin om att fler födda barn leder till mindre ledig bostadsyta och därmed färre inflyttade verkar inte stämma. En möjlig förklaring till detta är att sambandet i själva verket går åt andra hållet. Många 22
människor byter bostad när de är på väg att få barn, eller är på väg att få fler barn. Detta kan förklara att antalet födda barn ökar i kommuner dit många flyttar. Kommunens respektive landstingets modeller för inflyttning får också konsekvenser när befolkningen ska fördelas mellan kommundelarna. (TMRs delområdesrapport för Haninge u.d.) I de områden där det planeras många nya bostäder under den kommande tioårsperioden, som Handen, Vega och Västerhaninge SO prognostiserar kommunen en klart högre befolkningsökning än landstinget. I områden där det inte planeras många nya lägenheter, som Dalarö församling och Övriga Haninge glesbygd räknar landstinget istället med en högre befolkningsutveckling (eller att befolkningen inte minskar lika mycket) jämfört med kommunens egen befolkningsprognos. 4.1.4 Inflyttade logaritmerat För att få ytterligare en modell att testa väljer jag att också logaritmera tidsserien inrikes inflyttade, för att se om den modellen fungerar bättre för att göra prognoser. Med samma bakgrundsvariabler som kommunens ordinarie prognos blir variabeln utflyttade insignifikant, så jag väljer därför en modell utan utflyttade: födda döda byggande + 0,322 dummy extrem inflyttning -0,335 dummy extrem utflyttning (4.7) för modellen är 0,697. 4.1.5 Inflyttade per 1000 invånare Inrikes inflyttade per 1000 invånare 160 140 120 100 80 60 40 20 0 1968 1973 1978 1983 1988 1993 1998 2003 2008 En annan möjlighet är att undersöka inflyttade i relation till kommunens befolkning. Det är rimligt att anta att antalet inflyttade och andra förändringskomponenter kommer att öka i takt med att befolkningen ökar. Inflyttning per 1000 invånare ligger också på en ganska konstant nivå sedan början av 1980-talet. 23
Med en regressionsmodell där både inflyttning, utflyttning, födda, döda och byggande anges per 1000 invånare blir modellen: Inrikes inflyttade per 1 000 invånare utflyttade per 1000 -,940 födda per 1000 + 7,293 döda per 1000 + 3,252 byggande per 1000 +28,083 dummy extrem inflyttning -23,903 dummy extrem utflyttning (4.8) för modellen är 0,887, men både intercepten och variablerna utflyttade och födda är insignifikanta. Utflyttade har dessutom fel tecken, koefficienten är negativ när ett ökat antal utflyttade borde leda till mer ledig bostadsyta och därmed fler inflyttade. Efter att variablerna utflyttade och födda tagits bort får samtliga kvarvarande prediktorer signifikanta koefficienter. för modellen är fortfarande högt men intercepten är fortfarande inte signifikant. Efter att intercepten också tagits bort är samtliga koefficienter signifikanta: Inrikes inflyttade per 1 000 invånare 8,479 döda per 1000 + 2,790 byggande per 1000 +30,142 dummy extrem inflyttning -22,180 dummy extrem utflyttning (4.9) 4.2 ARIMA Till att börja med skattar jag modeller för variabeln inrikes inflyttade direkt. I andra delen av avsnittet undersöker jag istället variabeln inrikes inflyttade som andel av befolkningen. 4.2.1 ARIMA-modell på inrikes inflyttade, otransformerat Vi börjar med att undersöka AKF och PAKF för tidsserien inrikes inflyttade. 24
1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 Eftersom AKF minskar och långsamt blir negativ i något som skulle kunna vara början på en sinuskurva, och PAKF har ett högt värde vid lag 1 som sedan går ner kraftigt misstänker jag att detta är en AR(1)-modell, som alltså har formeln: För perioden 1968-2005 blir koefficienterna: för regressionen är 0,662 (4.10) (4.11) 2000 1500 1000 500 0-500 -1000-1500 Residualer, AR(1)-modell för 1968-2005 Här ser det möjligen ut som om variansen har minskat med tiden, och därför undersöker jag också hur modellen blir om den skattats för enbart perioden 1980-2005. Koefficienterna blir då: (4.12) Autokorrelationen är alltså lite lägre för perioden efter 1980 än vad den var under 1970- talet. 4.2.2 ARIMA-modell efter att tidsserien differentierats ett steg Eftersom tidsserien ser ut att innehålla en linjär trend undersöker jag den också efter att den differentierats en gång. 25
1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 1 500 Inrikes inflyttade till Haninge 1969-2012. Differentierade ett steg. 1 000 500 0-500 -1 000-1 500 Den här tidsserien ser mer stationär ut, även om variansen verkar vara större i början av serien än under slutet. AKF och PAKF för den differentierade tidsserien blir: Här följer varken AKF eller PAKF något tydligt mönster med kraftigt avtagande värden på. Ljung-Boxstatistikan för upp till 16 lags är 33,243, vilket är högre än det kritiska chitvåvärdet som är 26,30 på 5-procentsnivån. Jag drar därför slutsatsen att den här tidsserien är stationär. Tidsserien har alltså transformerats till vilket innebär att där = -40,514. Detta innebär att inflyttningen för varje år väntas bli drygt 40 personer lägre än året innan. Å andra sidan har inflyttningen inte minskat de senaste åren, och konstanten på minus 40,514 är dessutom inte signifikant. 26
4.2.3 ARIMA-modell med logaritmerad tidsserie För att hitta en modell som passar bättre till data undersöker jag också vad som händer efter att tidsserien logaritmerats. Eftersom AKF följer början på en sinuskurva och PAKF är signifikant vid lag 1 anpassar jag en AR-modell till serien. Parametrarna till formeln Blir (4.13) (4.14) 4.2.4 ARIMA-modell med inrikes inflyttade per 1000 invånare Inrikes inflyttade per 1000 invånare 160 140 120 100 80 60 40 20 0 1968 1973 1978 1983 1988 1993 1998 2003 2008 Den här tidsserien ser väldigt stationär ut, iallafall från början av 1980-talet. AKF och PAKF för perioden 1968-2005 blir: 27
1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 Eftersom AKF minskar långsamt och PAKF går ner tvärt efter lag 1 testar jag att anpassa en AR(1)-modell till tidsserien. Parametrarna till formeln blir Notera att koefficienten är väldigt nära ett. (4.15) 70 60 50 40 30 20 10 0-10 -20-30 Residualer, AR(1)-modell för inflyttade per 1000 invånare Förutom 1968 är det många negativa residualer i början av tidsserien. Därför väljer jag ut enbart tiden mellan 1980 och 2005, och undersöker AKF och PAKF för den perioden. 28
Här verkar AKF följa en sinuskurva, och PAKF är signifikant vid lag 1 (och visserligen ganska stor vid lag 3). Alltså testar jag en AR (1)-modell (igen). Parametrarna till formeln blir Båda parametrarna är signifikanta, däremot blir bara 0,304. (4.16) (4.17) 29
1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 5 Slutsatser 5.1 Test av vilken av modellerna som var bäst Jag har brutit ut åren 2006-2012, för att undersöka hur väl de olika modellerna fungerar när de anpassas till dessa år. Samtliga regressions- och ARIMA-modeller som skattats direkt för variabeln inrikes inflyttade underskattade inflyttningen under perioden 2005-2012. 7 000 6 000 Inrikes utflyttade: utfall och fyra olika regressionsmodeller Inrikes_inflyttade 5 000 4 000 3 000 2 000 Prognos, kommunens ordinarie regressionsmodell Prognos, kommunens ordinarie modell utan utflyttning Prognos, TMRs modell 1 000 0 Logaritmerad modell utan utflyttade Jag jämför tre olika multipla regressionsmodeller som bygger på variabeln inrikes inflyttade: kommunens ordinarie modell, kommunens modell utan utflyttade och landstingets (TMR:s) modell där småhus och flerbostadshus kommer in i modellen separat. Dessutom undersöks en modell där variabeln inrikes inflyttade logaritmerats. Kommunens ordinarie modell underskattar, precis som de andra testade regressionsmodellerna, inrikes utflyttning för 2006-2012, men verkar i alla fall delvis följa med i svängarna. Kommunens vanliga modell har ett på 0,726, vilket är relativt högt. Å andra sidan är -koefficienten för total utflyttning inte signifikant, p-värdet är 0,598. När jag tagit bort den variabeln sjunker ytterst marginellt, till 0,723, samtidigt som F-värdet, som premierar enklare modeller med färre prediktorer, stiger från 13,664 till 16,715. De prognostiserade värdena håller sig i princip identiska. 30
Med TMR:s modell är bara 0,553, och F-värdet är klart lägre, 6,180. Två variabler, döda och nybyggda flerbostadshus, är insignifikanta, och koefficienten för flerbostadshus har dessutom fel tecken (den är negativ när den bakomliggande teorin säger att den borde vara positiv). Den logaritmerade modellen har - och F-värden som ligger mellan dem för kommunens egen modell och TMRs modell. Tabell 5.1: Jämförelse mellan regressionsmodellerna Kommunens ordinarie regressionsmodell Kommunens regressionsmodell utan utflyttade TMR:s modell Logaritmerad modell utan utflyttade 0,726 0,723 0,553 0,697 F 13,664 16,715 6,18 14,699 Signifikansnivå för F- värdet,000 b,000 b,001 b,000 b Mean error, 2006-2012 299 279 551 1 120 MAD, historiska data 339 343 310 659 MAD, 2006-2012 320 311 551 1 120 MSE, historiska data 188 385 190 110 144 877 597 555 MSE, 2006-2012 137 676 125 216 345 789 1 326 610 MAPE, historiska data 9,18 % 9,18 % 8,80 % 16,61% MAPE, 2006-2012 7,24 % 7,02 % 12,24% 25,20% AIC, historiska data 272 301 260 705 213 361 819 452 AIC, 2006-2012 199 004 171 715 509 243 1 819 236 SIC, historiska data 368 178 337 632 281 612 1 061 249 SIC, 2006-2012 269 074 222 383 672 143 2 356 041 Fetstil markerar den modell som är bäst för just den teststatistikan. Kommunens regressionsmodell med och utan utflyttade ligger mycket nära varandra för alla teststatistikor. För samtliga testatistikor har TMR bäst resultat för historiska data, medan kommunens regressionsmodell utan utflyttade har bäst resultat för att prognostisera perioden 2006-2011. Att TMR har bäst resultat för historiska data beror möjligen på att den skattats utifrån en kortare tidsserie, från 1975 istället för 1968. Den modell som bygger på logaritmerade data har sämst resultat för samtliga teststatistikor. 31
Inrikes inflyttade enligt fyra olika ARIMAmodeller 6 000 5 000 Inrikes inflyttade 4 000 AR (1) 3 000 AR (1) 1980-2005 2 000 1 000 I(1) logaritmerad AR(1) 1968-2005 0 2000 2002 2004 2006 2008 2010 2012 Av de ARIMA-modeller jag anpassat till variabeln inrikes inflyttning har den ARmodell som skattats för perioden 1980-2005 bäst anpassning till historiska data, både MAD, MSE och MAPE är lägre än för AR-modellen som anpassats till hela tidsserien 1968-2005. Detta beror antagligen på att den modellen baseras på en kortare tidsperiod när svängningarna i tidsserien varit mindre. Av de fyra mått som gäller prognossäkerhet för perioden 2006-2012 är AR (1)-modellen som skattats utifrån 1968-2005 bäst för samtliga. Även den logaritmerade tidsserien har ett i princip identiskt resultat. Den AR(1)-modell som skattats utifrån perioden 1980-2005 har bäst anpassning till historiska data, men gör störst underskattningar för perioden 2006-2012. Tabell 5.2: Jämförelse mellan ARIMA-modellerna AR (1) 1968-2005 I(1) AR (1) 1980-2005 logaritmerad AR(1) 1968-2005 Mean error, 2006-2012 172 312 600 177 MAD, historiska data 336 314 258 336 MAD, 2006-2012 202 312 600 206 MSE, historiska data 232 139 189 002 116 456 235 705 MSE, 2006-2012 65 644 155 915 443 105 69 598 MAPE, historiska data 8,78 % 8,36 % 7,86 % 8,80 % MAPE, 2006-2012 4,36 % 6,73 % 13,12% 4,44 % 32
1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 Av de regressions- och ARIMA-modeller som skattats för variabeln inflyttade direkt är Mean Error för prognosen lägst med 172 för den AR-modell som skattats för perioden 1968-2005. Även den logaritmerade AR-modellen har liknande värden. Av regressionsmodellerna har modellen utan utflyttade bäst resultat, med 279. MAD för historiska data är bäst för AR-modellen som skattats för perioden 1980-2005, och näst bäst för TMR:s modell. MAD för prognosen är däremot bäst för AR-modellen som bygger på perioden 1968-2005 och den logaritmerade serien, och näst bäst för regressionsmodellen utan utflyttade och för I (1)-serien. MSE för historiska data är lägst för AR-modellen som skattats för 1980-2005, och näst bäst för TMR:s regressionsmodell. För prognosen är det däremot AR-modellen för 1968-2005 som är bäst. Den logaritmerade AR-serien är nästan lika bra, och tredje bäst är regressionsmodellen utan utflyttade. För MAPE för historiska data har samtliga ARIMA-modeller lägre värden än samtliga regressionsmodeller, och bäst är den ARmodell som skattats från 1980 och framåt. För prognosen är det bara AR-modellen som skattats från 1968, både i sig själv och logaritmerad, som genererar värden på under fem procent. Även I(1)-modellen är bättre än den bästa av regressionsmodellerna, den utan utflyttade. Kort sagt är har den AR-modell som skattats för perioden 1980-2005 bäst anpassning till historiska data, men för att göra prognoser är den AR-modell som skattats för hela perioden 1968-2005 bäst på samtliga undersökta teststatistikor. Fem olika modeller har också skattats utifrån variabeln inflyttade per 1000 invånare. Tre av dem är regressionsmodeller, och två av dem är ARIMA-modeller. 160 Prognoser för inflyttade per 1000 invånare, regression 140 120 100 80 60 40 infl_per_1000 Modell med alla variabler Modell utan utflyttade och födda Modell utan intercept 20 0 De tre regressionsmodellerna ligger alla mycket nära varandra, men överskattar inflyttningen något i de flesta fall. Detta är en skillnad mot regressionsmodellerna där 33
1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 inflyttade inte ställts i relation till befolkningen. Där underskattades antalet inflyttade konsekvent. 160 Prognoser för inflyttade per 1000 invånare, ARIMA 140 120 100 80 60 40 infl_per_1000 AR(1), 1968-2005 AR (1), 1980-2005 20 0 När de två AR-modellerna för variabeln inflyttade per 1000 invånare jämförs med varandra syns att den modell som skattats utifrån hela perioden 1968-2005 konsekvent överskattar inflyttningen något. AR-modellen som skattats enbart utifrån perioden 1980-2005 hamnar istället lite för lågt, men inte lika mycket. När de tre regressionsmodellerna och de två ARIMA-modellerna som skattats för variabeln inflyttade per 1000 invånare jämförs med varandra, har regressionsmodellen där samtliga variabler är med bäst resultat för mean error. På alla andra teststatistikor har den AR (1)-modell som skattats för perioden 1980-2005 både bäst anpassning till historiska data och bäst värden för prognosen. Samtliga regressionsmodeller som anpassats direkt till variabeln inrikes inflyttade underskattar inflyttningen i prognoserna för 2006-2012. I regressionsmodellerna för variabeln inflyttade per 1000 invånare finns däremot inget lika tydligt mönster, modellerna träffar över målet vissa år och under målet andra år. När jag jämför teststatistikorna i tabell 5.1 och tabell 5.3, dvs. regressionsmodeller som skattats direkt för variabeln inrikes inflyttade mot modeller som skattats för variabeln inflyttade per 1000 invånare är, F och MAPE de enda teststatistikor som är skaloberoende, dvs går att jämföra mellan modeller med olika målvariabler. För historiska data är MAPE lägst för landstingets regressionsmodell med 8,8 procent, medan de modeller som skattats för inflyttning per 1000 invånare har MAPE på 10 och 11 procent. Vad gäller prognosen är däremot MAPE lägre för de modeller som skattats med inrikes inflyttade per 1000 invånare, för modellen med alla variabler är MAPE 4,87 34
procent, och för övriga modeller kring 5 procent. Bland de modeller som skattats direkt utifrån variabeln inflyttade är MAPE som lägst 7 procent, för kommunmodellen utan utflyttning. är som högst för modellen inflyttade per 1000 invånare, alla variabler, med 0,887. Även samma modell utan utflyttade och födda har en determinationskoefficient på över 0,8 (för den interceptlösa modellen är inte jämförbart med övriga). Även F-värdena är högre för de modeller som bygger på variabeln inflyttade per 1000 invånare. Tabell 5.3: Jämförelse mellan regressions- och ARIMA-modeller med inrikes inflyttade per 1 000 invånare. Inflyttade per 1000, alla variabler Inflyttade per 1000, utan utflyttade och födda Inflyttade per 1000, utan intercept 0,887 0,882 0,986 F 40,422 61,458 578,632 Signifikansnivå för F-värdet 0,000 0,000 0,000 AR(1)- modell, inflyttade per 1000 invånare, för perioden 1968-2005 AR (1)- modell, inflyttade per 1000 invånare, skattad för perioden 1980-2005 Mean error, 2006-2012 -1,770-2,809-2,783-3,843 2,665 MAD, historiska data 6,702 7,137 7,138 7,359 3,830 MAD, 2006-2012 2,867 3,015 3,000 3,847 2,825 MSE, historiska data 74,951 78,259 78,260 154,237 25,400 MSE, 2006-2012 12,598 18,421 18,218 21,443 9,966 MAPE, historiska data 10,56% 11,06% 11,06% 9,80 % 7,54 % MAPE, 2006-2012 4,87 % 5,08 % 5,06 % 6,66 % 4,72 % AIC, historiska data 109,42 102,54 97,15 AIC, 2006-2012 18,39 24,14 22,62 SIC, historiska data 148,41 127,48 115,63 SIC, 2006-2012 24,95 30,01 26,92 Fetstil markerar bäst värden på just den teststatistikan. Kursivt markerar att värdena inte är jämförbara. 35