Kandidatuppsats Statistiska institutionen

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2013:1 Prognosmodell för den relativa arbetslösheten i Sverige Forecast model for the relative unemployment rate in Sweden Robin Westerlund och Ashkan Heidari Självständigt arbete 15 högskolepoäng inom Statistik III, vt 2013 Handledare: Göran Rundqvist

2 Sammanfattning Uppsatsens syfte är att studera ett antal olika parametrar för att kunna ta fram en kortsiktig prognosmodell för den relativa arbetslöshetsnivån på den svenska arbetsmarknaden. I första steget har rådata för de potentiellt användbara variabler samlats in, som i sin tur sedan har bearbetats och analyserats med hjälp av en multipel regressionsmodell. Som beroende variabel har Statistiska centralbyråns arbetskraftsundersökning (AKU) använts och som oberoende variabler har officiellt publicerad data för variabler där sambandet med arbetslöshet stöds med ekonomisk teori använts. Förutom inflationen som enligt många ekonomiska teorier påverkar arbetslösheten, har vi även studerat andra variabler som ett index för hur många jobbannonser som är publicerade på internet för tillfället, konjunkturbarometern och varselstatistik. Resultatet har blivit en regressionsmodell med en förklaringsgrad på 79,3% procent, vilket vi anser som relativt hög och motsvarande den nivån vi förväntade oss vid arbetets inledning. Modellen har utvärderats med hjälp av korsvalidering, vilket även det har gett goda resultat. 2

3 Innehållsförteckning 1 lnledning Bakgrund Syfte Disposition Utbud och efterfrågan på arbetsmarknaden Definition av variabler Beroende variabel Oberoende variabler som testats Metodologi Regressionsmodell: Grundläggande antaganden Tidsperiod Tidsförskjutningar Val av variabler Stegvis regression Diagnostik Linjäritet Normalfördelning Outliers Oberoende residualer Homoskedasticitet Multikolinjäritet Utvärdering av modellen Korsvalidering Diskussion och slutsats Förslag på nya uppsatser Referenser Appendix A-E

4 1 lnledning 1.1 Bakgrund Sverige har historiskt sett haft en relativt hög arbetslöshet, något som delvis är en följd av ett högt skattetryck i kombination med en dyr välfärd sedan många decennier tillbaka i tiden. Arbetslösheten är ett av dem största samhällsproblemen, inte bara på grund utav produktionsbortfallet och de ekonomiska skadorna som vållas utan även på grund av sociala problem och de hälsoproblem som uppkommer då det finns en stor risk att de drabbade hamnar utanför samhället. I november 2012 var 8,4 % av den svenska arbetskraften arbetslösa, vilket motsvarar cirka personer. Den totala arbetskraften bestod vid samma tillfälle av cirka personer. Detta är säsongsrensade siffror, vilket vi framöver kommer att använda oss av i uppsatsen. Arbetslösheten är således ett viktigt mått som påverkar den nationella finansmarknaden i hög grad och en prognos av den kan berätta hur både arbetsmarknadsutsikterna och hela den svenska ekonomin kommer att se ut framöver. 1.2 Syfte Syftet med denna uppsats är att skatta en regressionsmodell som kan prognostisera den relativa arbetslösheten för den kommande månaden. Alltså behöver vi hitta variabler som kan påverka sysselsättning på kort sikt. Målet är att skapa en regressionsmodell med så hög förklaringsgrad som möjligt, där större delen av variationen i den beroende variabeln förklaras av en eller flera oberoende variabler samt att alla nödvändiga antaganden är uppfyllda. En prognosmodell som bygger på regression är uppbyggd på historiska samband mellan den beroende variabeln och den eller de oberoende variablerna. Det finns alltså ingenting som säger att dessa samband måste vara lika starka eller se likadana ut i framtiden. I vårt fall måste vi ta hänsyn till att det kan bli extra osäkert i ekonomiskt turbulenta tider likt de som rått under de senaste åren i och med finanskrisen som slog till under år

5 1.3 Disposition Denna rapport har strukturerats så att utbud och efterfrågan på arbetsmarknaden beskrivs i kapitel två. I kapitel tre presenteras den beroende och de oberoende variablerna och hur sambandet mellan dessa bör se ut redogörs. I kapitel fyra diskuteras metodologin för uppsatsen och de grundläggande antagandena för multipel regression presenteras. Vidare testas de oberoende variablerna i ett första steg och stegvis regression, som är vår urvalsprocess för modellen, presenteras och genomförs. I kapitel fem testas modellantagandena samt att en del ytterligare tester genomförs. Modellen utvärderas sedan i kapitel sex och i kapitel sju summeras slutligen uppsatsen. 2 Utbud och efterfrågan på arbetsmarknaden Arbetsmarknaden har som alla andra marknader ett utbud och en efterfrågan. Utbudet utgörs av dem som är kapabla och villiga att ta ett jobb och efterfrågan bestäms av arbetsgivare som skapar jobben och anställer personal. Priset på arbetskraft är lön och sysselsättning och arbetslöshet bestäms av samspelet mellan dessa komponenter. Det finns ett flertal faktorer som förändrar utbud och efterfrågan på arbetsmarknaden. Enligt Olofsson & Wadensjö (2005) har två utvecklingsaspekter på arbetsmarknadens efterfråga presenterats. Den första är ökad internationell handel som är en följd av minskade handelshinder vilket ökar konkurrensen. Den andra är teknologiska förändringar. Teknisk utveckling kan leda till att företagen sparar på kapital eller arbetskraft. En annan orsak till arbetslöshet kan vara att arbetskraftens kompetens inte stämmer överens med arbetsmarknadens efterfråga, så kallad strukturell arbetslöshet. Det tar även tid att matcha arbetarna och jobben, så kallad friktionsarbetslöshet. Geografiska avstånd och tiden som det tar för arbetarna att byta sektorer orsakar också friktionsarbetslöshet. Så länge utbud och efterfrågan på arbetsmarknaden förändras så är friktionsarbetslösheten oundvikligt (Krugman & Obstfeld, 2009). Arbetslösheten kan även bero på att regeringen sätter höga reallöner. Lönereglering kan också driva arbetslösheten, så kallad klassisk arbetslöshet (Olofsson & Wadensjö, 2005). 5

6 3 Definition av variabler 3.1 Beroende variabel Den relativa arbetslösheten i Sverige, mätt i procentenheter: Den relativa arbetslösheten mäter andelen sysselsatta under en viss månad i procentenheter. Andelen arbetslösa beräknas genom antalet arbetslösa personer dividerat med antalet personer i den totala arbetskraften. Den data som vi har använt oss av kommer från Statistiska centralbyråns arbetskraftsundersökning (AKU). Vilken är en stickprovsundersökning som görs med hjälp av telefonintervjuer av slumpvist utvalda personer varje månad. Som sysselsatta räknas de personer (15-74 år) som tillhör arbetskraften och som har arbetat minst en timme under gällande referensvecka. Antingen avlönad eller som medhjälpare till en person som ingår i samma hushåll. Även personer som var tillfälligt frånvarande under referensveckan räknas till arbetskraften, detta oavsett om frånvaron har varit betald eller ej. Den relativa arbetslösheten publiceras av Statistiska centralbyrån i mitten av varje månad. Statistik sedan i Mars 2007 kan ses i figur 1 nedan. Figur 1. 6

7 3.2 Oberoende variabler som testats Nedan går vi igenom variablerna vi har testat för att konstruera vår modell. Vi nämner kort lite bakomliggande fakta kring dem, samt när och av vilka datat för dem publiceras. Spridningsdiagram för samtliga oberoende variabler plottat mot den beroende variabeln finns i Appendix A. Inflation (KPI): Inflation betyder att priset på samtliga varor i ett land ökar i och med att penningvärdet minskar, detta på grund av en ökad penningmängd. Alla prisökningar behöver dock inte bero på inflation utan kan exempelvis även vara så kallade relativprishöjningar. Flaskhalsar och en efterfrågan som överträffar produktionen är exempel på anledningar till dessa (Olofsson & Wadensjö, 2005). Enligt ekonomiska samband minskar arbetslösheten om inflationen ökar. Detta beror på att människor får mer pengar och då har råd att konsumera mera. En ökad konsumtion leder i sin tur till fler arbetstillfällen. Om inflationen å andra sidan sjunker kommer människor att få mindre pengar och då inte ha råd att konsumera i samma utsträckning. Sambandet mellan inflation och arbetslöshet kan visas i modeller som Phillipskurvan (figur 2). Figur 2. Sveriges inflation är för tillfället bland de lägsta i Europa, vilket tyder på en stabil ekonomi. En hög inflation å andra sidan tenderar ofta att vara ojämn vilket leder till osäkerhet i ekonomin. Nackdelen med en låg inflation är däremot att det som vi nämnt tidigare förknippas med en hög arbetslöshet. Detta eftersom det råder en lägre efterfrågan, vilket i 7

8 sin tur leder till en lägre prisnivå och i takt med det en lägre inflation. Det är därför viktigt att inflationen justeras och hålls på en stabil nivå genom finans- och penningpolitik. Riksbanken har till uppgift att hålla inflationen på en nivå runt två procent, detta sköts med hjälp av styrräntan. Eftersom inflationen, genom styrräntan, används som ett verktyg att styra arbetslösheten med tror vi att det kan vara en användbar variabel i vår modell. Vi har valt att kartlägga inflationen i vad som kallas konsumentprisindex (KPI), vilket är det mest användbara måttet för prisutveckling i Sverige och avser att mäta hela den inhemska produktionen och hur priserna för den privata konsumtionen utvecklar sig. Indexet beräknas och publiceras månatligt av Statistiska centralbyrån. Monster Employment Index (MEI): Monster Employment Index mäter hur många lediga arbetstillfällen det finns för tillfället och baseras på en omfattande mätning av antalet platsannonser online. Indexet har publicerats sedan januari år 2007 i Sverige och resultaten publiceras i mitten av varje månad, för föregående månad, av Moster Worldwide Inc. Indexet granskas oberoende av Research America Inc. och redogör för antalet platsannonser på Internet inom olika yrkeskategorier, sektorer och regioner. Vi tittar dock endast på siffrorna generellt för Sverige. Om indexet ökar betyder det att fler annonser är publicerade och att efterfrågan av arbetskraft har ökat. Vi antar att det tyder på att fler arbetsgivare är redo att rekrytera, vilket leder till att den relativa arbetslösheten bör sjunka. Om indexet istället minskar tyder det istället på att behovet av arbetskraft har minskat. Indexet publiceras den andra tisdagen varje månad vilket gör att datumet kan variera en del. För oss är det dock inget problem, då vi vill prognostisera nästkommande månads arbetslöshet. 8

9 Konjunkturbarometern hushåll (CCI): I hushållsbarometern intervjuas varje månad 1500 hushåll med hjälp av telefonintervjuer om deras syn på både deras egna och den svenska ekonomin. Nya urval görs varje månad där man ser till att kön, ålder och olika regioner blir korrekt representerade. Målpopulationen är den svenska allmänheten mellan år och sedan år 1993 har undersökningen publicerats varje månad (Konjunkturinstitutet, ( ). Ett högt index tyder på att hushållen ekonomiskt sett ser positivt på framtiden, medan ett lågt index tyder på att hushållen ser negativt på framtiden. Konjunkturbarometern företag (KBF): I företagsbarometern, även kallad barometerindikatorn, tillfrågas cirka 6000 svenska företag om vad de har för förväntningar på den närmsta framtiden och om deras ekonomiska välmående. Respondenterna uppmanas att bortse från säsongsmässiga variationer i svaren, vilket exempelvis kan vara att försäljningen går ner under sommarmånaderna. Denna korrigering är dock inte alltid tillräcklig, därför säsongsrensas alla tidsserier med undantag för försäljningspriserna (Konjunkturinstitutet, ). Om indexet är högt tyder det på att företagen ser positivt på framtiden och då kommer att ha möjlighet att rekrytera. Ett lågt index å andra sidan visar en tro om negativ utveckling och företagen kommer därmed troligen inte att ha möjlighet att rekrytera. Antal varsel under det senaste året (VAR): Varje månad publicerar arbetsförmedlingen föregående månads inkomna varsel. En arbetsgivare är skyldig att lämna varsel vid nedskärning av minst fem arbetstagare, det vill säga om fyra eller färre medarbetare blir uppsagda tas detta inte med i statistiken. Här har vi valt att testa den relativa arbetslösheten mot antal varslade från den aktuella månad och ett år tillbaka i tiden istället för endast den föregående månaden. Detta eftersom ett högt antal varslade en månad med största sannolikhet kommer att påverka den relativa arbetslösheten ett flertal månader framöver. Denna variabel bör inte ge några större utslag med en så kort tidsförskjutning som två till tre månader. Detta eftersom en arbetsgivare måste meddela om varslet till 9

10 arbetsförmedlingen i god tid innan den eventuella uppsägningen sker. Detta eftersom de ska ha möjlighet att ta upp förhandlingar med facket. År var det cirka 60 % av de varslade som sades upp inom sex månader. Ibland kan förhandlingarna ta ännu längre tid. Med detta i bakhuvudet har vi ändå valt att testa variabeln, men varit förberedda på att behöva testa den med en längre tidsförskjutning. 4 Metodologi Som berörts tidigare är syftet med uppsatsen att prognostisera den svenska arbetslösheten med hjälp av en regressionsmodell, vilken ska uppnå en så hög förklaringsgrad som möjligt. För analys har dataprogrammen IBM SPSS Statistics, SAS (Statistical Analysis Software) och Microsoft Excel använts. 4.1 Regressionsmodell: I en regressionsmodell har vi en beroende variabel som betecknas med Y i. Vi har en eller flera oberoende variabler som betecknas med X i. Dessa oberoende variabler ska förklara variationen i den beroende variabeln (Y). I den enkla linjära modellen har vi endast en förklarande variabel (Xi). I annat fall finns det flera förklarande variabler. En sådan regressionsmodell kan skrivas som Y i = 0 + 1X 1i + + kx ki + i Koefficienten 0 är interceptet (värdet av E (Y i ) när X 1, X k = 0). 1, k är partiella koefficienter. De är förändringshastigheten i E (Y i ) per enhet förändring i X 1i, X ki. Vi skattar regressionskoefficienterna genom minsta kvadratmetoden därför att vi vill ha så små residulaer som möjligt. Denna metod förutsätter att den bästa skattade modellen är modellen som har de minimala kvadrerade avvikelserna från dess sanna värden. Vi försöka alltså att hitta värden för 0, 1 k som minimerar summan av kvadrerade residualerna: = n = i = i - 0-1X 1i - - kx ki ] 2 10

11 4.2 Grundläggande antaganden Antal antaganden om en regressionsmodell varierar beroende på vilken litteratur som refereras till och är oftast 5-9 till antalet. Här går vi igenom de fem grundläggande antaganden som gäller för multipel regression enligt Kleinbaum, Kupper, Nizam & Muller (2008). Senare i kapitlet presenteras även ett par ytterligare tester vi genomfört: 1. För varje specifik kombination av de oberoende variablerna (X 1,, X k ) är Y en slumpmässig variabel med en viss sannolikhetsfördelning och ett ändligt medelvärde och varians. 2. Linjär regressionsmodell: De oberoende variablerna och den beroende variabeln har ett linjärt samband. YIX1, Xk = 0 + 1x kx k Eller Y i = 0 + 1X 1i + + kx ki + i 3. X-värdena ska vara oberoende av feltermen ( 1 ). 4. Variansen för I givet X 1,, X k ska vara konstant för samtliga observationer. Detta är kravet på homoskedasticitet. Var( i X 1,, X k ) = 2 Detta antagande kan verka restriktivt och svåruppfyllt. Dock måste man bara utreda förekomsten av heteroskedasticitet om det klart och tydligt tyder på att datan inte är homoskedastisk. En liten förekomst har inte något större negativ inverkan på resultatet. 5. För varje fix kombination av X 1, X 2,, X k, är variabeln Y normalfördelad. Vilket kan skrivas: Y N( Y X1, X2,, Xk, 2 ) 11

12 4.3 Tidsperiod Data för minst tio år tillbaka i tiden finns tillgängligt för alla våra variabler som vi har valt att testa förutom Monster Employment Index (MEI), som inte började publiceras förrän i januari Vi har således valt detta som startdatum för samtliga variabler då vi anser att det är fullt tillräckligt för vårt ändamål och ger oss 70 månaders observationer. 4.4 Tidsförskjutningar För att modellen ska vara till någon praktisk nytta måste den månatliga statistiken för de oberoende variablerna publiceras före det att värdet för den beroende variabeln publiceras. När detta inte uppfylls får vi istället undersöka om det finns samband mellan variablerna vid en viss tidsförskjutning. Detta har även bejakats när vi valt ut de oberoende variablerna som vi testat. Med andra ord, eftersom januaris data för våra oberoende variabler inte publiceras förrän i februari kan vi då göra en prognos för tidigast mars, den kortaste möjliga tidsförskjutningen blir således två månader. Valet av tidsförskjutning har gjorts genom att studera regressionkoefficienten 1 när den oberoende variabeln förskjuts ett steg i taget för att sedan välja ut den tidsförskjutningen med den högsta förklaringsgraden och det mest signifikanta F- och T-värdet. 12

13 4.5 Val av variabler Variabel Tidsperiod B-värde F-värde T-värde Tidsförskjutning Corr R^2 Sign KPI Mar 07-Nov 12-0,474 60,731-7,793 t-2-0,687 0,472 <0,000 CCI Mar 07-Nov 12-0,049 58,092-7,622 t-12-0,679 0,461 <0,000 0, VAR Mar 07-Nov ,373 9,456 t-5 0,754 0,568 <0,000 KBF Mar 07-Nov 12-0,056 63,001-7,937 t-10-0,693 0,481 <0,000 MEI Mar 07-Nov 12-0, ,661-13,025 t-2-0,845 0,714 <0,000 Kritiska t-värdet på 95% signifikansnivå är 1,994 för ett dubbelsidigt test med 70 frihetsgrader. Vi kan alltså förkasta nollhypotesen på 95% signifikansnivå för samtliga av våra variabler eftersom alla t-värden är mer extrema än -1,994 och 1,994. Vi kan även se att alla p-värden är lägre än 0,05, vilket stärker förkastandet av nollhypoteserna på den givna signifikansnivån. Att våra variabler är signifikanta betyder att vi med 95% säkerhet kan säga att koefficienterna inte är 0, och därmed att samtliga oberoende variabler med 95% säkerhet har effekt på den beroende variabeln. Samtliga variabler kan alltså tas vidare för fortsatta tester. 4.6 Stegvis regression För att välja ut de mest lämpliga variablerna till modellen har stegvis regression använts, vilket är en vanligt förekommande metod för val av bästa modell. Stegvis regression kan sägas vara en kompromiss mellan framåt- och bakåtvalsprincipen där man inkluderar och exkluderar variabler till modellen steg för steg, så länge som man får en relevant ökning av den justerade förklaringsgraden eller tills att inga variabler kan läggas till eller tas bort från modellen. 13

14 Mått som F-värde och medelfel är även värda att studera vid val av modell. Det finns inget absolut mått som säger hur bra modellen är, utan snarare får man göra en avvägning av dem tillsammans. Steg ett i metoden är att välja ut den variabeln med högst korrelation med den beroende variabeln och sedan testa att den är signifikant på den valda signifikansnivån. Skulle den inte vara signifikant kan det fastställas att det inte kan skapas någon tillräckligt bra modell med hjälp av variablerna. Efter att den första variabeln testats väljs variabeln med högst förklaringsgrad av de resterande variablerna ut och adderas till modellen vars observerade F-värde sedan testas mot det kritiska F-värdet. Även denna gång måste den nya modellens F- värde vara signifikant för att variabeln ska inkluderas i modellen. En variabel som tidigt har lagts till i modellen kan senare exkluderas på grund av dess relation till andra variabler som lagts till i modellen efter att variabeln i fråga inkluderades. Därför väljs även en signifikansnivå därvid variabeln exkluderas från modellen om det observerade F-värdet underskrider det kritiska värdet (Kleinbaum et al. 2008). Vi har valt p- värdet 0,05 (α1) som gräns för att inkludera en variabel och 0,10 (α2) som gräns för att exkludera en variabel från modellen. Teststatistikan beräknas som: F obs = F(X k+1, X 1, X k ) = SRR(X k+1, X 1, X k )/ MSE(X 1,, X k,x k+1 ) En variabel inkluderas om: F obs > F (α1) (1, n-k-2) Och exkluderas om: > F (α2) (1, n-k-2) > F obs Fördelen med stegvis regression förutom att det är lätt genomföra är att urvalsprincipen inte tar med icke signifikanta variabler samt även motverkar att variabler som är korrelerade med varandra inkluderas i modellen, vilket minskar risken för multikolinjäritet (Kleinbaum et al. 2008). Risken med stegvis regression är dock att det kan ge en falsk trygghet och skulle alla variablerna vara starkt korrelerade med varandra finns det risk att 14

15 man får ett resultat där alla variabler felaktigt är inkluderade i modellen. Det krävs även noggrannhet vid inkluderandet och exkluderandet av variabler då det kan vara värt att bejaka och göra en individuell bedömning om en variabel precis missat tröskelvärdet. Nedan kan vi studera modellen vi erhållit. I tabell 1a visas att förklaringsgraden för modellen hamnar på 72,5% och i tabell 1b syns att båda variablerna som behålls i modellen är signifikanta på 5% signifikansnivå. Vi kan även notera, genom att studera t-värdet, att MEI är den variabeln som bidrar mest till modellen. Tabell 1a Model R R Square Adjusted R Square Std. Error of the Estimate 1 0,856a 0,733 0,725 0,55063 a. Predictors: (Constant), VAR, MEI b. Dependent Variable: Arb Tabell 1b Model Unstandardized Coefficients Std- Coefficients t Sig. B Std. Error Beta (Constant) 11,063 0,761 14,537 0,000 1 MEI -,0026 0,004-0,666-6,432 0,000 VAR 0, ,000 0,226 2,187 0,032 a. Dependent Variable: Arb 15

16 5 Diagnostik Nedan ska vi presentera ett par tester som hjälper oss att utvärdera vår modell. Om det visar sig att modellen inte uppfyller kraven får åtgärder utföras för att förbättra modellen. 5.1 Linjäritet För att granska linjäritetsantagandet plottar vi den beroende variabeln mot de oberoende variablerna för att bedöma huruvida sambandet är linjärt, kvadratiskt eller annat. Samtliga variabler uppmäter ett approximativt linjärt samband med den beroende variabeln. Dessa figurer hittas i Appendix A. 5.2 Normalfördelning Normalitetsantagandet avser att den beroende variabeln är normalfördelad för varje fix kombination av de oberoende variablerna. Antagandet är inte nödvändigt för att skatta regressionsparametrarna eller om vi ska justera totala variationen. Dock behövs det att detta antagande ska vara uppfyllt för att testa huruvida konfidens- och prediktionsintervaller är signifikanta. Dessutom måste det vara uppfyllt om vi ska använda oss av tester som Durbin- Watson s test, vilket vi har gjort i detta arbete. Det enklaste sättet att undersöka normalitetsantagandet är att studera histogram och QQplot för variabeln. I ett QQ-plot jämförs de observerade värdena med de förväntade värdena från normalfördelningen, och om feltermerna följer en normalfördelning så ska observationerna ligga längs med normalfördelningslinjen. Längre fram går vi igenom ytterligare tester, för bland annat outliers, som kan förbättra normalfördelningen. Q-Q-plot och histogram finns i graf 4 respektive 7 i Appendix B. Det finns inte heller något krav på att de oberoende variablerna ska vara normalfördelade. Däremot medför snedfördelade variabler en ökad risk att residualerna blir snedfördelade, vilket i sin tur leder till att man underskattar modellens osäkerhet. (Montgomery, 2005). I histogrammet i appendix C (Figur D.2) kan vi tydligt se att variabeln varsel är snedfördelad och därmed kan vara i behov av att transformeras. Nedan har vi testat att ta den naturliga 16

17 logaritmen av variabeln, vilket innebär att man komprimerar avståndet mellan värdena högre upp på skalan som i sin tur ofta gör variabeln mer normalfördelad (Montgomery, 2005). Även om variabeln fortfarande är aningen snedfördelad efter transformeringen så är fallet bättre än tidigare. Av tabell 2a till 2c nedan framgår att variabeln fortfarande signifikant med en betydligt högre förklaringsgrad än tidigare både för variabeln individuellt och modellen, vilket gör att vi väljer att fortsätta med den transformerade variabeln istället för med originalvariabeln. Histogram för MEI, Varselstatistik och den logaritmerade varselstatistiken finns i Appendix C. Tabell 2a - Model R R Square Adjusted R Square Std. Error of the Estimate 1 0,833a 0,694 0,690 0,58485 a. Predictors: (Constant), ln_var Tabell 2b 1 Model Unstandardized Coefficients Std-Coefficients t Sig. B Std. Error Beta (Constant) -11,050 1,496-7,386,000 ln_var 1,704 0,137 0,833 12,425,000 Tabell 2c Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 0,874a 0,763 0,756 0, ,514 a. Predictors: (Constant), MEI, ln_var b. Dependent Variable: Arb 17

18 5.3 Outliers En outlier är en observation som är väldigt annorlunda i förhållande till övriga observationer i urvalet. Antingen har den en stor residual eller så ligger den väldigt långt ifrån övriga observationer. Residualer innefattar avvikelserna mellan det sanna värdet av Y, (Y i ) och dess skattade värde från regressionsmodellen ( i). En sådan iakttagelse exkluderas, speciellt om urvalsstorleken är liten, eftersom det då avsevärt kan förändra resultaten på regressionsanalys (Gujarati, 2009). Förekomst av outliers medför en större risk att datat avviker från en normalfördelning. Dessutom förbättras oftast uppfyllnadsgraden av de övriga antagandena när outliers exkluderas. Enligt Kleinbaum et al. (2008) kan det upptäckas två typer av outliers; Outliers i prediktorrummet och outliers i responsrummet. För att bedöma om ett värde är en outlier i responsrummet tittar vi på resultatet vi fått från Jackknife-testet. Observationer som får en Jackknife-residual som är mer extrem än det kritiska värdet hämtat från t-tabellen kan klassificeras som en outlier. En observation kan även vara outlier i både prediktor- och responsrummet, vilket är ett tydligt tecken på att observationen bör exkluderas. För att bedöma om ett värde är en outlier i prediktorrummet tittar vi istället på spridningsdiagrammet med Leverage-värden. Värden som ligger utanför gränsen som bestäms av 2(k+1)/n anses vara outliers i prediktorrummet, där k = antalet oberoende variabler och n = antalet observationer. För vår modell blir det kritiska värdet: 2(2+1)/70 = 0,0857 Vi kan dra slutsatsen att observationerna 1, 3, och 36 är outliers i responsrummet. Detta eftersom de har ett mer extremt observerat Jackknife- värde än det kritiska värdet på 2,00 hämtat ur t-tabellen på 5% signifikansnivå med 60 frihetsgrader (se Appendix E). Eftersom antalet outliers är få i förhållande till det totala antal observationerna samt att de ej ligger så långt ifrån övriga observationer är det inget måste för oss att exkludera observationerna från modellen. Vi testar dock att köra regressionen utan dem. 18

19 Nedan i tabell 3a ser vi att den justerade förklaringsgraden ökar med hela 3,6% från 75,6% till 79,3% när outliers exkluderats. Efter att ha tagit hänsyn till risken att det linjära sambandet kan överskattas väljer vi ändå att fortsätta utan dessa observationer. I appendix B, figur 1, visas i diagram 2 och 3 Jackknife-residualerna samt Leverage-värdena innan outliers har exkluderats och i figur 2 finns motsvarande diagram plottade efter att outliers exkluderats. I diagram fyra och sju kan vi även se att observationerna rör sig mot att bli mer normalfördelat. Tabell 3a - Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 0,894a 0,799 0,793 0, ,648 a. Predictors: (Constant), MEI, ln_var b. Dependent Variable: Arb Tabell 3b - ANOVAa 1 Model Sum of Squares df Mean Square F Sig. Regression 57, , ,235 0,000b Residual 14, ,226 Total 71, a. Dependent Variable: Arb b. Predictors: (Constant), MEI, ln_var Tabell 3c - Coefficientsa Model Unstandardized Coefficients Std-Coefficients t Sig. B Std. Error Beta (Constant) 3,666 2,939 1,248 0,217 1 ln_var 0,669 0,218 0,333 3,061 0,003 MEI -0,023 0,004-0,592-5,437 0,000 a. Dependent Variable: Arb 5.4 Oberoende residualer En utav förutsättningarna i multipel regression är att det inte ska finnas autokorrelation mellan residualerna. Autokorrelation kan delas upp i positiv- och negativ autokorrelation. Positiv autokorrelation innebär att de positiva residualer oftast följs av ytterligare en positiv residual och att de negativa residualerna oftast följs av ytterligare negativ residual, medan 19

20 negativ autokorrelation innebär att en positiv residual oftast följs av en negativ residual och vice versa. (Gujarati, 2009). Det finns flera statistiska tester för att upptäcka autokorrelation som bl.a. Runs test, Durbin Watson d-test och The Breush-Godfrey test. Vi har valt att använda Durbin-Watson s test för vår regressionsmodell. Durbin-Watson d-statistikan definieras som: Det finns sex underliggande antaganden om d-statistikan (Gujarati, 2009): 1) Modellen måste ha ett intercept 2) De förklarande variablerna X i är icke stokastiska eller fasta i upprepande stickprov. 3) Residualerna är framställda av den första ordningens autoregressiva system. 4) Feltermen är normalfördelad ( i N) 5) Regressionen innehåller inte laggade värden på Y som oberoende variabler. 6) Det saknas ej observationer i datat. Hypoteserna är följande: H 0 : = 0 H A : > 0 När vi testar Monster Employment Index och den logaritmerade varselstatistiken mot arbetslösheten i Durbin-Watson s test får vi ett observerat värde på 0,650, vilket är lägre än den undre kritiska gränsen (dl) för autokorrelation. Detta indikerar på att positiv autokorrelation föreligger i modellen, vilket betyder att en månad med en överskattad prediktion ofta följs av ytterligare en månad med en överskattning och en månad med en underskattad prediktion ofta följs av ytterligare en underskattning. 20

21 Hämtat från Durbin-Watson signifikanstabell där n=70 och k=2: dl = 1,400 du = 1,514 Tabell 4 Model Durbin-Watson 1 0,648a a. Predictors: MEI, ln_var b. Dep Variable: Arb Autokorrelation är ett vanligt fenomen vid tidsseriedata där värdet på y är beroende av värdet av y t-1. Alltså där uppmätt y-värde är beroende av föregående värde. Detta beror ofta på en tröghet i den aktuella variablen. Extra stor risk är det då antalet observationer är litet. Problematiken vid förekomsten av autokorrelation är att man överskattar antalet frihetsgrader och därmed den statistiska signifikansen i modellen (Montgomery, 2005). Vi kan även misstänka att det finns en eller flera ytterligare variabel som påverkar både våra oberoende variabler och vår beroende variabel. Vi anser dock att vår modell är så pass robust att vi kan gå vidare med den utan någon korrigering. 21

22 5.5 Homoskedasticitet Homoskedasticitet innebär att variansen av residualerna är konstant. Det vill säga att variansen av feltermerna är densamma oavsett värdet på x-variablerna, vilket kan skrivas som: Var( i X 1,, X k ) = 2 Motsatsen till homoskedasticitet är heteroskedasticitet och innebär att variansen ovan ej är konstant. Uppenbar heteroskedasticitet kan upptäckas genom ett studera ett spridningsdiagram för y-variabelns residualer. Om det finns uppenbara skillnader i residualernas storlek för olika delar av regeressionslinjen är det stor risk att heteroskedasticitet förekommer (Gujarati & Porter, 2009). I vårt fall finns det ingen indikation på någon tydlig heteroskedasticitet (Se appendix D för spridningsdiagram). 5.6 Multikolinjäritet Multikolinjäritet betyder att det finns ett linjärt samband mellan vissa eller alla av x- variablerna. Nedan följer några konsekvenser av hög multikolinjäritet; 1. Det blir svårt att få exakta skattningar om OLS-skattningarna har stor varians och kovarians. 2. På grund av ovanstående kommer konfidensintervallet tendera att bli större vilket leder till att H 0 accepteras lättare, typ I fel (H 0 accepteras fast det borde förkastas). 3. På grund av stora varianser kommer t-värdet av en eller flera koefficienter att tendera att bli icke signifikanta statistiskt sett. 4. Trots låga t-värden kan modellens förklaringsgrad (R 2 ) vara väldigt hög. 5. OLS-skattningarna kan vara känsliga för små förändringar i datamaterialet. För att testa multikolinjäritet kan man till att börja med testa de bivariata korrelationerna mellan de oberoende variablerna. Korrelationen bör helst inte överstiga 0,7 och om värdet är högre än 0,9 är det ett tecken på att allvarlig multikolinjäritet kan förekomma (Gujarati & 22

23 Porter, 2009). Vi ser nedan i tabell 5 att den bivariata korrelationen mellan de två oberoende variablerna är relativ hög. Dock inte så pass hög att den indikerar allvarlig multikolinjäritet. Tabell 5 Correlations MEI ln_var Pearson Correlation 1-0,857** MEI Sig. (2-tailed) 0,000 N Pearson Correlation -0,857** 1 ln_var Sig. (2-tailed) 0,000 N **. Correlation is significant at the 0.01 level (2-tailed). 6 Utvärdering av modellen Den bästa modellen utifrån de variablerna vi valt att testa har en justerad förklaringsgrad på 79,3% och består av Monster Employment Index och den naturliga logaritmen av varselstatistik från arbetsförmedlingen. Detta är även efter vi exkluderat tre outliers i responsrummet efter test av Jackknife-residualerna. Korrelationen mellan våra beroende variabler har ett acceptabelt, men är ändå relativt högt värde. Vi vill dock ha kvar båda variablerna i modellen då vi uppnår en hög förklaringsgrad samt att en modell med två eller flera oberoende variabler generellt sett blir mer stabil och robust jämfört med en bivariat regression. Modellen är uppställd nedan: ARB t = 3,66-0,023MEI t + 0,669ln_var t Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,894a,799,793,47511,648 a. Predictors: (Constant), MEI, ln_var b. Dependent Variable: Arb Coefficientsa Model Unstandardized Coefficients Std-Coefficients t Sig. B Std. Error Beta (Constant) 3,666 2,939 1,248,217 1 ln_var,669,218,333 3,061,003 MEI -,023,004 -,592-5,437,000 a. Dependent Variable: Arb 23

24 6.1 Korsvalidering Vi har även testat vår modell med hjälp av korsvalidering. Om samma datamängd används både för skattning och validering kommer en högre modellordning att leda till en överskattad kurvanpassning. Detta är även en av anledningarna till att man ej endast bör använda sig av förklaringsgraden vid utvärdering av regressionsmodeller. Vi skattar då en extra regressionsmodell av alla jämna observationer som vi sedan testar att validera mot den andra hälften av observationerna. Anledningen till detta är att vi inte vill testa modellen mot en tidsperiod där de själva ingår, utan validera den mot en annan störsignal än då modellen skattades. Den extra regressionsmodellen kan skrivas: ARB t = 3,855-0,022MEI t + 0,659ln_var t Resultatet visas i linjediagrammet nedan i figur 3 där den prognostiserade arbetslösheten visas som den heldragna linjen och den faktiska arbetslöshen som den streckade. Figur 3 24

25 7 Diskussion och slutsats Prognosmodellen uppvisar en förklaringsgrad på strax under 80 procent, vilket vi tycker ska ses som relativt högt i sammanhanget. Drygt 20% av variationen i arbetslösheten är dock fortfarande inte förklarad, vilken givetvis begränsar modellens prognosförmåga. Bortsett från en del svårundviklig autokorrelation är modellens grundläggande antaganden uppfyllda. Vår slutsats blir därmed att modellen ger en god fingervisning om nästkommande månads arbetslöshetsnivå, med hänsyn till att den ej tar hänsyn till föregående månaders arbetslöshetsnivå. Det finns även skäl att tro att ett ännu bättre resultat kunnat uppnås om regressionen utförts på en tidsperiod då konjunkturen varit mer stabil än vad den har varit under de senaste åren. I nuvarande tillstånd kan man även ifrågasätta prognosens praktiska nytta då den månatliga förändringen av den relativa arbetslösheten vanligtvis inte uppgår till mer än ett par tiondels procentenheter. Som en fingervisning till om arbetslösheten kommer att öka eller sjunka den nästkommande månaden kan den dock vara användbar. 7.1 Förslag på nya uppsatser Då flera av variablerna som vi testade korrelerade bäst med den beroende variabeln med en tidsförskjutning på sex- ända upp till tolv månader tror vi att det finns goda möjligheter att göra en användbar prognosmodell på längre sikt med hjälp av dem. Vi har även bara valt en viss uppsättning variabler att testa och med stor sannolikhet finns det ytterligare variabler som skulle kunna adderas och både öka förklaringsgraden och stärka modellantagandena. Eftersom vår regressionsmodell prognostiserar den säsongsrensade arbetslösheten skulle det även vara intressant att se om man kan skapa en lika bra eller mer precis modell för den ojusterade arbetslösheten. Som vi nämnt tidigare misstänker vi även att de ekonomiskt turbulenta tiderna som rått under de senaste åren kan ha sneddrivit modellen. Det skulle därför vara intressant att se hur tidsperiodens längd påverkar resultatet. En ännu kortare period hade kanske gett ett mer precist resultat. Kanske att även en längre period med justering för konjunktursvängningar skulle vara intressant att undersöka. 25

26 8 Referenser Gujarati, N. Porter, C. (2009) Basic Econometrics, fjärde upplagan, McGraw Hill Higher Education. Kleinbaum, Kupper, Nizam & Muller (2008). Applied regression analysis and other multivariable methods, fjärde upplagan, Wadsworth Publishing Co Inc Krugman, P. Obstfeld, M. (2009) International Economics, åttonde upplagan, Pearson Education. Olofsson, J. Wadensjö, E. (2005) Arbetslöshet, första upplagan, SNS Förlag. Montgomery, D. (2005) Introduction to Statistical Quality Control, femte upplagan, Wiley Anders Pekkari (2000), Arbetskraft, sysselsättning, arbetslöshet mm utveckling under 1990-talet, AMS utredningsenhet prognossektionen, AMS rapport Statistiska Centralbyrån, ( ). Arbetskraftsundersökningarna, aspx Statistiska Centralbyrån, ( ). Konsumentprisindex, aspx Monster worldwide Inc, ( ). Monster employment index, Statistiska Centralbyrån, ( ). Konjunkturbarometern hushåll, aspx Arbetsförmedlingen, ( ). Varselstatistik, Konjunkturinstitutet, ( ). Konjunkturbarometern, 26

27 Konjunkturinstitutet, ( ). Barometer indikatorn, 1e6281dd1341fd2212c

28 Appendix A Linjära samband mellan arbetslöshet och de oberoende variablerna i spridningsdiagram. 28

29 Appendix B Figur 1 29

30 Figur 2 30