MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift
Regressionsanalys, baserat på Sveriges kommuner Skriv en kort rapport baserat på datasettet svenska_kommuner.xlsx, där ni undersöker faktorer som påverkar arbetslösheten i de svenska kommunerna. Som beroende variabel ska ni använda D_02, Öppen arbetslöshet, procent av arbetskraften. Gör ett antal olika modeller där ni experimenterar med olika oberoende variabler. Ni bör motivera varför ni tror att de variabler ni använder kan ha en påverkan på arbetslösheten. Minst en av modellerna ska ni göra såväl i en linjär som en loglinjär variant. Minst en av modellerna ska innehålla såväl medelinkomsten som kvadraten av medelinkomsten. Totalt sett ska rapporten innehålla minst fem olika modeller och varje modell ska innehålla minst två oberoende variabler. Rapportens struktur: Som bilaga till denna uppgift finns ett exempel på hur en rapport kan struktureras. Börja med en inledning där ni talar om vad ni ska undersöka och ger deskriptiv statistik på de variabler ni använder (medelvärde och standardavvikelse). Här ska ni också motivera varför ni valt de oberoende variabler ni valt samt ge en förväntan om vilken effekt ni tror att respektive oberoende variabel har på arbetslösheten. (I en riktig uppsats skulle ni basera denna förväntan på ert teoriavsnitt men här räcker det med lite egna tankar) Därefter bör ni ha en resultatdel som dels ska innehålla en matris med korrelationskoefficienter mellan alla de variabler ni använder, och dels en tabell med regressionsresultaten. I tabellen över regressionsresultaten ska ni ha en kolumn för varje modell och ni ska ange korrelationskoefficienternas värde samt dess standardavvikelse samt modellens justerade förklaringsgrad. Koefficienter som är signifikanta ska markeras med stjärna. Använd 5 % signifikansnivå. I resultatdelen ska ni ha med tolkningar av samtliga regressionskoefficienter samt förklaringsgraderna. Det kan vara lämpligt att strukturera den genom att redovisa en modell i taget. Sist ska ni ha en slutsats där ni sammanfattar de viktigaste resultaten och relaterar dem till de förväntade resultat ni hade i inledningen. Utöver labbrapporten ska ni också lämna in ett dokument med skärmbilder från R Commander så att vi kan kontrollera era siffror. Alternativt lägga en bilaga i samma dokument.
Bilaga: Exempel på hur en labbrapport kan struktureras Trångboddhet i svenska kommuner Inledning I den här rapporten ska vi studera om folkmängd, folkökning, invandring, våldsbrott och/eller medelinkomst påverkar trångboddheten i svenska kommuner. Vi använder data från SCB och brottsförebyggande rådet över Sveriges 290 kommuner. Antal våldsbrott är hämtade från brottsförebyggande rådet och alla övriga variabler från SCB. Tabell 1 visar medelvärde och standardavvikelse för de variabler vi använder. Tabell 1. Deskriptiv statistik Variabel Medelvärde Standardavvikelse Folkmängd, antal personer 33 612 69 275 Folkökning, antal personer 353 1 065 Antal utrikes födda per 1000 invånare 127 57,7 Genomsnittlig bostadsarea per 45,7 3,9 Antal anmälda våldsbrott per 100 000 invånare 860 351 Medelinkomst, tkr, inkomst av tjänst 196 22 Vi använder genomsnittliga bostadsarea per person som beroende variabel. Om denna variabel har ett lågt värde är trångboddheten stor i kommunen. Vi valde folkmängd eftersom trångboddheten borde vara större i stora kommuner. Kommuner med en stor inflyttning borde vara trångbodda, därför valde vi även folkökning. Då det är en vanlig uppfattning att människor med utländsk härkomst bor fler personer per lägenhet valde vi också att ha med antal utrikes födda per 1000 invånare. Om det är så att människor flyttar från kommuner med hög brottslighet skulle brottsligheten kunna påverka trångboddheten, därför har vi med antal anmälda våldsbrott per 100 000 invånare. Med högre inkomster borde man ha råd med större bostäder, därför valde vi att ha med medelinkomsten.
Resultat I tabell 2 redovisas korrelationskoefficienterna parvis mellan de variabler som vi använder oss av. Vi ser att samtliga variabler som vi använder som oberoende variabler är negativt korrelerade med bostadsarean. Tabell 2 korrelationskoefficienter mellan de olika variablerna Folkmängd Folkökning Utrikes födda Våldsbrott Medelinkomst Genomsnittlig bostadsarea per -0,5049* -0,5086* -0,5370* -0,2986* -0,2059* Folkmängd 0,9807 0,3169 0,2057* 0,2415* Folkökning 0,3577* 0,2725* 0,2394* Antal utrikes födda per 1000 invånare 0,4783* -0,0181 (0,759) Antal anmälda våldsbrott per 100 000 invånare -0,4418* (0,004) Tabellen anger Pearsons korrelationskoefficient mellan varje par av variabler med dess p-värde inom parentes. *Koefficienter signifikanta på 5 % nivån är markerade med stjärna
Tabell 3 Resultat från regressionerna Beroende variabel: Modell 1 Modell 2 Modell 3 Modell 4 Modell 5 Bost. area per Bost. area per Bost. area per Logaritmen av bostads area per Bost. area per Förklarande variabler: Intersept 65* (1,6) 64* (1,8) 65* (1,6) 2,6* (0,094) 98* (6,7) Folkmängd -0,000026* (0,000011) -0,000014* (2,5 10 6 ) -1,7 10 6 (0,000012) Logaritmen av folkmängd -0,042* (0,0044) Folkökning 0,00084 (0,00076) -0,0012* (0,00018) -0,00098 (0,00079) Antal utrikes födda per 1000 invånare -0,028* (0,0032) -0,027* (0,0031) Logaritmen av antal utrikes födda per 1000 invånare -0,069* (0,0094) Antal anmälda våldsbrott per 100 000 invånare -0,0014* (0,00052) -0,0033* (0,00053) -0,0014* (0,00052) -0,0034* (0,00051) Logaritmen av antal anmälda våldsbrott per 100 000 invånare -0,019 (0,011) Medelinkomst, tkr, inkomst av tjänst -0,074* (0,0074) -0,075* (0,0084) -0,073* (0,0074) -0,39* (0,060) Logaritmen av medelinkomst, tkr, inkomst av tjänst -0,24* (0,039) Medelinkomst upphöjt till 2 0,00071* (0,00013) R 2 adj 0,56 0,43 0,44 0,63 0,48 Tabellen anger regressionskoefficienternas värden med standardavvikelsen inom parentes *Koefficienter signifikanta på 5 % nivån är markerade med stjärna
I tabell 3 redovisas resultatet från regressionerna. Modell 1: Interseptet är signifikant men tolkas inte då det inte finns några kommuner som har noll på alla oberoende variabler. Koefficienten för folkmängd är signifikant. Koefficientens värde tolkas som att om folkmängden ökar med 1 person minskar boytan per person med 0,000026 m 2 givet oförändrade värden på övriga oberoende variabler. Eller med andra ord, om folkmängden ökar med 1000 personer minskar boytan per person med 0,026 m 2. Kommuner med stor befolkning är mer trångbodda. Koefficienten för folkökning är inte signifikant och tolkas därför inte. Koefficienten för utrikes födda är signifikant. Koefficientens värde tolkas som att om antal utrikes födda ökar med en person per 1000 invånare minskar boytan per person med 0,028 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med stor andel utrikes födda är mer trångbodda. som att om antal anmälda våldsbrott ökar med ett brott per 100 000 invånare minskar boytan per person med 0,0014 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med många anmälda våldsbrott är mer trångbodda. Koefficienten för medelinkomst är signifikant. Koefficientens värde tolkas som att om medelinkomsten stiger med tusen kronor minskar boytan per person med 0,074 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med höga inkomster mer trångbodda. Den justerade förklaringsgraden är 0,56 vilket innebär att modellen förklarar 56 procent av variansen av boyta per person. Modell 2: Interseptet är signifikant men tolkas inte då det inte finns några kommuner som har noll på alla oberoende variabler. Koefficienten för folkökning är signifikant. Koefficientens värde tolkas som att om folkökningen ökar med 1 person minskar boytan per person med 0,0012 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med stor folkökning är mer trångbodda. som att om antal anmälda våldsbrott ökar med ett brott per 100 000 invånare minskar boytan per person med 0,0033 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med många anmälda våldsbrott är mer trångbodda. Koefficienten för medelinkomst är signifikant. Koefficientens värde tolkas som att om medelinkomsten stiger med tusen kronor minskar boytan per person med 0,075 m 2
givet oförändrade värden på övriga oberoende variabler. Kommuner med höga inkomster mer trångbodda. Den justerade förklaringsgraden är 0,43 vilket innebär att modellen förklarar 43 procent av variansen av boyta per person. Modell 3: Interseptet är signifikant men tolkas inte då det inte finns några kommuner som har noll på alla oberoende variabler. Koefficienten för folkmängd är signifikant. Koefficientens värde tolkas som att om folkmängden ökar med 1 person minskar boytan per person med 0,000014 m 2 givet oförändrade värden på övriga oberoende variabler. Eller med andra ord, om folkmängden ökar med 1000 personer minskar boytan per person med 0,014 m 2. Kommuner med stor befolkning är mer trångbodda. Koefficienten för utrikes födda är signifikant. Koefficientens värde tolkas som att om antal utrikes födda ökar med en person per 1000 invånare minskar boytan per person med 0,027 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med stor andel utrikes födda är mer trångbodda. som att om antal anmälda våldsbrott ökar med ett brott per 100 000 invånare minskar boytan per person med 0,0014 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med många anmälda våldsbrott är mer trångbodda. Koefficienten för medelinkomst är signifikant. Koefficientens värde tolkas som att om medelinkomsten stiger med tusen kronor minskar boytan per person med 0,073 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med höga inkomster mer trångbodda. Den justerade förklaringsgraden är 0,44 vilket innebär att modellen förklarar 44 procent av variansen av boyta per person. Modell 4: Modell 4 innehåller amma variabler som modell 3 men i det här fallet har vi antagit en loglinjär modell. Interseptet är signifikant men tolkas inte då det inte finns några kommuner som har noll på alla oberoende variabler. Koefficienten för folkmängd är signifikant. Koefficientens värde tolkas som att om folkmängden ökar med 1 procent minskar boytan per person med 0,042 procent givet oförändrade värden på övriga oberoende variabler. Kommuner med stor befolkning är mer trångbodda. Koefficienten för utrikes födda är signifikant. Koefficientens värde tolkas som att om antal utrikes födda ökar med en procent minskar boytan per person med 0,069
procent givet oförändrade värden på övriga oberoende variabler. Kommuner med stor andel utrikes födda är mer trångbodda. som att om antal anmälda våldsbrott ökar med en procent minskar boytan per person med 0,019 procent givet oförändrade värden på övriga oberoende variabler. Kommuner med många anmälda våldsbrott är mer trångbodda. Koefficienten för medelinkomst är signifikant. Koefficientens värde tolkas som att om medelinkomsten stiger med en procent minskar boytan per person med 0,24 procent givet oförändrade värden på övriga oberoende variabler. Kommuner med höga inkomster mer trångbodda. Den justerade förklaringsgraden är 0,63 vilket innebär att modellen förklarar 63 procent av variansen av boyta per person. Eftersom denna förklaringsgrad är högre än i modell tre passar en log linjär modell bättre till datamaterialet i det här fallet. Modell 5: Interseptet är signifikant men tolkas inte då det inte finns några kommuner som har noll på alla oberoende variabler. Koefficienten för folkmängd är inte signifikant och tolkas därför inte. Koefficienten för folkökning är inte signifikant och tolkas därför inte. som att om antal anmälda våldsbrott ökar med ett per 100 000 invånare minskar boytan per person med 0,0034 m 2 givet oförändrade värden på övriga oberoende variabler. Kommuner med många anmälda våldsbrott är mer trångbodda. I den här modellen antar vi ett kvadratiskt samband mellan medelinkomst och boyta. Den vanliga variabeln är negativ vilket innebär att ökade inkomster ger minskad boyta. Den kvadrerade variabeln har en positiv koefficient vilket innebär att den negativa effekten minskar när inkomsterna stiger. Vid riktigt höga inkomster kommer vi att få en positiv effekt på boyta per person. Den justerade förklaringsgraden är 0,48 vilket innebär att modellen förklarar 48 procent av variansen av boyta per person. Eftersom denna förklaringsgrad är högre än i modell tre passar en log linjär modell bättre till datamaterialet i det här fallet.
Slutsats Samtliga oberoende variabler vi använder har en signifikant negativ inverkan på boytan per person i minst någon av modellerna. Folkökning är dock enbart signifikant om vi inte har med folkmängd i modellen. Orsaken till det är förmodligen multikolliniaritet då vi har en hög korrelation (0,98) mellan folkmängd och folkökning. Antal anmälda våldsbrott är endast signifikant i de linjära modellerna. Vi fick inte det samband vi förväntat mellan inkomster och trångboddhet. Orsaken till detta kan vara att hyrorna också är högre i kommuner med höga inkomster vilket leder till att genomsnittliga boytan blir lägre i de kommunerna. (Inom varje kommun kan det dock fortfarande vara så att de rika har större bostäder än de fattiga.) Inte heller antalet våldsbrott gav den effekt vi hade förväntat oss.