Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Relevanta dokument
Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 4 e mars Ten 1, 9 hp

Laboration 1. Övningsuppgifter. Syfte: MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

En kort instruktion för arbete i R Commander

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

import totalt, mkr index 85,23 100,00 107,36 103,76

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Repetitionsföreläsning

Multipel Regressionsmodellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Fråga nr a b c d 2 D

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 12 e januari Ten 1, 9 hp

En kort instruktion för arbete i SPSS

Repetitionsföreläsning

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Metod och teori. Statistik för naturvetare Umeå universitet

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Samhällsvetenskaplig metod, 7,5 hp

Följande resultat erhålls (enhet: 1000psi):

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

Uppgift 1. Deskripitiv statistik. Lön

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Lösningsförslag till övningar

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressions- och Tidsserieanalys - F4

Forsknings- och undersökningsmetodik Skrivtid: 4h

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

7.5 Experiment with a single factor having more than two levels

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Lösningar till SPSS-övning: Analytisk statistik

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

OBS! Vi har nya rutiner.

ANOVA Mellangruppsdesign

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lösningsförslag till övningar

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F3

Medicinsk statistik II

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Laboration 2 multipel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Statistik B Regressions- och tidsserieanalys Föreläsning 1

TVM-Matematik Adam Jonsson

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Lösningsförslag till övningar

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Hypotestestning och repetition

LABORATION 3 - Regressionsanalys

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Lösningsförslag till övningar

Medicinsk statistik II

Laboration 3: Enkel linjär regression och korrelationsanalys

Föreläsning G60 Statistiska metoder

TAMS65 DATORÖVNING 2

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Att välja statistisk metod

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Uppgift 1. Produktmomentkorrelationskoefficienten

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

ÖVNINGSUPPGIFTER KAPITEL 12

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik för teknologer, 5 poäng Skrivtid:

Laboration 3 Inferens fo r andelar och korstabeller

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Sänkningen av parasitnivåerna i blodet

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 p Höstterminen 2016 Laboration 2 Övningsuppgifter Baserade på dataseten: Discrim_lab.xlsx Svenska_kommuner_2014.xlsx Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys

Datasetet discrim_lab Till första delen av den här övningslaborationen ska ni använda datasetet discrim_lab. Ni hittar det i discrim_lab.xlsx Variabel förteckning: psoda pris på mellanläsk, dollar pfries pris på liten pommes, dollar pentree pris huvudrätt, dollar (hamburgare eller kyckling) nmgrs antal managers hrsopen antal timmar öppettid per dygn. emp antal anställda compown1 =1 om företagsägd compown =yes om företagsägd density befolkningstäthet i staden där restaurangen ligger, invånare per kvadratmiles. crmrte Antal brott per tusen invånare, staden prpblck Antal svarta per tusen invånare, postnummerområdet prppov Antal fattiga per tusen invånare, postnummerområdet prpncar Antal hushåll utan bil per tusen hushåll, postnummerområdet hseval Medianen av huspriserna i postnummerområdet restaurangen ligger i, dollar nstores Antalet affärer i postnummerområdet restaurangen ligger i. income Medianen av hushållens inkomst i postnummerområdet som restaurangen ligger i, dollar. county löpnummer för det county som restaurangen ligger i NJ = 1 för New Jersey = 0 för Pennsylvania State New Jersey eller Pennsylvania chain Namnet på kedjan som restaurangen tillhör logpsoda log(psoda) logpfries log(pfries) logpentree log(pentree) logincome log(income) loghseval log(hseval) logdensity log(density) Source: K. Graddy (1997), "Do Fast-Food Chains Price Discriminate on the Race and Income Characteristics of an Area?" Journal of Business and Economic Statistics 15, 391-401. Datasettet svenska kommuner beskrivs i Excelfilen.

1. Skapa variabler i R Commander Börja med att spara filerna discrim_lab.xlsx och svenska_kommuner_2014.xlsx på din egen dator eller ett USB minne, ni kan inte arbeta direkt på den filen som ligger på servern för då kan ni inte spara era ändringar. För de första uppgifterna ska ni använda discrim_lab.xlsx. Börja med att läsa beskrivningen av datasetet. Läs sedan i En kort instruktion för arbete i R Commander hur ni öppnar en Excel fil i R Commander. Att beräkna nya variabler från existerande variabler I datasetet finns vissa logaritmerade variabler. Men några av dem finns ej som logaritmerade. Läs i En kort instruktion för arbete i R Commander om hur du beräknar nya variabler i R Commander. Eftersom den bok vi använder jobbar med 10 logaritmer tycker jag att ni ska välja det. Skapa logaritmerade variabler även av följande variabler: nmgrs hrsopen emp crmrte prpblck prppov prpncar nstores Det kan vara lämpligt att ge de logaritmerade variablerna samma namn men med tillägget log i början efter samma system som för de variabler som redan är logaritmerade. När ni skapat de logaritmerade variablerna bör ni spara ert dataset som en Rdata fil. Koda nya variabler från existerande variabler Variabler som mäts med nominalskala måste omvandlas till dummyvariabler för att kunna användas som oberoende variabler i regressionsanalys. Ni behöver därför skapa dummyvariabler för kedjetillhörighet. Läs i En kort instruktion för arbete i R Commander om hur du kodar nya variabler i R Commander från värdena på en existerande variabel. Ni behöver skapa dummyvariabler för minst 3 av de 4 restaurangkedjorna. När ni skapat dummy variablerna bör ni spara ert dataset som en Rdata fil.

2. Att göra ANOVA-analys i R Commander Övning 3 till regressionsavsnittet i övningskompendiet heter Vad styr snabbmatsrestaurangernas prissättning. I den analyseras priset på en huvudrätt i olika snabbmatsrestauranger. Vi kan komplettera det med en ANOVA analys där vi jämför medelvärdet på huvudrättens pris i de fyra olika restaurangkedjorna. Läs i En kort instruktion för arbete i R Commander om hur du gör en ANOVA test i R Commander. Fråga 1 Avviker medelvärdet i någon av restaurangkedjorna? Redogör för nollhypotes och mothypotes i ANOVA-testen samt vilka slutsatser ni kan dra. Beräkna 95 procentiga konfidensintervall, ett för varje restaurangkedja avseende priset på en huvudrätt i hela populationen. Detta ska ni göra med miniräknare genom att använda formeln för konfidensintervall på medelvärde. Ni behöver medelvärde, antalet restauranger som tillhör respektive kedja samt standardavvikelsen. All den informationen finns i resultatet från ANOVA-testet. Fråga 2 Vilken restaurangkedja har den dyraste huvudrätten? Skiljer sig den restaurangkedjan från de övriga i hela populationen på en 5 % signifikansnivå?

3. Att göra multipel regressionsanalys i R Commander. Replikera övning 9 vad styr snabbmatsrestaurangernas prissättning I övning 9 finns en korrelationsmatris och två regressioner på det här datamaterialet. Börja med att se om ni får samma resultat. Läs i En kort instruktion för arbete i R Commander om hur du gör korrelationsmatriser och regressionsanalyser i R Commander. Fler frågor att analysera: Finns det prisdiskriminering i prissättningen av mellan läsk? Gör om regressionsanalysen men byt ut pentree mot psoda som dependent variable. Du kan prova båda med och utan kedje dummisarna. (När du använder kedje dummies, kom ihåg att en kedja måsta vara referens, ta bara med tre dummies.) Fråga 3: Vilka slutsatser kan du dra om prissättningen av mellanläsk? Kör ytterligare en regression där ni byter ut medianinkomsten mot logaritmerad medianinkomst och pris på mellanläs mot logaritmerat pris, prova både med och utan dummyvariablerna för kedjetillhörighet. Fråga 4: Passar modellen bättre eller sämre om ni använder logaritmerade priser och logaritmen av medianinkomsten istället? Utvärdera utifrån normalfördelningsantagandet på residualerna och förklaringsgraden. Fråga 5: Hur tolkar ni regressionskoefficienten för medianinkomst i den logaritmerade modellen Känslighetsanalys på fattigdomsmått. Fortsätt att ha psoda som beroende variabel, och dummyvariablerna som förklarande variabler men byt ut income mot andra typer av fattigdomsmått, exempelvis andel fattiga eller andel utan bil. Prova även att ha med båda medianinkomst och andel fattiga i samma modell. Fråga 6: Påverkas era slutssatser av vilket fattigdomsmått ni använder?

Mer korrelationer Skapa en korrelationsmatris med följande variabler. psoda pfries pentree Fråga 7 Har de restauranger som har högt pris på en av produkterna också höga priser på de andra två enligt korrelationsmatrisen? Befolkningstillväxt i svenska kommuner Vi ska nu studera befolkningstillväxten i svenska kommuner. Men för att jämföra folkökningen i olika kommuner behöver vi utrycka den som procentuell tillväxt. Annars är et vårt att jämföra folkökning i små och stora kommuner. Så vi ska börja med att skapa en ny variabel. Vi kan kalla den A_09 procentuell folkökning. Ni skapar denna variabel genom att dividera A_04 med A_03 och multiplicera med 100. Ni har i princip två alternativ att välja på. Antingen gör ni detta i R Commander och sparar datesetet som en Rdata fil. Eller så gör ni det i Excel innan ni importerar datan till R Commander. Låt oss börja med att använda följande oberoende variabler: Folkmängd (A_03), Köpeskilling sålda villor 2014, medelvärde i tkr (B_02), Antal anmälda våldsbrott per 100 000 invånare(c_02), Totalt antal arbetslösa, procent av arbetskraften(d_10), medelinkomst tkr (inkomst av tjänst) (F_01) Fråga 8: Vilka slutsatser kan ni dra från den här regressionen? Prova nu en modell med samma variabler som i föregående modell men där ni även lägger till Antal utrikes födda per 1000 invånare. Fråga 9: Vilka slutsatser kan ni dra från den här regressionen?

Svar på frågorna i övningslabben: Fråga 1 Avviker medelvärdet i någon av restaurangkedjorna? Redogör för nollhypotes och mothypotes i anovatesten samt vilka slutsatser ni kan dra. Nollhypotesen är att alla fyra kedjorna har samma medelvärde för priset på en huvudrätt. Mothypotesen att minst en av dem avviker. > AnovaModel.1 <- aov(pentree ~ chain, data=discrim_lab) > summary(anovamodel.1) Df Sum Sq Mean Sq F value Pr(>F) chain 3 128.62 42.87 586.8 <2e-16*** Residuals 369 26.96 0.07 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > numsummary(discrim_lab$pentree, groups=discrim_lab$chain, + statistics=c("mean", "sd")) mean sd data:n Burger King 0,944323 0,105054 155 King Fried Chicken 2,465974 0,289579 77 Roy Roger 1,095647 0,339851 85 Wendys 1,164107 0,4087 56 Eftersom p-värdet är lågt, i stort sett lika med noll, kan vi avslå denna nollhypotes. Slutsatsen vi kan dra är alltså att minst en av kedjorna har ett avvikande medelvärde. Fråga 2 Vilken restaurangkedja har den dyraste huvudrätten? Skiljer sig den restaurangkedjan från de övriga på en 5 % signifikansnivå? King Fried Chicken är dyrast, har det högsta medelvärdet. Ett sätt att se om skillnaden är signifikant är att beräkna 95 % konfidensintervall: Burger King: 0,9443 ± 1,98 0,105 0,928 < μ < 0,961 155 King Fried Chicken: 2,466 ± 1,99 0,2896 77 Roy Roger: 1,0956 ± 1,99 0,3398 85 Wendys: 1,1641 ± 2,00 0,4087 56 2,400 < μ < 2,532 1,022 < μ < 1,169 1,055 < μ < 1,273 Vi ser att konfidensintervallet för King Fried Chicken har en undre gräns som är större än övre gränsen för samtliga andra restaurangkedjor. Så King Fried Chicken skiljer sig från de övriga. Ett alternativt sätt att besvara frågan är att använda Independent-Samples T-Test och

jämföra kedjorna parvis. I så fall ska ni bocka för pairwise comparison of means när ni gör ANOVA testen. Om ni bockar för pairwise comparison of means kommer det bland annat upp följande tabell i outputfönstret: Fit: aov(formula = pentree ~ chain, data = discrim_lab) Linear Hypotheses: Estimate Std. Error t value Pr(> t ) King Fried Chicken - Burger King == 0 1.52165 0.03769 40.376 <0.001 *** Roy Roger - Burger King == 0 0.15132 0.03648 4.148 <0.001 *** Wendys - Burger King == 0 0.21978 0.04214 5.215 <0.001 *** Roy Roger - King Fried Chicken == 0-1.37033 0.04253-32.223 <0.001 *** Wendys - King Fried Chicken == 0-1.30187 0.04747-27.423 <0.001 *** Wendys - Roy Roger == 0 0.06846 0.04652 1.472 0.452 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Adjusted p values reported -- single-step method) Varje rad i tabellen ovan motsvarar en t-test mellan två medelvärden där nollhypotesen är att medelvärdena är lika, eller som det står i tabellen att differensen mellan dem är lika med noll. Kolumen Estimate anger skillnaden mellan medelvärdena i urvalet. t-value är vår teststatistika som vi skulle kunna jämföra med ett kritiskt värde från t-tabellen. Men det är enklare att titta på p-värdena i sista kolumnen och se om de är lägre än signifikansnivån eller ej. Om vi ser på p-värdena ser vi att det är bara för Wendys jämfört med Roy Roger som vi inte kan förkasta nollhypotesen om att båda kedjorna har samma medelpris. (Jämför ni med konfidensintervallen ovan ser ni att det bara var Roy Roger och Wendys vars konfidensintervall överlappade varandras.) Det var alltså inte bara King Fried Chicken som avvek från de andra. Utan även Burger King.

Fråga 3: Vilka slutsatser kan du dra om prissättningen av mellanläsk? Om vi har med dummyvariablerna för kedjetillhörighet i regressionen, kan vi se att mellanläsk är dyrast på Roy Roger restauranger och billigast på Wendys. Dummyvariablerna är signifikanta så vi kan dra slutsatsen att det gäller i hela populationen. Om vi kör en modell utan dummyvariablerna verkar det finnas prisdiskriminering, priset på mellanläsk är signifikant högre om restaurangen ligger i ett postnr område med hög medianinkomst. Men när vi har med kedjedummisarna är den effekten inte signifikant längre. Det tyder på att restaurangerna i de rika områdena tenderar att vara Roy Roger i högre utsträckning, de har högre priser på mellanläst, inte för att de prisdiskriminerar utan för att de tillhör en kedja med högre priser. Fråga 4: Passar modellen bättre eller sämre om ni använder logaritmerade priser och logaritmen av medianinkomsten istället? På följande sidor visas resultat från en linjär och en loglinjär modell, därefter lite diskussion om vad som kan vara lämpligast.

Linjär modell med kedjedummies Nedan har jag räknat om ANOVA tabellen så att den ser ut som I läroboken genom att summera frihetsgrader och kvadratsummor för de oberoende variablerna. ANOVA Model df Sum of Squares Mean Square Regression 4 0,756 0,189 Residual 368 2,165 0,006 Total 372 2,921

Log linjär modell med kedjedummies ANOVA Model df Sum of Squares Mean Square Regression 4 0,135 0,034 Residual 368 0,369 0,001 Total 372 0,504

Residualer Linjär modell med kedjedummies Log linjär modell med kedjedummies I det här fallet är det väldigt svårt att avgöra vilken modell som är att föredra. Förklaringsgraderna är ungefär lika stora, och normalfördelningsantagandet på residualerna ungefär lika bra.

Fråga 5: Hur tolkar ni regressionskoefficienten för medianinkomst i den logaritmerade modellen Den är inte signifikant när vi har med dummyvariablerna. Om vi inte har med dummyvariablerna är den signifikant och ska då tolkas som den procentuella prisökningen på mellanläsk om medianinkomsten stiger med 1 procent. Fråga 6: Påverkas era slutssatser av vilket fattigdomsmått ni använder? Koefficienten för andel fattiga är positiv, vilket skulle innebära att man tar ut högre priser i områden med stor andel fattiga. Detsamma gäller andelen som inte har bil. Det kan nog vara svårt att hitta en förklaring till varför man gör det. Fråga 7 Har de restauranger som har högt pris på en av produkterna också höga priser på de andra två enligt korrelationsmatrisen? De som har höga priser på pommes har också höga priser på mellanläsk. Men de som har höga priser på pentree har låga priser på de andra båda produkterna. Samtliga korrelationskoefficienter är signifikans skilda från noll då p-värdena är lägre än 0,05.

Fråga 8: Vilka slutsatser kan ni dra från den här regressionen? Koefficienten för folkmängd är inte signifikant så vi kan inte dra några slutsatser om huruvida stora kommuner växer fortare än små. Koefficienten för köpeskilling B_02 är positiv vilket innebär att vi i första hand flyttar till kommuner med dyra hus. Teoretisk tolkning blir att om priset på hus stiger med 1000 kronor ökar befolkningstillväxten med 0,0003 procentenheter givet oförändrade värden på övriga oberoende variabler. (Här kan vi nog misstänka att sambandet egentligen är omvänt, att priserna är höga här p.g.a. av en hög inflyttning och därmed en hög efterfrågan på hus.) Koefficienten för antal anmälda våldsvåldsbrott per 100 000 invånare är också positiv. Teoretisk tolkning är att om det sker ytterligare ett våldsbrott per 100 000 invånare ökar befolkningstillväxten med 0,00044 procentenheter givet oförändrade värden på övriga oberoende variabler. Det verkar ju inte så sannolikt att det är mer populärt att flytta till kommuner med hög kriminalitet så även här är det nog någon annan lags samband vi fångar. Koefficienten för Totalt antal arbetslösa, procent av arbetskraften är inte signifikant så vi kan inte dra några slutsatser om arbetslöshetens inverkan på befolkningstillväxten. Koefficienten för medelinkomst tkr, är inte signifikant så vi kan inte dra några slutsatser om medelinkomstens inverkan på befolkningstillväxten. Den justerade förklaringsgraden är ca 25 % så vi kan förklara ca 25 procent av variansen i befolkningstillväxt med denna modell.

Fråga 9: Vilka slutsatser kan ni dra från den här regressionen? Koefficienten för folkmängd är inte signifikant så vi kan inte dra några slutsatser om huruvida stora kommuner växer fortare än små. Koefficienten för Antal utrikes födda per 1000 invånare A_06 är positiv vilket innebär kommuner med hög andel invandrare har en högre befolkningstillväxt. Teoretisk tolkning blir att om antal utrikes födda ökar med en per 1000 invånare ökar befolkningstillväxten med 0,0024 procentenheter givet oförändrade värden på övriga oberoende variabler. Det kan väl vara ganska logiskt om nya invandrare i första hand flyttar till kommuner som redan har en hög invandring. Koefficienten för köpeskilling B_02 är positiv vilket innebär att vi i första hand flyttar till kommuner med dyra hus. Teoretisk tolkning blir att om priset på hus stiger med 1000 kronor ökar befolkningstillväxten med 0,0002 procentenheter givet oförändrade värden på övriga oberoende variabler. (Här kan vi nog misstänka att sambandet egentligen är omvänt, att priserna är höga här p.g.a. av en hög inflyttning och därmed en hög efterfrågan på hus.) Koefficienten för antal anmälda våldsvåldsbrott per 100 000 invånare C_02 är fortfarande positiv. Teoretisk tolkning är att om det sker ytterligare ett våldsbrott per 100 000 invånare ökar befolkningstillväxten med 0,00037 procentenheter givet oförändrade värden på övriga oberoende variabler. Det verkar ju inte så sannolikt att det är mer populärt att flytta till kommuner med hög kriminalitet så även här är det nog någon annan slags samband vi fångar. Koefficienten för Totalt antal arbetslösa, procent av arbetskraften är inte signifikant så vi kan inte dra några slutsatser om arbetslöshetens inverkan på befolkningstillväxten. Koefficienten för medelinkomst tkr, är inte signifikant så vi kan inte dra några slutsatser om medelinkomstens inverkan på befolkningstillväxten. Den justerade förklaringsgraden är ca 26 % så v kan förklara ca 26 procent av variansen i befolkningstillväxt med denna modell. När vi ökade antalet variabler kunde vi förklara lite mer av variansen.