Vad påverkar en kommuns totala kostnad?

Relevanta dokument
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Matematisk statistik, Föreläsning 5

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

MVE051/MSG Föreläsning 14

Finansiell statistik. Multipel regression. 4 maj 2011

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Grundläggande matematisk statistik

Regressions- och Tidsserieanalys - F7

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressions- och Tidsserieanalys - F4

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Regressions- och Tidsserieanalys - F1

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Prissättningsanalys av annonser på internet

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Analys av bostadsrättspriset i Stockholms innerstad

Regressions- och Tidsserieanalys - F1

Enkel och multipel linjär regression

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Föreläsning 12: Linjär regression

Paneldata och instrumentvariabler/2sls

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 12: Regression

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F13 Regression och problemlösning

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Faktorer som påverkar befolkningstillväxten av unga individer i olika kommuntyper

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 13: Multipel Regression

Regressions- och Tidsserieanalys - F3

Företagsklimatet viktigt för ungas val av kommun. Johan Kreicbergs April 2009

Multipel Regressionsmodellen

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressionsanalys av lägenhetspriser i Spånga

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

STATISTISK ANALYS AV KOMPLEXA DATA

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Lektionsanteckningar 11-12: Normalfördelningen

Bayesiansk statistik, 732g43, 7.5 hp

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Linjär regressionsanalys. Wieland Wermke

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematisk statistik för B, K, N, BME och Kemister

Repetitionsföreläsning

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning 10, del 1: Icke-linjära samband och outliers

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

TAMS65 - Seminarium 4 Regressionsanalys

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Matematisk statistik för D, I, Π och Fysiker

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Regression med Genetiska Algoritmer

Hur skriver man statistikavsnittet i en ansökan?

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Metod och teori. Statistik för naturvetare Umeå universitet

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Föreläsning 4. Kap 5,1-5,3

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

import totalt, mkr index 85,23 100,00 107,36 103,76

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

MVE051/MSG Föreläsning 7

Korrelation och autokorrelation

Att välja statistisk metod

Till ampad statistik (A5) Förläsning 13: Logistisk regression

TAMS65 DATORÖVNING 2

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Transkript:

Vad påverkar en kommuns totala kostnad? En multipel regressionsanalys av faktorer som korrelerar med kommuners kostnader MARKUS BERG OCH MALTE KROON Stockholm 15 Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik, KTH Handledare: Boualem Djehiche

Sammanfattning Denna uppsats undersöker hur olika faktorer påverkar den totala verksamhetskostnaden per capita i Sveriges kommuner. Detta görs genom en multipel linjär regressionsanalys. Datan som används är från 13 och de oberoende variablerna är valda så att modellen dels får god prediktiv förmåga och dels kan tolkas strukturellt. Den slutgiltiga modellen har god prediktiv förmåga (R =.9) och några av de faktorer som korrelerar med kostnaderna är politiskt styre, kommunal skattesats, kommunala tillgångar, medelålder och folktäthet. 1

Abstract This paper examines how different factors affect the overall operation costs per capita in Swedish municipalities. This is done by a multiple linear regression analysis. The data used are from 13, and the independent variables are chosen such that the model has both good predictive ability and can be interpreted structurally. The final model has good predictive ability (R =.9) and some of the factors that correlate with the costs are political governance, municipal tax, municipal assets, average age and population density.

Innehåll 1 Inledning 1.1 Bakgrund............................... 1. Syfte.................................. Teori 5.1 Multipel regression.......................... 5. Ordinary Least Squares....................... 5.3 F-test.................................. R................................... 7.5 η................................... 7.5.1 Cohen s rule of thumb.................... 7. Fel i modellen...............................1 Endogenitet............................ Heteroskedasticitet........................3 Multikollinearitet....................... 9.7 Akaike information criterion..................... 9 3 Metod 3.1 Regressionsförfarande........................ 3. Kovariat i den ursprungliga modellen................ 11 3.3 Kovariat i den reducerade modellen................. 11 Resultat 13 5 Diskussion 1 5.1 Data.................................. 1 5. Resultat................................ 1 5.3 Svårigheter.............................. 15 5. Förbättringar............................. 1 Slutsats 1 A Appendix 19 3

1 Inledning 1.1 Bakgrund Ett demokratiskt samhälle bygger på att folkvalda politiker får förtroendet att bestämma hur samhället ska styras och hur skattepengarna förvaltas. Det ligger i medborgarnas intresse att de folkvalda arbetar i linje med vad som har utlovats och att pengarna används på bästa sätt. Således är det viktigt att kunna granska den offentliga sektorns arbete. Det kan emellertid vara svårt för den enskilda medborgaren att bilda sig en uppfattning om hur mycket olika verksamheter kostar i snitt och huruvida skattepengarna används effektivt, varför det är viktigt med verktyg som hjälper till och förenklar granskningen. Den offentliga sektorn granskas ständigt av till exempel medier, där det ibland hävdas att skattepengar slösas bort.[1] Det saknas dock systematiska metoder för att på ett objektivt sätt jämföra vilka kostnader en kommun bör ha i snitt, givet vissa inneboende egenskaper. 1. Syfte Modellen som tas fram i denna uppsats ger möjlighet att se vilka faktorer, exempelvis politiskt styre, kommunal skattesats,kommunala tillgångar, medelålder och folktäthet, som påverkar en kommuns totala kostnad per capita. Modellen kan sedan användas för att jämföra kommuners totalkostnad per capita i förhållande till skattningen. Resultaten kan dels användas av kommuner för att effektivisera verksamheten och dels av privatpersoner och media för att granska kommuners arbete.

Teori.1 Multipel regression En multipel linjär regression är en metod för att modellera ett linjärt beroende mellan en beroende variabel Y och oberoende kovariat X enligt: Y = Xβ + ɛ (1) y 1 x T 1 1 x 11 x 1p β ε 1 y där Y =., X = x T. = 1 x 1 x p......, β = β 1. och ε = ε. y n 1 x n1 x np β p ε n x T n Detta skrivs med tensornotation som: y i = β + β 1 x i1 +... + β p x ip + ɛ i = x T i β + ɛ i () β i är en okänd parameter som förklarar hur starkt y i beror på x i enligt: β i = y i x i (3) ɛ är residualerna, vilka är oberoende stokastiska variabler med egenskaperna: E[ɛ i ] = och E[ɛ i ] = σ () Dessa egenskaper beskrivs under rubrikerna Ordinary Least Squares samt Heteroskedasticitet. Effekter som endast kan vara aktiva eller ej kan beskrivas med dummy-variabler {x i } som definieras enligt: { 1, om effekten är aktiv. x i = (5), annars.. Ordinary Least Squares Ordinary Least Squares (OLS) är en metod som skattar β i genom att minimera kvadratsumman av residualerna. Kvadratsumman skrivs som: n n ê i = (y i ŷ i ) = (Y Xβ) T (Y X β) = () i=1 i=1 = Y T Y Y T X β + β T X T X β Skattningen β som minimerar residualerna söks, varför uttrycket deriveras och sätts till noll: 5

n i=1 ê i β = X T Y + X T X β = X T Y = X T X β β = (X T X) 1 X T Y (7) Antaganden för att OLS-estimatorn ska vara konsistent är: Exogena variabler Ingen perfekt kollinearitet OLS är även den optimala linjärna estimatorn, Best Linear Unbiased EStimator (BLUES), om felen är: Homoskedastiska Saknar autokorrelation Detta tillsammans med att väntevärdet av residualerna är noll kallas Gauss- Markov-antaganden. Kovariansmatrisen för ˆβ beräknas enligt: Cov( ˆβ) = E[( ˆβ β)( ˆβ β) T ] = () En estimator för σ är: = (X T X) 1 X T (σ I)X(X T X) 1 = (X T X) 1 σ s = Således kan kovariansmatrisen estimeras som: 1 n k 1 ê (9) Cov( ˆβ) = (X T X) 1 s () För att detta skall gälla måste modellen vara homoskedastisk. Annars kan kovariansmatrisen skattas medelst White s konsistenta variansmatris, se Heteroskedasticitet nedan..3 F-test F-test används för att avgöra huruvida en eller flera skattade parametrar är lika med noll och således kan uteslutas ur modellen. Testet bygger på att två regressioner genomförs: en för den fulla modellen med samtliga variabler och en för den reducerade modellen där ett antal testvariabler utelämnas. F-variabeln är ett mått på hur mycket residualerna skiljer sig åt mellan dessa modeller

och testar huruvida de utelämnade variablerna bidrar till att förklara datan. F-värdet beräknas enligt nedan: F = n k 1 ( ê ) r ê 1 (11) ê är residualerna från den fulla regressionen med k variabler, ê är residualerna för den reducerade regressionen där r variabler har avlägsnats och n är det totala antalet observationer. F-värdet kommer att ha en F-fördelning, F F (r, n k 1), vilket ger sannolikheten för ett visst F-värde. Om F-värdet är stort är sannolikheten för nollhypotesen att de utelämnade variablerna inte påverkar den beroende variabeln liten, varför den kan förkastas.. R R är en skalär som beskriver hur väl data och modell stämmer överens, där R = 1 betyder att regressionen passar datan perfekt. R beräknas som andelen av den totala variationen i datan som förklaras av modellen enligt: R = 1 n i=1 (y i ŷ i ) n i=1 (y i ȳ) (1) ŷ i är det av modellen skattade värdet, ȳ är medelvärdet och y i är en observation av y..5 η R beskriver hur väl alla kovariat tillsammans beskriver datan. På liknande sätt kan man vilja undersöka hur mycket en enskild variabel bidrar till att förklara datan. Detta kallas effektstorleken för en variabel. Ett mått på effektstorlek är η vilket bestäms genom att två regressioner genomförs, en med samtliga kovariat i modellen och en där en variabel har avlägsnats. Sedan beräknas η som följer: η = ê ê ê = R R 1 R (13) Nedsänkt * betyder att värdet har beräknats för en reducerad modell..5.1 Cohen s rule of thumb Det är vanligt att inkludera η -värden i en regressionsutskrift. För att tolka dessa så kan Cohen s rule of thumb [] användas, vilken kategoriserar effektstorlekarna enligt: Tabell 1: Cohen s rule of thumb. Effektstorlek Liten Mellan Stor η..13. 7

. Fel i modellen Om antagandena för OLS inte är uppfyllda riskerar estimaten och dess standardavvikelser att bli inkonsistenta...1 Endogenitet Då feltermen korrelerar med en eller flera av kovariaten föreligger endogenitet, varpå väntevärdet av feltermerna blir nollskillt och skattningen inkonsistent. Endogenitet kan uppstå då den beroende variabeln influerar de oberoende variablerna eller om relevanta variabler saknas i modellen. Det kan även uppstå vid urvalsbias eller på grund av mätfel. En lösning på detta är att lägga till relevanta variabler i modellen eller försöka hitta instrumentvariabler (IV), vilket är ett slags ersättningsvariabler som förklarar samma fenomen men som ej korrelerar med feltermen... Heteroskedasticitet Heteroskedasticitet innebär att inte alla residualer har samma standardavvikelse; motsatsen är homoskedasticitet. Om modellen felaktigt antas vara homoskedastisk kan punktskattningar göras men variansskattningarna blir felaktiga. För att avhjälpa heteroskedasticitet kan modellen försöka omformuleras eller så används White s konsistenta variansmatris, vilken skrivs: Cov( ˆβ) = (X T X) 1 X T D(ê )X(X T X) 1 = (1) ( n ) = (X T X) 1 ê i x T i x i (X T X) 1 i=1 D(ê ) är en diagonal n n-matris vars i:te diagonalelement är ê i. En metod för att upptäcka heteroskedasticitet är Breusch-Pagan-testet, vilket kollar om den skattade variansen av residualerna i kvadrat går att uttrycka som en linjärkombination av kovariaten enligt: p ê = γ 1 + γ i X i + η i (15) i= Sedan görs ett F-test för denna modell. Om p-värdet understiger en bestämd gräns så förkastas nollhypotesen, γ =... = γ p =, varför modellen är heteroskedastisk. Om White s variansmatris används är F-testet ej tillämpbart när flera β skattas. Istället används ett Wald-test. De β som antas vara noll under nollhypotesen samlas i en vektor β så att modellen blir: Waldfaktorn beräknas sedan som: Y = X 1 β 1 + X β + e (1) W = β T 1 ˆV β (17) ˆV är den skattade kovariansmatrisen för ˆβ och r är antalet element i β. r 1 W är fördelad som r 1 W F (r, n k 1) varvid det beräknade värdet på W kan användas för att testa nollhypotesen. [3]

..3 Multikollinearitet Multikollinearitet är när kovariat korrelerar med varandra. Vid perfekt multikollinearitet kan en variabel bestämmas exakt som en linjärkombination av andra variabler, varpå matrisen X inte får full rang och kan därmed inte inverteras, vilket krävs för genomförandet av OLS. Parvisa korrelationer kan studeras i en korrelationsmatris för att undersöka om det finns multikollinearitet i modellen. Om ett par har hög korrelation så tas den ena bort ur modellen. Studeras kovariat för parvis korrelation upptäcks inte korrelation med flera variabler samtidigt. Detta kan upptäckas med VIF-testet, vilket ger ett värde på hur starkt olika kovariat i en modell korrelerar med övriga kovariat. Testet utförs på följande vis: Först körs en regression för varje oberoende variabel, X j = c + i j α i X i + e (1) c är en konstant och e är feltermen. Sedan beräknas VIF-faktorn för varje kovariat som VIF = 1. Som tumregel avlägsnas en kovariat om den har ett 1 Ri värde på VIF >. [].7 Akaike information criterion För att avgöra vilka kovariat som skall ingå i den slutgiltiga modellen används Akaike Information Criterion (AIC), vilket är ett mått för att jämföra modellers relativa styrka. AIC bygger på informationsteori och hanterar utbytet mellan hur väl modellen beskriver observerad data (goodness of fit) och risken att modellen beskriver slumpmässiga fel (overfitting). AIC-värdet beräknas som: AIC = n ln( ê ) + k (19) där n är antalet observationer, e är residualerna och k är antalet kovariat. AIC beräknas för möjliga modeller och sedan väljs den modell som minimerar värdet. Som alternativ till AIC kan Bayesian Information Criterion (BIC) användas, men inom litteraturen tycks det inte råda konsensus om vilken som bör användas. 9

3 Metod Kommundata som misstänks korrelera med kommunens kostnader hämtas från i huvudsak Statistiska centralbyrån (SCB) och Sveriges Kommuner och Landsting (SKL). 3.1 Regressionsförfarande Datan importeras till Matlab och en fullständig modell med alla kovariat skapas. Sedan betraktas beskrivande statistik i form av kostnad plottad mot respektive kovariat. De variabler som inte ser linjära ut logaritmeras, varefter variabler som ter sig tydligt olinjära avlägsnas från modellen. Beskrivande statistik för de kovariat som är med i den slutgiltiga modellen visas i Appendix. Sedan testas kovariaten för multikorrelation medelst ett VIF-test. De kovariat som har ett för högt VIF-värde kommer att tas bort en i taget - i fallande ordning - tills inget värde ligger över gränsen på. Sedan testas modellen för heteroskedasticitet med ett Breusch-Pagan-test. Om kraftig heteroskedasticitet föreligger omformuleras modellen genom att ta bort eller transformera heteroskedastiska kovariat. Måttlig heteroskedasticitet kommer att försummas ty det inte innebär några problem då White s robusta estimator används. Modellen reduceras sedan för att minska dess komplexitet och därmed risk för överanpassning. Huruvida en variabel skall ingå i modellen avgörs med AIC. Först beräknas den fullständiga modellens AIC-värde. Sedan utelämnas det minst signifikanta kovariatet och AIC beräknas igen. Om den reducerade modellen har lägre AIC utelämnas kovariatet. Denna procedur upprepas till den slutgiltiga modellen får ett minimerat AIC-värde. Sedan testas modellen med Breusch-Pagan igen för att se huruvida heteroskedasticitet föreligger. Modellen testas även för endogenitet genom att plotta residualerna mot respektive kovariat för att se om linjära samband föreligger. Dessa plottar finns i Appendix för kovariat i den slutgiltiga modellen. En gräns för signifikans sätts till α = 5%.

3. Kovariat i den ursprungliga modellen Den ursprungliga modellen innehåller följande kovariat: Tabell : Kovariat i fulla modellen. Arbetslöshet Area Folkmängd Andel med studentexamen Medelålder Andel med eftergymnasial utbildning Skatteintäkter per capita Alliansstyre Blandat styre Andel med utländsk bakgrund Andel gifta Andel skilda Folktäthet Medellängd äktenskap Hushållsstorlek Andel singelhushåll Antal grundskoleelever per capita Andel kommunanställda Gymnasiedensitet Andel som bor på äldreboende Andel som får hemhjälp Elever per lärare Andel med hjälp för funktionsnedsättning Huspris Kommunal skattesats Inkomst kommunalanställda Tätortsgrad Andel vägarea Kommunala tillgångar 3.3 Kovariat i den reducerade modellen Modellens beroende variabel är: Verksamhetens kostnader Verksamhetens kostnader är kommunens löpande externa kostnader mätt i svenska kronor (SEK) i form av löner, arbetsgivaravgifter, hyror, bidrag, förändrad pensionsavsättning, utbetalda pensioner, inköp av varor och tjänster etc. per invånare år 13.[5] Efter att multikorrelerande variabler tagits bort och modellen reducerats enligt AIC så återstår följande kovariat: Medelålder Medelålder beräknas för kommunens alla invånare den 31 december 13. [] Politiskt styre Datan för det politiska styret avser mandatperioden mellan åren -1 i kommunfullmäktige. Det politiska styret delas in i tre kategorier: alliansstyre, vänsterstyre samt blandat styre. Med Alliansstyre avses ett styre som består av Moderaterna, Centerpartiet, Folkpartiet och Kristdemokraterna samt eventuellt Miljöpartiet och andra lokala småpartier. Med vänsterstyre avses ett styre som består av Socialdemokraterna och/eller Vänsterpartiet samt eventuellt Miljöpartiet och andra lokala småpartier. Med Blandat styre avses ett styre som består av en koalition med minst ett av allianspartierna samt Socialdemokraterna och/eller Vänsterpartiet samt eventuellt Miljöpartiet och andra lokala småpartier. 11

I modellen kommer Alliansstyre och Blandat styre att utgöras av två dummyvariabler och vänsterstyre kommer att vara benchmark. Detta innebär att estimaten för dummyvariablerna kommer att utgöra skillnaden i förhållande till vänsterstyre.[7] Andel gifta Variabeln Andel gifta anger andelen av invånarna som den 31 december 13 var gifta eller registrerade partners.[] Folktäthet Folktätheten beräknas som antalet invånare i kommunen dividerat med kommunens landareal. Folkmängden avser antalet invånare den 31 december 13 och landarealen är mätt i kvadratkilometer år 13.[9][] Andel kommunanställda Andel kommunanställda anger den andel av kommunens invånare som år 13 var anställda och månadsavlönade av kommunen.[11] Gymnasiedensitet Gymnasiedensitet beräknas som kvoten mellan antalet elever som är folkbokförda i kommunen och går i gymnasiet dividerat med kommunens totala antal invånare.[1] Elever per lärare Elever per lärare anger antalet elever per heltidsanställd lärare i grundskolan år 13.[1] Huspris Huspris anger medelpriset på småhus för permanentboende år 13. Detta antas spegla den generella prisnivån på kommunens fastighetsmarknad.[13] Kommunal skattesats Kommunal skattesats avser skattesatsen i kommunen år 13.[1] Kommunala tillgångar Kommunala tillgångar avser kommunens totala tillgångar enligt balansräkningen per invånare, mätt i kronor år 13.[15] 1

Resultat Beskrivande statistik för de kovariat som ingår i den slutgiltiga modellen finns bifogat i Appendix A. De variabler som logaritmerades var Folktäthet, Huspris, Kommunal skattesats samt Kommunala tillgångar. De som föreföll icke-linjära efter logaritmering var Tätortsgrad och Andel hjälp. Följande variabler hade VIF-värden över och togs bort: Andel med eftergymnasial utbildning, Hushållsstorlek och Andel singelhushåll. Medelålder hade initialt ett värde över, vilket dock hamnade under gränsen när de andra togs bort. Sedan testades den VIF-reducerade modellen för heteroskedasticitet medelst Breusch-Pagan. Detta resulterade i ett p-värde på.515, varför nollhypotesen att modellen är homoskedastisk inte kunde förkastas. De kovariat som uteslöts enligt AIC var: Tabell 3: Uteslutna kovariat enligt AIC. Arbetslöshet Area Andel med studentexamen Andel med eftergymnasial utbildning Skatteintäkter per capita Andel med utländsk bakgrund Andel skilda Medellängd äktenskap Hushållsstorlek Andel singelhushåll Anta grundskoleelever per capita Inkomst kommunalanställda Andel som bor på äldreboende Andel som får hemhjälp Andel vägarea Folkmängd Den AIC-reducerade modellen gav följande regressionsresultat: Tabell : Regressionsresultat för den reducerade modellen. Estimate Std.Error Eta.sq p.value Intercept 5.73 99.9537.97. Medelålder.53 3.357315.559.3 Alliansstyre -119.7 5.9.91.1 Blandat styre -5.159.3375.35.1 Andel gifta -.53 1.79771.171. log(folktathet) -7.331 7.3.39.95 Andel kommunanställda.7.9.151. Gymnasiedensitet 15.5.3317.57.5 Elever per lärare.57.1317.77.1 log(huspris) 1.77.711.17.35 log(kommunal skattesats) 19.53131.31.17.19 log(kommunala tillgångar) 1.7913 5.753.35.7 Modellen har Breusch-Pagan-värdet p =.19. Detta p-värde är betydligt lägre än för den fulla modellen. Enligt den deskriptiva statistiken syns ingen tydlig heteroskedasticitet. White s konsistenta variansmatris används för alla beräkningar, varför heteroskedasticitet inte innebär några större problem. Waldvärdet dividerat med antalet kovariat är W r =, vilket svarar mot ett p-värde väldigt nära 1. Modellen har ett R =.9. 13

5 Diskussion 5.1 Data Icke-slumpmässighet, antal observationer, saknade observationer och urvalsbias kommer inte att innebära några problem då vi tittar på hela populationen av kommuner. Datainsamlingen gick obehindrat då SCB sammanställer mycket kommunal data. Därför testades många variabler i den fulla modellen. Även variabler som inte har ett uppenbart samband med kommunens kostnader togs med, exempelvis Alliansstyre, Blandat styre, Andel gifta och Medelålder. Att antalet anställda påverkar kommunens kostnader är apparent, men variabeln är med dels för att öka modellens prediktionsförmåga och dels för att ta hänsyn till antalet anställda då effekten av andra kovariat bestäms. 5. Resultat I stort har estimaten bra p-värden, men blandade η -värden. Således är det osannolikt att estimaten uppkommit på grund av slumpmässighet. Överlag är effektstorleken liten till mellanstor enligt Cohen s tumregel. Ett intressant resultat är att det politiska styret i en kommun korrelerar med dess kostnader, men detta är inte signifikant för Alliansstyre varvidlag resultatet är osäkert. Sambandet är förmodligen inte kausalt ty det politiska styret i sig inte ger upphov till kostnader, utan snarare hur politiker beslutar att sköta verksamheten. Hade alla kausala variabler varit med i modellen hade alltså inte politiskt styre haft någon inverkan. Detta kallas att politiskt styre inte har någon inverkan ceteris paribus. Resultatet är likväl intressant, då det säger något om korrelationen mellan politiskt styre och kommunkostnader. En intressant observation är att Blandat styre har lägre kostnader än Alliansstyre. Ser man till den politiska ideologin bör alliansstyrda kommuner ha lägst kostnader, då de strävar efter en mindre offentlig sektor än ett vänsterstyre. Orsakerna till detta kan bara spekuleras om, vilket överlåts till andra. Denna uppsats kan dock ge bra underlag för en sådan undersökning. Regressionsutskriften ger vidare att Medelålder korrelerar med kostnaderna. Detta är förmodligen inte ett kausalt samband, varför effekten ändras om man tillför förklarande variabler. Att ha med alla förklarande variabler är inte möjligt då data inte är tillgängligt och dessutom gör modellen för komplex. Således kan Medelålder ses som en samlingsvariabel". Vid val av kovariat görs en avvägning mellan att ha en enkel modell och att minska multikorrelationen. Även Andel gifta har sannolikt ett icke-kausalt samband. Enligt våra resultat hänger större andel gifta samman med lägre expenser för kommunen. En anledning kan vara att vissa kostnader för kommunen beror av antalet hushåll snarare än antalet invånare. I den ursprungliga modellen fanns snittstorleken för hushåll med, men denna variabel led av stark multikorrelation, eventuellt med andel gifta. 1

Elever per lärare och Andel kommunanställda bör ha kausala samband med kostnader. Detta då utbetalda löner dyker upp explicit i resultaträkningen som en kostnadspost. Ett märkligt resultat är att fler elever per lärare hänger samman med högre kostnader. Intuitivt bör det omvända gälla, vilket talar för ett icke-kausalt samband. Många Elever per lärare ger lägre Andel kommunanställda, något som kan tyckas vara ett korrelationsproblem. VIF gav dock inga sådana indikationer, vilket kan bero på att lärarna bara utgör en liten del av alla anställda. Estimaten är positiva och signifikanta. Om log(folktäthet) ökar så minskar Verksamhetens kostnader, troligtvis på grund av att fler personer delar på den offentliga verksamheten, såsom gatustädning och parkskötsel. Detta resultat är dock inte signifikant. Hög Gymnasiedensitet bidrar till högre kostnader. Detta är rimligt ty elevmängden renderar utgifter i form av lokalkostnader och dylikt. Likaså leder högt log(huspris) till höga kostnader. Under antagandet att huspriserna speglar det generella kvadratmeterpriset för lokaler är detta rimligt, då skolor och äldreomsorg kräver lokaler. log(kommunal skattesats) korrelerar med högre kostnader. Här skulle det dock kunna föreligga omvänd kausalitet, då högre kostnader kan leda till att skatten höjs. Annars kan det vara så att Parkinsons andra lag har verifierats, vilken säger att: "Utgifterna stiger för att motsvara inkomsterna"[1]. Ett intressant resultat är att hög log(kommunala tillgångar), det vill säga en större balansräkning, tycks hänga samman med högre kostnader. Detta skulle kunna indikera att kommuner bör köpa in tjänster snarare än att försöka driva verksamhet själva. Detta ligger i linje med samlingen managementidéer som ryms inom begreppet New Public Management[17], där man strävar efter att outsourca och marknadsanpassa offentliga verksamheter. 5.3 Svårigheter En av de stora svårigheterna var att avgränsa modellen. Det kommer alltid att föreligga en viss multikorrelation, varför de enskilda estimaten - och således modellens strukturella tolkning - beror av övriga inkluderade kovariat. Det är således viktigt vilka kovariat som ingår i modellen. Det blir även svårt att tolka estimaten för icke-kausala samband, vilket är ett besläktat problem. Att bara hitta kausala samband hade inte varit intressant, ty det i sådana fall hade varit lättare att titta i resultaträkningen direkt. Ett mål med studien var att dels titta på inneboende egenskaper hos kommunen, exempelvis Folktäthet och Gymnasiedensitet och dels faktorer som går att påverka, exempelvis Elever per lärare. För att välja variabler till modellen samlades först mycket data in för faktorer som antogs korrelera med kostnaderna. Sedan tilläts metodiken under Regressionsförfarande avgöra vilka variabler som skulle ingå i den slutgiltiga modellen. 15

5. Förbättringar I brist på liknande arbeten saknades vägledning vid formulering av frågeställning och val av modell. I efterhand kan det spekuleras om huruvida en mer specificerad frågeställning hade gett mer lättolkade resultat. Något som liknande arbeten kan beakta i framtiden är att specificera kostnaderna för en viss verksamhet och undersöka den i större detalj, exempelvis skolkostnader. Då finns större möjlighet att ta med samtliga korrelerande variabler och således få en starkare tolkning av modellen. Slutsats Valda kovariat predikterar kommuners kostnader väl, med R =.9. Modellen ger en bra bild av några faktorer som starkt korrelerar med kostnaderna. De resultat som författarna anser intressantast är att alliansstyre och blandat styre tenderar att hänga samman med lägre kostnader samt att en större balansräkning korrelerar med högre kostnader, varför kommuner kanske bör outsourca mer. 1

Referenser [1] Rebecca Weidmo Uvell. Lagstifta mot slarvet med skattepengarna. url: http:// www. expressen. se/ debatt/ lagstifta- mot- slarvet- medskattepengarna/. [] Peter Watson. Rules of thumb on magnitudes of effect sizes. url: http: //imaging.mrc-cbu.cam.ac.uk/statswiki/faq/effectsize. [3] Harald Lang. Elements of Regression Analysis. 1. [] J. Neter M. H. Kutner C. J. Nachtsheim. Applied Linear Regression Models (th ed.) McGraw-Hill Irwin,. isbn: 97-7311. [5] Statistiska centralbyrån. Resultaträkning 13. url: http:// www. scb. se/sv_/hitta-statistik/statistik-efter-amne/offentlig-ekonomi/ Finanser-for-den-kommunala-sektorn/Rakenskapssammandrag-forkommuner-och-landsting/1197/119/. [] Statistiska centralbyrån. Sveriges befolkning, kommunala jämförelsetal, 31 december 13. url: http : / / www. scb. se / sv _ /Hitta - statistik / Statistik-efter-amne/Befolkning/Befolkningens-sammansattning/ Befolkningsstatistik/57/5795/. [7] Sveriges Kommuner och Landsting. Styren i kommuner. url: http:// skl.se/demokratiledningstyrning/valmaktfordelning/valresultatmaktfordelning1. 9.html. [] Statistiska centralbyrån. Sveriges befolkning, kommunala jämförelsetal, 31 december 13. url: http : / / www. scb. se / sv _ /Hitta - statistik / Statistik-efter-amne/Befolkning/Befolkningens-sammansattning/ Befolkningsstatistik/57/5795/. [9] Statistiska centralbyrån. Sveriges befolkning, kommunala jämförelsetal, 31 december 13. url: http : / / www. scb. se / sv _ /Hitta - statistik / Statistik-efter-amne/Befolkning/Befolkningens-sammansattning/ Befolkningsstatistik/57/5795/. [] Statistiska centralbyrån. Land- och vattenareal per den 1 januari efter region och arealtyp. url: http://www.scb.se/sv_/hitta- statistik/ Statistik-efter-amne/Miljo/Markanvandning/Land--och-vattenarealer/ #c_undefined. [11] Statistiska centralbyrån. Antal anställda efter ålder, kön och kommun. url: http://skl.se/ekonomijuridikstatistik/statistiknyckeltaljamforelser/ personalstatistik/personalenidiagramochsiffror/tabellerkommunalpersonal1/ kommunalpersonal13.7.html. [1] Skolverket. url: http://www.jmftal.artisan.se/. [13] Statistiska centralbyrån. Köpeskilling för småhus. url: http://www.scb. se/sv_/hitta-statistik/statistik-efter-amne/boende-byggandeoch-bebyggelse/fastighetspriser-och-lagfarter/fastighetspriseroch-lagfarter/957/9/kommunstatistik/5399/. [1] Statistiska centralbyrån. Kommunalskatteuppgifter efter region. År - 15. url: http://www.statistikdatabasen.scb.se/pxweb/sv/ssd/ START OE OE1/Kommunalskatter/?rxid=dd57b7e- fbb- cca-b5-ba9911fc. 17

[15] Statistiska centralbyrån. Balansräkning för kommuner efter region och balansräkningsposter. År 199-1. url: http://www.statistikdatabasen. scb. se / pxweb / sv / ssd / START OE OE7 OE7A / BalansKn /?rxid=1f959a-e-51-1-c777a9. [1] C. N. Parkinson. Parkinson s Law. Buccaneer Books, 199. isbn: 97-159151. [17] Roland Almqvist. New Public Management - om konkurrensutsättning, kontrakt och kontroll. Liber,. isbn: 97917775. 1

A Appendix Deskriptiv statistik 35 5 5 Medelålder 3 5 Andel gifta... Gymnasiedensitet. 3 3. log(kommunal skattesats).5 1 Alliansstyre -5 5 log(folktäthet) 5 15 Elever per lärare - log(kommunala tillgångar).5 1 Blandat styre.1. Andel kommunanställda log(huspris) Figur 1: Deskriptiv statistik för kovariat i slutgiltiga modellen. 19

- 35 5 5 Medelålder - 3 5 Andel gifta -... Gymnasiedensitet -. 3 3. log(kommunal skattesats) -.5 1 Alliansstyre - -5 5 log(folktäthet) - 5 15 Elever per lärare - - log(kommunala tillgångar) -.5 1 Blandat styre -.5.1.15 Andel kommunanställda - log(huspris) Figur : Samband mellan residualer och kovariat i den slutgiltiga modellen.