Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2015:1 Utbildning och inkomst viktigare än vänster-höger Principalkompanalyser av riksdagsvalen 2006-2014 Vladimir Calderón Självständigt arbete 15 högskolepoäng inom Statistik III, VT2015 Handledare: Dan Hedlin
Sammanfattning Hur kan valresultaten till riksdagsvalen 2006-2014 för Sveriges kommuner beskrivas med några få variabler istället för att räkna upp andelen röster per kommun? I uppsatsen undersöks detta med hjälp av tre principalkompanalyser, ett för varje val. Resultatet är att tre komper kan sammanfatta hur kommuner röstar. Den första och viktigaste kompen står för utbildning och inkomst. Den andra kompen för vänster-höger. Den tredje står för enfrågepartier. Nyckelord: Principalkompanalys, riksdagsval, kommuner. i
Innehållsförteckning 1 Inledning... 1 2 Val av metod... 2 3 Datamaterialet... 3 3.1 Beskrivning av data... 3 3.2 Programvara... 4 3.3 Transformationer... 4 3.4 Antaganden... 6 3.4.1 Slumpmässigt urval... 6 3.4.2 Urvalsstorlek... 6 3.4.3 Mätningar på minst intervallnivå... 7 3.4.4 Univariata normalfördelningar... 7 3.4.5 Bivariata normalfördelningar... 10 3.4.6 Inga extremvärden... 10 3.4.7 Linjäritet mellan samtliga variabler... 10 3.4.8 Reducerbarhet... 10 4 Principalkompanalyser... 11 5 Antal komper... 14 5.1 Eigenvärde-kriteriet... 14 5.2 Scree-testet... 16 5.3 Andel förklarad varians... 19 5.4 Slutsats... 20 6 Matchning av komper... 20 6.1 Data... 21 6.2 Metod... 21 6.3 Resultat... 21 7 Tolkning av komper... 23 7.1 Metod... 23 7.2 1: Inkomst/Utbildning... 24 7.3 2: Vänster-Höger... 25 7.4 3: Enfrågepartier... 27 8 Diskussion och sammanfattning... 27 Litteraturförteckning... 28 Bilaga A: Resultat av klusteranalysen... 29 ii
1 Inledning Sverige har ett representativt statsskick där folket väljer representanter till offentliga maktpositioner, däribland till riksdagen. I Sverige sker riksdagsval vart fjärde år. Det är det viktigaste uttrycket för demokrati och avgör hur landet ska styras under den efterföljande mandatperioden. Resultaten från riksdagsvalen 2006-2014 finns i Tabell 1.1. Tabell 1.1: Andel röster per parti i riksdagsvalen 2006-2014 (SCB, 2015). Partier Valet 2006 Valet 2010 Valet 2014 Moderaterna 26,23% 30,06% 23,33% Centerpartiet 7,88% 6,56% 6,11% Folkpartiet 7,54% 7,06% 5,42% Kristdemokraterna 6,59% 5,60% 4,57% Socialdemokraterna 34,99% 30,66% 31,01% Vänsterpartiet 5,85% 5,60% 5,72% Miljöpartiet 5,24% 7,34% 6,89% Sverigedemokraterna 2,93% 5,70% 12,86% Feministiskt initiativ 0,68% 0,40% 3,12% Övriga partier 2,07% 1,03% 0,97% Hur kommuner röstar till riksdagen skiljer sig över riket. Exempelvis så är Socialdemokraterna starka i norrländska kommuner, Miljöpartiet starka i storstadskommuner och Sverigedemokraterna starka i skånska kommuner (X). Utöver hur många röster vissa partier får kan kommuners röstande även beskrivas på andra sätt. Vissa kommuner betraktas som röda och vissa som blåa, dvs. hur mycket åt vänster eller höger de röstar. På vilka fler sätt kan kommuner klassificeras? Vilka dimensioner beskriver bäst hur kommuner röstar? Dessa frågor kommer uppsatsen försöka att ge svar på. Syftet är att undersöka om och hur valresultaten i Sveriges kommuner från de tre senaste riksdagsvalen kan sammanfattas med några få meningsfulla faktorer. För att uppnå syftet kommer principalkompanalyser att göras för valen 2006, 2010 och 2014. I avsnitt 2 motiveras valet av metod. I avsnitt 3 beskrivs data, transformationer utförs och antagandena kontrolleras. Sedan utförs själva principalkompanalyserna i avsnitt 4. Efter det tas det ställning till hur många komper som behålls, avsnitt 5. Därefter, avsnitt 6, följer en analys av vilka 1
komper som hör ihop med varandra. I avsnitt 7 tolkas komperna. Uppsatsen avslutas med en kort diskussion av resultaten i avsnitt 8. 2 Val av metod Hur kan man gå tillväga för att sammanfatta flera variabler med några få (ännu okända) variabler? Det finns två dominerande angreppssätt för att reducera antalet variabler i en datamängd: principalkompanalys (PCA) och explorativ faktoranalys (EFA). Dessa liknar varandra i mångt och mycket men har viktiga, framförallt konceptuella, skillnader. Nedan tar jag upp några av dessa skillnader samt argumenterar för vilken utav variabelreduceringsmetoderna som lämpar sig bäst här. PCA är en variabelreducerande metod där de sammanfattande variablerna kallas komper. Dessa extraheras på ett sådant sätt att de förklarar största möjliga varians hos de ursprungliga variablerna. Värdet hos en komp kallas för dess komppoäng (comp score) och är en linjär funktion av samtliga av de ursprungliga variablerna. erna är sinsemellan ortogonala (vinkelräta). Att komperna är ortogonala leder till att de även är okorrelerade. EFA är en metod där reduceringen av variablerna istället sker till så kallade faktorer. En sådan faktor kan inte mätas direkt utan endast genom hur de påverkar mätvärden hos observerade variabler. Ett viktigt antagande hos de sökta faktorerna är att varje ursprunglig variabel endast hör samman med en faktor. Faktorpoäng (factor scores) blir således en linjär funktion av de variabler som hör ihop med just den faktorn. Faktorerna tillåts vara oblika (sneda). Tabell 2.1: Några skillnader mellan principalkompanalys och explorativ faktoranalys. Specifikt för PCA Specifikt för EFA er. Ortogonala komper. Samtliga komppoäng är linjära funktioner av samtliga observerade variabler. erna är okorrelerade sinsemellan. Variabler bidrar till komper. Antar att all variation är sann variation. Faktorer. Oblika faktorer. En faktorpoäng är en linjär funktion av en del av de observerade variablerna. Faktorerna tillåts korrelera sinsemellan. Faktorer bidrar till variabler. Tar hänsyn till mätfel och slumpmässig variation. Syftet med uppsatsen är som sagt att sammanfatta valresultat hos kommuner, där de ursprungliga variablerna står för andelen röster varje parti fick. För att uppnå detta bör 2
en utav de variabelreducerande metoderna väljas. Trots att det a priori inte går att veta vilka sammanfattande variabler som bäst skulle sammanfatta valresultaten är det sannolikt att var och en hör samman med samtliga partier på något sätt och inte uteslutande med bara några få av dem. Exempelvis kan en möjlig sammanfattande variabel vara vänster-höger. En sådan variabel skulle alla partier kunna sägas vara mer eller mindre; det är inte bara en del av partierna som hamnar på vänsterhögerskalan. I förlängningen betyder det att de sammanfattande variablerna bör ses som kombinationer av samtliga partier. Därför är PCA att föredra framför EFA. Det bör även nämnas att förutom PCA och EFA så finns ytterligare en variabelreducerande teknik kallad konfirmerande faktoranalys (CFA). CFA används när det i förväg finns skäl för att tro (via till exempel en etablerad teori eller tidigare empiriska studier) att vissa specifika faktorer finns latenta i de observerade variablerna. Denna förutsedda faktorstruktur testas sedan med hjälp av CFA. Eftersom vi inte har en tydlig teori om vilka faktorer som ligger bakom hur kommunerna röstar på olika partier är CFA olämplig som metod i det här fallet. 3 Datamaterialet 3.1 Beskrivning av data Data till principalkompanalysen inhämtades från Statistiska centralbyråns (SCB) hemsida (2015). Där finns slutgiltiga riksdagsvalresultat för åren 2006, 2010 och 2014 uppdelat efter parti och kommun. De partier som inkluderades i undersökningen var Moderata samlingspartiet (M), Centerpartiet (C), Folkpartiet liberalerna (FP), Kristdemokraterna (KD), Sveriges socialdemokratiska arbetareparti (S), Vänsterpartiet (V), Miljöpartiet de gröna (MP), Sverigedemokraterna (SD), Feministiskt Initiativ (FI) och Övriga partier (OVR). Variablernas värden är andelen röster partierna fick i respektive kommun. Övriga partiers procentsats är den aggregerade summan av andelarna för de resterande partierna, eller ekvivalent 1 minus summan av de inräknade partiernas procentsatser. Observera att blanka röster inte räknas med eftersom de betraktas som ogiltiga röster. De partier med egna tillskrivna variabler är samtliga partier som fått högre än 2,5% röster i något utav de tre riksdagsvalen. 2,5% är spärren för att ett parti ska få partistöd, vilket är ett ekonomiskt stöd som delas ut av staten. Ett annat alternativ hade varit att inkludera endast de partier som fått över 4% i något av de tre senaste valen, dvs. spärren för att få mandat i Sveriges riksdag. Det skulle resultera i att FI skulle räknas in bland OVR och antalet variabler skulle minska från 10 till 9. Förutom den PCA med 10 partier som presenteras här utförde jag parallellt även en PCA med 9 partier. Skälet till att jag slutligen valde 10 partier var att det underlättar i tolkningen utav komperna att ha fler partier till stöd. Dock så gav de behållna komperna i PCA:n med 9 variabler något större andel förklarad varians, vilket till stor del förorsakas just av att det är en variabel mindre vars varians behövs förklaras. 3
För att stärka validiteten undersöktes fler än endast det senaste riksdagsvalet. Med fler val minskar osäkerheten på att komperna verkligen överensstämmer med de tolkningar som görs. Det har även fördelen att jämförelser kan göras mellan valåren. Dock är tre val för knapert för att undersöka långsiktiga trender. Att inte fler än tre val inräknades beror på att det politiska klimatet såg alltför annorlunda ut längre bak i tiden. Vid riksdagsvalet 2002 existerade exempelvis inte FI som grundades 2005. Sammanfattningsvis bestod data av andelen röster för 10 partier i 290 kommuner under tre riksdagsval. Totalt 10 * 290 * 3 = 8700 observationer. 3.2 Programvara Till de statistiska analyserna har jag använt SAS 9.4. Till viss hantering av data har jag även utnyttjat Microsoft Excel 2013 (v. 15). 3.3 Transformationer En egenskap hos datamängden är att den är kompositionell, dvs. data beskriver andelar istället för absoluta kvantiteter. För varje kommun blir summan av andelen röstande per parti en konstant (1). Om ett parti exempelvis får 25% av rösterna i en kommun är det bestämt att resterande partier får exakt 75% av rösterna. När ett parti får en ökad andel måste resterande partiers andelar minska. Följaktligen blir korrelationer mellan variablerna missvisande när data är kompositionella, vilket även leder till att multivariata analysmetoder som PCA kan ge vilseledande resultat. För att komma tillrätta med problemet måste någon form av transformation göras. Aitchison och Greenacre (2002) har undersökt flera olika sorters transformationer och kommit fram till att centrerad logratio (clr) transformation är lämplig vid PCA. Clrtransformationen utförs genom att dividera varje observerat värde med det geometriska medelvärdet för observationerna i enheten för att sedan ta naturliga logaritmen av resultatet: ln{x j /g(x)}. För data i den här undersökningen är observationerna andelen röster på ett parti och enheterna är de olika kommunerna. Efter att transformationen är gjord så blir summerar variablerna för en kommun till 0. Data är alltså fortfarande kompositionella. Dock så kommer korrelationerna att vara mer rättvisande. Korrelationsmatriserna för de tre valåren finns i Tabell 3.1 3.3. Det är de transformerade korrelationsmatriserna som kommer att ligga till grund för PCA i avsnitt 4. Tabell 3.1: Pearson korrelationer mellan partierna i riksdagsvalet 2006. 2006 M C FP KD S V MP SD FI OVR M 1,00-0,32 0,61 0,22-0,73-0,73 0,33 0,11 0,09-0,31 C -0,32 1,00-0,46 0,20 0,21 0,06-0,35-0,15-0,43-0,05 FP 0,61-0,46 1,00 0,13-0,56-0,46 0,31-0,12 0,27-0,36 4
KD 0,22 0,20 0,13 1,00-0,25-0,41-0,11-0,03-0,41-0,31 S -0,73 0,21-0,56-0,25 1,00 0,68-0,48 0,08-0,37 0,23 V -0,73 0,06-0,46-0,41 0,68 1,00-0,07-0,36-0,02 0,22 MP 0,33-0,35 0,31-0,11-0,48-0,07 1,00-0,40 0,37-0,26 SD 0,11-0,15-0,12-0,03 0,08-0,36-0,40 1,00-0,30-0,06 FI 0,09-0,43 0,27-0,41-0,37-0,02 0,37-0,30 1,00-0,13 OVR -0,31-0,05-0,36-0,31 0,23 0,22-0,26-0,06-0,13 1,00 Tabell 3.2: Pearson korrelationer mellan partierna i riksdagsvalet 2010. 2010 M C FP KD S V MP SD FI OVR M 1,00-0,09 0,56 0,31-0,71-0,78 0,32 0,11 0,12-0,13 C -0,09 1,00-0,34 0,23 0,09-0,08-0,39-0,04-0,37-0,22 FP 0,56-0,34 1,00 0,26-0,56-0,44 0,28-0,19 0,11-0,09 KD 0,31 0,23 0,26 1,00-0,32-0,36-0,03-0,12-0,31-0,46 S -0,71 0,09-0,56-0,32 1,00 0,78-0,43 0,21-0,50 0,09 V -0,78-0,08-0,44-0,36 0,78 1,00-0,18-0,16-0,23 0,09 MP 0,32-0,39 0,28-0,03-0,43-0,18 1,00-0,26 0,43-0,16 SD 0,11-0,04-0,19-0,12 0,21-0,16-0,26 1,00-0,36 0,02 FI 0,12-0,37 0,11-0,31-0,50-0,23 0,43-0,36 1,00-0,07 OVR -0,13-0,22-0,09-0,46 0,09 0,09-0,16 0,02-0,07 1,00 Tabell 3.3: Pearson korrelationer mellan partierna i riksdagsvalet 2014. 2014 M C FP KD S V MP SD FI OVR M 1,00-0,18 0,61 0,23-0,74-0,77 0,50-0,19 0,02-0,13 C -0,18 1,00-0,41 0,15 0,15-0,12-0,59 0,18-0,41-0,13 5
FP 0,61-0,41 1,00 0,15-0,66-0,40 0,46-0,48 0,23-0,26 KD 0,23 0,15 0,15 1,00-0,36-0,39-0,04-0,17-0,42-0,33 S -0,74 0,15-0,66-0,36 1,00 0,68-0,60 0,46-0,31 0,05 V -0,77-0,12-0,40-0,39 0,68 1,00-0,33-0,08 0,19-0,04 MP 0,50-0,59 0,46-0,04-0,60-0,33 1,00-0,45 0,56-0,08 SD -0,19 0,18-0,48-0,17 0,46-0,08-0,45 1,00-0,57 0,23 FI 0,02-0,41 0,23-0,42-0,31 0,19 0,56-0,57 1,00-0,03 OVR -0,13-0,13-0,26-0,33 0,05-0,04-0,08 0,23-0,03 1,00 I kommunerna Laxå och Åsele var det 0 röster på FI vid riksdagsvalet 2010. Det geometriska medelvärdet för dessa kommuner blir följaktligen 0 och eftersom kvoter med 0 som nämnare är odefinierade var det inte möjligt att transformera valresultaten för dessa två kommuner. Därför uteslöts dessa ur vidare analyser och det totala antalet kommuner för år 2010 reduceras till 288. 3.4 Antaganden Vid utförandet av en PCA finns det vissa antaganden (Beavers et al., 2013; Shlens, 2014; O Rourke, Norm, Hatcher, 2013) som i förväg bör tas i beaktande för att analysen ska kunna ge användbara resultat: slumpmässiga urval, urvalsstorlek, mätningar på minst intervallnivå, univariata och bivariata normalfördelningar, linjäritet mellan variabler samt reducerbarhet. Nedan bedöms till vilken grad antagandena uppfylls. 3.4.1 Slumpmässigt urval Inget urval har skett utan datamaterialet omfattar hela populationen. Därmed finns det ingen risk för urvalsfel. Observationerna är ovanligt nog också fullständigt reliabla. Eftersom andelen röstande på ett parti i en kommun definieras just av så många de räknas till finns det inga mätfel. 3.4.2 Urvalsstorlek Beträffande urvalsstorlek så finns det två bedömningsgrunder: dels hur många observationer per variabel och dels hur många gånger större antalet observationerna är i förhållande till antalet variabler. Gorsuch (1983) rekommenderar minst en storlek på 100 observationer per variabel, n>100. Ett annat storlekskrav är att antalet observationer bör vara minst 5 gånger högre än antalet variabler, n > 5 * p (Hatcher, 1994; Garson, 2008). Eftersom n = 290 och p = 10 samt 290 > 100 och 290 > 5 * 10 så uppfyller datamaterialet båda dessa krav. Comrey och Lee (1992) beskriver 100 enheter som 6
poor, 200 som fair, 300 som good, 500 som very good och över 1000 som excellent. 3.4.3 Mätningar på minst intervallnivå Ytterligare ett antagande är att variablerna är mätta på minst intervallnivå. I det här fallet så är variablerna kontinuerliga på kvotnivå, eftersom det finns ett 0-värde, och antagandet är uppfyllt. 3.4.4 Univariata normalfördelningar Nu kommer vi in på antaganden gällande fördelningen hos variablerna och deras inbördes förhållanden. Ett antagande är att variablerna är normalfördelade. Detta kan kontrolleras grafiskt eller med ett normalitetstest. Längs med diagonalerna i Figur 4.1 4.3 finns histogram över fördelningen av variablerna för de tre valen. Utifrån dessa ser fördelningarna approximativt normalfördelade ut. 7
Figur 3.1 År 2006. Histogram över partiernas fördelningar samt plottar av de bivariata fördelningarna mellan partierna. Figur 3.1 År 2010. Histogram över partiernas fördelningar samt plottar av de bivariata fördelningarna mellan partierna. 8
Figur 3.1 År 2014. Histogram över partiernas fördelningar samt plottar av de bivariata fördelningarna mellan partierna. Eftersom visuell inspektion av fördelningarna är subjektiv utförde jag även normalitetstest av variablerna. SAS tillhandahåller fyra normalitetstest: Shapiro-Wilk testet, Kolmogorov-Smirnov testet, Anderson-Darling testet och Cramer-von Mises testet. Av dessa rekommenderar X Shapiro-Wilk testet (Shapiro och Wilk, 1965). Testet bygger på W-statistikan där små skattade värden på den leder till förkastande av nollhypotesen att den observerade fördelningen är normal. Ett signifikant resultat betyder alltså att observationerna sannolikt inte kommer från en (exakt) normalfördelning. 3 * 10 = 30 sådana test utfördes där 21 gav signifikanta p-värden och 9 icke-signifikanta. S och MP år 2006 och FP, S och SD år 2010 och FP, S, MP och OVR var de enda som klarade testet. För dessa variabler kunde man alltså inte avgöra om fördelningen är skild från normalfördelningen. Trots att de flesta av testen blev signifikanta får detta tolkas som ett tämligen positivt resultat. Teststyrkan (benägenheten att förkasta noll-hypotesen) hos Shapiro-Wilk testet ökar med urvalsstorleken. Eftersom urvalsstorleken var stor, antingen 288 eller 290, så 9
leder även väldigt små avvikelser från normalfördelningen till signifikanta resultat. Att ändå 9 av testen inte kunde förkasta noll-hypotesen på 5 % nivå kan därför ses som ett gynnsamt tecken. För övrigt så är PCA ofta robust mot lindriga avvikelser från normalfördelningen (Shlens, 2003). 3.4.5 Bivariata normalfördelningar Nästa antagande är att även de bivariata fördelningarna mellan alla par av variabler inom samma val är normalfördelade. Detta kan kontrolleras grafiskt. Utanför diagonalerna i Figur 3.1-3.3 finns de bivariata fördelningarna för samtliga par av variabler plottade. Många utav dem ser oval- eller cirkelformade ut, vilket tyder det på att de är bivariat normalfördelade. Dock så verkar vissa av dem avvika något från det mönstret. Till exempel ser en del av de bivariata fördelningarna mellan MP, SD och FI nästan triangulära ut. Antagandet kan ifrågasättas, men jag har ändå tolkat det som att fördelningarna i stort inte avviker från bivariata normalfördelningar i alltför hög grad. 3.4.6 Inga extremvärden I Figur 3.1 3.3 ser man att de flesta observationer samlas kring varandra medan det vissa observationer ligger lite längre ut. Några av dessa skulle kanske kunna betraktas som extremvärden, trots detta har jag har inte uteslutit några observationer. 3.4.7 Linjäritet mellan samtliga variabler Även antagandet om att sambanden mellan variablerna är linjära kan kontrolleras grafiskt med Figurerna 3.1 3.3. Om plottarna exempelvis ser ut att vara U- eller vågformade kan man ifrågasätta detta antagande. Dock så ser sambanden ut att vara linjära, i de fall där ett samband kan urskiljas visuellt. 3.4.8 Reducerbarhet För att en PCA ska kunna vara en värdefull metod är ett antagande att variablerna ska samvariera på ett sådant sätt att de kan sammanfattas av komper istället. Om variablerna är oberoende av varandra finns det inget värde i att försöka utföra en PCA eftersom variablerna då beskriver helt skilda företeelser. Om de däremot uppvisar korrelationer med varandra kan man med hjälp av PCA upptäcka viktiga komper. Tabachnick och Michell (2001) nämner korrelationer på åtminstone 0,30 för att variabelreducering ska vara rättfärdigat. I Tabell 3.1 3.3 ser man att partierna korrelerar högre än 0,3 i 51% av fallen 2014, 42% av fallen i 2010 och 51% av fallen 2006. Förutom att titta på korrelationerna finns det två test för reducerbarhet: Kaiser-Meyer- Olkin testet och Bartletts test av sfäriskhet. Bartletts test är inte möjlig att använda här eftersom den endast används vid maximum-likelihood extraktion av faktorer vid EFA. KMO testet används däremot vid PCA. Till testet krävs det att man inverterar korrelationsmatrisen. Dock så är korrelationsmatriserna för partierna för de tre valen singulära eftersom determinanten är 0 för dem. Det är dem för att en av raderna kan ses som en linjär kombination av de andra raderna: data är kompositionella. Konsekvensen av detta är att KMO testet inte kan genomföras. 10
På grund av att inget reducerbarhetstest är möjligt att göra får man förlita sig på att korrelationerna verkar vara någorlunda höga. Efter att PCA har utförts indikerar även andelen förklarad varians av behållna komper ifall data är lämpliga för en PCA. 4 Principalkompanalyser Med PCA uppnås ett alternativt sätt att se på data genom att byta basen för datamängden. Vektorerna i den nya basen kallas komper. De väljs så att de är linjära kombinationer av den ursprungliga basen (variablerna) samt ortogonala mot varandra. Detta leder i sig inte till en unik lösning, men sättet som komperna väljs på gör det. Den första kompen väljs så att den förklarar störst möjliga varians, dvs. vektorn ligger längs med den linje som observationerna varierar mest utefter. Antagandet här är att hög varians tyder på viktig struktur och att lägre varians tyder på mindre viktig struktur eller slumpmässig variation. Den andra kompen väljs så att den förklarar störst möjliga varians av den återstående variansen. Samma tillvägagångssätt tillämpas successivt tills lika många komper erhållits som det fanns variabler från början. I det här fallet kommer det dock bara att extraheras 9 komper, ett mindre än antalet partier. Detta eftersom korrelationsmatrisen är singulär och 9 komper kommer att vara tillräckligt många för att förklara all varians. En bra referens för hur principalkomper beräknas matematiskt är Shlens (2014). Nu när antagandena har kontrollerats och inga större brott mot dem har upptäckts kan jag gå vidare till själva PCA:n. Jag kommer här att redovisa resultaten från tre PCA:er, en för vardera val. PCA utförs oftast med korrelationsmatrisen som grund, men även kovariansmatrisen går att använda. Här kommer den att göras på korrelationsmatriserna för att inte variabler med högre varians inte ska påverka resultaten alltför mycket på bekostnad av variabler med lägre varians. I Tabell X-X ser man korrelationsmatriserna för respektive val. Med PROC FACTOR i SAS får man fram 9 komper för varje val. Dessa beskrivs av kompladdningarna i kompmönstermatriserna i Tabell 4.1-4.3. Värdet av kompladdningar är korrelationen mellan en komp och en variabel. Laddningar bidrar till tolkningen av komperna: en hög/låg laddning betyder att partiet har ett positivt/negativt samband med kompen. Tabell 4.1: laddningar för år 2006. Laddningarna är avrundade till två decimaler. one nt/partier 2006 1 2 3 4 5 6 7 8 9 M 0,86-0,22-0,12 0,12 0,01 0,14 0,22 0,35 0,03 C -0,45-0,45 0,55 0,11-0,46-0,02 0,25-0,07 0,00 11
FP 0,79 0,08-0,03-0,11 0,32-0,31 0,33-0,21-0,02 KD 0,25-0,68 0,44 0,04 0,32-0,12-0,40 0,02 0,01 S -0,87 0,03-0,09-0,30 0,23-0,01 0,10 0,06 0,29 V -0,72 0,52 0,18-0,20 0,23 0,05 0,04 0,12-0,25 MP 0,55 0,52 0,30-0,01 0,04 0,55-0,07-0,15 0,08 SD -0,03-0,52-0,75-0,28-0,16 0,18-0,10-0,11-0,08 FI 0,39 0,72-0,07-0,08-0,37-0,34-0,25 0,05 0,07 OVR -0,45 0,18-0,35 0,78 0,14-0,02-0,02-0,05 0,02 Tabell 4.2: laddningar för år 2010. Laddningarna är avrundade till två decimaler. one nt/partier 2010 1 2 3 4 5 6 7 8 9 M 0,83 0,25 0,30-0,01-0,02 0,06 0,14 0,37-0,03 C -0,24 0,67-0,29-0,56 0,08 0,10 0,27-0,09-0,02 FP 0,71-0,02 0,09 0,41 0,37-0,27 0,28-0,17 0,02 KD 0,38 0,68-0,36 0,26 0,14 0,05-0,42-0,02 0,02 S -0,92 0,01-0,02 0,26-0,06-0,02 0,10 0,12 0,24 V -0,80-0,32-0,31 0,29 0,07-0,05 0,05 0,10-0,22 MP 0,55-0,50-0,26 0,19-0,25 0,51 0,11-0,09 0,03 SD -0,21 0,35 0,71 0,15-0,53-0,02-0,03-0,14-0,06 FI 0,45-0,65-0,18-0,39-0,25-0,32-0,14 0,00 0,04 OVR -0,24-0,38 0,60-0,22 0,57 0,22-0,15-0,03 0,01 Tabell 4.3: laddningar för år 2014. Laddningarna är avrundade till två decimaler. one nt/partier 12
2014 1 2 3 4 5 6 7 8 9 M 0,80-0,37 0,24 0,06-0,22-0,05 0,21 0,27 0,00 C -0,42-0,56-0,25-0,60-0,26-0,04 0,04-0,10-0,03 FP 0,81 0,00-0,10 0,24-0,08-0,49-0,10-0,16 0,02 KD 0,26-0,66-0,42 0,12 0,50 0,19-0,09 0,05 0,04 S -0,89 0,20-0,07 0,26-0,08 0,00 0,18-0,04 0,21 V -0,60 0,64-0,37 0,13 0,11-0,11 0,06 0,10-0,19 MP 0,79 0,36 0,14 0,06-0,02 0,39 0,16-0,22-0,06 SD -0,58-0,37 0,52 0,32-0,26 0,16-0,23 0,00-0,06 FI 0,42 0,78-0,08-0,31-0,13 0,13-0,23 0,13 0,11 OVR -0,20 0,15 0,79-0,28 0,45-0,17 0,04-0,01 0,01 En kompmönstermatris kan uppvisa en enkel eller komplex struktur. En enkel struktur innebär att mönstret besitter två egenskaper: (i) de flesta av variablerna har en förhållandevis hög/låg laddning på EN komp och nära 0 på de andra komperna; och (ii) de flesta av komperna har förhållandevis höga/låga laddningar för vissa variabler och nära 0 för de övriga (O Rourke et al, 2013). Ofta är det önskvärt med en enkel struktur för att de gör tolkningar enklare och tydligare. Dock så kan man ur kompsmönstermatriserna i Tabell X utläsa att mönstren uppvisar en komplex struktur: laddningarna är väldigt omväxlande. Ett sätt att få strukturen enklare är genom att rotera komperna och den mest använda är varimax-rotation. Då linjärtransformeras den ursprungliga lösningen så att variansen hos en kolumn i kompmöstermatrisen maximeras. Dock så är en komplex struktur i det här datamaterialet inte nödvändigtvis något negativt, eftersom det är förväntat att viktiga komper inte bara hänger samman med ett parti utan att varje parti hör mer eller mindre ihop med varje komp. En komplex struktur framstår som mer realistisk och följaktligen görs ingen rotation. 13
5 Antal komper Målet med PCA är att få fram meningsfulla komper som kan sammanfatta och beskriva hur kommunerna har röstat i respektive val. Därför kommer endast en del av komperna att behållas. Hur många som behålls från varje PCA är i slutändan upp till subjektivt omdöme, men det finns vissa kriterier att utgå ifrån. De utgår från kompernas eigenvärden, andel förklarad varians och scree-plot. Jag kommer att gå igenom de tre kriterierna var för sig för att slutligen svara på hur många komper som behålls. 5.1 Eigenvärde-kriteriet Eigenvärden beräknas under en PCA och representerar hur mycket varians som fångas av en viss komp. Dessa finns i Tabell 5.1 5.3. På grund av att korrelationsmatrisen har använts till PCA:n så bidrar varje variabel med 1 till variansen, vilket sammanlagt ger 10 i total varians. Därför är summan av eigenvärdena också 10, eftersom komperna tillsammans förklarar all varians. Tabell 5.1: Eigenvärden, differenser, andel förklarad varians och aggregerad förklarad varians för komper år 2006. Eigenvärde Differens Andel förklarad varians Aggregerad förklarad varians 1 3,56 1,47 0,36 0,36 2 2,08 0,74 0,21 0,56 3 1,34 0,47 0,13 0,70 4 0,87 0,16 0,09 0,79 5 0,71 0,12 0,07 0,86 6 0,59 0,12 0,06 0,92 7 0,47 0,24 0,05 0,96 8 0,22 0,07 0,02 0,98 9 0,16 0,16 0,02 1,00 10 0,00 0,00 1,00 Tabell X.X: Eigenvärden, differenser, andel förklarad varians och aggregerad förklarad varians för komper år 2010. 14
Eigenvärde Differens Andel förklarad varians Aggregerad förklarad varians 1 3,49 1,47 0,35 0,35 2 2,02 0,65 0,20 0,55 3 1,37 0,42 0,14 0,69 4 0,96 0,06 0,10 0,78 5 0,90 0,39 0,09 0,87 6 0,51 0,09 0,05 0,92 7 0,41 0,18 0,04 0,97 8 0,23 0,12 0,02 0,99 9 0,11 0,11 0,01 1,00 10 0,00 0,00 1,00 Tabell X.X: Eigenvärden, differenser, andel förklarad varians och aggregerad förklarad varians för komper år 2014. Eigenvärde Differens Andel förklarad varians Aggregerad förklarad varians 1 3,87 1,64 0,39 0,39 2 2,23 0,86 0,22 0,61 3 1,37 0,56 0,14 0,75 4 0,81 0,13 0,08 0,83 5 0,68 0,16 0,07 0,90 6 0,52 0,28 0,05 0,95 7 0,24 0,05 0,02 0,97 8 0,18 0,08 0,02 0,99 9 0,10 0,10 0,01 1,00 10 0,00 0,00 1,00 15
Eigenvärde-kriteriet (även kallat Kaiser-Guttman kriteriet) säger att man ska behålla alla komper som har eigenvärde > 1. Skälet är att eftersom varje ursprunglig variabel förklarade en enhets varians så bör varje meningsfull komp förklara åtminstone lika mycket som en sådan. För valet 2014 ser vi att 1-3 samtliga har högre eigenvärde än 1 och att 4 har lägre än 1. Samma sak gäller för valen 2010 och 2006. Enligt kriteriet bör alltså de tre första komperna behållas i respektive val. Fördelarna med eigenvärde-kriteriet är att det är enkelt att tillämpa och objektivt. Dock har den även några nackdelar. Ett är att den inte är lämplig när antalet variabler är för många. Stevens (2012) föreskriver en högsta gräns på 30 variabler. Eftersom antalet partier här är klart mindre än 30 är inte ett överflöd av variabler något problem. En annan nackdel är att kriteriet kan få konsekvensen att för två komper som nästan förklarar lika stor del av variansen, men ligger på var sin sida om 1, så behålls bara den ena av dem. I den här analysen är inte heller detta ett problem för att 4 i samtliga tre val förklarar klart mindre varians än 3. I valen 2014 och 2006 är eigenvärdet för 4 också långt under 1. 5.2 Scree-testet Nästa verktyg man har till hjälp vid valet av hur många komper att behålla är scree-testet. I en scree-plot så plottas eigenvärdena komp för komp. I den ska man leta efter en armbåge där eigenvärdena till vänster om armbågen är förhållandevis höga och eigenvärdena till höger om den förhållandevis låga. Kriteriet är att komperna till vänster om armbågen behålls (Cattell, 1966). I det ideala fallet så har man ett antal komper med höga eigenvärden som sluttar kraftigt nedåt till vänster om armbågen och resterande komper till höger sluttar svagt neråt. Kriteriet är subjektivt och svårtolkat i många fall. Ibland kan det finnas fler än en armbåge och ibland kan det vara svårt att urskilja någon. Scree-plotten för valet år 2014 (Figur 5.1) är ett exempel på det förra och scree-plotten för valet 2010 (Figur 5.2) ett exempel på det senare. För dessa år ger inte scree-testet något tydligt svar. Däremot finns det en någorlunda tydlig armbåge i 2006 års scree-plot (Figur 5.3), där armbågen ligger mellan 3 och 4. Här skulle alltså 3 komper behållas enligt scree-testet. 16
Figur 3.1 Scree-plot över eigenvärden mot komper år 2006. 17
18 Figur 3.1 Scree-plot över eigenvärden mot komper år 2010.
Figur 3.1 Scree-plot över eigenvärden mot komper år 2014. 5.3 Andel förklarad varians Eigenvärden står i direkt proportion till andel förklarad varians. I dessa tre PCA så är andelen förklarad varians hos varje komp lika med eigenvärdet dividerat med 10 (total varians). Eftersom komperna är ortogonala är andelen förklarad varians hos de N första komperna (ackumulerad varians) summan av deras respektive varianser. Slutprodukten av en PCA är att med några få utvalda komper beskriva data. När andra komper kastas bort är det naturligtvis så att en del av den förklarade variansen går till spillo. Detta leder till en motsättning vid valet av hur många 19
komper som behålls. En PCA inte lämplig om den ackumulerade förklarade variansen är för låg hos de behållna komperna; det skulle tyda på att data inte på ett användbart sätt kan sammanfattas av färre variabler. En rekommendation är att den ackumulerade variansen bör vara som minst 70 % (O Rourke et al, 2013). Med tre komper blir den ackumulerade andelen förklarad varians år 2014 75 %, år 2010 69 % och år 2006 70 % (se Tabell 5.1 5.3). Det är nätt och jämt på gränsen. Tre komper per val är alltså ett minumum enligt detta kriterium, även om fler kan övervägas för att öka den förklarade variansen. 5.4 Slutsats Tre kriterier har nu diskuterats. Enligt eigenvärde-kriteriet så bör 3 komper behållas från vardera val. Enligt scree-testet bör 3 komper behållas från valet år 2006. Enligt andelen förklarad varians kriteriet bör åtminstone 3 komper från varje val behållas. Sammantaget pekar de mot att 1-3 från vardera val ska behållas och det är så många jag kommer att behålla. 6 Matchning av komper Efter att antalet komper valts brukar de tolkas. Här kommer jag däremot att före det undersöka ifall det finns något samband mellan komperna för de olika valen. Detta görs innan tolkningarna för att då kan komperna tolkas i grupp (ifall de finns motsvarigheter mellan valen) istället för en komp i taget. Teoretiskt sett så är det troligt att det som har varit en viktig faktor i ett riksdagsval också har varit viktigt under valen före och efter. Exempelvis röster längs med vänsterhögerskalan (och skatter). Dock så kan det över tid vara så att vissa faktorer endast är viktiga under ett eller ett par val men inte i andra. Exempel på sådana kan vara specifika sakfrågor som EU-medlemsskapet eller kärnkraftsfrågan. En intressant frågeställning är därför om samma faktorer har varit de viktiga i valen 2006-2014. Hur kan man gå tillväga för att undersöka om komperna i ett val har motsvarigheter i andra val? Eftersom tolkningen av en komp avgörs av dess kompladdningar på de olika partierna bör man se efter ifall samma mönster uppstår för en annan komp i ett annat val. Ett enkelt sätt att para ihop eller gruppera komperna är att göra en klusteranalys (CA). Målet med en klusteranalys är att gruppera observationer i kluster. En bra gruppering innebär att observationerna är homogena, med avseende på variablerna, inom ett kluster medan klustren sinsemellan är heterogena. erna kommer alltså att hamna i kluster utefter hur lika deras laddningar för partierna är. Det är inte intressant i vilka kluster alla komper hamnar, utan endast 1-3 från varje val och ifall de hamnar tillsammans med någon/några utav de tre första ifrån de andra valen. Därför kommer klusteranalysen här att begränsas till det och inte vara fullständig. 20
6.1 Data Data innehåller 1-9:s faktorladdningar från de tre valen. Varje komp hamnar på så sätt i ett 10 dimensionellt rum och de som är nära varandra grupperas i kluster. Dock så bör inte en klusteranalys göras på endast dessa komper utan på ett dubbelt så stort datamaterial: även kompernas negativa motsvarigheter bör inkluderas. Den negativa motsvarigheten till en komp kommer jag att sätta prefixet N framför. Orsaken till att även negativa komper inkluderades är att inte förbise att två komper från olika år kan mäta samma konstrukt även det om riktningen för den PCA:n råkat bli den motsatta. Sammanlagt innehåller datamaterialet 9 * 2 * 10 * 3 = 540 observationer. 6.2 Metod Första valet man ställs inför vid en klusteranalys är om det ska vara en hierarkisk eller icke-hierarkisk klustring. I en icke-hierarkisk klustring så vet man i förväg hur många kluster man vill ha (Sharms, 1996). För det här datamaterialet vet vi att ett kluster som högst bör innehålla tre komper, ett från vardera år, eftersom två komper i samma PCA mäter olika konstrukt och inte bör hamna i samma kluster. A priori har vi alltså skäl för att antalet kluster som minst bör bli 9. Dock kan det vara fler och därför kommer hierarkisk klustring att användas. I hierarkisk agglomerativ klustring så startar man med alla komperna som ett eget kluster för att sedan steg för steg bilda större kluster genom att slå ihop de mest lika till ett nya större kluster. Så vilket likhetsmått ska användas? Det finns många alternativ men valet föll på Wards metod. Till skillnad från många andra metoder är det inte avstånd som avgör vilka observationer som grupperas utan hur homogent resultat är. I Wards metod är det summan av kvadraterna på variansen mellan observationerna inom ett kluster som avgör vilka nya kluster som bildas. Vid varje nytt steg är det klustret med minst variation som formas. 6.3 Resultat Figur 6.1 är ett dendrogram av vilka komper som grupperats ihop med vilka och i Bilaga A redovisas resultaten av klusteranalysen mer i detalj. Ur dessa kan man utläsa att 1 år 2014, 2010 och 2006 har grupperats ihop; 2 år 2014, N 2 år 2010 och 2 år 2006 grupperats ihop; samt att N 3 år 2014, N 3 år 2010 och 3 år 2006 grupperats ihop. Motsvarande gruppering har skett på andra sidan trädet men med negativa komper istället för positiva och vice versa. 21
Figur 6.1 Dendrogram av klusteranalysen. Prefixet n anger en negativ komp. 06 anger år 2006, 20 år 2010 och 14 år 2014. R square är ett mått på andel förklarad varians hos en gruppering av observationer. R square för när de tre komperna från varje år grupperats ihop är ganska höga (Bilaga B) vilket tyder på att komperna hör starkt ihop. Slutsatsen blir att de tre första komperna för varje år överensstämmer med varandra och sannolikt står för samma konstrukt. I Tabell X finns de komper jag har behållit och kommer att tolka i nästa avsnitt. Observera att jag behållit de ursprungliga komperna förutom 22
2 år 2010 och 3 år 2006 där de ersatts av deras negativa motsvarigheter. 7 Tolkning av komper 7.1 Metod Jag har använt mig av tre tillvägagångssätt vid tolkandet av komperna. För det första det som vanligtvis görs, nämligen studera kompladdningarna och försöka göra tolkningar av komperna utifrån dem. Detta förutsätter en teoretisk förståelse av ämnet, (allra helst bör resultaten tolkas av en statsvetare eller dylikt. Som bosatt i Sverige och genom att ha satt mig in i olika valundersökningar (X) har jag dock viss grundläggande kunskap om de olika partierna ) För det andra har jag undersökt huruvida komppoängen hos kommunerna korrelerar med andra egenskaper hos kommunerna. Om sådana korrelationer upptäcks kan de bidra till tolkningen. För det tredje har jag undersökt korrelationer mellan kompladdningarna och andra egenskaper hos partierna. Även detta kan användas som stöd vid tolkningen av komperna. För att underlätta tolkningarna har jag även sammanställt en tabell (Tabell 7.1) över de genomsnittliga laddningarna för komperna över de tre åren. Tabellen är sorterad från partier med de högsta till partier med de lägsta laddningarna. Läsaren uppmanas att även själv försöka tolka komperna. Tabell 7.1: De behållna komperna samnt medelvärden av dem över de tre valen. M C FP KD S V MP SD FI OVR 061 0,86-0,45 0,79 0,25-0,87-0,72 0,55-0,03 0,39-0,45 062-0,22-0,45 0,08-0,68 0,03 0,52 0,52-0,52 0,72 0,18 063 0,12-0,55 0,03-0,44 0,09-0,18-0,30 0,75 0,07 0,35 101 0,83-0,24 0,71 0,38-0,92-0,80 0,55-0,21 0,45-0,24 102-0,25-0,67 0,02-0,68-0,01 0,32 0,50-0,35 0,65 0,38 103 0,30-0,09 - - - - 0,71-0,60 23
0,29 0,36 0,02 0,31 0,26 0,18 141 0,80-0,42 0,81 0,26-0,89-0,60 0,79-0,58 0,42-0,20 142-0,37-0,56 0,00-0,66 0,20 0,64 0,36-0,37 0,78 0,15 143 0,24-0,25-0,10-0,42-0,07-0,37 0,14 0,52-0,08 0,79 Medel 1 0,83-0,37 0,77 0,30-0,90-0,71 0,63-0,27 0,42-0,30 Medel 2-0,28-0,56 0,03-0,67 0,07 0,50 0,46-0,41 0,72 0,24 Medel 3 0,22-0,37 0,01-0,41 0,00-0,29-0,14 0,66-0,06 0,58 7.2 1: Inkomst/Utbildning 1 för år 2014, 2010 och 2006 verkar motsvara varandra enligt klusteranalysen och kommer här att tolkas i grupp. Om man tittar på de genomsnittliga kompladdningarna i Tabell 7.1 ser man att M, FP, MP och FI laddar högt på 1, medan S och V laddar lågt. Där höga laddningar räknas som > 0,4 och låga som < 0,4 (O Rourke et al., 2013). En första observation är att detta inte passar in på att 1 skulle stå för vänster-höger: MP och FI anses ligga till vänster om KD, C och SD, vilket de inte gör här. Vilken annan tolkning av 1 kan göras? Vad har M, FP, MP och FI gemensamt i motsats till S och V? En hypotes vore att de som laddar högt är partier som är populära i storstäder medan de som laddar lågt kanske är mer populära utanför storstäder. Ett mer systematiskt sätt att ta reda på vad 1 står för är att se efter om kommunernas kompspoäng korrelerar med andra egenskaper hos kommunen. poäng, KP, fås fram vid PCA och är en linjär kombination av de ursprungliga variablerna och är summan av observationerna multiplicerat med motsvarande laddningar. För att exempelvis få reda på vad en viss kommun fick för KP på 1 år 2014 används följande ekvation: KP = 0,80*M - 0,42 *C + 0,81*FP + 0,26*KD - 0,89*S 0,60*V + 0,58*MP + 0,42*SD 0,20*OVR. Här så korrelerade jag komppoängen för 1 år 2014 mot 15 kommunbeskrivande variabler publicerade på Ekonomifaktas hemsida (). Variablerna var: Andel företagare Andel förtidspensionärer 24
Andel högskoleutbildade Befolkningsökning Företagsklimat Förvärvsfrekvens Invånare i kommunen Kommunens kostnader Kommunens skatteintäkter Medelålder Medianinkomst Nyföretagande Skattesats Statsbidrag och utjämning till kommunen Öppen arbetslöshet Dessa variabler är samtliga numeriska variabler som finns publicerade på hemsidan. För alla variabler fanns det 290 observationer. När dessa korrelerades mot komppoängen för 1 så fick de flesta låga korrelationer, medan det fanns två variabler som korrelerade högt. Dessa var Medianinkomst, 0,76 och Andel höskoleutbildade, 0,81. Båda dessa var signifikanta med p < 0,0001. Medianinkomster var för år 2013 och definierades som: Medianinkomst för personer som är 20 år eller äldre och boende i Sverige den 31/12. Inkomstmåttet som används kallas för Sammanräknad förvärvsinkomst och består av inkomst av tjänst och inkomst av näringsverksamhet. I inkomst av tjänst ingår förutom löneinkomster också inkomster från pension, sjukpenning och andra skattepliktiga ersättningar från Försäkringskassan. Andel högskoleutbildade var för år 2014 och definierades som [a]ndelen personer med minst 3 års eftergymnasial utbildning i åldersgruppen 25-64 år.. Jag korrelerade även komppoängen med tätortsgraden hos kommunerna med data från Statistiska centralbyråns hemsida (). Här blev korrelationen dock lägre. Tolkningen av 1 blir alltså utbildningsnivå eller inkomst. 7.3 2: Vänster-Höger Beträffande 2 ser man ur Tabell 7.1 att FI, V, och MP laddade högt och KD, C och SD laddade lågt. Alla partier från Alliansen (M, C, FP och KD) laddade lägre än alla röd-gröna partier (S, V och MP). Detta verkar stämma överens med vänster-högerskalan. SD har tidigare betraktats som ett högerextremistiskt parti även om de numera placeras något mer centralt. För att konfirmera att 2 verkligen har ett samband med vänster-högerskalan gjorde jag även här en korrelationsanalys. Till det behövs kvantitativa mått på hur långt till vänster och höger partierna ligger. Ett sätt att få fram det är att fråga röstande för de olika partierna var de placerar sig på vänster-högerskalan. Det är vad man har gjort i 25
SCB:s valundersökningar för år 2006 och 2010 (XX). Ett annat sätt att kvantifiera färg är att fråga experter var partierna skulle hamna på skalan efter att ha analyserat deras valmanifest. Ett sådant angreppssätt används i The Manifesto Project (MP) där jag hämtat data för år 2006 och 2010 (Manifesto project database,x). Social Science Research Center Berlin driver MP vars mål är att jämföra politiska system och partier mellan länder. I Tabell 7.2 finns laddningarna för 2 för år 2006 och 2010 tillsammans med vilka värden de får på vänster-högerskalan från valundersökningarna och MP. Tabell 7.2: laddningar för komp 2 och vänster-höger skattningar. 2006 2010 2014 Parti 2 V-H SCB V-H MP 2 V-H SCB V- H MP 2 V-H SCB V- H MP M -0.21641 84 18-0.25165 83 13-0.36698-6 C -0.44825 62 10-0.67024 63 13-0.56116-14 FP 0.08377 67 21 0.01563 66 7 0.00301 - -2 KD -0.68306 69 22-0.68051 68 13-0.66-11 S 0.02708 36-48 -0.01041 33-34 0.19812 - -31 V 0.52268 13-63 0.32362 12-42 0.64355 - -28 MP 0.52248 36-32 0.49817 39-24 0.35645 - -18 SD -0.51873 77 - -0.34581 74 18-0.36565-4 FI 0.71625 25-0.65331 27-0.78085 - - OVR 0.18347 - - 0.38164 - - 0.15182 - - Korrelationerna för år 2006 visas i Tabell X och korrelationerna för år 2010 visas i Tabell X. Korrelationerna ligger mellan 0,73 och 0,82. Samtliga av dessa är signifikanta förutom korrelationen mellan 2 och MP för år 2006, som innehöll 7 observationer. Eftersom antalet observationer var lågt, 7-9, så har testen svag styrka. Med tanke på det stöder resultaten sammantagna att 2 är att betrakta som att det mäter konstruktet vänster-höger. 26
7.4 3: Enfrågepartier För komp 3 är tolkningen svårare. SD och OVR laddade högt medan KD laddade lågt. Eftersom OVR inte är ett enskilt parti och därför inte går att beskriva kvantitativt på något sätt bygger tolkningen endast på subjektiva resonemang. Även i de tidigare fallen har OVR inte kunnat beskrivas kvantitativt men eftersom de inte har laddat högt på de tidigare komperna har jag åsidosatt det. 3 fångar så stor del som möjligt av variansen som återstår efter 1 och 2. Man kan tänka sig att 1 och 2 är det som de etablerade partierna får röster på medan 3 är något som de missar. Därför kan det vara så att just SD och OVR laddar högt här. De har det gemensamt att de fokuserar på frågor som de etablerade partierna inte har högst på dagordningen. Bland de större partierna i OVR kan nämnas Piratpartiet (PP; 0,63 % år 2006, 0,65 % år 2010 och 0,43 % år 2014), Sveriges pensionärers intresseparti (SPI; 0,52% år 2006 och 0,19 % 2010) och Junilistan (JL; 0,43 % år 2006 och 0,31 % år 2014). Dessa kan ses som partier som starkt fokuserar på en eller ett par enskilda politiska frågor: SD immigration och integration; PP privat integritet och upphovsrätt; SPI pensionärers och funktionshindrades ställning i samhället; JL EU-medlemskap. 3 skulle därför kunna sättas etiketten enfrågepartier. 8 Diskussion och sammanfattning Syftet med uppsatsen var att sammanfatta valresultaten för kommunerna i andra variabler än de ursprungliga 10 partierna. Detta kan nu slutligen göras genom att ange komppoängen för varje kommun för erna 1-3 för vardera år. 1 står för inkomst/utbildning där en högre komppoäng anger att kommunen röstat mer som en höginkomst-/ högutbildad kommun. 2 står för vänster-höger där en högre komppoäng anger att kommunen röstat mer åt höger. 3 står för enfrågepartiröstande där en högre komppoäng anger att kommunen röstat mer på ett sätt som hänger samman med enfrågepartier. Tolkningarna har två olika sorters karaktärer. För 1 handlar det om egenskaper hos kommunerna. För 2 och 3 handlar det om egenskaper hos partierna. För att få en mer koherent bild skulle 1 kunna omformuleras, lite bökigare, till hur mycket en kommun har röstat på partier som står för en politik som är i överensstämmande med höginkomsttagares och högutbildades åsikter. När man beskriver hur en kommun har röstat kan man ange hur stor andel röster varje parti har fått. Det är en väldigt specifik beskrivning. I vissa fall kan det finnas skäl för att beskriva kommuners röstande i mer generella termer. Exempelvis om man vill jämföra röster länder emellan. Här så har valresultaten beskrivits i tre komper vilka även kan existera och vara viktiga i andra länder. När medborgare röstar så nämns vänster-högerskalan som oerhört viktig och inkomst eller utbildning nämns i en mindre grad. För kommuner verkar det däremot förhålla sig annorlunda. Inkomst/utbildning är den viktigaste faktorn till valresultaten hos kommuner medan vänster-högerskalan spelar en sekundär roll och specifika sakfrågor 27
en tertiär roll. Eftersom valresultaten hos kommuner är ett aggregat av hur individuella medborgare har röstat kan man fråga sig om resultaten även gäller på individnivå. PCA har här använts i ett utforskande syfte och gett någorlunda tolkningsbara resultat. Det är ändå viktigt att ha i åtanke att politiska val och vad som påverkar utgången i dem är komplexa fenomen som beror på en stor mängd variabler. Därför är det svårt att sammanfatta valresultat med endast tre komper. Likafullt så återkommer samma tre komper i samtliga utav valen vilket tyder på att de faktiskt är viktiga, även om hur de ska tolkas och vad de implicerar är en svår fråga öppen för diskussion. Litteraturförteckning Beavers, Amy S., Lounsbury, John W., Richards, Jennifer K., Huck, Schuyler W., Skolits, Gary J. & Esquivel, Shelley L. (2013). Practical Considerations for Using Exploratory Factor Analysis in Educational Research. Practical Assessment, Research & Evaluation, 18(6). Comrey, A. L., & Lee, H. B. (1992). A first Course in Factor Analysis. Hillsdale, NJ: Erlbaum. Garson, D. G. (2008). Factor Analysis: Statnotes. Retrieved March 22, 2008, from North Carolina State University Public Administration Program, http://www2.chass.ncsu.edu/garson/pa765/factor.htm. Gorsuch, R. L. (1983). Factor analysis (2nd ed.). Hillsdale,NJ: Erlbaum. Hatcher, L. (1994). A Step-by-Step Approach to Using the SAS System for Factor Analysis and Structural Equation Modeling. Cary, NC: SAS Institute, Inc. Pett, M., Lackey, N. & Sullivan, J. (2003). Making sense of factor analysis. Thousand Oaks: Sage Publications, Inc. Stevens (2012) Tabachnick, B. & Fidell, L. (2001). Using multivariate statistics. Needham Heights: Allyn & Bacon. 28
Bilaga A: Resultat av klusteranalysen Antal kluste r Sammanslag na kluster Frekve ns Semipartie ll R^2 R^2 Pseud o F Pseud o T Lik a 53 109 149 2 0,0001 1 224, T 52 n109 n14 9 51 n068 n10 8 2 0,0001 1 228, 2 0,0001 1 189, T 50 068 108 2 0,0001 1 176, 49 069 CL53 3 0,0002 0,99 9 48 n069 CL52 3 0,0002 0,99 9 47 067 107 2 0,0005 0,99 9 159 2,2 T 151 2,2 113, T 46 n067 n10 7 45 CL51 n14 8 2 0,0005 0,99 8 3 0,0006 0,99 8 96,3, 82,7 4,3 T 44 CL50 148 3 0,0006 0,99 7 75 4,3 43 102 n06 2 42 062 n10 2 2 0,0013 0,99 6 2 0,0013 0,99 4 60, T 52, 41 066 106 2 0,0013 0,99 3 47, T 40 n066 n10 6 2 0,0013 0,99 2 43,8, 29
39 104 144 2 0,0013 0,99 1 41,4, T 38 n104 n14 4 37 n061 n10 1 2 0,0013 0,98 9 2 0,0013 0,98 8 39,7, 38,5, T 36 061 101 2 0,0013 0,98 7 35 CL42 142 3 0,0017 0,98 5 37,7, 36,4 1,3 T 34 CL43 n14 2 33 n103 n14 3 3 0,0017 0,98 3 2 0,0021 0,98 1 35,5 1,3 34,1, T 32 103 143 2 0,0021 0,97 9 31 CL36 141 3 0,0024 0,97 7 33,2, 32,1 1,8 T 30 CL37 n14 1 3 0,0024 0,97 4 31,3 1,8 29 n065 CL38 3 0,0028 0,97 1 28 065 CL39 3 0,0028 0,96 9 30,4 2,1 T 29,8 2,1 27 146 n10 5 26 105 n14 6 2 0,0034 0,96 5 2 0,0034 0,96 2 28,9, T 28,3, 25 CL44 147 4 0,0034 0,95 8 27,9 8,9 T 24 CL45 n14 7 4 0,0034 0,95 5 27,7 8,9 23 145 CL46 3 0,004 0,95 27,4 8 T 30
22 CL47 n14 5 1 3 0,004 0,94 7 27,3 8 21 063 CL33 3 0,0045 0,94 3 27,1 2,1 T 20 CL32 n06 3 3 0,0045 0,93 8 27,1 2,1 19 CL25 CL49 7 0,006 0,93 2 18 CL24 CL48 7 0,006 0,92 6 26,7 6,7 T 26,6 6,7 17 CL27 n06 4 3 0,0078 0,91 8 26 2,3 T 16 064 CL26 3 0,0078 0,91 1 15 CL40 CL18 9 0,0121 0,89 9 14 CL41 CL19 9 0,0121 0,88 7 13 CL14 CL15 18 0,0149 0,87 2 12 CL16 CL13 21 0,0169 0,85 5 11 CL12 CL22 24 0,0213 0,83 3 10 CL23 CL17 6 0,0222 0,81 1 9 CL11 CL10 30 0,0257 0,78 6 8 CL9 CL29 33 0,0361 0,74 9 7 CL8 CL28 36 0,0427 0,70 7 25,8 2,3 24,7 7,2 T 24 7,2 23,2 5 22,5 4,4 T 21,5 4,9 21 5,7 20,6 4,7 19,7 6,1 T 18,9 6,5 31