Är SD Sveriges största parti? Jakob Bergman & Börn Holmquist Statistiska institutionen, Lunds universitet Sammanfattning Den augusti 5 hävdade dagstidningen Metro att Sverigedemokraterna var Sveriges största parti. Detta baserade man på att partiet blivit det största i en opinionsundersökning av företaget YouGov. Men hur kan man testa påståendet att en specifik andel är den största? Vi tar vår utgångspunkt i andelarnas speciella parameterrum simplex och dess inbyggda restriktioner. Vi visar hur man kan konstruera ett test för att avgöra om en specifik andel är störst baserat på en likelihoodkvotansats, där vi utnyttar en isometrisk logkvotstransformation för att underlätta de numeriska beräkningarna. Eftersom man vid denna typ av problem typiskt enbart har en enda observation av de relativa partipreferenser, diskuterar vi teststorhetens fördelning. Vi illustrerar våra resonemang med data från den ovan nämnda undersökningen av YouGov. Introduktion Torsdagen den augusti 5 hade dagstidningen Metro rubriken Nu är SD Sveriges största parti över hela förstasidan (Wallroth, 5). Från en ournalistisk synpunkt var rubriken inte alls förvånande; för tio år sedan var Sverigedemokraterna (SD) ett parti som på sin höd hade % av välarkåren och sällan, för att inte säga aldrig, ens rapporterades i opinionsundersökningarna, och nu förelåg en undersökning som gav SD den största andelen av välarkåren av något parti. En förändring som saknar motstycke i modern svensk politik. Från en statistisk synpunkt var rubriken mera förvånande. Hur kunde Metro vara så säkra på att SD var det största partiet? Faktum var, att de tre största partierna enbart skilde ett par procentenheter åt. Så för att dra slutsatsen att SD var det största partiet fordrades någon form av hypotestest. Men hur testar man påståendet att en specifik andel är större än alla de övriga, givet en vektor av observerade frekvenser? Parameterrummet för andelar i välarkåren Anta att det finns D partier ( =,, D) och vare välare i välarkåren tillhör ett parti. Vi låter vektorn p = [p ] vara partiernas andelar av välarkåren. Eftersom andelarna p är icke-negativa och måste summera till, så utgörs parameterrummet för p av simplexen SS D. Om man tar ett obundet slumpmässigt urval om n välare ur välarkåren och låter X vara antal välare för respektive parti, så kommer X vara multinomialfördelad med parameter p. Baserat på vårt stickprov så önskar vi testa hypoteserna H : p SS D ω i H : p ω i
där ω i är det underrum av SS D där parti i är störst, dvs. där p i är den största andelen. Gränsen mellan de två underrummen utgörs av den line, plan etc. där p i = p för något i och p i är större än alla övriga p. Att parameterrummet är en simplex medför bl.a. att parametrarna är negativt korrelerade; om en andel ska kunna öka så måste minst en andel minska. Detta och de övriga restriktionerna i rummet medför att det ofta kan uppstå praktiska svårigheter vid beräkningar (se t.ex. Aitchison (986) för fler detaler). Aitchison (98) introducerade logkvottransformationer som en lösning på en del av problemen. Det finns flera olika logkvotstransformationer, men den numera mest populära är den isometriska logkvotstransformationen (ILR) (Egozcue et al., 3). Den innebär att problemet överförs från SS D till det reella rummet R D. Rent numeriskt finns det flera sätt definiera ILR. I denna artikel föler vi versionen i Egozcue et al. (3) och låter ILR(p) = y = [y ] där = p k k y = log, =,,. D. () ( + ) p Om vi exempelvis bara har tre andelar p = (p₁, p₂, p₃) så är fölaktligen + p p p y = log log. () p 6 p3 Exemplets parameterrum SS 3 med underrummet ω₁ illustreras som ett triangeldiagram i Figur a. I Figur b visas det motsvarande reella rummet R med motsvarande underrum ω₁ * = ILR(ω₁). X-axeln utgörs här av y₁ och y-axeln av y₂ i (). För fler detaler om ILR och dess egenskaper, se Pawlowsky-Glahn et al. (5, kap. 4). Vi nöer oss här med att konstatera att det finns en invers ILR-transformation sådan att p = ILR (y). Analytiska uttryck för den version av ILR som använts här är dock tämligen komplicerade. Som exempel föler den inversa transformationen av () där p = exp A y + y 6 exp y + y 6 y exp 3 y y y y y A = exp + + exp + + exp. 6 6 3 3 Ett maximum likelihoodkvottest I Sverige finns sedan åtta partier i Riksdagen. Utöver dessa finns det ytterligare ett eller två partier som har varit i närheten att komma över fyra procentsgränsen till Riksdagen. I Metro redovisas andelar för nio partier. Till dessa nio partier kommer slutligen alla övriga partier som normalt tillsammans samlar mindre än en procent av
SS Figur. I (a) illustreras parameterrummet SS 3 med underrummet ω₁, där p₁ är den största andelen, och underrummet SS 3 ω₁, där p₁ inte är den största andelen. Den övre spetsen av diagrammet utgörs av parametervärdet p = (,, ), den nedre vänstra spetsen av p = (,, ), och den nedre högra spetsen av p = (,, ). Gränsen mellan de båda underrummen utgörs av linen från p = (/, /, ), via p = (/3, /3, /3), till p = (/,, /). I (b) visas motsvarande underrum i det reella rummet R. välarkåren. Enligt Metro består således välarkåren av tio olika andelar. Vi vill testa om SD:s andel p SD är större än alla de övriga, dvs. H : p SS ω SD H : p ω SD (3) Vi föreslår att hypoteserna (3) testas med ett maximum likelihoodkvottest. Detta innebär att vi söker likelihoodens maximum om parameterrummet är begränsat under H och ämför detta med likehoodens maximum om parameterrummet inte är begränsat. Då vi enbart har en observation av en multinomialfördelad slumpvariabel blir likelihooden samma som sannolikhetsfunktionen: n! x x L( p x) = p p (4) x! x! Likelihooden maximeras i det obegränsade parameterrummet av ML-skattningen vilket i detta fall är p ˆ = x/n. I det begränsade parameterrummet under H maximeras (4) av skattningen p *. Om vi antar att antalet SD-sympatisörer i urval x SD är det största värdet i x, i annat fall verkar det omotiverat att testa (3), så medför detta att p * kommer att vara en punkt på randen av SS ω SD. Detta innebär att (4) ska maximeras över p under bivillkoren a) p SD p, för alla andra partier, b) p >, för alla partier och c) summan av alla andelar p är (p + + p D = ).
Tabell. De skattade välarandelarna rapporterade i Metro pˆ, frekvenser x som skulle motsvara dessa andelar vid OSU, samt skattade andelar om SD inte tillåts vara det största partiet p *. Parti M C L KD MP S V FI SD Övriga pˆ,,56,44,37,64,34,68,8,5,7 x 3 85 67 56 98 357 4 43 385 p *,,55,43,36,64,44,7,9,44,7 I normala fall måste p * skattas numeriskt. De numeriska beräkningarna förenklas avsevärt om de två villkoren b) och c) undanrös genom att problemet överförs från SS till R 9 medelst en ILR-transformation. Det första villkoret a) kan då omformuleras som ett antal linära olikheter uy. Matrisen u kommer att bero på valet av ILR-transformation och på vilken komponent som antas vara störst, men i vårt fall med tio andelar där SD utgör den nionde så blir u = / 6 / / / 3 / 4 / 56 / 7 /8 9/8 9/8 8/ 9. /9 För att bestämma (4) i en punkt y, så måste y först transformeras tillbaka till p = ILR (y ). Testfunktionen för maximum likelihoodkvottestet är * ( log L( pˆ) log L( p )) λ =. (5) Om H är sann och p ligger på randen av SS ω SD, så kommer (5) att vara med sannolikheten δ, som andelen av sannolikhetsmassan som finns i SS ω SD. Sannolikheten δ beror på p, men kommer vanligen att vara omkring /, såvida inte p är nära en punkt där d 3 partier är lika stora, i vilket fall δ kommer att vara omkring (d )/d. Med sannolikhet δ så kommer (5) vara approximativt χ -fördelad med en frihetsgrad. För att bestämma p-värdet för testfunktionen får man således dela sannolikheten att λ överskrider det observerade testvärdet med antal andelar d i p * som är lika eller ungefär lika stora som den största. 4 Resultat I Tabell återfinns Metros skattade andelar pˆ för de nio redovisade partierna samt andelen för övriga partier bestämd av oss som differensen mellan summan av andelarna och ett. Undersökningen som Metro redovisar är gord av YouGov. YouGov använder sig av en sälvrekryterad webpanel och resultaten i detta fall bygger på svar från 57 respondenter. Detta utgör u inget slumpmässigt urval, så för att kunna räkna på det så kommer vi att anta att YouGov har använt sig av ett slumpmässigt obundet urval om 57 individer utan bortfall. Metro presenterar inte hur många av de tillfrågade som har angett respektive parti utan bara en skattning av andelen pˆ. I Tabell återfinns
observerade frekvenser x bestämda som pˆ n lämpligt avrundat. Vi skattar därefter de partiernas andelar p * om SD inte tillåts vara det största partiet. Även dessa återfinns i Tabell. Det observerade värdet på (5) blir således (7,45 (8,375)) =,76. Sannolikheten att λ ska överskrida,76 är Pr(λ,76) =,793. I skattningen p * är SD och S lika stora (,44) men även M är nästan lika stora (,), så p-värdet för testet är mellan,793/3 =,93 och,793/ =,396. Testet ger således inte tillräckligt stöd för att förkasta nollhypotesen. Man kan inte med utifrån YouGovs undersökning dra slutsatsen att SD är det största partiet i välarkåren i Sverige. Referenser Aitchison, J. (98). The statistical analysis of compositional data. Journal of the Royal Statistical Society. Series B, 44, 39-77. Aitchison, J. (986). The statistical analysis of compositional data, London: Chapman and Hall. (Nytryck med extra material 3 utgivet av The Blackburn Press.) Egozcue, J. J., Pawlowsky-Glahn, V., Mateu-Figueras, G. & Barceló-Vidal, C. (3). Isometric logratio transformations for compositional data analysis. Mathematical Geology, 35, 79-3. Pawlowsky-Glahn, V., Egozcue, J. J. & Tolosana-Delgado, R. (5). Modeling and analysis of compositional data: John Wiley & Sons Wallroth, E. 5. Nu är SD Sveriges största parti. Metro, augusti 5. Texten bygger i stora delar på Bergman, J. & Holmquist, B. Are the Sweden Democrats really Sweden s largest party? A maximum likelihood ratio test on the simplex, inskickad för publicering.