Är SD Sveriges största parti? Jakob Bergman & Björn Holmquist Statistiska institutionen, Lunds universitet

Relevanta dokument
χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

3 Maximum Likelihoodestimering

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

F22, Icke-parametriska metoder.

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

FÖRELÄSNING 8:

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Föreläsning 5. Kapitel 6, sid Inferens om en population

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TAMS65 - Föreläsning 6 Hypotesprövning

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Samplingfördelningar 1

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

TAMS65 - Föreläsning 6 Hypotesprövning

Lufttorkat trä Ugnstorkat trä

Föreläsning 12: Regression

Föreläsning 8: Konfidensintervall

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Industriell matematik och statistik, LMA /14

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

TMS136. Föreläsning 13

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5: Hypotesprövningar

TAMS79: Föreläsning 10 Markovkedjor

Avd. Matematisk statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

TMS136. Föreläsning 11

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Introduktion till statistik för statsvetare

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Föreläsning 9. Absolutstabilitet

Övningstentamen 2 Uppgift 1: Uppgift 2: Uppgift 3: Uppgift 4: Uppgift 5: Uppgift 6: i ord

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 4: Konfidensintervall (forts.)

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

f(x) = 2 x2, 1 < x < 2.

Härledning av Black-Littermans formel mha allmänna linjära modellen

Absolutstabilitet. Bakåt Euler Framåt Euler

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Kapitel 10 Hypotesprövning

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Föreläsning 7: Punktskattningar

Matematisk statistik KTH. Formelsamling i matematisk statistik


Föreläsning 12, FMSF45 Hypotesprövning

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Thomas Önskog 28/

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Avd. Matematisk statistik

, s a. , s b. personer från Alingsås och n b

Tentamen i Matematisk statistik Kurskod S0001M

. (2p) 2x + 2y + z = 4 y + 2z = 2 4x + 3y = 6

Introduktion till statistik för statsvetare

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

0 om x < 0, F X (x) = c x. 1 om x 2.

2. Test av hypotes rörande medianen i en population.

SF1901 Sannolikhetsteori och statistik I

Föreläsning 11, Matematisk statistik Π + E

Statistisk utvärdering av antagningen till Polishögskolan

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Analys av korstabeller

Avd. Matematisk statistik

DN/Ipsos specialmätning om Decemberöverenskommelsen 27 maj 2015

Grundläggande matematisk statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Föreläsning G60 Statistiska metoder

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning G60 Statistiska metoder

Avd. Matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Avd. Matematisk statistik

Konfidensintervall, Hypotestest

Matematisk statistik för B, K, N, BME och Kemister

Laboration 2: Styrkefunktion samt Regression

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Transkript:

Är SD Sveriges största parti? Jakob Bergman & Börn Holmquist Statistiska institutionen, Lunds universitet Sammanfattning Den augusti 5 hävdade dagstidningen Metro att Sverigedemokraterna var Sveriges största parti. Detta baserade man på att partiet blivit det största i en opinionsundersökning av företaget YouGov. Men hur kan man testa påståendet att en specifik andel är den största? Vi tar vår utgångspunkt i andelarnas speciella parameterrum simplex och dess inbyggda restriktioner. Vi visar hur man kan konstruera ett test för att avgöra om en specifik andel är störst baserat på en likelihoodkvotansats, där vi utnyttar en isometrisk logkvotstransformation för att underlätta de numeriska beräkningarna. Eftersom man vid denna typ av problem typiskt enbart har en enda observation av de relativa partipreferenser, diskuterar vi teststorhetens fördelning. Vi illustrerar våra resonemang med data från den ovan nämnda undersökningen av YouGov. Introduktion Torsdagen den augusti 5 hade dagstidningen Metro rubriken Nu är SD Sveriges största parti över hela förstasidan (Wallroth, 5). Från en ournalistisk synpunkt var rubriken inte alls förvånande; för tio år sedan var Sverigedemokraterna (SD) ett parti som på sin höd hade % av välarkåren och sällan, för att inte säga aldrig, ens rapporterades i opinionsundersökningarna, och nu förelåg en undersökning som gav SD den största andelen av välarkåren av något parti. En förändring som saknar motstycke i modern svensk politik. Från en statistisk synpunkt var rubriken mera förvånande. Hur kunde Metro vara så säkra på att SD var det största partiet? Faktum var, att de tre största partierna enbart skilde ett par procentenheter åt. Så för att dra slutsatsen att SD var det största partiet fordrades någon form av hypotestest. Men hur testar man påståendet att en specifik andel är större än alla de övriga, givet en vektor av observerade frekvenser? Parameterrummet för andelar i välarkåren Anta att det finns D partier ( =,, D) och vare välare i välarkåren tillhör ett parti. Vi låter vektorn p = [p ] vara partiernas andelar av välarkåren. Eftersom andelarna p är icke-negativa och måste summera till, så utgörs parameterrummet för p av simplexen SS D. Om man tar ett obundet slumpmässigt urval om n välare ur välarkåren och låter X vara antal välare för respektive parti, så kommer X vara multinomialfördelad med parameter p. Baserat på vårt stickprov så önskar vi testa hypoteserna H : p SS D ω i H : p ω i

där ω i är det underrum av SS D där parti i är störst, dvs. där p i är den största andelen. Gränsen mellan de två underrummen utgörs av den line, plan etc. där p i = p för något i och p i är större än alla övriga p. Att parameterrummet är en simplex medför bl.a. att parametrarna är negativt korrelerade; om en andel ska kunna öka så måste minst en andel minska. Detta och de övriga restriktionerna i rummet medför att det ofta kan uppstå praktiska svårigheter vid beräkningar (se t.ex. Aitchison (986) för fler detaler). Aitchison (98) introducerade logkvottransformationer som en lösning på en del av problemen. Det finns flera olika logkvotstransformationer, men den numera mest populära är den isometriska logkvotstransformationen (ILR) (Egozcue et al., 3). Den innebär att problemet överförs från SS D till det reella rummet R D. Rent numeriskt finns det flera sätt definiera ILR. I denna artikel föler vi versionen i Egozcue et al. (3) och låter ILR(p) = y = [y ] där = p k k y = log, =,,. D. () ( + ) p Om vi exempelvis bara har tre andelar p = (p₁, p₂, p₃) så är fölaktligen + p p p y = log log. () p 6 p3 Exemplets parameterrum SS 3 med underrummet ω₁ illustreras som ett triangeldiagram i Figur a. I Figur b visas det motsvarande reella rummet R med motsvarande underrum ω₁ * = ILR(ω₁). X-axeln utgörs här av y₁ och y-axeln av y₂ i (). För fler detaler om ILR och dess egenskaper, se Pawlowsky-Glahn et al. (5, kap. 4). Vi nöer oss här med att konstatera att det finns en invers ILR-transformation sådan att p = ILR (y). Analytiska uttryck för den version av ILR som använts här är dock tämligen komplicerade. Som exempel föler den inversa transformationen av () där p = exp A y + y 6 exp y + y 6 y exp 3 y y y y y A = exp + + exp + + exp. 6 6 3 3 Ett maximum likelihoodkvottest I Sverige finns sedan åtta partier i Riksdagen. Utöver dessa finns det ytterligare ett eller två partier som har varit i närheten att komma över fyra procentsgränsen till Riksdagen. I Metro redovisas andelar för nio partier. Till dessa nio partier kommer slutligen alla övriga partier som normalt tillsammans samlar mindre än en procent av

SS Figur. I (a) illustreras parameterrummet SS 3 med underrummet ω₁, där p₁ är den största andelen, och underrummet SS 3 ω₁, där p₁ inte är den största andelen. Den övre spetsen av diagrammet utgörs av parametervärdet p = (,, ), den nedre vänstra spetsen av p = (,, ), och den nedre högra spetsen av p = (,, ). Gränsen mellan de båda underrummen utgörs av linen från p = (/, /, ), via p = (/3, /3, /3), till p = (/,, /). I (b) visas motsvarande underrum i det reella rummet R. välarkåren. Enligt Metro består således välarkåren av tio olika andelar. Vi vill testa om SD:s andel p SD är större än alla de övriga, dvs. H : p SS ω SD H : p ω SD (3) Vi föreslår att hypoteserna (3) testas med ett maximum likelihoodkvottest. Detta innebär att vi söker likelihoodens maximum om parameterrummet är begränsat under H och ämför detta med likehoodens maximum om parameterrummet inte är begränsat. Då vi enbart har en observation av en multinomialfördelad slumpvariabel blir likelihooden samma som sannolikhetsfunktionen: n! x x L( p x) = p p (4) x! x! Likelihooden maximeras i det obegränsade parameterrummet av ML-skattningen vilket i detta fall är p ˆ = x/n. I det begränsade parameterrummet under H maximeras (4) av skattningen p *. Om vi antar att antalet SD-sympatisörer i urval x SD är det största värdet i x, i annat fall verkar det omotiverat att testa (3), så medför detta att p * kommer att vara en punkt på randen av SS ω SD. Detta innebär att (4) ska maximeras över p under bivillkoren a) p SD p, för alla andra partier, b) p >, för alla partier och c) summan av alla andelar p är (p + + p D = ).

Tabell. De skattade välarandelarna rapporterade i Metro pˆ, frekvenser x som skulle motsvara dessa andelar vid OSU, samt skattade andelar om SD inte tillåts vara det största partiet p *. Parti M C L KD MP S V FI SD Övriga pˆ,,56,44,37,64,34,68,8,5,7 x 3 85 67 56 98 357 4 43 385 p *,,55,43,36,64,44,7,9,44,7 I normala fall måste p * skattas numeriskt. De numeriska beräkningarna förenklas avsevärt om de två villkoren b) och c) undanrös genom att problemet överförs från SS till R 9 medelst en ILR-transformation. Det första villkoret a) kan då omformuleras som ett antal linära olikheter uy. Matrisen u kommer att bero på valet av ILR-transformation och på vilken komponent som antas vara störst, men i vårt fall med tio andelar där SD utgör den nionde så blir u = / 6 / / / 3 / 4 / 56 / 7 /8 9/8 9/8 8/ 9. /9 För att bestämma (4) i en punkt y, så måste y först transformeras tillbaka till p = ILR (y ). Testfunktionen för maximum likelihoodkvottestet är * ( log L( pˆ) log L( p )) λ =. (5) Om H är sann och p ligger på randen av SS ω SD, så kommer (5) att vara med sannolikheten δ, som andelen av sannolikhetsmassan som finns i SS ω SD. Sannolikheten δ beror på p, men kommer vanligen att vara omkring /, såvida inte p är nära en punkt där d 3 partier är lika stora, i vilket fall δ kommer att vara omkring (d )/d. Med sannolikhet δ så kommer (5) vara approximativt χ -fördelad med en frihetsgrad. För att bestämma p-värdet för testfunktionen får man således dela sannolikheten att λ överskrider det observerade testvärdet med antal andelar d i p * som är lika eller ungefär lika stora som den största. 4 Resultat I Tabell återfinns Metros skattade andelar pˆ för de nio redovisade partierna samt andelen för övriga partier bestämd av oss som differensen mellan summan av andelarna och ett. Undersökningen som Metro redovisar är gord av YouGov. YouGov använder sig av en sälvrekryterad webpanel och resultaten i detta fall bygger på svar från 57 respondenter. Detta utgör u inget slumpmässigt urval, så för att kunna räkna på det så kommer vi att anta att YouGov har använt sig av ett slumpmässigt obundet urval om 57 individer utan bortfall. Metro presenterar inte hur många av de tillfrågade som har angett respektive parti utan bara en skattning av andelen pˆ. I Tabell återfinns

observerade frekvenser x bestämda som pˆ n lämpligt avrundat. Vi skattar därefter de partiernas andelar p * om SD inte tillåts vara det största partiet. Även dessa återfinns i Tabell. Det observerade värdet på (5) blir således (7,45 (8,375)) =,76. Sannolikheten att λ ska överskrida,76 är Pr(λ,76) =,793. I skattningen p * är SD och S lika stora (,44) men även M är nästan lika stora (,), så p-värdet för testet är mellan,793/3 =,93 och,793/ =,396. Testet ger således inte tillräckligt stöd för att förkasta nollhypotesen. Man kan inte med utifrån YouGovs undersökning dra slutsatsen att SD är det största partiet i välarkåren i Sverige. Referenser Aitchison, J. (98). The statistical analysis of compositional data. Journal of the Royal Statistical Society. Series B, 44, 39-77. Aitchison, J. (986). The statistical analysis of compositional data, London: Chapman and Hall. (Nytryck med extra material 3 utgivet av The Blackburn Press.) Egozcue, J. J., Pawlowsky-Glahn, V., Mateu-Figueras, G. & Barceló-Vidal, C. (3). Isometric logratio transformations for compositional data analysis. Mathematical Geology, 35, 79-3. Pawlowsky-Glahn, V., Egozcue, J. J. & Tolosana-Delgado, R. (5). Modeling and analysis of compositional data: John Wiley & Sons Wallroth, E. 5. Nu är SD Sveriges största parti. Metro, augusti 5. Texten bygger i stora delar på Bergman, J. & Holmquist, B. Are the Sweden Democrats really Sweden s largest party? A maximum likelihood ratio test on the simplex, inskickad för publicering.