SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 14 13 december 2016 1 / 20
Idag χ 2 -metoden Test av given fördelning Homogenitetstest 2 / 20
Idag χ 2 -metoden Test av given fördelning Homogenitetstest 3 / 20
Exempel: Väljarundersökning I SKOP:s väljarbarometer i december 2012 sade sig 473 personer från hela riket stödja det röd-gröna blocket, 440 allianspartierna och 90 gruppen partier övriga. I januari 2012 var de motsvarande siffrorna i SKOP:s väljarbarometer 479, 493 och 73. undersök om det överhuvudtaget skett någon förändring i väljaropinionen mellan de två undersökningstillfällena, där alla 3 grupperna (rödgröna blocket, allianspartierna samt övriga) analyseras samtidigt. Nivå 5%. Tentamen mars 2013, Uppg. 5(b) 4 / 20
Preludium: χ 2 -fördelningen igen Följande resultat kommer att vara till användning. Sats Om X N(0, 1) så är X 2 χ 2 (1). Sats Om X χ 2 (k 1 ) och Y χ 2 (k 2 ) är oberoende så gäller att X + Y χ 2 (k 1 + k 2 ). 5 / 20
Idag χ 2 -metoden Test av given fördelning Homogenitetstest 6 / 20
Test av given fördelning Vi utför en serie n oberoende försök, av vilka vart och ett kan utfalla på r olika sätt A 1, A 2,..., A r med sannolikheterna P(A 1 ), P(A 2 ),..., P(A r ). Låt x 1, x 2,..., x r vara de absoluta frekvenser som erhålls i en sådan serie. Det gäller alltså att och r j=1 P(A j) = 1 och r j=1 x j = n. Vi vill testa H 0 : P(A 1 ) = p 1, P(A 2 ) = p 2,..., P(A r ) = p r för några specificerade sannolikheter p 1, p 2,..., p r (där r j=1 p j = 1). Mothypotesen är helt enkelt att H 0 inte gäller. 7 / 20
Test av given fördelning (forts.) Notera att antalet utfall i A j har Bin(n, p j )-fördelning. Då förväntat antal utfall i A j är np j använder vi testvariabeln Q = r j=1 (x j np j ) 2 np j. Under H 0 kan testvariabeln Q visas vara approximativt χ 2 (r 1)-fördelad. Testet (på nivån α) utförs följaktligen genom att { förkasta H 0 om Q > χ 2 α(r 1), ej förkasta H 0 om Q χ 2 α(r 1). 8 / 20
Test av given fördelning (forts.) Tumregel: approximationen fungerar väl om np j 5 för alla j. Man bör alltså inte välja r för stort så att p j :na blir för små. Dock vill man ha r stort för att få en detaljerad indelning av resultaten och test med stor styrka. Kräver att n är stort. 9 / 20
Exempel: manipulerad roulett? 10 / 20
Exempel: manipulerad roulett? Man misstänker att ett roulettebord på ett kasino är manipulerat och genomför ett test med 8000 försök. Om rouletten är korrekt skall röd, svart och grön (nollan) komma upp i proportionerna 18:18:1. Testresultatet gav röd: 3751, svart: 4018, grön: 231. Avgör med felrisken 1% om rouletten är korrekt. Det måste klart framgå av svaret vad slutsatsen är. Tentamen maj 2014, Uppg. 4 11 / 20
Test av fördelning med skattade parametrar χ 2 -testet kan utvidgas till följande situation. Antag att vi har ett stickprov av storlek n. Vi vill pröva hypotesen H 0 att data härrör från någon fördelning med parameter θ. Vi betraktar då åter en indelning A 1, A 2,..., A r av data och låter H 0 : P(A 1 ) = p 1 (θ), P(A 2 ) = p 2 (θ),..., P(A r ) = p r (θ), där p j (θ) är sannolikheten att erhålla A j under H 0. Vi låter x j beteckna antalet observationer som ligger i A j. Om θ är okänd ersätts denna med en under H 0 konstruerad skattning θ baserad på stickprovet. 12 / 20
Test av fördelning med skattade parametrar (forts.) Testvariabeln blir Q = r (x j np j (θ )) 2 np j (θ. ) j=1 Under H 0 kan testvariabeln Q visas vara approximativt χ 2 (r k 1)-fördelad, där k är antalet skattade parametrar. 13 / 20
Exempel: ihjälsparkade kavallerister Saxat ur Blom: Vi vill testa om data verkar komma från en Po(θ)-fördelning. Gör ett test på nivån 5%! 14 / 20
Idag χ 2 -metoden Test av given fördelning Homogenitetstest 15 / 20
Homogenitetstest Antag att man utfört s serier av oberoende försök (av ev. olika längd) och erhållit data på formen serie A 1 A 2 A r antal försök 1 x 11 x 12 x 1r n 1 2 x 21 x 22 x 2r n 2........ s x s1 x s2 x sr n s summa x 1 x 2 x r n Vi vill undersöka om serierna kan anses homogena, dvs. om sannolikheterna p 1 = P(A 1 ), p 2 = P(A 2 ),..., p r = P(A r ) är samma för alla serier. I regel är fördelningen (sannolikheterna p 1,..., p r ) helt ospecificerad. 16 / 20
Homogenitetstest (forts.) Genom att tillämpa χ 2 -metoden får vi testvariabeln Q = s r (x ij n i pj )2 n i pj, i=1 j=1 där skattningarna av sannolikheterna ges av p j = 1 n s i=1 x ij = x j n. Under H 0 kan testvariabeln Q visas vara approximativt χ 2 -fördelad med s(r 1) (r 1) = (r 1)(s 1) frihetsgrader. Tumregel: åter n i p j 5 för alla i, j. 17 / 20
Exempel: Väljarundersökning I SKOP:s väljarbarometer i december 2012 sade sig 473 personer från hela riket stödja det röd-gröna blocket, 440 allianspartierna och 90 gruppen partier övriga. I januari 2012 var de motsvarande siffrorna i SKOP:s väljarbarometer 479, 493 och 73. undersök om det överhuvudtaget skett någon förändring i väljaropinionen mellan de två undersökningstillfällena, där alla 3 grupperna (rödgröna blocket, allianspartierna samt övriga) analyseras samtidigt. Nivå 5%. Tentamen mars 2013, Uppg. 5(b) 18 / 20
Exempel: Väljarundersökning (forts.) Lösning: homogenitetstest med r = 3 och s = 2 och data enligt tabellen Barometer Rödgröna Alliansen Övriga Totalt December 2012 473 440 90 1003 Januari 2012 479 493 73 1045 Totalt 952 933 163 2048 Vi erhåller den observerade testvariabeln 952 (473 1003 Q obs = + 2048 )2 1003 952 2048 952 (479 1045 2048 )2 1045 952 + 2048 Slutsats? 933 (440 1003 + 2048 )2 1003 933 2048 933 (493 1045 2048 )2 1045 933 + 2048 163 (90 1003 2048 + )2 1003 163 2048 (73 1045 163 2048 )2 1045 163 2048 = 3.96. 19 / 20
Nästa föreläsning Oberoendetest, summering, genomgång av extenta (11 januari 2016). 20 / 20