TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning Martin Singull Matematisk statistik Matematiska institutionen

Innehåll Exempel Allmän beskrivning p-värde Binomialfördelning Normalapproximation TAMS65 - Fö6 1/36

När man bildar konfidensintervall, vill man dra slutsatser om intressanta parametrar från sin data. Detta är egentligen inget annat än något som kallas signifikanstest eller hypotesprövning. Alltså, i vissa fall kan man genomföra signifikanstestet med hjälp av konfidensintervall (konfidensmetoden), men det finns också särskilda mer direkta metoder. Vi börjar med ett exempel. TAMS65 - Fö6 2/36

Exempel a) På en viss ort har man en bakgrundsstrålning som är sådan att antalet registrerade partiklar under t timmar med en viss utrustning är Po(6t), där 6 är den normala strålningsintensiteten. Man gör regelbundna mätningar med t = 5 timmar. Bestäm en gräns C som kan användas för att larma om förhöjd strålning men så att man sällan får falsklarm, d.v.s. sådan att P(X > C) 5%, där C är ett heltal (så litet som möjligt) och X är antalet registrerade partiklar i en mätning. b) Anta att strålningsintensiteten har ökat till 9 i samband med ett mindre radioaktivt utsläpp. Beräkna sannolikheten att man vid nästa rutinmätning får ett värde större än C, vilket leder till larm om förhöjd radioaktivitet. Är Du nöjd med sannolikheten? TAMS65 - Fö6 3/36

Lösning a) Under 5 timmar kan vi förvänta oss 30 partiklar. Vidare har vi den s.v. ( X Po(30) N 30, ) 30 som ger ( ) C 30 P(X > C) = 1 P(X C) 1 Φ och 30 ( ) ( ) C 30 C 30 1 Φ 5% Φ 95% 30 30 C 30 30 1.645 C 39.01 välj C = 39. TAMS65 - Fö6 4/36

b) Nu har vi att Y Po(45) N ( 45, ) 45 ( ) C 45 P(Y > C) = 1 P(Y C) 1 Φ = /C = 39/ 45 = 1 Φ( 0.894) = Φ(0.894) 81%. Detta är egentligen ett hypotesprövningsproblem! TAMS65 - Fö6 5/36

Vid rutinmätningarna prövar man mot H 0 : λ = 6 (allt normalt) H 1 : λ > 6 (förhöjd strålning) Som teststorhet väljer vi x och H 0 förkastas om x > C (larm). Villkoret P(X > C om H 0 är sann ) = 5% = α ger C = 39. Alltså vi väljer C så att man ganska sällan larmar i onödan. Å andra sidan vill man att en förhöjning ska leda till larm, så P(Y > C om λ = 9) = 81% som kallas styrkan för λ = 9. Det är alltså bra att den här sannolikheten är stor. TAMS65 - Fö6 6/36

Praktiskt fall: Vid en rutinmätning av strålningen under 5 timmar fick man 42 registrerade partiklar. Skall man larma? Ja, eftersom 42 > 39. Sannolikheten att vi nu larmar i onödan är alltså α = 5%. TAMS65 - Fö6 7/36

Allmän beskrivning Vi har observerade värden x 1,..., x n (ibland är n = 1) av oberoende s.v. X 1,..., X n, vars täthetsfunktion eller sannolikhetsfunktion innehåller en okänd parameter θ. Vi vill pröva nollhypotesen (eng. null hypothesis) H 0 : θ = θ 0 d.v.s. att parametern θ har ett bestämt värde θ 0, mot någon mothypotes H 1 (eng. alterantive hypothesis). TAMS65 - Fö6 8/36

För att pröva H 0 mot H 1 konstruerar man en teststorhet (eng. test statistic) t(x 1,..., x n ) och ett kritiskt område (eng. critical region) C. H 0 förkastas om t(x 1,..., x n ) C vi drar slutsatsen att H 1 gäller. Valet av C beror på H 1 och på signifikansnivån (eng. significance level) α = P(H 0 förkastas om H 0 är sann ) = P(t(X 1,..., X n ) C om H 0 är sann), där H 1 inverkar genom att man väljer C så att teststorheten får en benägenhet att hamna i C om mothypotesen H 1 är sann. TAMS65 - Fö6 9/36

Styrkan (eng. power) för ett värde θ 1 (i H 1 ) är P(H 0 förkastas om θ 1 är det sanna värdet ) = = P(t(X 1,..., X n ) C om θ 1 är det sanna värdet). Styrkefunktionen (eng. power function) ges av h(θ) = P(H 0 förkastas om θ är det sanna värdet) = P(t(X 1,..., X n ) C om θ är det sanna värdet). Fel av typ I: Att förkasta H 0 då den är sann. Signifikansnivån α = risken för fel av typ I. Fel av typ II: Att inte förkasta H 0, då den är falsk. TAMS65 - Fö6 10/36

En- och tvåsidiga test Vi begränsar oss tills vidare till fallet att teststorheten är en växande funktion av en punktskattning ˆθ. 1 H 1 : θ θ 0 ; H 0 förkastas om t(x 1,..., x n ) a. Konfidensmetoden: Gör nedåt / uppåt begränsat konfidensintervall för θ. H 0 förkastas då θ 0 I θ. Konfidensgrad = 1 α. 2 H 1 : θ θ 0 ; H 0 förkastas om t(x 1,..., x n ) < b 1 eller t(x 1,..., x n ) > b 2. α 2 = P(t(X 1,..., X n ) < b 1 om θ = θ 0 ) α 2 = P(t(X 1,..., X n ) > b 2 om θ = θ 0 ) Konfidensmetoden: Gör tvåsidigt konfidensintervall etc. Regel: Mothypotesen H 1 är det man vill visa och nollhypotesen H 0 det man tror är falskt, men hypoteserna skall formuleras innan man sett mätresultaten. TAMS65 - Fö6 11/36

p-värde Ofta så redovisar man sitt testresultat som ett så kallat p-värde, p = sannolikheten, då H 0 är sann, att få ett minst lika extremt värde på teststorheten som det man observerat. Ett lågt p-värde tyder på kraftig avvikelse från H 0 H 0 förkastas p < α. (Alternativ definition: p-värdet är den lägsta signifikansnivå vid vilken H 0 kan förkastas.) Det är inte alltid så lätt att räkna ut p-värdet, men det brukar finnas i datorutskrifter. TAMS65 - Fö6 12/36

Example - p-värde Om tex H 1 : θ > θ 0 så är C = {t : t > a}, och vi vill förkasta H 0 till förmån för H 1 om p-värdet ges här av t(x 1,..., x n ) > a. p = P(t(X 1,..., X n ) > t obs om H 0 är sann) TAMS65 - Fö6 13/36

Om istället H 1 : θ θ 0 så får vi, för det symmetriska fallet, att H 0 förkastas om t(x 1,..., x n ) > b och p-värdet ges av p = P( t(x 1,..., X n ) > t obs om H 0 är sann). TAMS65 - Fö6 14/36

Exempel, forts. Vi har x = 42 som är observation av X Po(30) om H 0 är sann. Stora värden på x tyder på att H 1 gäller. Alltså p = P(X 42 om H 0 är sann) = 1 P(X < 42 om H 0 är sann) ( ( = 1 P X 41 om X Po(30) N 30, )) 30 ( ) 41 30 1 Φ = 1 Φ(2.01) 2.28%. 30 Det är osannolikt att få så hög strålning när H 0 är sann. p < 5% H 0 förkastas. TAMS65 - Fö6 15/36

Teststorhet Beslut Yttrande t C H 0 förkastas Vi har funnit en signi- (till förmån för H 1 ) fikant avvikelse från H 0 på nivån α. Med felrisk α kan vi hävda att H 1 gäller. t C H 0 förkastas ej Ingen signifikant av- (kan H 0 accepteras?!?) vikelse från H 0, nivån α. H 0 kan vara sann. (jfr. ex. med hästen) TAMS65 - Fö6 16/36

Exempel - Binomialfördelning test av p = p 0 Vad väljer du? Någon påstår att 30% av svenska ungdomar, 15 30 år, föredrar Iphone framför Android och vi tror absolut att det är fler. Vi gör en undersökning. Av 10 slumpmässigt valda personer säger 7 att de föredrar Iphone. Skulle vi kunna få ett så här extremt resultat av en slump eller kan vi med någon säkerhet hävda att mer än 30% föredrar Iphone. TAMS65 - Fö6 17/36

Låt p = andelen som föredrar Iphone bland svenska ungdomar, 15 30 år. Vi har x = 7 som är observationer av X Bin(10, p), då populationen är stor. Vi vill pröva på signifikansnivån högst 5%. H 0 : p = 0.3 mot H 1 : p > 0.3, Valet av H 1 beror på att vi i förväg trodde att p > 0.3. Vi har ˆp = x 10 = 0.7 Teststorhet: x TAMS65 - Fö6 18/36

Det är rimligt att förkasta H 0 om ˆp är stor, d.v.s. om x a, eftersom E(X ) = np som blir 0.3n om H 0 : p = 0.3 är sann och större än 0.3n om H 1 : p > 0.3 är sann. Den kritiska gränsen a är ett heltal sådant att 0.05 P(X a om H 0 är sann) = P(X a om p = 0.3) Bin(10, 0.3)-tabell ger a = 6. P(X = 10) + P(X = 9) + P(X = 8) + P(X = 7) + P(X = 6) }{{}}{{}}{{}}{{}}{{} =0.0000 =0.0001 =0.0014 =0.0090 =0.0368 = 0.0473 0.05 eller så kan man använda 0.05 P(X a) = 1 P(X < a) = 1 P(X a 1). Alltså P(X a 1) 0.95. Slutsats: Vi har x = 7 > 6. H 0 förkastas. Med felrisk 5% (4.73%) kan vi påstå att p > 0.3. TAMS65 - Fö6 19/36

Styrkefunktionen ges av h(p) = P(H 0 förkastas om p är rätta värdet) = P(X 6 om p är rätta värdet) 10 ( ) 10 = p k (1 p) 10 k k k=6 }{{} se tabell Man vill att h(p) skall vara stor för p-värden i mothypotesen. Tabell ger p 0.1 0.3 0.5 0.7 0.9 h(p) 0.0001 0.0473 0.3770 0.8497 0.9984 Notera att h(0.3)= signifikansnivån. TAMS65 - Fö6 20/36

Tolkning: Om p = 0.5 och vi frågar 10 personer, så är sannolikheten för resultatet H 0 förkastas bara 37.7%. Däremot är testets styrka för p = 0.7, som ges av h(0.7), stor. Styrkeberäkningar är särskilt intressanta när man planerar en undersökning. Anm. Om n ˆp ˆq varit större än 10 så hade vi kunnat pröva H 0 genom att göra ett nedåt begränsat konfidensintervall för p och förkasta H 0 om 0.3 I p. TAMS65 - Fö6 21/36

Normalapprox vid binomialfördelning Vi har x som är observation av X Bin(n, p). Vi vill pröva på nivån α. H 0 : p = p 0 mot H 1 : p p 0 Om np 0 q 0 > 10, så gäller då H 0 sann, att P = X ) (p n N p0 q 0 0, n Teststorhet: z = ˆp p 0 p0 q 0 /n TAMS65 - Fö6 22/36

Den s.v. Z approx. N(0, 1) då H 0 är sann ( under H 0 ). När ska vi förkasta H 0? Betrakta hypoteserna och teststorheten igen H 0 : p = p 0 mot H 1 : p p 0 z = ˆp p 0 p0 q 0 /n Förkasta H 0 om ˆp är stor, d.v.s. förkasta om z < a eller om z > a. TAMS65 - Fö6 23/36

Exempel Vi har fått indikationer på att ett roulettspel ger oftare rött än svart och vill undersöka om så är fallet. Vi testar spelet 50 gånger och finner att det blir 32 gånger rött. Kan vi påstå att spelet är manipulerat så att det ger rött fler gånger än svart? Låt p vara sannolikheten att ett spel ger rött. x = 32 är en obs från X Bin(n, p) där n = 50. Vi vill testa hypotesen H 0 : p = 0.5 mot H 1 : p > 0.5 på nivån α = 5%. Använd teststorheten z = ˆp 0.5 0.5(1 0.5)/50 = 1.98 När vill vi förkasta H 0? TAMS65 - Fö6 24/36

Allmänt är ˆP = X ) p(1 p) (p, n N och n Speciellt har vi att z är en obs från Z = ˆP 0.5 0.5(1 0.5)/50 N(0, 1) under H 0. ˆP p p(1 p)/n N(0, 1). Om H 0 är sann gäller att E( ˆP) = p = 0.5 dvs E(Z) = 0 men om H 1 är sann så gäller att E( ˆP) = p > 0.5 dvs E(Z) > 0. Alltså förkasta H 0 till förmån för H 1 om z > a där 5% = P(förkasta H 0 om H 0 är sann) = P (Z > a, z N(0, 1)) ger a = 1.645. Vi har z = 1.98 > 1.645 = a Förkasta H 0. Roulettspelet verkar ge för många rött (manipulerat?). TAMS65 - Fö6 25/36

Anm. 1 Även då man utnyttjar normalapproximation kan man i binomialfördelningsfallet utnyttja x som teststorhet. Förkasta H 0 om x < a eller om x > b. Lägg halva sannolikhetsmassan α/2 på var sida, t.ex. α/2 = P(X < a, X Bin(n, p 0 ) N(np 0, np 0 (1 p 0 ))) och lös ut a. På liknande sätt för b. Anm. 2 Då normalapproximation är tillåten kan vi ju pröva H 0 med hjälp av ett konfidensintervall, men då är det svårare att beräkna styrkan. TAMS65 - Fö6 26/36

Exempel - Poissonapprox vid binomialfördelning Vid avdelningen för kvalitetskontroll hos läkemedelsföretaget Astra i Södertälje har man bland de kvinnliga anställda undersökt hur ofta dessa fött barn, som varit döda eller missbildade. 14 sådana barn föddes under 1970-talet vid sammanlagt 97 förlossningar. Riksgenomsnittet för andelen döda eller missbildade barn är 4%. Undersök med hjälp av ett lämpligt test på nivån 1% om sannolikheten att föda missbildade eller döda barn är större än 4% för kvinnor anställda hos Astra. TAMS65 - Fö6 27/36

H 0 : p = 0.04 mot H 1 : p > 0.04 Teststorhet: x = 14 obs. från X Bin(97, p) Po(97p). 1% P(X a då H 0 är sann) = P(X a, X Po(97 } {{ 0.04} )) 3.9 = 1 P(X < a) a = 10. eftersom P(X = ) +... + P(X = 10) < 0.01 men vi har att P(X = ) +... + P(X = 10) + P(X = 9) > 0.01. Vi förkastar H 0 om x a, dvs. vi kan förkasta H 0 på nivån 1%. TAMS65 - Fö6 28/36

Normalapproximation allmänt Med hjälp av ett eller flera stickprov har vi tagit fram en punktskattning ˆθ och den s.v. Θ är approx. N(θ, D). Vi vill nu pröva Teststorhet ˆθ θ 0 z = D ˆθ θ 0 d H 0 : θ = θ 0. om D känd då H 0 sann, om D okänd, där d är en skattning av D som gäller då H 0 är sann. Den s.v. Z N(0, 1) om H 0 är sann. Teststorheten är väldigt lik hjälpvariabeln för konstruktion av I θ. Man kan säga att teststorheten är hjälpvariabeln under H 0 (dvs när H 0 är sann). TAMS65 - Fö6 29/36

Två Binomialfördelningar Vi har x som är en observation av X Bin(n 1, p 1 ) och y som är en observation av Y Bin(n 2, p 2 ). Vi vill pröva mot på nivån α. H 0 : p 1 = p 2 p 1 p 2 = 0, H 1 : p 1 p 2 p 1 p 2 0, Vi har från tidigare den s.v. P 1 P 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 P1 = P 2 under H 0 ( 1 pq + 1 ), n 1 n 2 där p 1 = p 2 = p och q = 1 p. TAMS65 - Fö6 30/36

Under H 0 (p 1 = p 2 = p) kan vi skatta p (intuitivt!?) med ˆp = x + y n 1 + n 2, vilket man också kan visa är ML-skattningen (alltså konsistent). Som teststorhet väljer vi nu z = ˆp 1 ˆp 2 ( 1 ˆp ˆq + 1 ), n 1 n 2 där ˆq = 1 ˆp. För s.v. Z gäller att under H 0 så Z N(0, 1). TAMS65 - Fö6 31/36

För att genomföra det testet ovan kan det vara lättare att konstruera ett tvåsidigt konfidensintervall för p 1 p 2 med konfidensgraden 1 α och förkasta H 0 om 0 I p1 p 2. Då använder vi hjälpvariabeln (från Fö5) P 1 P 2 (p 1 p 2 ) P1 Q1 + P 2 Q2 n 1 n 2 N(0, 1) och fortsätter som vanligt. TAMS65 - Fö6 32/36

Exempel - Normalapprox vid två binomialfördelning Vid tillverkning av en viss sorts enheter kan det uppstå defekter. Man har två maskiner för tillverkningen och önskar undersöka deras defektsannolikheter. Man tillverkar därför 1 000 enheter med varje maskin och observerar härvid 10 respektive 20 defekta enheter. Testa på nivån 5% att maskinerna har lika defektsannolikheter mot att det finns skillnad mellan dem. ˆp 1 ˆp 2 Teststorhet z = ( 1 ˆp ˆq + 1 ) = 1.84, där ˆp 1 = 0.01, n 1 n 2 10 + 20 n 1 = 1000, ˆp 2 = 0.02, n 2 = 1000, ˆp = = 0.015 och 1000 + 1000 ˆq = 1 ˆp = 0.985. TAMS65 - Fö6 33/36

Vi har att Z N(0, 1). Förkasta H 0 om z < c, eller om z > c, där c = z 0.975 = 1.96. Alltså, vi kan inte förkasta H 0. Vi kan också bilda I p1 p 2. Intervallet blir ˆp 1 (1 ˆp 1 ) I p1 p 2 = ˆp 1 ˆp 2 z 0.975 + ˆp 2(1 ˆp 2 ) n 1 = ( 0.021, 0.001). Alltså, vi kan inte förkasta H 0. n 2 TAMS65 - Fö6 34/36

Sammanfattning Vi har diskuterat de grundläggande begreppen vid hypotesprövning och tillämpat ideerna vid binomialfördelning och Poissonfördelning. 1 Vi har en observation x av X Bin(n, p) och vill pröva H 0 : p = p 0, där p 0 är ett givet värde. Teststorhet: x. 2 Vi har en observation y av Y Po(λt) och vill pröva H 0 : λ = λ 0 där λ 0 är ett givet värde. Teststorhet: y. TAMS65 - Fö6 35/36

För vilka värden på teststorheten som nollhypotesen ska förkastas beror på mothypotesen. Om normalapproximation är tillåten finns det alternativa teststorheter, men de båda på sidan ovan fungerar även då. Man ofta kan pröva en hypotes med hjälp av ett konfidensintervall. Man ser på mothypotesen vilken sorts intervall man ska göra. TAMS65 - Fö6 36/36

http://courses.mai.liu.se/gu/tams65/