Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika situationer där vi börjar med att titta på framförallt skillnader mellan olika mätningar. En rimlig fråga är om det föreligger någon skillnad mellan till exempel väntevärden för två stycken stickprov. Antag att vi har två slumpmässiga stickprov från två normalfördelningar. Vi vet inte direkt om fördelningarna har samma parametrar, så situationen skulle kunna se ut enligt följande. µ µ x Hur avgör vi om till exempel µ µ? Eller snarare om det är så att µ µ? Eller kanske om µ > µ? Går det att avgöra om varianserna skiljer sig åt? Vad gör vi om inte stickprovet är från en normalfördelning? Linjärkombinationer av normalfördelningar Låt X,..., X m och Y,..., Y n vara oberoende slumpmässiga stickprov från Nµ, σ respektive Nµ, σ. Om c och c är konstanter, kan vi hitta ett konfidensintervall för linjärkombinationen c µ + c µ? Svaret beror på vilka antaganden vi gör. Vi börjar med att hitta en lämplig stokastisk storhet. Vi ser att Ec X + c Y c µ + c µ och V c X + c Y c så eftersom vi har oberoende normalfördelade variabler gäller att σ m + c σ n, Z c X + c Y c µ + c µ N,. c σ σ m n Om vi känner σ och σ räcker detta för att ställa upp ett resultat.
. Känd varians Antag att följande värden är uppmätta. Kända varianser x i 47.7 55.6 5.3 46. 54.9 y i 9. 47.8 3.9 37.7 7.9 4. 4.5 4.9 Låt x i vara observationer av stokastiska variabler X i Nµ, 4 och y i observationer av stokastiska variabler Y i Nµ, 9, där samtliga variabler är oberoende. Ange ett 95% konfidensintervall för µ µ. Lösning: Låt W X Y. Varför? Denna storhet har egenskapen att EW EX EY µ µ, vilket är precis vad vi är intresserade av. Vidare är En lämplig teststorhet ges av V W V X + V Y 4 5 + 49 8 43.7. Z W µ µ V W N,. Obligatorisk principfigur! y λ α/ λ α/ x Eftersom kan vi ur olikheten lösa ut sambandet P λ α/ < Z < λ α/ α W λ α/ V W < µ µ < W + λ α/ V W. Vi skattar W med w x y 5. 37.9. Ur tabell finner vi att Φ.96.95 +.5.975, så λ α/.96. Alltså blir intervallet I µ µ.9.96 43.7,.9 +.96 43.7 33.85, 7.95. Vad säger detta oss? Jo, att med 95% säkert så ligger det verkliga värdet för µ µ i intervallet 33.85, 7.95. Till exempel ser vi att noll inte finns med i intervallet, så det måste vara så att µ > µ med hög säkerhet!
. Okända men likadana varianser σ σ Så om vi inte känner till vad varianserna är behöver vi skatta dessa. Om vi dessutom antar att σ σ får vi ett enklare resultat, så vi börjar med det. Om vi nyttjar att σ σ σ i ekvation erhåller vi att Z c X + c Y c µ + c µ N,. c σ + m c n Men vi vet fortfarande inte vad σ är, så vi ersätter σ med stickprovsstandardavvikelsen s. Eftersom vi har två stickprov viktar vi ihop dessa på sedvanligt sätt: s m s + n s. m + n Motsvarande stickprovsvariabel S uppfyller som bekant att och enligt Gossets sats blir T c X + c Y c µ + c µ tm + n. c S + m c n m + n S σ χ m + n Okänd varians Samma siffror som i exemplet ovan, men nu vet vi inte vad standardavvikelserna är. Antag att de är lika, dvs att σ σ σ. Finn ett 95% K.I. för µ µ inte samma uttryck som sist!. Kan du säga något om påståendet att µ > µ? Lösning: Vi antar alltså här att X i Nµ, σ och Y i Nµ, σ. Vi kan skatta varianserna för varje serie med de vanliga stickprovsvarianserna, så s n n i är kända storheter. Dessa viktas ihop enligt Det följer nu att x i x och s m s n s + m s. n + m m y i y T c X + c Y c µ + c µ tn + m. c S + n c m c Låt k : n + c m. Snarlikt med fallet där vi kände varianserna kan vi stänga in T : i P t α/ n + m < T < t α/ n + m α där vi ur olikheten kan lösa ut sambandet T t α/ n + m S k < c µ + c µ < T + t α/ n + m S k. Vi har n 5 och m 8, så m+n frihetsgrader. Ur tabell finner vi att t.5.. 3
y t α/ t α/ x Vi kan räkna ut stickprovsvarianserna för x i och y i separat med formel eller miniräknare. Vi erhåller s 7.8 och s 49.9 små bokstäver, ej stokastiskt!. Den sammanvägda standardavvikelsen blir då 4s + 7s Vidare är c och c, så s 6.374. k c n + c m 5 + 8.57. Alltså blir c t.5 s n + c. 6.374.57 7.6976. m Vi kan också räkna ut att x y 4., så det sökta intervallet ges av I µ µ 4. 7.7, 4. + 7.7 6.4,.8. Vi ser att noll ej ingår i intervallet, så det förligger troligt att µ > µ..3 Okända varianser σ σ Ha ha. Well.. vi har inget användbart exakt samband, men det finns metoder för att hantera även denna situation. Dessa metoder ligger utanför denna kurs, men det kanske kan vara intressant att ha hört talas om dem. Problemet ligger i att uppskatta frihetsgraden ν för tν- fördelningen. Man kan visa Welch-Satterthwaite-ekvationen att S + S appr. s χ / ν, där ν + s n n n n n Därifrån kan vi till exempel använda att s 4 n + n s 4 n. T X Y µ µ S n + S n appr. tν för att ställa upp ett konfidensintervall för µ µ. 4
3 Stickprov i par Om stickproven X,..., X m och Y,..., Y n inte är oberoende får vi problem. Åtminstone om inte beroendet är känt. Låt oss betrakta ett vanligt förekommande exempel, nämligen stickprov i par. Av nödvändighet är då m n så stickproven har samma storlek. Vi tänker oss att x k är observationer från X k Nµ k, σ och Y k Nµ k +, σ. Typexemplet är när vi mäter något före och efter en förändring. Bilda nu ett nytt stickprov Z k av oberoende variabler: Z k Y k X k N, σ, för något σ. Vi är nu tillbaka där vi var föregående föreläsning, så de tekniker vi utvecklade där fungerar även nu. Exempel Preparat mot hjärnbrist. Mätningar i lämplig enhet före och efter behandling hos nio patienter. Person 3 4 5 6 7 8 9 Före 5.8. 8. 9.4.8 6.6 3.7 3.5 7.5 Efter 4.8.4 8.3 9.5. 5.6 3.4 4.4 6. Bestäm ett 99% KI av den genomsnittliga effekten hos preparatet. Kan du styrka att det fungerar? Lösning: Låt x i vara värde före behandling för person i och y i motsvarande efter. Vi antar att olika personer är oberoende och att x i är observationer från X i Nµ i, σ och Y i Nµ i +, σ. Bilda Z i Y i X i N, σ. Vi har nu en enda serie z i y i x i som ges enligt z i -..3...4 -. -.3.9.5 Vi räknar ut s.7886 och z.. Vidare är n 8 och α., så t α/ 8 t.5 8 3.36. Alltså, I. 3.36.7886/ 9,. + 3.36.7886/ 9.66,.. Eftersom nollan finns med kan vi inte förkasta att med 99% säkerhet. Preparatet kan alltså vara verkningslöst. 4 Jämförelse av varianser The box. You opened it. We came. Pinhead Vi antog tidigare att stickproven hade samma varians för att kunna ställa upp en lämplig teststorhet. Hur vet vi det? Kan vi på något sätt avgöra om det antagandet är rimligt? Vi vill alltså jämföra varianserna för två stickprov och för att göra det behöver vi introducera en ny fördelning ljuva lycka!. 5
4. F-fördelningen F-fördelning Definition. Vi kallar X Fd, d F-fördelad med frihetsgraderna d > och d > om f X x B d, d d d d x d + d d +d x, x, d där Ba, b Γa Γb Γa + b är beta-funktionen. Notera att X Fd, X χ d..5 y d, d d, d d 3, d 5 d 4, d 6 d 5, d d 8, d d, d d, d 3 4 5 6 x Sats. Om V χ d och V χ d är oberoende så gäller att V /d V /d F d, d. Bevis. Vi börjar med att betrakta hur man kan hitta täthetsfunktionen för kvoten Z X/Y av två oberoende stokastiska variabler X och Y. Vi antar att respektive täthetsfunktion är kontinuerlig. Det gäller att f X,Y x, y f X xf Y y och X F Z z P Y z P X Y z, Y > + P X Y z, Y < ˆ yz f X,Y x, ydx dy + f Y yf X yz dy + ˆ 6 ˆ yz f X,Y x, ydx dy f Y y F X yz dy,
från vilket det följer att f Z z d dz F Zz y f Y yf X yz dy. yf Y yf X yz dy + ˆ yf Y yf X yz dy Vi noterar även att för r > gäller att X P r x P X rx f X/r x rf X rx. Således ges täthetsfunktionerna för V /d och V /d av och f V /d x f V /d y d d / d / Γ d x d/ e dx/, x d d / d / Γ d y d/ e dy/, y, så enligt resultatet ovan för kvoten V /d erhåller vi att V /d f Z z yf V /d yf V /d yz dy d d / d d / z d / d +d / Γ d Γ d y d /+d / e yd +d z/ dy / / u yd + d z variabelbyte: dy d + d z du d d / d d / z d/ d + d z d +d / d +d / Γ d Γ d d d / d d / Γ d +d Γ d Γ d z d / d + d z d +d / u d +d / e u/ du eftersom ˆ d +d / Γ d +d u d +d / e u/ du då detta är integralen av täthetsfunktionen för en stokastisk variabel U χ d + d. Vi kan hyffsa till slutresultatet för f Z z genom att bryta ut d ur d + d z d +d / och använda beta-funktionen: f Z z d d / z d/ d d / + d d +d / d z B d, d vilket är precis vad vi ville visa. d d B d, d d / z d / + d d +d / z, d 7
Sats. Om X Fd, d så är EX d d, d >, och V X d d + d d d d 4, d > 4. Bevis. Välj två oberoende stokastiska variabler V χ d och V χ d. Eftersom vi visade ovan att V /d F d, d följer det att V /d / V /d V EX E och V / oberoende E V /d d d där vi nyttjat att EV d. Vi beräknar E/V : ˆ [ E c x d/ e x/ dx c d / xd / e x/ V d f V x dx d, under förutsättning att d >. Således blir d V d ] E V d V + d d d E, d V x d/ e x/ dx EX d d om d >. När det gäller variansen använder vi ett analogt resonemang: V /d V X V d V E V E V /d d V V / / V och V oberoende d E V E E V E d V V + EV d d E V d d d + d d d E V d eftersom V V d och vi använt resultatet för E/V ovan. Vi partialintegrerar nu för att beräkna E/V : ˆ E c x k/ 3 e x/ dx V [ ] c d / xd / e x/ + x d/ e x/ dx d 4 d 4 E d 4d, om d > 4 och vi nyttjat kalkylen för E/V ovan. Alltså blir V X d d + d d d 4d d d vilket var precis vad vi ville visa. V d d + d d d d 4, V 8
Sats. Om X F d, d så är /X F d, d. Bevis. Låt V /X och antag att v >. Då gäller att F V v P /X v P X /v F X /v f V v v f X/v, så f V v v B d B d, d d, d d d B d, d eftersom Ba, b Bb, a. Således är V F d, d. d d d d / d / + d d +d / v d v d / d /+ d +d / d d v + v d v d d / d +d / v d / + d d v d +d / Sats. Om T tn så är T F, n. Bevis. Låt V T och antag att v. Då gäller att F V v P T v P v T v F T v F T v, så f V v F V v v f T v v f T v v / + v n f T v Γ n+ v v nπ Γ n Γ n + / Γ Γ n v / + v n+/ n n / B, v / + n+/ n n n v, eftersom f T t f T t och Γ/ π. Således är V F, n. n+/ 4. Jämförelse av två varianser Låt X,..., X n och Y,..., Y n vara oberoende slumpmässiga stickprov från Nµ, σ respektive Nµ, σ. Då vet vi att n S σ Det följer då enligt ovan att χ n och n S σ χ n. F S /σ S /σ F n, n. 9
Exempel Betrakta det tidigare exempel igen, där vi hade x i 47.7 55.6 5.3 46. 54.9 y i 9. 47.8 3.9 37.7 7.9 4. 4.5 4.9 Antag att x i är oberoende observationer av Nµ, σ och att y i är oberoende observationer av Nµ, σ. Ange ett 95% konfidensintervall för σ /σ. Lösning. Låt F S /σ. På grund av antagandet följer det att F F 4, 7. Vi söker ett S/σ konfidensintervall med konfidensgrad 95% så vi behöver gränser a och b så att P F < a.5 och P F > b.5. Ur tabell finner vi att a. och b 5.56 i Matlab finv[.5.975], 4, 7. Notera att tabeller oftast endast innehåller värden för sannolikheter.5. Anledning till det är att vi kan använda att F F m, n F n, m. F Konkret för oss just nu blir det således.5 P F < a P a < P F F a Vi försöker nu lösa ut σ /σ : a < S /σ S /σ S S σ σ < b b Vi skattar nu S och S med respektive stickprovsvarians: S S < σ σ s 7.8 och s 49.86. Ett konfidensintervall för σ/σ ges alltså av 7.8 I 5.56 49.86, 7.8.658, 3.999.. 49.86 Vill vi ha ett konfidensintervall för σ /σ tar vi helt enkelt roten ur gränserna: P < a I σ /σ.658, 3.999.566,.865. F.975. a I Matlab kan man använda funktionen vartest för att skapa konfidensintervallet. >> x [47.7 55.6 5.3 46. 54.9 ]; >> y [9. 47.8 3.9 37.7 7.9 4. 4.5 4.9]; >> [H P CI] vartestx,y,.5, both H P.345 CI.658 3.998 Vad H och P representerar kommer vi till på nästa föreläsning. S S.
5 Konfidensintervall via CGS Så vad gör vi om stickprovet inte är från en normalfördelning? 6 Stickprov för andel Exempel Ett företag som sysslar med opinionsanalys väljer slumpmässigt ut 4 vuxna i Sverige och frågar om de har åsikt A. Av dessa svarar 8 ja alla svarar. Bestäm ett approximativt 95% konfidensintervall för andelen av den stora populationen som håller åsikt A. Lösning. Vi låter X vara antalet som svarar ja. Då är egentligen X HypN, 4, p, där N är antalet vuxna i Sverige rimligen ca 8 miljoner. Då 4 8 är det helt rimligt att anta att X appr. Bin4, p. Vi vill skatta den okända andelen p och väljer som skattningsvariabel P X 4 Vi har observerat att p 8/4.. Binomialfördelningen är lite jobbig eftersom den är diskret, så vi försöker oss på en approximation. Eftersom 4 p p 4..8 64 är ordentligt större än är det rimligt att approximera binomialfördelningen med normalfördelning. Alltså, P appr. Np, p p/4. Låt oss bilda Z P p p p/4 appr. N,. Observera att vi ersatt med det skattade värdet på p i kvadratroten men inte i täljaren. Vi nyttjar här alltså medelfelet d, dvs d P p p/4.. Vi kan nu räkna precis som om vi känner standardavvikelsen exakt, så om vi söker ett approximativt 95% K.I. erhåller vi I p..96.,. +.96..6,.4. 7 Jämförelse av två andelar Antag att vi har två maskiner. Vid uppmätning fann man att Maskin producerade defekta enheter av 4, och att Maskin producerade 6 defekta enheter av 6. Modell: Låt X vara antal defekta enheter från Maskin och Y antal defekta enheter från Maskin. Under lämpligt oberoendeantagande vet vi att X Bin4, p och Y Bin6, p där p och p är de verkliga felsannolikheterna. Vi skattar lämpligen med P X 4 och P Y 6.
Vi har observerat att p /4.5 och p 6/6.. Alltså är p p.5. Är detta signifikant? För att svara på frågan behöver vi räkna lite sannolikheter. Eftersom både n p p och n p p är mycket större än är det rimligt att approximera binomialfördelningen med normalfördelning. Alltså, appr. P N p, p p 4 och appr. P N p, p p. 6 Då följer det att Vi bildar nu P P appr. N p p, p p + p p. 4 6 Z P P p p p p /4 + p p /6 appr. N,. Observera att vi ersatt med skattade värden på p och p i kvadratroten men inte i täljaren. Det blir fortfarande approximativt men lite sämre så klart normalfördelat, men underlättar mycket för beräkningar. Vi har p p /4 + p p /6.64. Vi kan nu räkna precis som om vi känner standardavvikelsen exakt, så om vi söker ett approximativt 95% K.I. erhåller vi I p p.5.96.64,.5 +.96.64.8,.. Endast negativa värden, så p < p med hög sannolikhet! Maskin är antagligen sämre.