F9 Konfidensintervall

1/16 F9 Konfidensintervall Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 18/2 2013

2/16 Kursinformation och repetition Första inlämningsuppgiften rättas nu i veckan. För att lösa problem 6 i den tredje diskussionsuppgiften kan man använda en räknedosa, R eller Wolfram Alpha för att räkna ut sannolikheterna. Se kurshemsidan för tips! Förra föreläsningen studerade vi skattningar ˆm. Svaret som en skattning ger oss beror på vilket stickprov vi tar. Valet av stickprov är slumpmässigt, så skattningen varierar slumpmässigt. Variationen brukar beskrivas av medelfelet d( ˆm). d[ X ] = ˆσ n

3/16 Dagens föreläsning Hur osäkra är skattningar? Att presentera osäkerhet Konfidensintervall För väntevärdet µ

Hur osäkra är skattningar? 1. Ett företag vill ta reda på hur stor andelen defekta komponenter p är i en leverans. De undersöker n = 25 komponenter och observerar x = 0 defekta komponenter. Deras skattning är ˆp = x/n= 0/25 = 0. Är det verkligen rimligt att tro att det inte finns några defekta komponenter bara för att de inte hittade några? Hur stor är det rimligt att tro att p är, utifrån insamlade data? 2. En osthandlare vill ta reda på hur många hål en genomsnittlig schweizerost har. Hon har 20 ostar och väljer ut 10 av dessa för undersökning. Hon får då skattningen x = 12.5. Hennes skattning beror på vilka ostar hon råkade välja! Hur långt från det sanna värdet kan skattningen hamna? 4/16

Att beskriva osäkerhet För att visa hur stort osäkerheten i en skattning är brukar man ofta istället ange ett intervall med troliga värden: Utifrån vår undersökning tror vi att andelen defekta komponenter ligger mellan 0 och 0.04. Utifrån min undersökning tror jag att antalet hål i en genomsnittlig schweizerost ligger mellan 8.4 och 16.6. Osäkerheten för skattningen ˆm av parametern m beskrivs ofta med ett intervall av typen ˆm ± c Hur skulle vi önska att talet c betedde sig? c minskar när stickprovsstorleken n ökar. c tar hänsyn till att ˆm varierar slumpmässigt. c bygger på medelfelet för skattningen ˆm, eftersom medelfelet på något sätt beskriver hur stort slumpfelet i ˆm kan vara! Allra helst skulle vi vilja kunna säga något om hur stor sannolikheten att intervallet ˆm ± c innehåller det sanna värdet m är! 5/16

6/16 Definition av konfidensintervall Låt m vara en okänd parameter och ˆM 1 och ˆM 2 vara funktioner av stickprovet X 1,..., X n, sådana att P( ˆM 1 m ˆM 2 ) = 1 α. Intervallet [ ˆM 1, ˆM 2 ] sägs vara ett konfidensintervall för parametern m med konfidensgrad 1 α. Kommentarer: Intervallets gränser är slumpmässiga! Låt α = 0.05. Sannolikheten att intervallet innehåller det sanna parametervärdet m är då 1 0.05 = 0.95. Vi tolkar detta som att om man upprepar ett försök många gånger och varje gång beräknar konfidensintervallet så kommer 95 % av de beräknade konfidensintervallen att innehålla det sanna värdet på m. Vanliga värden på α är 0.001, 0.01, 0.05 och 0.10.

Konfidensintervall: α = 0.05 Simulering av 50 konfidensintervall med konfidensgrad 95 %: 50 konfidensintervall, m=0 Parametervärde 0.5 0.0 0.5 0 10 20 30 40 50 Stickprov 7/16

8/16 Kvantiler Om P(X > λ α ) = α så sägs λ α vara en α-kvantil för (fördelningen för) X. Se illustration på tavlan! För standardnormalfördelningen N(0, 1) finns en tabell över kvantiler på sidan 130 i kompendiet. Se exempel på tavlan!

9/16 Konfidensintervall för µ då σ är känd Vi har studerat medelvärdet X = 1 n (X 1 + X 2 +... + X n ) och konstaterat att E( X ) = µ och V( X ) = σ 2 /n. Om X i N(µ, σ 2 ) så gäller dessutom att Därmed så är X N(µ, σ 2 /n). X µ σ/ n N(0, 1). Vi antar att σ är känd och vill ta fram ett konfidensintervall för µ. Se beräkning på tavlan!

10/16 Varför konfidensintervall? Givet: observationer x 1,..., x 10 från X N(µ, 4): 19.03 18.89 23.69 20.96 20.02 22.83 20.28 20.29 16.33 15.46 Vi får en skattning ˆµ = x = 19.778 och 95 % konfidensintervallet för µ blir... Se beräkning på tavlan! Vi får I µ = (18.5, 21.0). Antag att man vill veta P(X > 24). Sannolikheten beror på µ: µ 18.5 19.778 21.0 P(X > 24) 0.003 0.017 0.067 Svaret kan avvika ganska mycket från det som fås med ˆµ = 19.778!

11/16 Konfidensintervall för µ då σ är okänd Om σ är okänd så använder vi skattningen ˆσ = s = s 2 och studerar T = X µ s/ n som tyvärr inte är normalfördelad om inte n är mycket stor. William Sealy Student Gosset studerade den här typen av problem när han jobbade som kemist på... Fördelningen för T kallas för (Students) t-fördelning.

12/16 Konfidensintervall för µ då σ är okänd Man kan visa att T är t-fördelad med parameter n 1: T = X µ s/ n t(n 1) 0.0 0.1 0.2 0.3 0.4 Fördelning: t(1) t(3) t(10) t( )=N(0,1) 0.025 kvantil: 12.706 3.182 2.228 1.96 4 2 0 2 4

13/16 Konfidensintervall för µ då σ är okänd På sidan 131 i kompendiet finns en tabell över t-fördelningens kvantiler. Vi kan därmed beräkna konfidensintervallet för µ då σ är okänd. Se beräkning på tavlan! Vi har sammanfattningsvis två olika konfidensintervall för parametern µ i normalfördelningen N(µ, σ 2 ): σ känd: ( x λ α/2 σ n, x + λ α/2 σ n ) σ okänd: ( x t α/2 s n, x + t α/2 s n ) De här intervallen kommer att innehålla det korrekta värdet på µ 100 (1 α) % av gångerna då de beräknas.

14/16 Konfidensintervall för µ utan normalfördelning? Exempel. Man har mätt brottsegheten för 25 datorchip. Brottsegheten tycks inte vara normalfördelad. Man vill veta om den genomsnittliga brottsegheten µ överstiger 12. Från mätningarna erhölls x = 15.2 och s 2 = 19.5.

Konfidensintervall genom approximation Låt X 1,..., X n vara oberoende och likafördelade slumpvariabler med väntevärde E[X ] = µ och varians V[X ] = σ 2. Medelvärdesversionen av centrala gränsvärdessatsen säger att då n är stort så är X N (µ, σ2 ). n För stora n så är t α λ α, så vi får att ur vilket det följer att ( P λ α/2 X µ ) s/ n λ α/2 1 α ( x λ α/2 s s, x + λ n α/2 ) n är ett konfidensintervall för µ med approximativ konfidensgrad 1 α. Se tavlan! 15/16

16/16 Sammanfattning Skattningar innehåller alltid osäkerhet! Vad är konfidensintervall? Konfidensgrad 1 α. Konfidensintervall för väntevärdet µ i N(µ, σ 2 : σ känd: ( x σ λα/2 n σ, x + λ α/2 n ) σ okänd: ( x tα/2 s n, x + t α/2 s n ) Konfidensintervall för väntevärdet µ för andra fördelningar: ( x λ α/2 s n, x + λ α/2 s n ) om n är stort.