Föreläsning 0 Thomas Önskog 8/ 07 Konfidensintervall På förra föreläsningen undersökte vi hur vi från ett stickprov x,, x n från en fördelning med okända parametrar kan uppskatta parametrarnas värden Detta kallas punktskattning Det är ofta av intresse att inte bara veta punktskattningen ph-värdet uppskattas till 57, utan också få ett mått på osäkerheten i skattningen sannolikheten att intervallet 54, 60 innehåller det sanna ph-värdet är 95% Denna typ av intervall kallas konfidensintervall Definition Låt x = x,, x n vara ett stickprov av X = X,, X n vars fördelning beror av en okänd parameter θ Intervallet I θ = a x, a x kallas för ett konfidensintervall för θ med konfidensgrad α om Pa X < θ < a X = α Notera att a och a är funktioner på samma sätt som θ på förra föreläsningen Gränserna a x och a x för ett konfidensintervall kan ses som utfall av stickprovsvariablerna a X och a X Om vi upprepar datainsamlingen och beräknar nya konfidensintervall för θ med konfidensgrad exempelvis 95%, så kommer 95% av konfidensintervallen att innehålla θ medan resterande intervall missar θ, se figuren nedan Vanligt förekommande val av konfidensgrad α är 95%, 99% och 999% För dessa val är risken att konfidensintervallet inte innehållet det sanna parametervärdet 5%, % respektive
0% Om både a x och a x är ändliga kallas konfidensintervallet tvåsidigt, men om antingen a x = eller a x = så kallas det ensidigt I följande exempel går vi igenom en femstegsmetod för att bestämma konfidensintervall Exempel Låt x,, x n vara ett stickprov från Nµ,, dvs x,, x n är observationer av de oberoende sv X,, X n som alla är Nµ, -fördelade Vi vill bestämma ett konfidensintervall för µ med konfidensgrad α och antar att är känd Bestäm en punktskattning för den parameter som vi vill bestämma ett konfidensintervall för En punktskattning för µ är µ obs = x = x n i ML-skattningen av µ Bestäm fördelningen den stickprovsvariabel som hör till punktskattningen Vi vet att µ = X Nµ, / n, så Eµ = µ och Dµ = / n 3 Transformera stickprovsvariabeln till en pivotvariabel vars fördelning bara beror på kända parametrar Den normalfördelade stickprovsvariabeln µ kan transformeras till en standardiserat normalfördelad sv enligt T µ = µ Eµ Dµ = X µ / n N0, 4 Stäng in pivotvariabeln mellan kvantiler med rätt konfidensgrad Med hjälp av kvantiler för den standardiserade normalfördelningen fås P λ α/ < X µ / n < λ α/ = α 5 Omforma kvantilolikheten till ett konfidensintervall Vi noterar att och att så α = P λ α/ < X µ / n µ < X + λ α/ n, X µ / n < λ α/ X λ α/ n < µ, λ α/ < X µ / n < λ α/ = P I µ = a x, a x = X λ α/ n a X < µ < X + λ α/ n a X x λ α/ n, x + λ α/ n
Konfidensintervallets längd λ α/ / n ökar om spridningen i datat är stor stort, men minskar om antalet observationer n är stort Notera också att längden ökar med konfidensgraden För α = 95%, så är λ α/ = 96, men för α = 999%, så är λ α/ = 39 Exempel Låt återigen x,, x n vara ett stickprov från Nµ, Vi vill bestämma ett konfidensintervall för µ, men nu under antagandet att är okänd Vi kan välja samma punktskattning som förut µ obs = x, men eftersom standardavvikelsen av skattningen, Dµ = / n är okänd, så kan vi inte använda x λ α/ / n, x + λ α/ / n som konfidensintervall i detta fall intervallets gränser är okända Vi väljer att byta ut Dµ mot en punktskattning av Dµ En sådan punktskattning kallas medelfelet av µ och betecknas dµ Som medelfelet väljer vi dµ = s n, där s = Motsvarande stickprovsvariabel är S = n n x i x X i X Pivotvariabeln blir T µ = µ Eµ dµ = X µ S/ n, som kan visas vara t-fördelad med n frihetsgrader Detta betecknas T µ tn Bilden nedan visar täthetsfunktionen för t-fördelningen för några val av antal frihetsgrader Notera att täthetsfunktionen konvergerar mot ϕ då n detta är konsistent med att S, då n α-kvantilen för tn -fördelningen betecknas t α n I analogi med föregående exempel fås α = P t α/ n < X µ S/ n < t α/n = P X t α/ n S n a X 3 < µ < X + t α/ n S n a X
I µ = a x, a x = x t α/ n s, x + t α/ n s n n Notera att för konfidensgrad α = 95% och exempelvis n = 0, så är t α/ n = 6, medan λ α/ = 96, så konfidensintervallet blir längre i fallet då är okänd Vi ska nu konstruera konfidensintervall för vi antar att även µ är okänt och behöver då ytterligare en ny fördelning Sats Om Z,, Z n är oberoende standardiserat normalfördelade sv, så är X = n Z i χ -fördelad med n frihetsgrader Detta betecknas X χ n Bilden nedan visar täthetsfunktionen för χ -fördelningen för några val av antal frihetsgrader α-kvantilen för χ n-fördelningen betecknas χ αn Notera att χ -fördelningen är definierad på 0,, så det gäller att χ α/ n χ α/ n jfr sambanden λ α/ = λ α/ och t α/ n = t α/ n 4
Sats Låt X,, X n vara oberoende Nµ, -fördelade sv Då är X i X = n S χ n Exempel Låt återigen x,, x n vara ett stickprov från Nµ, Vi vill bestämma ett konfidensintervall för Från satsen ovan följer att T = n S χ n, kan användas som pivotvariabel Med kvantilerna för χ n -fördelningen fås α = P χ α/n < n S < χ α/n Vi noterar att och att så α = P χ α/n < n S < n S < χ α/n χ α/n < n I = a x, a x = Ett konfidensintervall för fås av I = n S n, χ α/ n S χ α/ n <, n S S < χ α/n = P s χ α/ n a X < < n s χ α/ n, n s χ α/ n n n χ n, s χ α/ α/ n n S χ α/ n a X Följande samband gäller mellan t- och χ -fördelningarna Om X N0, och Y χ f är oberoende, så gäller det att X Y/f tf För normalfördelningen gäller det att X och S är oberoende och därmed följer X µ S/ n = X µ / S / n = X µ / n N0, / n S / n = Y n, där Y χ n tn Det var detta resultat som vi utnyttjade när vi konstruerade pivotvariabeln för µ i fallet med okänt 5