unktskattning räcker ofta inte Sannolikhet och statistik Intervallskattning HT 2008 Uwe.Menzel@math.uu.se http://www.math.uu.se/ uwe/ Figur: Mätresultat me stor varians Stickprovsvariabeln har en förelning / sprinning Repetition från kapitel 6 Hur stor är osäkerheten i var skattning? I µ1 µ 2 = 0.22 ± 0.01?? I µ1 µ 2 = 0.19 ± 0.03?? I µ1 µ 2 = 0.20 ± 0.45?? Kvantiler för N0, 1 Stanariserae slumpvariabel för normalförelning Sannolikhetsmassan inom kvantilgränser Förelning för meelväret och ierensen av meelvären Figur: unktskattningen styrs av slumpen
Kvantiler för en stanariserae normalförelningen Allmän och stanarisera normalförelning För gotyckliga a, b me a < b gäller: b µ a µ a < X b = F X b F X a = Φ Φ σ σ Sätt a = µ λ α/2 σ och b = µ + λ α/2 σ : Figur: Kvantiler för N 0, 1: Φλ α X Nµ, σ : µ λα/2 σ < X µ + λ α/2 σ α 0.0005 0.001 0.005 0.01 0.025 0.05 0.10 λ α 3.29 3.09 2.58 2.33 1.96 1.64 1.28 Y N0, 1 : λα/2 < Y λ α/2 Sannolikhet inom kvantilgränser Sannolikhet inom kvantilgränser Y N0, 1 : λα/2 < Y λ α/2 1.96 < Y 1.96 = 0.95 α = 0.05 2.58 < Y 2.58 = 0.99 α = 0.001 3.29 < Y 3.29 = 0.999 α = 0.0001 Figur: Sannolikhetsmassan i intervallet λ α/2, +λ α/2 för N0, 1 α 0.0005 0.001 0.005 0.01 0.025 0.05 0.10 λ α 3.29 3.09 2.58 2.33 1.96 1.64 1.28
Intervallskattning / Konensintervall Skattning utan konensintervall: Bensinförbrukningen av en bil är 0.65 l/mil. Nackel: stämmer inte! Skattning me konensintervall: Bensinförbrukningen av en bil är 0.65 ± 0.05 l/mil. Ännu bättre: Sannolikheten är 95% att en bil av enna typ förbrukar 0.65 ± 0.05 l/mil. Förelar: 1 innehåller info om spriningen 2 är ärlig Konensintervall Storheten som ska skattas stängs in mellan unre och övre konensgräns, t.ex. θ = x 0.05, x + 0.05. Intervallgränserna kan bara konstrueras ur stickprovet - e är slumpvariabler. Me varje nytt stickprov får man ett annat konensintervall KI. Det är ock möjligt att ange me vilken sannolikhet gränserna omfattar et sanna väret, t.ex. =0.95 95% KI 95% KI betyer: om vi tar 100 stickprov och beräknar konensintervallet 100 gånger, så omfattar 95 av essa intervaller et sanna väret. Exempel: Normalförelning, kän σ En maskin förpackar margarin i askar. Maskinen arbetar förstås inte exakt: nettovikten är förela me X Nµ, 2.5. Genom att ta ett stickprov n=25 vill vi kolla hur stor meelväret av nettovikten är ska vara 250 gram. Skattning för µ: X N x = 1/25 25 x i = 250.5 µ, 2.5 25 = X µ 0.5 N0, 1 95% av alla observationer av en N0, 1-variabel hamnar i intervallet 1.96, +1.96: 1.96 < x µ 0.5 < +1.96 = 95% Exempel: Normalförelning, kän σ 95% av alla observationer av en N0, 1-variabel hamnar i intervallet 1.96, +1.96: 1.96 < x µ 0.5 < +1.96 = 95% Omformning av uttrycket i parantesen ger: x 1.96 0.5 < µ < x + 1.96 0.5 = 95% Sannolikheten är 95% att intervallet x ± 1.96 0.5 omfattar et sanna väret µ. Eller: tar jag 100 stickprov me n = 25 och beräknar KI:er, så innehåller 95 av essa et sanna meelväret µ. Konensintervall: I µ 250.5 ± 1 = 249.5, 251.5
95% konensintervall för en skattning Det viktigaste: att hitta en referensvariabel X N µ, σ/ n = X µ σ/ n N0, 1 σ kän Uttrycket X µ σ/ n använs som referensvariabel när σ kän. Referensvariabeln måste vara kän så nära som på en parameter vi vill skatta µ Referensvariabelns förelning måste vara fullstänigt kän inga parametrar, här N0, 1 Referensvariabeln stängs sean in inom enna förelningens kvantiler se nere Figur: Sannolikheten är 95% att vara konstruerae gränser omfattar et sanna väret θ, eller: i 95 av 100 stickprov har vi fånga et rätta väret Skatta vänteväret för Nµ, σ me KI är σ är kän X N µ, D me D = σ/ n = X µ N0, 1 För en observation av referensvariabeln, som är N0, 1, gäller: λ α/2 < x µ < λ α/2 D Omformning av uttrycket inom parantesen ger: D Omformning av uttrycket inom parantesen 1 α = = = λ α/2 < x µ λ α/2 D λα/2 D < x µ λ α/2 D λα/2 D µ x > λ α/2 D D 1 + x x λα/2 D < µ < x + λ α/2 D Det sanna vänteväret omfattas alltså me slh. 1 α av: I µ = x λ α/2 D, x + λ α/2 D D = σ/ n Konensintervall för µ me konensgraen 1 α = = x + λα/2 D µ > x λ α/2 D x λα/2 D < µ x + λ α/2 D vän om
Skatta vänteväret för Nµ, σ me KI är σ okän Om σ är kän gäller D = σ/ n Är σ okän ersätts D me meelfelet: = s/ n Meelfelet är ock en komplicera funktion av slumpvariabler: = 1 s = 1 1 n 2 X i X n n n 1 Uttrycket X µ/ är ärför inte normalförela: Skatta vänteväret för Nµ, σ me KI är σ okän Uttrycket X µ/ kan änå använas som referensvariabel: X µ tf me f = n 1 frihetsgraer Även för t-förelningen nns kvantiler tabellerae: t α/2 f < X µ < t α/2 f X tα/2 f < µ < X + tα/2 f X µ / N Det sanna vänteväret omfattas alltså me slh. 1 α av: I µ = x t α/2 f, x + t α/2 f = s/ n ; f = n 1 Skatta vänteväret för Nµ, σ me KI är σ okän Sammanfattning för skattning av µ för Nµ, σ Slumpmässigt stickprov x 1,... x n från Nµ, σ är µ är okänt. Skattningar för µ me konensgraen 1 α är: σ Konensintervall Förkortningar kän I µ = x ± λ α/2 D D = σ/ n okän I µ = x ± t α/2 n 1 = s/ n
Exempel för skattning av µ för Nµ, σ Jämförelse av normal- och t-förelning Vi vet eller har skäl att tro att X är normalförela. x = 15.7, 14.3, 12.65, 13.2, 16.85, 16.05, 16.55, 16.05, 16.6, 17.05 Sökes: 95% konensintervall för µ Om et är känt att σ = 1.56 : D = σ/ n 0.5 λ α/2 = λ 0.025 = 1.96 I µ = x ± λ α/2 D = 15.5 ± 1.96 0.5 15.5 ± 1 = 14.5, 16.5 Om σ är okän: s = 1.56 = s/ n 0.5 t α/2 f = t 0.025 9 = 2.26 I µ = x ±t α/2 n 1 15.5±2.26 0.5 15.5±1.1 = 14.4, 16.6 Skatta σ för Nµ, σ me KI är µ är okän Tabell för χ 2 -förelningen Referensvariabel: 1 σ 2 n X i X 2 χ 2 n 1 Även för χ 2 -förelningen nns kvantiler tabellerae f = n 1: 1 χ 2 α/2 f n χ 2 1 α/2 f < 1 σ 2 X i X 2 < σ 2 < n 2 X i X < χ 2 α/2 f 1 χ 2 1 α/2 f n 2 X i X OBS!: χ 2 -förelningen är inte symmetrisk.
Sammanfattning för skattning av σ för Nµ, σ Sickprov x 1,... x n från Nµ, σ är µ och σ är okäna. Skattningar för σ me konensgraen 1 α är: Exempel för skattning av σ för Nµ, σ Vi vet att X är normalförela, men µ och σ är okäna x = 15.7, 14.3, 12.65, 13.2, 16.85, 16.05, 16.55, 16.05, 16.6, 17.05 Sökes: 95% konensintervall för σ Skattn. Konensintervall Förkortningar s = 1.56 f = 9 σ 2 I σ 2 = Q/χ 2 α/2 f, Q/χ21 α/2 f Q = n 2 X i X χ 2 α/2 f = χ2 0.025 9 = 19 χ 2 1 α/2 f = χ2 0.975 9 = 2.7 f σ I σ = χ 2 α/2 f s, f χ 2 1 α/2 f s s = Q n 1 I σ = f χ 2 α/2 f s, f χ 2 1 α/2 f s 9 = 19 1.56, 9 2.7 1.56 = 1.07, 2.85 f = n 1 χ 2 -förelning för olika frihetsgraer Konensintervall för ierens mellan väntevären av två normalförelae storheter x 1, x 2,... x nx från Nµ X, σ X y 1, y 2,... y ny från Nµ Y, σ Y Figur: Mätresultat me stor varians
Konensintervall för µ; σ x och σ y käna Skattning för µ: µ obs = x ȳ ; µ = X Ȳ X Ȳ N µ X µ Y, D me D = Referensvariabel: σ 2 X /n X + σ 2 Y /n Y X Ȳ µ X µ Y N0, 1 λ α/2 < X Ȳ µ X µ Y < λ α/2 D D Konensintervall för µ; σ = σ X = σ Y okän Om σ är kän gäller: D = σ 1/n X + 1/n Y Är σ okän ersätts D me meelfelet: = s xy 1/nX + 1/n Y Stickprovs-stanaravv. för två stickprov som antas ha samma σ: s xy = nx 2 X i X + n Y 2 Y i Ȳ n X 1 + n Y 1 Q x + Q y = n X 1 + n Y 1 x ȳ λα/2 D < µ X µ Y < x ȳ + λ α/2 D Uttrycket X Ȳ µ X µ Y är ärför inte normalförela: Den sanna ierensen omfattas alltså me slh. 1 α av: I µx µ Y = x ȳ λ α/2 D; x ȳ + λ α/2 D D = σ 2 X /n X + σ 2 Y /n Y X Ȳ µ X µ Y / N Konensintervall för µ; σ = σ X = σ Y okän Man kan visa att X Ȳ µ X µ Y är t-förela: X Ȳ µ X µ Y tf me f = n X 1 + n Y 1 Stäng in referensvariabeln mellan t-förelningens kvantiler: t α/2 f < X Ȳ µ X µ Y < t α/2 f x ȳ tα/2 f < µ X µ Y < x ȳ + t α/2 f Den sanna ierensen omfattas alltså me slh. 1 α av: I µx µ Y = x ȳ ± t α/2 f = s xy 1/n X + 1/n Y Sammanfattning: Normalförelning, KI för µ Två normalförelae stickprov är µ är okänt. Skattningar för µ me konensgraen 1 α är: σ X, σ Y Konensintervall Förkortningar båa käna I µ = x ȳ ± λ α/2 D D = σ 2 X /n X + σ 2 Y /n Y båa lika, I µ = x ȳ ± t α/2 f = s 1/nX + 1/n Y ock okäna Q X = n X 2 X i X ; f = nx 1 + n Y 1 s = Q X + Q Y /f
Moell för parae observationer arae observationer Exempel: Blotryck före och efter använning av en preparat. Exempel: Blotryck hos 10 personer före och efter använning av en preparat. erson 1 2 3 4 5 6 7 8 9 10 Blotryck före 75 70 75 65 95 70 65 70 65 90 Blotryck efter 85 70 80 80 100 90 80 75 90 100 ar 1 2 3 4 X Nµ 1 +, σ 1 Nµ 2 +, σ 1 Nµ 3 +, σ 1... Y Nµ 1, σ 2 Nµ 2, σ 2 Nµ 3, σ 2... Z = X Y N, σ z N, σ z N, σ z... Z = X Y N, σ z me σ z = σ 2 1 + σ2 2 Mest intressant är t.ex skillna mellan blotrycken före/efter Alla Z kommer från samma normalförelning och et kan utnyttjas för att skatta! KI för µ är X och Y är parae observationer Z = X Y N, σ z Z N, σz / n Vi har en observation z 1, z 2,... z n alla ierenser z i = x i y i Stanarsituation: KI för vänteväret för N är σ okän. Referensvariabel: Z tf me f = n 1 frihetsgraer t α/2 f < Z < t α/2 f Z tα/2 f < < Z + tα/2 f Den sökte parametern omfattas alltså me slh. 1 α av: I = z t α/2 f, z + t α/2 f = s z / n ; f = n 1 Exempel för KI för µ för parae observationer Två personer utföre mätningar av 11 olika objekt: 1 2 3 4 5 6 7 8 9 10 11 B 21.6 22.9 20 23.6 15.7 17.5 27.3 19.8 16.4 14.7 20.1 A 20.2 22 19.7 21.4 16.3 17 24.5 15.6 16 13.2 19 z 1.4 0.9 0.3 2.2-0.6 0.5 2.8 4.2 0.4 1.5 1.1 Mätningarna antas vara observationer från Nµ j, σ 1 resp. Nµ j +, σ 2 är är en systematiska ierensen mellan båa. z = 1.34 f = n 1 = 10 t α/2 f = t 0.025 10 = 2.23 s = 1 n n 1 z i z 2 = 1.33 = s/ 11 = 0.401 I = z ± t α/2 f = 1.34±2.23 0.401 = 1.34±0.89 = 0.45, 2.23
Normalapproximationen för intervallskattning Normalapproximationen för intervallskattning roblem: Stickprovsvariabel inte normalförela Är stickprovet stor gäller approximationen: θ N Låt θ vara en punktskattning för θ, me E θ = θ och stanaravvikelsen D. Låt θ vara ungefär normalförela stort stickprov. Konensintervaller för θ me konensgraen 1 α är: Exempel: X AsNµ, σ n även om komponenterna X i normalförelae Centrala gränsväressatsen inte är D Allmän θ θ = X Referensvariabel: θ θ Dθ N0, 1 D kän I θ = θ obs ± λ α/2 D I µ = x ± λ α/2 D me D = σ/ n Approximationen är esto bättre ju större stickprovet är. D = Dθ I θ = θ obs ± λ α/2 I µ = x ± λ α/2 me = s/ n s 2 = 1/n 1 x i x 2 Normalapproximation, KI för µ Två stora stickprov, µ 1, µ 2 resp. σ 1, σ 2. Skattningar för µ me konensgraen 1 α är: σ 1, σ 2 Konensintervall Förkortningar båa käna I µ = x ȳ ± λ α/2 D D = båa okäna I µ = x ȳ ± λ α/2 = s 2 = 1/n 1 x i x 2 σ 2 1 /n 1 + σ 2 2 /n 2 s 2 1 n 1 + s2 2 n 2 Exempel för normalapproximation, KI för µ Test av två beövningsmeel A och B, beövningstien minuter: A = 195, 240, 154, 95, 65, 82, 132, 155, 125, 119, 155, 345, 145, 200, 130, 223, 145, 207, 183, 190, 137, 210 B = 88, 73, 165, 188, 145, 158, 195, 165, 140, 145, 203, 196, 230, 225, 128, 190, 170, 158, 72, 135, 105, 155, 165, 120 138, 125, 188, 145, 208, 75 99% konensintervall för skillnaen mellan meelvären? x A = 165.09 s A = 60.96 x B = 153.1 s B = 43.08 x A x B = 11.99 = s 2 A n A + s 2 B 60.96 n B = 2 + 43.082 = 15.19 meelfelet 22 30 1 α = 0.99 α = 0.01 λ α/2 = λ 0.005 = 2.58 I µ = x A x B ± λ α/2 = 11.99 ± 2.58 15.19 = 27, 51
Normalapproximation för binomialförelningen Stickprov: p obs = x/n = p = X /n Normalapproximation för binomialförelningen p AsNp, me = p obs 1 p obs /n X Binn, p X AsNn p, n p 1 p n stor p = X /n AsNp, p 1 p/n p AsNp, D me D = p 1 p/n D = p1 p/n = p 1 obs p obs /n Stickprovsvariablen p är alltså asymptotiskt normalförela och vi kan anväa va vi har hittat förut. Ett konensintervall för p me konensgraen 1 α är: I p = p obs λ α/2, p obs + λ α/2 Exempel för normalapproximationen för Binn,p Opinionsuners.: n = 250, x = 42 obs p obs = x/n = 42/250 = 0.168 = p obs 1 p obs /n = 0.168 0.832/250 = 0.023 Normalapproximationen för Binn,p: beräkning av n Önskemål: 95% KI för p som ska inte vara breare än 0.1 Hur stor måste n vara KI:et blir ju smalare me större stickprov I p = p ± λ obs α/2 = w = 2 λ α/2 with 95% konensintervall för p: λ α/2 = λ 0.025 = 1.96 I p = p obs λ α/2, p obs + λ α/2 w = 2 λ α/2 = 2 λ α/2 0.1 n 2 λ α/2 p 1 obs p obs p obs 1 p obs n 0.1 = 0.168 ± 1.96 0.023 = 0.168 ± 0.046 = 0.12, 0.21 n 1 0.1 2 22 λ 2 0.025 1 4 385 Me mer information om p kan p 1 obs p 1/4 förbättras. obs
KI för ierens av två väntevären för Bin p 1 AsN p 1, p 1 1 p 1 /n 1 och p 2 AsN p 2, p 2 1 p 2 /n 2 Exempel: Två opinionsunersökn. vi olika tier, n 1, n 2 stora Unersökning 1 Unersökning 2 p 1,obs = x 1/n 1 p 2,obs = x 2/n 2 X 1 Bin n 1, p 1 X 2 Bin n 2, p 2 X 1 AsN n 1 p 1, p 1 1 p 1 n 1 p 1 AsN p 1, p 1 1 p 1 /n 1 X 2 AsN n 2 p 2, p 2 1 p 2 n 2 p 2 AsN p 2, p 2 1 p 2 /n 2 Skatta ierensen me p 1,obs p 2,obs : p 1 p 2 AsN p 1 p 2, D me D = Referensvariabel: p 1 p 2 p 1 p 2 N0, 1 D p 1 1 p 1 n 1 + p 21 p 2 n 2 n 2 D λ α/2 < p 1 p 2 p 1 p 2 < +λ α/2 p p λ 1,obs 2,obs α/2 < p 1 p 2 < p p + λ 1,obs 2,obs α/2 I p1 p 2 = p 1,obs p 2,obs ± λ α/2 = D p, 1,obs p 2,obs Sammanfattning Begrepp konensintervall Referensvariabel KI för vänteväret av Nµ, σ, σ kän eller okän KI för µ av två normalförelae s.v., σ kän eller okän arae observationer: KI för Normalapproximation för intervallskattning... för binomialförelning Appenix
Ensiiga intervaller för normalförelning För gotyckliga a, b me a < b gäller: b µ a µ a < X b = F X b F X a = Φ Φ σ σ Sätt a = och b = µ + λ α σ och använ Φ = 0 Symmetri för ensiiga intervaller Unre gräns: X µ + λ α σ X µ + λ α σ = Φ λ α Sätt a = µ λ α σ och b = + och använ Φ+ = 1 Övre gräns: X µ λ α σ X > µ λ α σ = Φ λ α Beakta när olikheter omformas!