SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Relevanta dokument
SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Thomas Önskog 28/

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901 Sannolikhetsteori och statistik I

SF1901: Medelfel, felfortplantning

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

9. Konfidensintervall vid normalfördelning

Föreläsning 11, FMSF45 Konfidensintervall

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11, Matematisk statistik Π + E

F9 Konfidensintervall

TMS136. Föreläsning 10

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

10. Konfidensintervall vid två oberoende stickprov

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

FÖRELÄSNING 7:

Avd. Matematisk statistik

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

SF1901: Sannolikhetslära och statistik

Stickprovsvariabeln har en fördelning / sprindning

Föreläsning 12, FMSF45 Hypotesprövning

Formel- och tabellsamling i matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

F10 Problemlösning och mer om konfidensintervall

Föreläsning 4: Konfidensintervall (forts.)

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Mer om konfidensintervall + repetition

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 12: Regression

Avd. Matematisk statistik

Lufttorkat trä Ugnstorkat trä

FÖRELÄSNING 8:

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Grundläggande matematisk statistik

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Föreläsningsanteckningar till kapitel 8, del 2

SF1901: Sannolikhetslära och statistik

f(x) = 2 x2, 1 < x < 2.

SF1901: Sannolikhetslära och statistik

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

TMS136. Föreläsning 11

Uppgift 1. f(x) = 2x om 0 x 1

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematisk statistik för D, I, Π och Fysiker

TMS136. Föreläsning 13

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

SF1901: Sannolikhetslära och statistik

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Repetitionsföreläsning

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Grundläggande matematisk statistik

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 12: Linjär regression

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen i Matematisk Statistik, 7.5 hp

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TAMS65 - Föreläsning 6 Hypotesprövning

Avd. Matematisk statistik

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 7. Statistikens grunder.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Tenta i Statistisk analys, 15 december 2004

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 5: Hypotesprövningar

Föreläsning 7: Punktskattningar

F3 Introduktion Stickprov

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

TMS136. Föreläsning 4

Transkript:

SF1901: Sannolikhetslära och statistik Föreläsning 10. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 18.02.2016 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 1 / 50

Idén med konfidensintervall Det föreligger som vanligt ett slumpmässigt stickprov x 1,...,x n från en fördelning som beror av den okända parametern θ (eventuellt flera stickprov från fördelningar som beror av θ). En vag definition som strax skall preciseras: Ett intervall I θ som med sannolikheten 1 α täcker över θ kallas ett konfidensintervall för θ med konfidensgraden 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 2 / 50

KONFIDENSINTERVALL Definition Låt x 1,x 2,...,x n vara utfall av X 1,X 2,...,X n vars fördelning beror av en okänd parameter θ. Intervallet I θ = (a 1 (x 1,...,x n ),a 2 (x 1,...,x n )) kallas ett konfidensintervall för θ med konfidensgrad 1 α om P(a 1 (X 1,...,X n ) < θ < a 2 (X 1,...,X n )) = 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 3 / 50

Innehåll Konfidensintervall, definition, konfidensgrad konfidensintervall för θ i N(θ, σ) med känt σ. konfidensintervall för θ i N(θ, σ) med okänt σ. konfidensintervall för σ 2 i N(θ, σ) Nya sannolikhetsfördelningar dyker upp vid konfidensintervall t-fördelning χ 2 (n)-fördelning Konfidensintervall med approximativ konfidensgrad konfidensintervall för p i Bin(p) konfidensintervall för θ i Po(θ) Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 4 / 50

Exempel: Mätningar med fel mätvärde = θ+ slumpmässigt normalfördelat mätfel X i = θ+ σz i, Z i N(0,1), i = 1,2,...,n x 1,...,x n, observerade utfall av X 1 N(θ, σ),... X n N(θ, σ), respektive. Vi vill ha en uppfattning om precisionen i skattningen. Visserligen vet vi att E(X) = θ och D(X) = σ n, men vi vill ha en mera informativ och lättbegriplig beskrivning konfidensintervall. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 5 / 50

Repetition: Kvantiler α-kvantilen för Z N(0,1) λ α definieras av P(Z > λ α ) = α eller α = 1 Φ(λ α ). Symmetri ger vilket ger (Slut på repetition.) α = Φ(λ 1 α ) α = 1 Φ( λ 1 α ), λ 1 α = λ α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 6 / 50

N(θ, σ), konfidensintervall för θ fall a) σ känt Vi antar att X 1,X 2,...,X n är oberoende och N(θ, σ)-fördelade. Detta innebär att X θ σ/ är N(0,1)-fördelad. n Således gäller att ( P λ α/2 < X θ ) σ/ n < λ α/2 = 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 7 / 50

Kvantiler area=α λ α Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 8 / 50

Kursens formelsamling: kvantiler Tabell 2 i kursens formelsamling ger λ 0.05 = 1.6449. Normalfördelningens kvantiler P(X > λ α ) = α där X N(0,1) α λ α α λ α 0.10 1.2816 0.001 3.0902 0.05 1.6449 0.0005 3.2905 0.025 1.9600 0.0001 3.7190 0.010 2.3263 0.00005 3.8906 0.005 2.5758 0.00001 4.2649 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 9 / 50

Kursens formelsamling: kvantiler för N(0, 1) area= α/2 area= α/2 λ α/2 λ α/2 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 10 / 50

N(θ, σ), konfidensintervall för θ a) σ känt Detta ger ( P λ α/2 < X θ ) σ/ n < λ α/2 = 1 α. P ( λ α/2 σ/ n < X θ < λ α/2 σ/ n ) = 1 α Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 11 / 50

N(θ, σ), konfidensintervall för θ fall a) σ känt P ( λ α/2 σ/ n < θ X< λ α/2 σ/ n ) = 1 α P ( X λ α/2 σ/ n < θ < X+ λ α/2 σ/ n ) = 1 α. Jmf. vi definitionen av konfidensintervall så inser vi att I θ = x ± λ α/2 σ/ n har konfidensgrad 1 α. En vanlig konfidensgrad är 95%. Då är λ 0.025 = 1.96. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 12 / 50

N(θ, σ), konfidensintervall för θ. Fall a) σ känt I θ = x ± λ α/2 σ/ n Intervallängden beror som synes av σ. Ju större precision mätningen har, desto mindre är σ och desto kortare blir intervallet. Längden är också beroende av den önskade konfidensgraden. Med 95 % konfidensgrad blir konstanten λ α/2 = 1.96, 99 % konfidensgrad ger λ α/2 = 2.58, och intervallet är ca 30 % längre. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 13 / 50

N(θ, σ), konfidensintervall för θ a) σ känt Låt oss gång på gång upprepa insamlingen av data och varje gång bestämma ett tvåsidigt 95 % intervall. I det långa loppet skulle 95% av dem täcka över det okända värdet θ, medan återstoden skulle missa det. Mätning nr θ 1 2 3 4 5... Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 14 / 50

N(θ, σ), konfidensintervall för θ. Fall b) σ okänt Vi utgår nu från där S 2 = 1 n 1 Man kan bestämma fördelningen för X θ S/ n, n i=1 (X i X) 2. X θ S/ n. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 15 / 50

N(θ, σ), konfidensintervall för θ. Fall b) σ okänt Det gäller att X θ S/ n är t-fördelad med n 1 frihetsgrader, eller att den är t(n 1)-fördelad. Vi återkommer till t-fördelningens matematik senare i denna föreläsning. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 16 / 50

Tätheten för t(n) t(n)-fördelningen kallas även Students t-fördelning. n = 1,2,3,... f X (x) = Γ((n+1)/2) ( πnγ(n/2) ) (n+1)/2 1+ x2 Vi kommer att använda t-fördelningens kvantiler men inte alls med denna formel. Γ(x) finns definierad på sid. 64 av G. Blom m.fl.. n Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 17 / 50

Kursens formelsamling: kvantiler för t(n) Fördelning är symmetrisk, och för stora värden på n, lik N(0, 1)-fördelningen. I bilden ser vi t(4) (funktionsgraf i blått) och N(0, 1) (funktionsgraf i grönt). Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 18 / 50

Kursens formelsamling: kvantiler för t(n) area=α t α (f) Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 19 / 50

Kursens formelsamling: kvantiler för t(n) t-fördelningen P(X > t α (f)) = α, där X t(f). f α 0.10 0.05 0.025 0.01 0.005 0.001 0.0005 1 3.08 6.31 12.71 31.82 63.66 318.31 636.62 2 1.89 2.92 4.30 6.96 9.92 22.33 31.60 3 1.64 2.35 3.18 4.54 5.84 10.21 12.92 4 1.53 2.13 2.78 3.75 4.60 7.17 8.61 5 1.48 2.02 2.57 3.36 4.03 5.89 6.87 6 1.44 1.94 2.45 3.14 3.71 5.21 5.96 7 1.41 1.89 2.36 3.00 3.50 4.79 5.41 8 1.40 1.86 2.31 2.90 3.36 4.50 5.04 9 1.38 1.83 2.26 2.82 3.25 4.30 4.78. 1.28 1.64 1.96 2.33 2.58 3.09 3.29 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 20 / 50

N(θ, σ), konfidensintervall för θ b) σ okänt På samma sätt som i a) fås nu att I θ = x ±t α/2 (n 1)s/ n är ett konfidensintervall för θ med konfidensgrad 1 α. I fallet med n = 10 gäller t 0.025 (9) = 2.26, vilket kan jämföras med λ 0.025 = 1.96. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 21 / 50

Sammanfattning Sats Låt x 1,...,x n vara ett slumpmässigt stickprov från N(θ, σ) där θ är okänt. Då är I θ = ( x λ α/2 D, x + λ α/2 D) om σ är känt (D = σ/ n) samt I θ = ( x t α/2 (f)d, x +t α/2 (f)d ) om σ är okänt (d = s/ n, f = n 1) ett tvåsidigt konfidensintervall för θ med konfidensgraden 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 22 / 50

Pausbild The derivation of the t-distribution was first published in 1908 by William Sealy Gosset, while he worked at a Guinness Brewery in Dublin. He was prohibited from publishing under his own name, so the paper was written under the pseudonym Student. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 23 / 50

χ 2 (n)-fördelning Vi ska börja med ett par sannolikhetsteoretiska resultat. Sats Om Z 1,...,Z n är oberoende och N(0,1)-fördelade, så är n Zi 2 i=1 χ 2 (n)-fördelad (uttal: tji-två eller ki-två) med n frihetsgrader. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 24 / 50

χ 2 (n)-fördelning: täthet Definition Om den s.v. X har täthetsfunktionen x f 2 1 e x/2 f X (x) = Γ(f /2)2 f /2 om x > 0 0 om x 0, säges X vara χ 2 -fördelad med f frihetsgrader. Vi använder kvantilerna för χ 2 (n)-fördelning men inte alls formeln för tätheten. Γ(f /2) finns definierad på sid. 64 av G. Blom.fl.. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 25 / 50

χ 2 (n)-fördelning X χ 2 (n). P ( X χ 2 α/2 (n)) = α 2 P ( X χ 2 1 α/2 (n)) = 1 α 2 Vi är nu i en lite besvärligare situation än för µ, eftersom χ 2 -fördelningen inte är symmetrisk. I normal- respektive t-fallet utnyttjade vi att symmetrin medförde att λ 1 α = λ α resp. t 1 α (n 1) = t α (n 1). Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 26 / 50

Kursens formelsamling: kvantiler för χ 2 (n)-fördelning χ 2 -fördelningen P(X > χ 2 α(f)) = α, där X χ 2 (f). f α 0.9995 0.999 0.995 0.99 0.975 0.95 0.05 0.025 0.01 1 0.00 0.00 0.00 0.00 0.00 0.00 3.84 5.02 6.63 2 0.00 0.00 0.01 0.02 0.05 0.10 5.99 7.38 9.21 3 0.02 0.02 0.07 0.11 0.22 0.35 7.81 9.35 11.3 4 0.06 0.09 0.21 0.30 0.48 0.71 9.49 11.1 13.3 5 0.16 0.21 0.41 0.55 0.83 1.15 11.1 12.8 15.1 6 0.30 0.38 0.68 0.87 1.24 1.64 12.6 14.4 16.8 7 0.48 0.60 0.99 1.24 1.69 2.17 14.1 16.0 18.5 8 0.71 0.86 1.34 1.65 2.18 2.73 15.5 17.5 20.1 9 0.97 1.15 1.73 2.09 2.70 3.33 16.9 19.0 21.7 10 1.26 1.48 2.16 2.56 3.25 3.94 18.3 20.5 23.2 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 27 / 50

χ 2 (n)-fördelning χ 2 α(f) area=α Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 28 / 50

χ 2 (n)-fördelning Sats Om X 1,X 2,...,X n är oberoende och N(θ, σ)-fördelade så är χ 2 (n 1)-fördelad. 1 σ 2 n i=1 (X i X) 2 = (n 1)S2 Detta är den riktiga motiveringen till att man i s 2 dividerar med n 1. σ 2 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 29 / 50

konfidensintervall för σ 2 i N(θ, σ) Vi kommer att använda (n 1)S2 för konfidensintervall lite på samma sätt σ 2 som vi använde oss av X för konfidensintervall för θ. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 30 / 50

Konfidensintervall för σ 2 Låt nu χ 2 α(n 1) vara α-kvantilen i χ 2 (n 1)-fördelningen. Då gäller 21 α/2 (n 1)S2 P (χ (n 1) < σ 2 P ( χ 2 1 α/2 (n 1) n 1 ) < χ 2 α/2 (n 1) = 1 α < S2 σ 2 < χ2 α/2 (n 1) ) n 1 = 1 α Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 31 / 50

Konfidensintervall för σ 2 P P ( χ 2 α/2 n 1 σ2 < (n 1) S 2 < ) n 1 χ 2 1 α/2 (n 1) = 1 α ( ) (n 1)S 2 χ 2 α/2 (n 1) < σ2 < (n 1)S2 χ 2 1 α/2 (n 1) = 1 α Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 32 / 50

Ett stickprov, konfidensintervall för σ 2 P ( (n 1)S 2 (n 1)S 2 ) χ 2 α/2 (n 1) < σ < χ 2 1 α/2 (n 1) = 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 33 / 50

Ett stickprov, konfidensintervall för σ 2 Detta ger att resp. I σ 2 = I σ = ( ) (n 1)s 2 (n 1)s 2 χ 2 α/2 (n 1), χ 2 1 α/2 (n 1) ( (n 1)s 2 χ 2 α/2 (n 1), (n 1)s 2 χ 2 1 α/2 (n 1) ) är konfidensintervall för σ 2 resp. σ med konfidensgrad 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 34 / 50

t-fördelningen Vi återgår nu lite till t-fördelningen. Sats Om X är N(0,1)-fördelad, Y är χ 2 (f)-fördelad, och X och Y är oberoende, så är X Y /f t(f)-fördelad. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 35 / 50

t-fördelningen Sats Om X 1,X 2,...,X n är oberoende och N(θ, σ)-fördelade så är X och S 2 oberoende. Denna sats karakteriserar normalfördelningen! Med detta avses att satsen inte är sann för någon annan fördelning. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 36 / 50

t-fördelningen Av detta följer nu att X θ S/ n = X θ / σ/ S 2 n σ 2 är t(n 1)-fördelad. X θ / σ/ S 2 n σ 2 = X θ / (n 1)S 2 σ/ σ 2 n n 1 X θ σ/ n N(0,1), (n 1)S2 σ 2 χ 2 (n 1) och oberoende. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 37 / 50

Användning av normalapproximation, approximativ konfidensgrad Fördelningen beror av en okänd parameter θ. en punktskattning θ som är ungefär normalfördelad med väntevärdet θ och standardavvikelsen D = D(θ ). Då gäller approximativt θ θ D N(0,1). Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 38 / 50

Medelfel för en skattning Vi använder variansen V(θ ) eller, vilket i princip är samma sak, standardavvikelsen D(θ ) som precisionsmått för en skattning θ. Ju mindre varians (större effektivitet), desto belåtnare är vi med skattningen. Ibland hamnar man då i en besvärlig situation: Variansen och standardavvikelsen är själva okända, emedan de beror av just den parameter som man vill skatta (och kanske av ytterligare andra okända parametrar). Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 39 / 50

Medelfel för en skattning Om man vill få information om D(θ ) får man försöka hitta på en skattning även av denna storhet (parameter). Konsekvensen blir att man inte får ett exakt precisionsmått utan bara ett ungefärligt. Vi skulle kunna beteckna denna numeriska skattning av osäkerheten med D(θ ) obs men skriver den i stället d(θ ). Definition En skattning av D(θ ) kallas medelfelet för θ och betecknas d(θ ). Hur medelfelet skall väljas får avgöras från fall till fall. Man borde tillse att d(θ ) är en konsistent skattning av D(θ ). Detta kan nog verka förbryllande men man skall hålla isär begreppen: θ obs är en skattning av θ och d(θ ) är en skattning av D(θ ). Det var detta vi gjorde i det inledande exemplet i i samband med analys av en opinionsundersökning. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 40 / 50

Konfidensintervall med en approximativ konfidensgrad En punktskattning θ av en okänd parameter θ är ungefär normalfördelad med väntevärdet θ och standardavvikelsen D. Då är I θ = (θ λ α/2 D, θ + λ α/2 D) I θ = (θ λ α/2 d, θ + λ α/2 d) om D ej beror av θ om D beror av θ (och d väljs lämpligt) ett konfidensintervall för θ med den approximativa konfidensgraden 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 41 / 50

Konfidensintervall med en approximativ konfidensgrad Låt x 1,...,x n vara ett stort slumpmässigt stickprov från en fördelning, där väntevärdet är θ och standardavvikelsen σ. Då är I µ = ( x λ α/2 D, x + λ α/2 D) om σ känt (D = σ/ n) I µ = ( x λ α/2 d, x + λ α/2 d) om σ okänt (d = s/ n) konfidensintervall för θ med den approximativa konfidensgraden 1 α. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 42 / 50

Konfidensintervall för p i Bin(n, p) med en approximativ konfidensgrad Låt x vara en observation av X, där X Bin(n,p) och p är okänt. Maximum-likelihood skattningen är p obs = x/n. Man kan inte enkelt konstruera ett intervall I p som exakt har given konfidensgrad. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 43 / 50

Konfidensintervall för p i Bin(n, p) med en approximativ konfidensgrad För stora n gäller approximativt att X /n N(p,D) där D = p(1 p)/n. Som medelfel tar vi d = pobs (1 p obs )/n. och får intervallet I p = (pobs λ α/2d,pobs + λ α/2d) (d = pobs (1 p obs )/n). (1) Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 44 / 50

Konfidensintervall för p i Bin(n, p) med en approximativ konfidensgrad Vid intervjuer med n = 250 personer, uttagna slumpmässigt ur en mycket stor population, visade sig 42 ha en viss åsikt H. Som punktskattning av relativa antalet p i hela populationen med åsikten H tar vi pobs = 42/250 = 0.168. Alltså blir d = 0.168 0.832/250 = 0.023. Ett approximativt 95 % konfidensintervall för p blir I p = (0.168±1.96 0.023) = (0.168±0.046) = (0.12,0.21). Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 45 / 50

Approximativa konfidensintervall Man önskar planera undersökningen så, att man efteråt får ett ungefär 95 % konfidensintervall för p med högst längden 2 0.05. Hur många skall tillfrågas? Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 46 / 50

Approximativa konfidensintervall Man får 2 1.96 p obs (1 p obs ) varav, eftersom alltid p(1 p) 1/4, n < 2 0.05 n 1 4 385 personer bör alltså tillfrågas. ( 1.96 ) 2 = 384.2. 0.05 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 47 / 50

Approximativa konfidensintervall: populationsundersökning ML-skattningen av p blir, som vi redan vet pobs = x/n. Den approximativa formeln för konfidensintervallet blir I p = (p obs λ α/2d,p obs + λ α/2d) (d = d n p obs (1 p obs )/n). (2) där d n = (N n)/(n 1) är en s.k. korrektionsfaktor för ändlig population. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 48 / 50

Approximativa konfidensintervall: poissonfördelning Vi har ett slumpmässigt stickprov x av X Po(θ) och punktskattar µ. Under antagande att det är känt att θ > ca 15 kan normalapproximationen användas Som skattning av θ tar vi θobs = x. Tillhörande standardavvikelse är D(X) = θ och vi tar därför som medelfel d = x. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 49 / 50

Approximativa konfidensintervall: poissonfördelning Konfidensintervallet för θ blir enligt den approximativa metoden I θ = ( x λ α/2 x,x + λα/2 x ). (3) Dess konfidensgrad är ungefär 1 α, och approximationen är bättre ju större θ är. Jan Grandell & Timo Koski Matematisk statistik 18.02.2016 50 / 50