SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28

Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på normalfördelningen (Kap. 12.3) 2 / 28

Förra gången: inferensproblemet Vi antog att vi hade tillgång till uppmätta värden x 1, x 2,..., x n. Denna mätdata kunde ses som utfall av s.v. X 1, X 2,..., X n, vilkas fördelning (diskret eller kontinuerlig) berodde av en ev. flerdimensionell okänd parameter θ. Mängden av möjliga parametrar, parameterrummet, betecknades Ω θ. Vi vill skatta θ med hjälp av mätdatan. 4 / 28

Förra gången: punktskattning Vi införde följande definition. Definition En punktskattning av en parameter θ är en funktion θ som för varje uppsättning mätdata x 1, x 2,..., x n ordnar ett värde i Ω θ. Detta värde betecknas θ obs = θ (x 1, x 2,..., x n ). Då mätdata ses som utfall av s.v. X 1, X 2,..., X n är θ obs ett utfall observation av stickprovsvariabeln θ (X 1, X 2,..., X n ). Den senare betecknas ofta θ för enkelhets skull. 5 / 28

Förra gången: punktskattning (forts.) Vi tittade även på olika egenskaper hos en punktskattning θ, såsom väntevärdesriktighet, konsistens, medelkvadratfel, effektivitet. Ovan egenskaper beskriver hur fördelningen för punktskattningen koncentreras kring det sanna parametervärdet θ. En väntevärdesriktig skattning med liten varians är bättre! 6 / 28

Medelfel Vi använder i regel variansen V(θ ) eller standardavvikelsen D(θ ) för en skattning θ som ett mått på dess precision. Ibland kan vi inte bestämma standardavvikelsen D(θ ) då denna beror just på den parameter θ som vi vill bestämma. En lösning är då att helt enkelt plugga in skattningen av θ i uttrycket för variansen, vilket ger oss ett ungefärligt värde på variansen. Definition En skattning av D(θ ) kallas medelfelet för θ och betecknas d(θ ). 7 / 28

Förra gången: maximum-likelihood-metoden Idé: välj det parametervärde som ger högst sannolikhet för den givna mätdatan! Definition Funktionen L(θ) = { p X1,...,X n (x 1,..., x n ; θ) f X1,...,X n (x 1,..., x n ; θ) (diskreta fallet), (kontinuerliga fallet), kallas likelihood-funktionen (L-funktionen). Definition Det värde θ obs för vilket L(θ) antar sitt största värde inom Ω θ kallas maximum-likelihood-skattningen (ML-skattningen) av θ. 8 / 28

Tillämpning av ML-metoden på normalfördelningen Låt x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där µ är okänd och σ känd. Varje x i skulle t.ex. kunna vara en mätning av en konstant µ med ett N(0, σ)-fördelat mätfel ε i, dvs. L-funktionen ges av X i = µ + ε i. n 1 L(µ) = f X1,...,X n (x 1,..., x n ; µ) = σ 2π e (x i µ)2 /(2σ2 ) i=1 ( ) 1 n/2 = 2πσ 2 e n i=1 (x i µ) 2 /(2σ 2). 9 / 28

Tillämpning av ML-metoden på normalfördelningen (forts.) I detta fall är det enklare att maximera log-likelihoodfunktionen ln L(µ) = 1 2σ 2 genom att lösa d ln L(µ) dµ n (x i µ) 2 + konst. som ej beror av µ i=1 = 1 σ 2 n i=1(x i µ) = 1 σ 2 ( n i=1 x i nµ ) = 1 (n x nµ) = 0 µ = x. σ2 Man kontrollerar att detta är ett maximum, vilket ger ML-skattningen µ obs = x. 10 / 28

Tillämpning av ML-metoden på normalfördelningen (forts.) Om även σ 2 är okänt ges log-likelihood-funktionen av ln L(µ, σ 2 ) = n 2 ln(σ2 ) 1 2σ 2 n (x i µ) 2 + konst. i=1 och att maximera ln L(µ, σ 2 ) är ett tvådimensionellt optimeringsproblem som visar sig ha lösningen µ obs = x, (σ 2 ) obs = 1 n n (x i x) 2. Skattningen av variansen (som ej är väntevärdesriktig) brukar vanligtvis korrigeras enligt (σ 2 ) obs = 1 n 1 i=1 n (x i x) 2 = s 2. i=1 11 / 28

Minsta-kvadrat-metoden Minsta-kvadrat-metoden (MK-metoden) är ett alternativt sätt att ta fram punktskattningar. Låt x 1, x 2,..., x n vara utfall av oberoende s.v. X 1, X 2,..., X n vars väntevärden är kända sånär som på en okänd parameter θ, dvs. E(X i ) = µ i (θ) för i = 1,..., n. MK-metoden matchar θ efter mätdatan genom att minimera Q(θ) = n {x i µ i (θ)} 2 i=1 med avseende på θ. 13 / 28

Exempel: the German tank problem igen Statistisk modell: varje upphittat serienummer x i, i = 1,..., n, ses som ett utfall av en s.v. X i med likformig fördelning över mängden {1,..., θ}, där θ är det okända antalet pansarvagnar. De olika X i :na kan anses vara oberoende. Beräkna MK-skattningen av θ samt bestäm medelfelet! [ ] 4 x( x 1) svar: θ obs = 2 x 1, d(θ ) = 3n Jämför med ML-skattningen, vilken ges av θ obs = max{x 1,..., x n } (se förra gången). 14 / 28

Konfidensintervall Dagens definition: Definition Låt x 1, x 2,..., x n vara utfall av s.v. X 1, X 2,..., X n vars fördelning beror av en okänd parameter θ och låt 0 < α < 1. Ett intervall I θ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) kallas ett konfidensintervall för θ med konfidensgraden 1 α om det täcker θ med sannolikheten 1 α, dvs. P(a 1 (X 1,..., X n ) < θ < a 2 (X 1,..., X n )) = 1 α. Om både a 1 och a 2 är ändliga kallas intervallet tvåsidigt. Om antingen a 1 = eller a 2 = kallas det ensidigt. 16 / 28

Konfidensintervall (forts.) Vanligtvis väljer man α {0.05, 0.01, 0.0001}. Ju mindre α är, desto bredare blir konfidensintervallet. Frekvenstolkning: om man gång på gång skulle upprepa datainsamlingen och varje gång konstruera ett, säg, 95%-igt intervall, så kommer ca. 95% av dessa intervall att täcka θ. Annorlunda uttryckt: vi använder en metod med vilken vi drar rätt slutsats med sannolikhet 1 α. 17 / 28

Allmän metod för konfidensintervall Vi kommer att gå till väga enligt följande för att konstruera konfidensintervall: (1) Hitta en s.k. pivotvariabel T (X 1,..., X n ; θ) vars fördelning inte beror på θ. (2) Hitta kvantiler x α/2 och x 1 α/2 till T så att (3) Lös ut θ enligt 1 α = P(x 1 α/2 < T (X 1,..., X n ; θ) < x α/2 ). 1 α = P ( x 1 α/2 < T (X 1,..., X n ; θ) < x α/2 ) = P (a 1 (X 1,..., X n ) < θ < a 2 (X 1,..., X n )). (4) Intervallet ges så av I θ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )). I moment (1) är det lämpligt att utgå från en punktskattning av θ. 18 / 28

Fall 1: µ är okänt och σ är känt Låt x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där µ är okänd och σ känd. Vi vill göra ett konfidensintervall för µ med konfidensgraden 1 α. Vi följer receptet: (1) Som vi sett ges ML-skattningen av µ av (med D = σ/ n) µ = X N(µ, D) T (X 1,..., X n ; µ) = X µ D (2) T :s kvantiler är ±λ α/2. (3) Lös ut µ enligt N(0, 1). ( 1 α = P( λ α/2 < T < λ α/2 ) = P λ α/2 < X ) µ D < λ α/2 = P ( X λ α/2 D }{{} =a 1(X 1,...,X n) < µ < X + λ α/2 D ). }{{} =a 2(X 1,...,X n) 20 / 28

Fall 1: µ är okänt och σ är känt (4) Intervallet ges så slutligen av I µ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) = ( x ± λ α/2 D) ) σ = ( x ± λ α/2 n. 21 / 28

Fall 2: både µ och σ är okända Låt nu x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där både µ och σ är okända. Vi vill igen göra ett konfidensintervall för µ med konfidensgraden 1 α. Vi följer åter receptet: (1) Som vi såg tidigare ges ML-skattningen av µ även i detta fall av (med D = σ/ n) µ = X N(µ, D), men att använda samma pivotvariabel T som i förra fallet fungerar ej, då resulterande intervall I µ = ( x ± λ α/2 σ/ n) innehåller den okända parametern σ. Lösning: använd istället T (X 1,..., X n ; µ, σ) = X µ d t(n 1), där d = S n är medelfelet och t betyder t-fördelning! 22 / 28

Fall 2: både µ och σ är okända (forts.) (2) T :s kvantiler ges nu av t-fördelningens kvantiler, dvs. ±t α/2 (n 1). Dessa finns i tabell. (3) Genom samma operationer som tidigare löser vi ut µ enligt 1 α = P( t α/2 (n 1) < T < t α/2 (n 1)) = P ( X t α/2 (n 1)d }{{} =a 1(X 1,...,X n) (4) Slutligen ges intervallet av < µ < X + t α/2 (n 1)d ). }{{} =a 2(X 1,...,X n) I µ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) = ( x ± t α/2 (n 1)d) ( = x ± t α/2 (n 1) s ). n 23 / 28

t-fördelningen Definition Om den s.v. X har täthetsfunktionen f X (x) = ( Γ((ν + 1)/2) 1 + x 2 ) (ν+1)/2, x R, νπγ(ν/2) ν där ν > 0, sägs X vara t-fördelad med ν frihetsgrader (kodbeteckning: X t(ν)). Vi kommer i det som följer endast att behöva t-fördelningens vanligaste kvantiler, vilka finns tillgängliga i tabell för olika ν. 24 / 28

t-fördelningen (forts.) (a) Täthetsfunktioner (b) Fördelningsfunktioner Figur: Täthets- och fördelningsfunktioner för t(ν)-fördelningar med olika antal frihetsgrader ν. När ν närmar sig t(ν) normalfördelningen. 25 / 28

Sammanfattning Vi sammanfattar de resultat vi funnit i normalfördelningsfallet. Sats Låt x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där µ är okänt. Då är { ( x ± λ I µ = α/2 D) om σ är känt (D = σ/ n). ( x ± t α/2 (n 1)d) om σ är okänt (d = s/ n). ett tvåsidigt konfidensintervall för µ med konfidensgraden 1 α. Då λ α/2 < t α/2 (n 1), kommer osäkerheten i skattningen av σ att leda till ett bredare intervall i det senare fallet. 26 / 28

W. S. Gosset, alias Student Figur: William Sealy Gosset (1876 1937) uppfann t-fördelningen i sitt arbete som kemist på bryggerifirman Guinness i Dublin. 27 / 28

Nästa föreläsning Konfidensintervall för σ 2, approximativa konfidensintervall,... 28 / 28