F7: Bayesiansk inferens
Klassisk vs Bayesiansk Två problem Klassisk statistisk inferens Frekventistisk tolkning av sannolikhet Parametrar fixa (ofta okända) storheter Skattningar och konfidensintervall för parametrarna används för att få en uppfattning om osäkerhet Bayesiansk inferens Parametern är en stokastisk variabel och har därmed en fördelning Denna fördelningen används för uttalanden om osäkerhet hos parametern Förhandskunskap om parametern kombineras med observerade data Kunskapen uppdateras allt eftersom ny information tillkommer
Klassisk vs Bayesiansk Två problem Två viktiga problemställningar Uppskatta p = P(B) där B är en händelse B = råka ut för en olycka då man korsar vägen B = min cykel blir stulen utanför järnvägsstationen i Lund då jag veckopendlar B = maskinen (komponenten) fungerar då den testas Uppskatta P(A inträffar minst en gång under ett tidsintervall av längd t) uppskatta intensiteten λ A i en process Uppskatta p = P(B) med Klassisk ansats: Vi har att p = P(maskinen fungerar) är en okänd men fix parameter. Testa n maskiner och räkna antalet som fungerar, k. Antalet är Bin(n, p) med ML-skattningen p = k/n. Skattningefelet ε = p p är approximativt N(, V(p )) med V(p ) p (1 p )/n och konfidensintervall I p = (p ± λ α/2 stort. p (1 p ) n ) om n är tillräckligt
Prediktiv sannolikhet Prior Posterior Bayesiansk metodik Betrakta p = P(maskinen fungerar) som en s.v. med en fördelning, f(p), som bestämmer hur troliga olika värden på p är. Observera att f(p) ska uppfylla f(p) dp = 1 f(p) dp = 1 för att vara en riktig fördelning. Prediktiv sannolikhet Väntevärdet i fördelningen kallas den prediktiva sannolikheten för B: P pred (B) = E(P) = 1 p f(p) dp Trolighetsintervall Istället för konfidensintervall har vi nu trolighetsintervall som ges av kvantilerna i f(p): (p 1 α/2, p α/2 ). Hur ska vi välja f(p)?
Prediktiv sannolikhet Prior Posterior Startfördelning utan data Antag först att vi inte har någon kunskap om p: f(p) = 1, p 1 f(p) 1 1 p Prediktiv sannolikhet: P pred (B) = 1/2. Ett 95 % trolighetsintervall för p: (.25,.975). Hur kan vi uppdatera fördelningen och ta hänsyn till obervationer?
Prediktiv sannolikhet Prior Posterior Inkludera observerade data Låt fördelningen för p innan vi observerar data vara f prior (p) (a priorifördelning). Observera data, X: av n tillfällen skedde B k gånger. Uppdatera kunskapen om p med hjälp av f post (p) (a posteriorifördelning). Definitionen av betingad sannolikhet ger: f post (p) = f(p X = k) = P(X = k p) f prior (p) P(X = k) = c L(p; x) f prior (p) }{{} P(X=k p) Bestäm c med hjälp av 1 = 1 f post (p) dp.
Egenskaper Exempel Konjugerad prior Ex: Maskin Antag att på 1 test fungerade 9 maskiner. Med f prior (p) = 1 får vi ( ) 1 f post (p) = c p 9 (1 p) 1 1 = c 1 p 9 (1 p) 9 Ex: maskin Detta är en Beta-fördelning med parametrar a = 1 och b = 2, dvs Beta(1, 2). f post (p) = Γ(1 + 2) Γ(1) Γ(2) p1 1 (1 p) 2 1 = 11! 9! 1! p1 1 (1 p) 2 1, p 1
Egenskaper Exempel Konjugerad prior Beta-fördelningen, Θ Beta(a, b) Frekvensfunktionen för en Beta(a, b)-fördelning är där c = f(p) = c p a 1 (1 p) b 1, p 1 Γ(a + b) och Γ(a) = Γ(a)Γ(b) Egenskaper: Väntevärdet: E(Θ) = a a + b a a+b Variansen: V(Θ) = (1 a + b + 1 x a 1 e x dx a a+b ) Gammafunktionen Γ(a) = a Γ(a 1), Γ(a) = (a 1)! om a är ett heltal, Γ(1) = 1, Γ(1/2) = π.
Egenskaper Exempel Konjugerad prior Några Beta-fördelningar 9 8 7 Beta(1, 1) Beta(.8, 1.2) Beta(.5,.7) Beta(1, 2) Beta(3, 7) Beta(2,2) Beta fördelningar 6 5 4 3 2 1.1.2.3.4.5.6.7.8.9 1 p
Egenskaper Exempel Konjugerad prior Konjugerad prior I många standardsituationer väljer man ofta en så kallad konjugerad a priorifördelning, dvs en a priorifördelning som ger en a posteriorifördelning av samma typ. I situationen skatta P(B) är Beta-fördelningen en konjugerad prior. f prior (p) : Beta(a, b), eftersom f post (p) : Beta(a + k, b + n k) f post (p) = c n försök gav k st. B ( ) n p k (1 p) n k p a 1 (1 p) b 1 k = c 1 p a+k 1 (1 p) b+n k 1
Prior Posterior Expert-prior Exempel: Tillförlitlighet hos en maskin (a) Ingen kunskap om p: likformig a priori-fördelning, Beta(1, 1). f prior (p) = Γ(1 + 1) Γ(1)Γ(1) p1 1 (1 p) 1 1 = 1, p 1 7 6 Beta(1,1) 5 4 3 2 1.1.2.3.4.5.6.7.8.9 1 p=p(maskinen är hel) P pred (B) = a a + b = 1 1 + 1 = 1 2 =.5
Prior Posterior Expert-prior (b) A posteriori-fördelning för p baserade på a priori-fördelningen i (a) med information från data (9 av 1 fungerade): Beta(1 + 9, 1 + (1 9)) = Beta(1, 2): Prediktiv sannolikhet: P pred (B) = 1 1 + 2.83. Trolighetsintervall: (.59,.98). 7 6 5 4 3 2 1 Beta(1,2).1.2.3.4.5.6.7.8.9 1 p=p(maskinen är hel)
Prior Posterior Expert-prior (c) A posteriori-fördelning för p baserade på ytterligare information från data (5 av 5 fungerade): Beta(1 + 5, 2 + (5 5)) = Beta(15, 2): Prediktiv sannolikhet: P pred (B) = 15 15 + 2.88. Trolighetsintervall: (.7,.98). 7 6 5 4 3 2 1 Beta(1,1) Beta(1,2) Beta(15,2).1.2.3.4.5.6.7.8.9 1 p=p(maskinen är hel)
Prior Posterior Expert-prior Tag hänsyn till ett expertutlåtande En expert påstår att tillförlitligheten hos en tidigare version av denna maskin är 93 % ± 7 %. Tolkning: m ± 2σ, dvs E(P) =.93 och V(P) =.35 2. Vilken Beta-fördelning är detta? E(P) = a a + b =.93, V(P) = a a a+b ) a+b (1 E(P)(1 E(P)) = a + b 1 a + b + 1.93(1.93).35 2 1 = 52.14, a =.93(a + b) =.93 52.14 = 48.49, a + b = b = (a + b) a = 52.14 48.49 = 3.65 =.35 2 dvs Beta(48.49, 3.65)-fördelning.
Prior Posterior Expert-prior 15 1 Experten Expert + 9 av 1 Expert + 9 av 1 och 5 av 5 5.1.2.3.4.5.6.7.8.9 1 p=p(maskinen är hel) (a) Expertens a priori-information om p: Beta(48.49, 3.65): P pred (B) =.93. I = (.848,.982) (b) A posteriori-fördelning för p baserade på a priori-fördelningen i (a) med information från data (9 av 1 fungerade): Beta(48.49 + 9, 3.65 + (1 9)) = Beta(57.49, 4.65): P pred 57.49 (B) = 57.49 + 4.65.925. I = (.849,.976).
Prior Posterior Expert-prior (c) A posteriori-fördelning för p baserade på a priori-fördelningen i (b) med information från data (5 av 5 fungerade): Beta(57.49 + 5, 4.65 + (5 5)) = Beta(62.49, 4.65): P pred 62.49 (B) = 62.49 + 4.65.93. I = (.86,.978). Expertens åsikt väger tungt. Om vi är tveksamma till experten bör vi ha en mer utjämnad prior och låta data tala mer. Ju mer data vi har desto mindre betydelse har a priorifördelningen (och experten).