Bayesiansk statistik utan tårar Lennart Robertson, SMHI
Lånad titel A.F.M Smith A.E Gelfand American Statistician 1992 2
Innehåll Ett litet exempel Några enkla statistiska betraktelser Bayes teorem Bayesiansk inferans Viktad bootstrap Markov chain Monte Carlo (MCMC) Exempel på viktad bootstrap och MCMC Utblick mot assimilering av satellitdata vid vulkanutbrott Hur var det nu med exemplet? 3
Ett litet exempel Min syster beskrev ett samtal hon haft på en resa. Jag funderade då på om det möjligen var en kvinna hon talat med. Om vi antar att män och kvinnor är lika fördelade, är sannoliheten att det var en kvinna 50%. Nu tillkom informationen att den hon talade med hade långt hår. Detta är i all sin enkelhet essensen i Bayesiansk statistik. P(K) = 0.5 Grundantagande med en apriori sannolikhet P(L K) Tillkommande information sätter en trolighet på grundantagandet P(K L)? Posteriorsannolikhet givet tilläggsinformationen 4
Några enkla statistiska betraktelser Y Joint probability Marginalfördelning Villkorad sannolikhet Bivariat-diagram X 5
Joint probability (sannolikhet för sammanfallande händelser) Y X P(X, Y) P(X = a, Y = b) N x,y /N tot 6
Marginalfördelning p(x) 7
Marginalfördelning p(x) p x = p x, y dy Marginalisering 8
Marginalfördelning p(y) 9
Marginalfördelning p(y) p y = p x, y dx 10
Villkorade sannolikheter P(X,Y) P(Y X) P(X Y) P Y X = P(X, Y) P(X) P X Y = P(X, Y) P(Y) 11
Bayes teorem Bayes teorem utnyttjar att det finns två sätt att beskriva joint probability P X, Y = P X Y P Y = P Y X P(X) P X Y = P Y X P(X) P(Y) = P Y X P(X) P x, Y dx = P Y X P(X) P Y x P x dx Rekursiva former P X, U, Y = P X, U Y P Y = P Y X, U P X, U = P Y X, U P U X P(X) P X, U, V, Y =? P X, Y, Z = P X Y, Z P Y P Z = P Y, Z X P X = P Y Z, X P Z X P X = P Y X P Z X P(X) 13
Bayesiansk inferans Bayesiansk inferans arbetar med fördelningar och att sampla dessa fördelningar. Det är ett sätt att undvika P(Y) som är en svårfångad skalfaktor: P(X Y) P Y X P(X) Om X upprepat hämtas från en apriorifördelning, p(x), så kan vi skapa en fördelning som avspeglar posteriorfördelningen, p(x Y), så när som på en okänd skalfaktor. P(Y X) spelar en nyckelroll i att transformera en apriorifördelning till en posteriorfördelning. Vår sökta lösning, X, är den som maximerar P(X Y). 14
Bootstrap Bootstrap är att ta slumpvisa dragningar (med återläggning) ur en datamängd och exempelvis bilda nya medelvärden. Detta ger en uppskattning av stabiliteten i medelvärdet. I bootstrap ligger ett underliggande antagande att varje värde har samma sannolikhet. I viktad bootstrap sätter vi olika sannolikhet på de olika värdena innan vi gör slumpvisa dragningar. 16
Viktad bootstrap Sampling via kumulativ fördelning. Viktning av varje medlem med sannolikhetsfunktionen (blå). Resampling via viktad kumulativ fördelning. Maximum av den resamplade fördelningen är vårt sökta värde. 17
Viktad bootstrap: begränsningar Kräver sampling av stor del av apriorifördelningen Viktigt att sampla för de tillstånden som observationerna ger högst betyg. 18
Markov chain Monte Carlo (MCMC) Ett alternativ till viktad bootstrap och är den mest populära. Slumpmässig vandring i apriori- och posteriorfördelningarna, med acceptans eller förkastande av nästa steg. Det finns lite olika ansatser av vilket Metropolis-Hastings är rätt vanlig (1953,1970) Att sampla apriorifördelningen, p(x): Vid punkten x n kan vi bestämma p n = p(x n ) från apriori-fördelningen. Tag ett steg i godtycklig ritning, x n+1, och bestäm p n+1 =p(x n+1 ) A) Om p n+1 /p n >1 behåll x n+1 B) Om p n+1 /p n <1 behåll slumpmässigt med sannolikheten p n+1 /p n. Att sampla posteriorfördelningen p(x Y): I stegningen ovan utvärdera L n = P(Y x n ) och för nästa steg L n+1 =P(Y x n+1 ) A) Om L n+1 /L n >1 behåll x n+1 B) Om L n+1 /L n <1 behåll slumpmässigt med sannolikheten L n+1 /L n. 19
Enkelt exempel på viktad bootstrap Gaussisk plymmodell Några observationer Söka rätt utsläppspunkt Sampla apriorifördelning Viktad bootstrap Max av postrior är lösningen 21
Enkelt exempel på MCMC Samma problemställning. Vi börjar i samma punkt. MCMC samplar initialt apriorifördelningen. Men glider snart över i posterior fördelningen. Kan dock gå vilse om man har otur. 22
Animering av MCMC 23
Utblick: Satellit data och vulkanutbrott Dataassimilation av källterm vid vulkanutbrott OMI SO2 (olika plymhöjder) MODIS AOD 24
Hur var det nu med min systers långhåriga medpassagerare? P(K)=0.5 Apriori antagande P(L K)=0.75 Sannolikheten att just kvinnor är långhåriga P(L M)=0.15 Sannolikheten att just män är långhåriga P K L = P L K P(K) P(L) = P L K P(K) P L K P K + P L M P(M) = 0.75x0.5 0.75x0.5 + 0.15x0.5 = 0.833 Joint probability K P(L K)P(K) P(L* K)P(K) M P(L M)P(M) P(L* M)P(M) L L* 25
Därmed var min systers resa slut och så är min! Tack för uppmärksamheten! 26