Bayes i praktiken exempel och reflektioner från en forskarutbildningskurs Ralf Rittner, Arbets och Miljömedicin 2012 11 07
Bayesian Data Analysis Practical Data Analysis with BUGS using R Bendix Carstensen Steno Diabetes Center & Dept Biostatistics Copenhagen bxc@steno.dk www.biostat.ku.dk/~bxc Lyle Gurrin Melbourne School of Population Health lgurrin@unimelb.edu.au Søren Højsgaard Department of Mathematical Sciences, Aalborg University soren@math.aau.dk Klaus Ekstrøm University of Southern Denmark cekstrom@health.sdu.dk 13-17 August, 2012, Copenhagen
Nyttiga länkar Practical Data Analysis with BUGS using R http://bendixcarstensen.com/bayes/cph 2012/ http://bendixcarstensen.com/bayes/cph 2012/slides Kursbok: Bayesian Data Anlysis, A Gelman, J Carlin, H Stern & D Rubin http://www.stat.columbia.edu/~gelman/book/ Modellspråk: BUGS http://www.openbugs.info/w/ Implemtation: JAGS http://mcmc jags.sourceforge.net/
Vad är Bayesiansk statistisk inferens? Statistisk dataanalys där slutsatser uttrycks i sannolikheter Gör inferenser från data med fulla sannolikhetsmodeller för kvantiteter vi observerar och sådana vi vill studera Anpassa en modell till data och sammanfatta resultatet i sannolikhets fördelning för modellparametrar och oobserverade kvantiteter såsom prediktioner av nya observationer
Outline - Bayesiansk analys 1. Sätt upp sannolikhetsmodell fördelning för alla ingående kvantiteter både observerade och oobserverade. Kräver prior fördelning för parametrar och samplings fördelning (likelihood) för observerade data. 2. Ta fram betingade eller posteriora fördelningen för oobserverade kvantiteter givet data. 3. Utvärdera modellens passning och resultatens implikationer; ev upprepa stegen
Implikationer för tillämpad statistik Direkt kvantifiering av osäkerhet och naturliga tolkningar av konklusioner ex Bayesianska credible interval kan ses som sannolikt innehållande sanna värdet. Det går att sätta upp modeller med komplexa hierarkiska (multilevel) probability specifikationer tack vare konceptuellt enkla metoder för multiparametriska problem
Notation
Bayesianska analysens mekanik p( y) p(, y) p( y) p( ) p( y p( y) ) p(y) p( )p(y )
Bayesianska analysens mekanik
Posterior fördelning
Egenskaper för posterior fördelning Betafördelningen kan få exakta skattningar (mv, sd etc) men vad med kvantiler och därifrån posteriora intervall? Numerisk integrering Approximation av betaintegralen (normalförd?) Simulering: dra sampel från fördelnigen och göra numeriska uppskattningar
Simulering Beräkningarna för inferensen är ofta inte rättframma, speciellt när θ blir en vektor av multipla parametrar Simulering är centralt i Bayesiansk analys lätt att dra sampel från komplicerade fördelningar. I praktiken utnyttjas dualitet mellan pdf och histogram över slumpdragningar. Ex 95 percentil, 0.95L av L dragningar
Simulering Monte Carlo Direkt simulering användbart om fördelningens form explicit känd. I konjugat Bayesiansk analys kan vi uttrycka posteriora fördelningen algebraiskt och där fungerar Monte Carlo metodik eller direkt användning av funktioner i t ex R
Markov Chain Monte Carlo MCMC För icke konjugata fördelningar eller nuisance parametrar i komplexa analyser kan posterior fördelningen inte härledas algebraiskt MCMC erbjuder medel att sampla från posterior fördelning även om den inte är känd algebraiskt
Stegen i MCMC
BUGS Bayesian inference Using Gibbs Sampling Progamvara designad för att underlätta MCMC analyser Utför Bayesiansk inferens genom att välja bland ett antal simuleringstekniker. Från början uteslutande sk Gibbs Sampling BUGS kräver en full sannolikhets modell som kombinerar samplingsmodell (data) med prior fördelning (för parametrar)
BUGS BUGSmodellen måste kunna specificeras mha Directed Acyclic Graph (DAG) Språket är deklarativt Specificerar relationer (mellan noder) som definierar modellen Ordningen irrelevant, loopar i st f upprepningar Modellen sparas i en textfil
BUGS modell exempel Linear regression ex. model { for (i in 1:N) { Y[i] ~ dnorm(mu[i], tau) mu[i] < alpha + beta * (x[i] x.bar) } x.bar < mean(x) alpha ~ dnorm(0.0, 1.0E 4) beta ~ dnorm(0.0, 1.0E 4) sigma < 1.0/sqrt(tau) tau ~ dgamma(1.0e 3, 1.0E 3) }
Enkelt exempel i R
Konvergens För få iterationer icke representativa värden Korrelation inom sekvensen mindre precisa värden Startvärden i teorin inget inflytande men Köra multipla kedjor varierande startvärden Formella diagnosmetoder Inte helt rättframt Bristande konv ses på samplens värde men Stabil räcka inte növändigtvis från korrekt fördelning
Hantering av iterativa simuleringar 1. Simulera multipla sekvenser med startpkter spridda i sampelrymden 2. Monitorera konvergensen för alla kvantiteter genom jämförelse av variationen mellan och inom sekv 3. Om ingen konv ändra algoritmen 4. Bortse från burn in (och/eller tunna ut ) simulerade sekvensen före inferens
Fördjupning Teorin bakom samplingmetoderna Exempel på komplexa modeller Multiparametriska Hierarkiska LMM GLMM INLA = Integrated Nested Laplace Approximations