Bayes i praktiken. exempel och reflektioner från en forskarutbildningskurs. Ralf Rittner, Arbets och Miljömedicin

Relevanta dokument
Bayesiansk statistik, 732g43, 7.5 hp

Bayesianska numeriska metoder II

Bayesiansk statistik utan tårar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Bayesianska numeriska metoder I

Statistiska metoder för säkerhetsanalys

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Lycka till!

Biostatistikutbildning vid Universiteten i Uppsala och Stockholm 2002

Markov Chain Monte Carlo, contingency tables and Gröbner bases

1. Att använda Kalkylen. 2. Fliken i Excelfilen. 2a. Start

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Bayesiansk statistik, 732g43, 7.5 hp

Demonstration av laboration 2, SF1901

Föreläsning 7: Punktskattningar

Om Markov Chain Monte Carlo

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Studietyper, inferens och konfidensintervall

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 7: Punktskattningar

Outline. TSFS06 Diagnos och övervakning Föreläsning 10 - Sannolikhetsbaserad diagnos och Bayesianska nätverk. Sneak-peak. Outline

Filoson bakom Bayesiansk statistik med tillämpningar inom hjärnavbildning och budgivningar på ebay

F9 Konfidensintervall

Tentamen MVE301 Sannolikhet, statistik och risk

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Föreläsning 7: Punktskattningar

Numerisk Analys, MMG410. Lecture 10. 1/17

PROGRAMFÖRKLARING III

Laboration 3: Hierarkiska binomialmodeller i R

Matematisk statistik för B, K, N, BME och Kemister

Hantering av osäkerheter vid riskbedömningar

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Tentamen MVE301 Sannolikhet, statistik och risk

Patrik Pavlov & Nils-Henrik Jansson

Probabilistisk logik 1

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

Probabilistisk logik 2

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden!

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Samråd har skett med utbildningsledare vid akademin för innovation, design och teknik för de kurser de ansvarar för.

Icke-linjära ekvationer

SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

En introduktion till och första övning for Excel

Dataanalys kopplat till undersökningar

bli bekant med summor av stokastiska variabler.

Monte Carlo-simulering. EG2205 Föreläsning 15 18, vårterminen 2015 Mikael Amelin

MVE051/MSG Föreläsning 14

Hemuppgift 2 ARMA-modeller

MVE051/MSG Föreläsning 7

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Regressionsmodellering inom sjukförsäkring

Coalescent trees in phylogenetic inference

Optimering och simulering: Hur fungerar det och vad är skillnaden?

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Biostatistikutbildning vid Universiteten i Uppsala och Stockholm 2004

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Konvergens för iterativa metoder

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Föreläsning 7. Statistikens grunder.

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Föreläsning 11: Mer om jämförelser och inferens

Anna: Bertil: Cecilia:

Skattningsmetoder för binär data: En simuleringsstudie

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Datorövning 1: Fördelningar

Lärmål Sannolikhet, statistik och risk 2015

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Sammanfattning av föreläsning 11. Modellbygge & Simulering, TSRT62. Föreläsning 12. Simulering. Föreläsning 12. Numeriska metoder och Simulering

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Repetition

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F13 Regression och problemlösning

Beräkningsvetenskap introduktion. Beräkningsvetenskap I

F3 Introduktion Stickprov

Uppgift 1. Minimeringsproblemet löses med en Monte Carlo algoritm:

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Sannolikhetslära och statistik, grundkurs

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Datorlaboration 7. Simuleringsbaserade tekniker

Grundläggande programmering med matematikdidaktisk inriktning för lärare som undervisar i gy eller komvux gy nivå, 7,5 hp

Statistiska metoder för säkerhetsanalys

Historiskt moment i Numerisk analys 1 Monte Carlo-metoden

Introduktion och laboration : Minitab

Lufttorkat trä Ugnstorkat trä

Tentamen MVE301 Sannolikhet, statistik och risk

Transkript:

Bayes i praktiken exempel och reflektioner från en forskarutbildningskurs Ralf Rittner, Arbets och Miljömedicin 2012 11 07

Bayesian Data Analysis Practical Data Analysis with BUGS using R Bendix Carstensen Steno Diabetes Center & Dept Biostatistics Copenhagen bxc@steno.dk www.biostat.ku.dk/~bxc Lyle Gurrin Melbourne School of Population Health lgurrin@unimelb.edu.au Søren Højsgaard Department of Mathematical Sciences, Aalborg University soren@math.aau.dk Klaus Ekstrøm University of Southern Denmark cekstrom@health.sdu.dk 13-17 August, 2012, Copenhagen

Nyttiga länkar Practical Data Analysis with BUGS using R http://bendixcarstensen.com/bayes/cph 2012/ http://bendixcarstensen.com/bayes/cph 2012/slides Kursbok: Bayesian Data Anlysis, A Gelman, J Carlin, H Stern & D Rubin http://www.stat.columbia.edu/~gelman/book/ Modellspråk: BUGS http://www.openbugs.info/w/ Implemtation: JAGS http://mcmc jags.sourceforge.net/

Vad är Bayesiansk statistisk inferens? Statistisk dataanalys där slutsatser uttrycks i sannolikheter Gör inferenser från data med fulla sannolikhetsmodeller för kvantiteter vi observerar och sådana vi vill studera Anpassa en modell till data och sammanfatta resultatet i sannolikhets fördelning för modellparametrar och oobserverade kvantiteter såsom prediktioner av nya observationer

Outline - Bayesiansk analys 1. Sätt upp sannolikhetsmodell fördelning för alla ingående kvantiteter både observerade och oobserverade. Kräver prior fördelning för parametrar och samplings fördelning (likelihood) för observerade data. 2. Ta fram betingade eller posteriora fördelningen för oobserverade kvantiteter givet data. 3. Utvärdera modellens passning och resultatens implikationer; ev upprepa stegen

Implikationer för tillämpad statistik Direkt kvantifiering av osäkerhet och naturliga tolkningar av konklusioner ex Bayesianska credible interval kan ses som sannolikt innehållande sanna värdet. Det går att sätta upp modeller med komplexa hierarkiska (multilevel) probability specifikationer tack vare konceptuellt enkla metoder för multiparametriska problem

Notation

Bayesianska analysens mekanik p( y) p(, y) p( y) p( ) p( y p( y) ) p(y) p( )p(y )

Bayesianska analysens mekanik

Posterior fördelning

Egenskaper för posterior fördelning Betafördelningen kan få exakta skattningar (mv, sd etc) men vad med kvantiler och därifrån posteriora intervall? Numerisk integrering Approximation av betaintegralen (normalförd?) Simulering: dra sampel från fördelnigen och göra numeriska uppskattningar

Simulering Beräkningarna för inferensen är ofta inte rättframma, speciellt när θ blir en vektor av multipla parametrar Simulering är centralt i Bayesiansk analys lätt att dra sampel från komplicerade fördelningar. I praktiken utnyttjas dualitet mellan pdf och histogram över slumpdragningar. Ex 95 percentil, 0.95L av L dragningar

Simulering Monte Carlo Direkt simulering användbart om fördelningens form explicit känd. I konjugat Bayesiansk analys kan vi uttrycka posteriora fördelningen algebraiskt och där fungerar Monte Carlo metodik eller direkt användning av funktioner i t ex R

Markov Chain Monte Carlo MCMC För icke konjugata fördelningar eller nuisance parametrar i komplexa analyser kan posterior fördelningen inte härledas algebraiskt MCMC erbjuder medel att sampla från posterior fördelning även om den inte är känd algebraiskt

Stegen i MCMC

BUGS Bayesian inference Using Gibbs Sampling Progamvara designad för att underlätta MCMC analyser Utför Bayesiansk inferens genom att välja bland ett antal simuleringstekniker. Från början uteslutande sk Gibbs Sampling BUGS kräver en full sannolikhets modell som kombinerar samplingsmodell (data) med prior fördelning (för parametrar)

BUGS BUGSmodellen måste kunna specificeras mha Directed Acyclic Graph (DAG) Språket är deklarativt Specificerar relationer (mellan noder) som definierar modellen Ordningen irrelevant, loopar i st f upprepningar Modellen sparas i en textfil

BUGS modell exempel Linear regression ex. model { for (i in 1:N) { Y[i] ~ dnorm(mu[i], tau) mu[i] < alpha + beta * (x[i] x.bar) } x.bar < mean(x) alpha ~ dnorm(0.0, 1.0E 4) beta ~ dnorm(0.0, 1.0E 4) sigma < 1.0/sqrt(tau) tau ~ dgamma(1.0e 3, 1.0E 3) }

Enkelt exempel i R

Konvergens För få iterationer icke representativa värden Korrelation inom sekvensen mindre precisa värden Startvärden i teorin inget inflytande men Köra multipla kedjor varierande startvärden Formella diagnosmetoder Inte helt rättframt Bristande konv ses på samplens värde men Stabil räcka inte növändigtvis från korrekt fördelning

Hantering av iterativa simuleringar 1. Simulera multipla sekvenser med startpkter spridda i sampelrymden 2. Monitorera konvergensen för alla kvantiteter genom jämförelse av variationen mellan och inom sekv 3. Om ingen konv ändra algoritmen 4. Bortse från burn in (och/eller tunna ut ) simulerade sekvensen före inferens

Fördjupning Teorin bakom samplingmetoderna Exempel på komplexa modeller Multiparametriska Hierarkiska LMM GLMM INLA = Integrated Nested Laplace Approximations