Bayesianska numeriska metoder I



Relevanta dokument
Bayesianska numeriska metoder II

TAMS79: Föreläsning 6. Normalfördelning

Lektionsanteckningar 11-12: Normalfördelningen

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Monte Carlo-metoder. Bild från Monte Carlo

Stokastiska processer med diskret tid

TMS136. Föreläsning 4

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

FÖRELÄSNING 8:

bli bekant med summor av stokastiska variabler.

Övning 1 Sannolikhetsteorins grunder

Demonstration av laboration 2, SF1901

Hur måttsätta osäkerheter?

Föreläsning 6: Hypotestester (forts.)

4 Diskret stokastisk variabel

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Statistik 1 för biologer, logopeder och psykologer

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Gränsvärdesberäkningar i praktiken

6. Samband mellan derivata och monotonitet

1.1 Diskret (Sannolikhets-)fördelning

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Industriell matematik och statistik, LMA /14

MVE051/MSG Föreläsning 7

Introduktion till statistik för statsvetare

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Lärmål Sannolikhet, statistik och risk 2015

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Mer om slumpvariabler

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Laboration 2: Styrkefunktion samt Regression


Föreläsning 12: Regression

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

MSG830 Statistisk analys och experimentplanering

13.1 Matematisk statistik

F3 Introduktion Stickprov

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Lycka till!

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

18 Kurvintegraler Greens formel och potential

SF1544 LABORATION 2 INTEGRATION, MONTE-CARLO OCH BLACK-SCHOLES EKVATION FÖR OPTIONER

MVE051/MSG Föreläsning 14

Föreläsning 12: Repetition

DUBBELINTEGRALER. Rektangulära (xy) koordinater

Statistik 1 för biologer, logopeder och psykologer

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Samplingfördelningar 1

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

F13 Regression och problemlösning

Grundläggande matematisk statistik

1 Stokastiska processer. 2 Poissonprocessen

Experimentella metoder, FK3001. Datorövning: Finn ett samband

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

SF1911: Statistik för bioteknik

Betingning och LOTS/LOTV

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

1.1 Diskret (Sannolikhets-)fördelning

Föreläsning 4: Konfidensintervall (forts.)

Lite Kommentarer om Gränsvärden

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar

Datorövning 1: Fördelningar

17.1 Kontinuerliga fördelningar

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

F9 Konfidensintervall

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

f(x + h) f(x) h f(x) f(x h) h

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

LKT325/LMA521: Faktorförsök

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Prov 1 2. Ellips 12 Numeriska och algebraiska metoder lösningar till övningsproven uppdaterad a) i) Nollställen för polynomet 2x 2 3x 1:

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

DATORÖVNING 2: STATISTISK INFERENS.

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

LMA201/LMA521: Faktorförsök

Fö relä sning 1, Kö system vä ren 2014

Fö relä sning 1, Kö system 2015

SF1901 Sannolikhetsteori och statistik I

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

Graärgning och kromatiska formler

(x) = F X. och kvantiler

Föreläsning 7: Punktskattningar

Stokastiska processer med diskret tid

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Statistiska metoder för säkerhetsanalys

Regressionsmodellering inom sjukförsäkring

SF1901 Sannolikhetsteori och statistik I

Transkript:

Baesianska numeriska metoder I T. Olofsson Marginalisering En återkommende teknik inom Baesiansk inferens är det som kallas för marginalisering. I grund och botten rör det sig om tillämpning av ett specialfall av summaregeln. För uteslutande utsagor A och B under bakgrundsinformation C gäller som bekant att P (A, B C) = och vi har då att P (A + B C) = P (A C) + P (B C) P (A, B C) = P (A C) + P (B C) () Marginalisering används då vi har att göra med sannolikheter för utsagor som kan kan brtas ner i ett antal, sinsemellan uteslutande delutsagor. Ofta uppträder sådana delutsagor i modeller med s.k. nuissanceparametrar (besvärliga parametrar eller oknnesparametrar), dvs modellparametrar vars värden är både okända och ointressanta för oss men som likväl påverkar utsignalen från modellen och måste hanteras på något sätt. Betrakta till eempel sannolikheten att en begagnad bil från 99 och som kostat kr kommer att klara sig genom nästa besiktning. En nuissance-parameter kan i detta fall vara bilmärket. Låt I stå för bakgrundsinformationen allt vi vet om bilar från 99 som kostar kr och B till B M stå för utsagor om märket: B =märket är Alfa Romeo, B =märket är Aston Martin, osv till B M =märket är Volvo. Vi antar att vi täckt in alla märken på marknaden. Utsagan A =Bilen klarar nästa besiktning, kan då brtas upp i uteslutande delutsagor A = AB + AB +... + AB M och sannolikheten P (A) ges via summaregeln av P (A I) = P (AB I) +... + P (AB M I) = P (A B I)P (B I) +... + P (A B M I)P (B M I) () Den sista likheten ck vi mha produktregeln. Vi har här brutit ner en sannolikhet i några beståndsdelar som troligtvis är enklare att hantera än originalproblemet. Marginalisering i samband med kontinuerliga fördelningar Eempel : Parameterestimering Marginalisering uppträder ofta naturligt i samband med parameterestimering. Anta te att vi vet (via te något fsikaliskt resonemang) att en serie uppmätta data X = {,..., N } respektive Y = {,..., N } kan väl beskrivas av en modell n = w w n + e n (3) där vi antar e n N(, σ ) (samt att alla brustermer är oberende) och där parameterarna w och w båda ligger i intervallet [, ]. Låt oss anta här att faktorn w inte har så mcket med något intressant fsikaliska samband att göra (en nuissance-parameter). Den kan te beskriva en okänd förstärkning i vår mätutrustning. Den intressanta fsikaliska parametern för vår del är w. Vad kan vi nu med hjälp av våra data säga om w, eller med andra ord, vad är p(w X, Y)? För att ta reda på det kan vi här välja att först beräkna p(w, w X, Y) vilket som vanligt ger ett mått på sannolikheten att den sanna parameterkombinationen ligger i ett visst litet intervall kring punkten (w, w ). Att det sanna värdet på w samtidigt skulle kunna anta två olika värden, säg w i och w, j är förstås uteslutet vilket i sin tur innebär att parameterkombinationerna (w, w) i och (w, w j ) också är uteslutande utsagor. Därför kan vi applicera summaregeln i stil med eemplet ovan fast med skillnaden att summan övergår i en integral eftersom nuissance-parametern w här är en kontinuerlig variabel. Alltså, p(w X, Y) ges av p(w X, Y) = p(w, w X, Y)dw. (4)

Det återstår att räkna ut p(w, w X, Y). Via Baes sats får vi p(w, w X, Y) = p(y w, w, X )p(w, w X ). (5) p(y X ) Vår bakgrundsinformation om parametrarna säger att de båda ligger i intervallet [, ] och utan någon tterligare information om eventuella samband mellan parameterna så bör vi anta att de är oberoende. Detta innebär att de är a priori likformigt fördelade i kvadraten med hörn i (, ) och (, ) vilket ger p(w, w ) = /4, dvs en konstant. Nämnaren p(y X ) är som vanligt en normeringskonstant så den enda faktorn som beror av w och w är alltså p(y w, w, X ). Om vi kan räkna ut denna faktor som funktion av w och w så räcker det med att normera denna funktion så har vi vår a-posteriori PDF. I vårt fall får vi att p(w, w X, Y) p(y w, w, X ) = N p( n w, w, n ) = n= (π) N/ σ N e σ N n= ( n w w n ) (6) Låt oss via en simulering se hur vår uppfattning om värdena på w och w ändras i takt med att vi mäter upp er och er datapunkter samt, som en konsekvens, hur p(w X, Y) ändras. I gurerna -3 nedan visas resultaten för ett antal simuleringar med olika antal data, N. Variansen för e n är erad till, σ =.. I simuleringen har vi satt de sanna parametervärdena till w =.5 och w =.5. I gur visas ett antal mätvärdespar (samt kurvan =.5.5 ) och i gur visas den betingade PDF:en p(w, w X, Y). Slutligen visas i gur 3 den betingade PDF:en p(w X, Y) som erhålls via ekv. (4) (integrationen utförs numeriskt) Eempel : Prediktion av utsignal från modell En annan viktig situation där vi kan ha ntta av marginalisering är då vi vill utnttja en modell med osäkra modellparametrar för att prediktera utsignalen,, för en given insignal,. Låt oss igen betrakta modellen i ekv. (3). Anta att vi, precis som ovan, har haft tillgång till uppmätta data X och Y för att uppskatta vilka värden parametrarna w och w har. I de fall då mängden data är stor så brukar det utkristallisera sig en kombination ŵ, ŵ (MAP-skattningen) som totalt dominerar PDF:en p(w, w X, Y). Det naturliga i ett sånt fall är förstås att anta att ŵ, ŵ är de helt korrekta värdena och vi sätter därför in dessa värden direkt i modellen. Vi kan i detta fall modellera ett hittills osett som = ŵ ŵ + e. (7) Notera att vi tar med brustermen e och att vår osäkerhet om därmed beskrivs med en betingad PDF p(, ŵ, ŵ ) = (π) / σ e σ ( ŵŵ ). (8) (Vi har helt enkelt löst ut e och satt in detta i PDF:en för e som enligt antagandet är normalfördelad.) Problem uppstår då N är litet vilket gör p(w, w X, Y) mer utspridd. Vi bör i så fall ta med vår osäkerhet om de korrekta parametervärdena vid beräkningen av p(, X, Y). Vi kan skriva denna PDF som p(, X, Y) = p(, w, w, X, Y)dw dw = { produktregeln} = p(, w, w )p(w, w X, Y)dw dw (9) Notera att vi i den sista integralen har strukit de faktorer som spelat ut sin roll i de betingade fördelningarna. Till eempel har vi i p(, w, w, X, Y) ingen användning av informationen i X och Y eftersom vi ändå dessutom betraktar erade värden på w och w. På liknande sätt så påverkar kännedom om värdet på variabeln inte vår osäkerhet om värdena på w och w. Den sista integralen har en enkel intuitiv tolkning. Den totala osäkerheten om får vi som ett viktat medelvärde av de osäkerheter vi har för olika modellparametrar. Vikten ges av sannolikheten för att parametervärdena är de korrekta. Ett sådant angreppssätt brukar kallas plug-in estimate.

.5.5.5 N =.5 N =.5.5.5.5.5.5.5 N = 5.5 N =.5.5.5.5.5 N = N =.5.5.5.5 Figure : Simulerade data (krss) från modellen =.5.5 + e. Den heldragna kurvan är g() =.5.5. De sanna värdena på w och w är alltså.5 respektive.5. Ett specialfall har vi då träningsdata pekar entdigt på endast en tänkbar parameterkombination, dvs all sannolikhetsmassa är samlad i en punkt. Uttrckt i PDF:er blir det att p(w, w X, Y) = δ(w ŵ, w ŵ ), dvs en s.k deltafunktion med centrum i (ŵ, ŵ ). Integralen ovan ges då av p(, X, Y) = vilket var eakt det vi kom fram till på intuition tidigare. p(, w, w, X, Y)δ((w ŵ, w ŵ )dw dw = p(, ŵ, ŵ ) () MonteCarlo-simuleringar Betrakta återigen modellprediktionseemplet i förra avsnittet. Vi kom fram till att för att modellera på ett bra sätt så borde vi beräkna integralen i ekv. (). Vi kan förstås tänka oss att vi har en stor mängd modellparametrar som vi vill integrera över. Två problem som båda blir allt allvarligare ju er dimensioner vi ska integrera över är följande:. Integraler över era variabler är tterst sällan analtiskt lösbara. egentligen Diracs deltafunktion. 3

.5.5 w w.5 N =.5.5 w.5.5 N =.5.5 w.5 w w.5 N = 5.5.5 w.5.5 N =.5.5 w.5 w w.5 N =.5.5 w.5 N =.5.5 w Figure : Den betingade fördelningen p(w, w X, Y) illustrerat som gråskalebilder. Höga värden motsvaras av svart och låga värden av vitt. Notera att färgskalan är normerad så att mavärdet i varje bild är maimalt svart. Det högsta värdet för de mer isolerade fördelningarna (te de två sista) är i själva verket mcket högre än för de vida fördelningarna (te de fra första).. Numerisk lösning (te mha Simpsons formel) av integraler över era variabler brukar vara mcket beräkningskrävande. I de fall där integralerna erhållits i samband med sannolikhetsberäkningar brukar de dock ofta kunna approimeras med s.k. MonteCarlo-simuleringar. Om vi i eemplet ovan vill beräkna det betingade väntevärdet ŷ() = E[, X, Y] = p(, w, w )p(w, w X, Y)dw dw, så skulle en MonteCarlo-simulering kunna gå till enligt följande:. Dra en parameterkombination (w i, w i ) slumpmässigt ur a posteriori-fördelningen p(w, w X, Y).. För ett givet, generera ett slumpmässigt med hjälp av modellen i ekv. (7) 3. Upprepa från punkt Med detta schema kan vi, för ett t, generera ett antal olika -värden. Fördelningen (histogrammet) för dessa värden kommer att asmptotiskt konvergera mot p(, X, Y). Väntevärdet ŷ() fås till sist genom att ta medelvärdet av de dragna -samplen. Självklart kan vi med hjälp av dessa sampel beräkna väntevärden av i stort sett godtckliga funktioner av. 4

.7 w.6.5 N = w.5 N =.4.5.3.5.5 w.5.5.5 w N = 5.5 N = w.5 w.5.5.5 w 8.5.5 w w 6 4 N = w 5 N =.5.5 w.5.5 w Figure 3: Fördelningen p(w X, Y) = p(w, w X, Y)dw uträknad via direkt summering över alla w - värden för a w. Detta följs sedan av normering. Alltså, om vi kan hitta en metod att dra sampel ur en fördelning med någon a posteriori PDF (i det här fallet p(w X, Y) ) så kan vi lösa integraler över denna PDF numeriskt. Tvärr så är det inte alltid helt lätt att generera sampel ur en godtcklig erdimensionell fördelning. Däremot nns det relativt allmängiltiga och någorlunda enkla och eektiva metoder för att dra sampel ur endimensionella fördelningar. Bara för att ni ska få en första inblick i hur sådana metoder kan fungera går vi nedan snabbt igenom den s.k. acceptance/rejection-metoden. Anta att vi vill dra ett sampel ur en fördelning, p(w), med PDF proportionell mot funktionen f(w), dvs { (4 (w) p(w) f(w) = ) < annars () Notera att vi här inte har blandat in någon normeringskonstant. Det enda vi behöver för att kunna utnttja denna teknik är att kurvformen f(w) är känd. Eventuella skalningsfaktorer kommer att försvinna vid hanteringen. Variabeln w kan här endast kan ligga mellan - och. Notera dessutom att det maimala värdet för p(w) fås i w = vilket ger f ma = 4. Vi vet att det är enkelt att generera likformigt fördelade slumptal (Matlabs funktion rand). Detta faktum kan vi här utnttja i acceptance/rejection-metoden. Tekniken kan beskrivas kortfattat enligt följande schema:. Dra ett likformigt fördelat tal, w prop (prop som i proposition) i intervallet [-,].. Beräkna kvoten k = f(w prop )/f ma = f(w prop )/4. 3. Generera ännu ett likformigt slumptal, q, i intervallet [,]. Acceptera w prop som det slutliga samplet om q < k. Detta sker med sannolikheten P (q < k) = k. Annars, börja om från punkt och iterera tills vi får fram ett accepterat värde. 5

Det är relativt lätt att inse att ovanstående schema kommer att ge värden nära noll med större sannolikhet än de som ligger nära +/. Speciellt kommer vi alltid att acceptera värdet w = om vi erhåller detta värde i första steget. Generellt kommer sannolikheten att acceptera ett sampel i ett litet intervall kring w att vara proportionellt mot f(w)/f ma. Notera att inget hindrar att vi använder andra fördelningar än den likformiga för att generera w prop. Tekniken fungerar väl i de situationer då det går att hitta en enkel fördelning som vi kan dra w prop ifrån och vilken kan skalas så att den alltid är större än f(w). Ju bättre dessa PDF:er är matchade desto färre sampel behöver förkastas och desto eektivare blir metoden. I princip kan man dessutom lätt generalisera metoden så att den kan tillämpas på erdimensionella fördelningar. Det stora problemet som gör att tekniken snabbt förlorar i praktisk användbarhet då dimensionen ökar är att erdimensionella fördelningar generellt sett är betdligt glesare än endimensionella. Detta innnebär acceptance/rejection-algoritmen slösar bort större delen av tiden på att förkasta w prop. En tänkbar lösning på detta problem får vi via s.k. Markov Chain Monte Carlo-metoder, te Gibb's sampling eller MetropolisHastings. Fortsättning följer! 6