Bayesiansk statistik, 732g43, 7.5 hp

Relevanta dokument
Bayesiansk statistik, 732g43, 7.5 hp

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Regressions- och Tidsserieanalys - F4

Statistisk analys av komplexa data

F13 Regression och problemlösning

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 12: Linjär regression

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Regressions- och Tidsserieanalys - F1

Statistisk analys av komplexa data

Statistisk analys av komplexa data

Matematisk statistik för B, K, N, BME och Kemister

Regressions- och Tidsserieanalys - F1

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistisk analys av komplexa data

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik för D, I, Π och Fysiker

oberoende av varandra så observationerna är

STATISTISK ANALYS AV KOMPLEXA DATA

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Enkel och multipel linjär regression

Statistisk analys av komplexa data

Föreläsning 12: Regression

Laboration 2: Styrkefunktion samt Regression

Föreläsning 11: Mer om jämförelser och inferens

Regressions- och Tidsserieanalys - F3

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

10.1 Enkel linjär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

1 Förberedelseuppgifter

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematisk statistik, Föreläsning 5

Laboration 2 multipel linjär regression

Regressions- och Tidsserieanalys - F7

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

MVE051/MSG Föreläsning 14

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen MVE301 Sannolikhet, statistik och risk

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

Lektionsanteckningar 11-12: Normalfördelningen

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Seminarium 4 Regressionsanalys

Formler och tabeller till kursen MSG830

Filoson bakom Bayesiansk statistik med tillämpningar inom hjärnavbildning och budgivningar på ebay

Metod och teori. Statistik för naturvetare Umeå universitet

Grundläggande matematisk statistik

LABORATION 3 - Regressionsanalys

Regressionsanalys av lägenhetspriser i Spånga

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

LABORATION 3 - Regressionsanalys

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Föreläsning 15, FMSF45 Multipel linjär regression

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Regressions- och Tidsserieanalys - F3

Tentamen MVE301 Sannolikhet, statistik och risk

Thomas Önskog 28/

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Tentamen i Matematisk statistik Kurskod S0001M

F11. Kvantitativa prognostekniker

TAMS65 DATORÖVNING 2

Regressions- och Tidsserieanalys - F8

Lycka till!

Multipel Regressionsmodellen

Föreläsning 9: Linjär regression del II

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

REGRESSIONSANALYS. Martin Singull

Laboration 4 R-versionen

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

F7 Polynomregression och Dummyvariabler

Transkript:

Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29

Översikt moment 2: linjär regressionsanalys Bayesiansk linjär regression utan förklaringsvariabler Bayesiansk enkel linjär regression Bayesiansk multipel linjär regression Kod_Moment2.R (kan laddas ned på kurshemsidan) Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 2 / 29

Normal data, okänd varians Modell: Y 1,..., Y n µ, σ 2 iid N(µ, σ 2 ) µ = β 0 där både medelvärdet µ och variansen σ 2 är okända. Modellen kan skrivas som en linjär regressionsmodell utan förklaringsvariabler: y i = β 0 + ɛ i ɛ i iid N ( 0, σ 2 ) Prior: p(µ, σ) Om µ och σ antas oberoende apriori (boken): p (µ, σ) = p (µ) p (σ). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 3 / 29

Normal data, okänd varians Priorn för µ och σ 2 kan också speciceras enligt: p ( µ, σ 2) = p ( µ σ 2) p ( σ 2) Standard icke-informativ prior är en uniform prior för (µ, ln σ): p ( µ, σ 2) 1 σ 2. Fördelen med standard icke-informativ prior: betingade posteriorn p ( µ σ 2) och den marginella posteriorn p ( σ 2) följer kända fördelningar. ger acceptabla resultat om man har mycket data. Nackdelar: om man har lite data bör man specicera en rimligare prior (se oberoende priors i boken), eftersom priorn blir mer viktig vid lite data. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 4 / 29

Normal data, okänd varians, linjär regressionsmodell Modell för linjär regression: Y 1,..., Y n µ, σ 2, x iid N(µ, σ 2 ) µ = βx, där variansen σ 2 är okänd och vektor med förklaringsvariabler x = (1 x 1... x k ) och parametrar β = (β 0 β 1... β k ) i stället för endast µ = β 0 i föregående modell. Om β och σ antas oberoende apriori (boken): p (β, σ) = k j=0 p (β j ) p (σ). Standard icke-informativ prior är här en uniform prior för parametrarna (β, ln σ): p ( ) β, σ 2 1 x σ. 2 Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 5 / 29

Normal data, okänd varians, linjär regressionsmodell Fördelen med den standard icke-informativa priorn p (β, ln σ): betingade posteriorn p ( β σ 2) och den marginella posteriorn p ( σ 2) följer även här kända fördelningar. ger acceptabla resultat om man har mycket data jämfört med antalet förklaringsvariabler i x. Nackdelar: om man har lite data eller många förklaringsvariabler, så bör man specicera en rimligare prior (se oberoende priors i boken). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 6 / 29

Normal data, okänd varians - exempel Ett slumpmässigt urval av 32 bilar har dragits från 1974 Motor Trend US magazine, se datamaterialet mtcars från R:s dataexempel. Slutgiltigt mål: multipel linjär regressionsanalys med den beroende variabeln y = miles/(us) gallon för en bils bränsleförbrukning. 1 miles/gallon motsvarar ungefär 0,43 kilometer per liter. Transformera om y till kilometer per liter. Modell utan förklaringsvariabler: Y 1,..., Y n µ, σ 2 iid N(µ, σ 2 ) µ = β 0 där både medelvärdet µ och variansen σ 2 är okända. Oberoende priors för µ och σ (använd t.ex. webbverktyget för att elicitera priorn): µ N ( 10, 10 2) σ Uniform (0, 20) Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 7 / 29

Normal data, okänd varians - visualisera priors Plotta priors för µ och σ för att plotta dina antaganden apriori. Plotta data y för att se vad dina priors ger för apriori information om antal kilometer per liter. 1 Dra många värden på µ och σ från priorfördelningarna. 2 Dra betingade värden y µ, σ 2 givet värdena i punkt 1. Verkar dina priors rimliga? Om inte, ändra priors för µ och σ tills du blir nöjd. Kontakta experter, t.ex. bilhandlare, bilverkstäder, bilföreningar, etc., om du behöver hjälp med att elicitera en rimlig prior. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 8 / 29

Normal data, okänd varians - kvadratisk approximation Kvadratisk approximation med funktionen map i R-paketet rethinking, se R-koden Kod_Moment2.R. Problem med kvadratisk approximation för σ, eftersom standardavvikelse- eller variansparametrar har en tendens att vara skeva åt höger. Lösning: kvadratisk approximation blir i bland bättre för ln σ. Marginell posteriorfördelning för σ bestäms genom att antilogaritmera posteriorfördelningen för ln σ: σ i = exp [(ln σ) i ], där i är den i:te samplade dragningen från respektive posteriorfördelning. Jämför posteriorfördelningarna för σ med respektive kvadratisk approximation för σ och ln σ. Om ln σ y 1,..., y n N(µ n, σ n ), så följer posteriorfördelningen för σ en log-normal fördelning med parametrar µ n och σ n. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 9 / 29

Normal data, okänd varians - posterior för nya obs. Posteriorn för ŷ i linjär regression utan förklaringsvariabler är posteriorn för medelvärdet µ. Posterior prediktiv fördelning för nya observationer ỹ givet data y 1,..., y n, p (ỹ y). Modellutvärdering med replikerade data (in-sample t): plotta p (ỹ y) genom att dra värden från posteriorfördelningen (µ, σ) y 1,..., y n : 1 Dra många värden på (µ, σ) från posteriorfördelningen. 2 Dra nya observationer ỹ från ỹ µ, σ 2 N(µ, σ 2 ) givet (µ, σ) i punkt 1. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 10 / 29

Normal data, okänd varians - posteriorn för µ, σ Även om µ och σ antas vara oberoende apriori, så tillåts dom vara beroende aposteriori. Funktion för kovariansen mellan µ och σ från posteriorn: vcov (). Korrelationsmatris: cov 2cor (). Dra posteriorvärden för µ och σ direkt från multivariat normalfördelning (kvadratisk approximation): mvrnorm (n = Nsamples, mu = coef (), Sigma = vcov ()) Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 11 / 29

Normal data, okänd varians - uniform prior p (µ, ln σ) Modell: Y 1,..., Y n µ, σ 2 iid N(µ, σ 2 ) Prior: p ( µ, σ 2) ( σ 2) 1 p ( µ σ 2) c p ( σ 2) ( σ 2) 1 Betingad posterior för µ σ 2 : p ( ) µ σ 2, y 1,..., y n p ( y 1,..., y n µ, σ 2) p ( µ σ 2) µ σ 2, y 1,..., y n N ( ȳ, σ 2 /n ) Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 12 / 29

Normal data, okänd varians - uniform prior Marginell posterior för σ 2 : p(σ 2 y 1,..., y n ) = p(µ, σ 2 y 1,..., y n ) dµ = p(y 1,..., y n µ, σ 2 ) p ( µ, σ 2) dµ = σ 2 y 1,..., y n Inv χ 2 (n 1, s 2 ), där s 2 är urvalsvariansen för data y 1,..., y n. Inv χ ( 2 n 1, s 2) är en skalad invers χ 2 fördelning: (n 1) s 2 y σ 2 1,..., y n χ 2 (n 1). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 13 / 29

Normal data, okänd varians - sampla från posteriorn Dra värden från posteriorfördelningen för σ 2 : 1 Dra ett värde f ( σ 2) = (n 1)s2 rchisq i R) σ 2 från χ 2 (n 1). (använd funktion 2 Beräkna det dragna värdet för σ 2, givet värdet f ( σ 2) i punkt 1, enligt: σ 2 = (n 1) s2 f (σ 2 ) 3 Upprepa denna procedur många gånger för att få många dragna värden från posteriorfördelningen för σ 2. Dra värden från den betingade posteriorfördelningen µ σ 2 : µ i σ 2 i, y 1,..., y n N(ȳ, σ 2 i /n), där i är den i:te samplade dragningen från respektive posteriorfördelning för σ 2 och µ σ 2. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 14 / 29

Enkel linjär regression Enkel linjär regression: Modellen kan skrivas som: y i = β 0 + β 1 x i + ɛ i ɛ i iid N ( 0, σ 2 ) Y 1,..., Y n µ i, σ 2 iid N(µi, σ 2 ) µ i = β 0 + β 1 x i, där parametrarna β 0, β 1 och variansen σ 2 är okända. Prior: p(β 0, β 1, σ) Om (β 0, β 1, σ) antas oberoende apriori (boken): p (β 0, β 1, σ) = p (β 0 ) p (β 1 ) p (σ). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 15 / 29

Enkel linjär regression - exempel Enkel linjär regressionsanalys med den beroende variabeln y = miles/(us) gallon för en bils bränsleförbrukning och förklaringsvariabeln x = vikt i ton för en bil. 1 miles/gallon motsvarar ungefär 0,43 kilometer per liter. Transformera om y till kilometer per liter. 1 pound motsvarar ungefär 0,45 kilo. Transformera om x till ton. Modell: Y 1,..., Y n µ i, σ 2 iid N(µ i, σ 2 ) µ i = β 0 + β 1 x i Oberoende priors för (β 0, β 1, σ): β 0 N ( 10, 10 2) β 1 N ( 5, 5 2) ln σ N (ln 10, (ln 2) 2) Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 16 / 29

Enkel linjär regression - posteriorresultat Kvadratisk approximation med funktionen map i R-paketet rethinking, se R-koden Kod_Moment2.R. Sammanfattning av posteriorn sker oftast genom att presentera tabeller och plottar över posteriorresultatet. Plottar av posteriorn ger oftast mer information om posteriorn än vad tabeller ger. All osäkerhet om olika kvantiteter i modellen kan plottas men inte återges i tabeller. Man kan ge mer viktning till tabeller när man blir mer van vid att tolka posteriorresultatet. Typisk tabell inkluderar posterior medelvärdet, standardavvikelsen och kredibilitetsintervall (t.ex. 90.9 % och 95.2 %). Oddset för positiv eller negativ lutning kan beräknas för lutningsparametern β 1. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 17 / 29

Enkel linjär regression - posteriorresultat Hög korrelation mellan interceptet β 0 och lutningen β 1 (r β0,β 1 = 0.957) kan medföra svårigheter att skatta modellen i mer komplicerade modeller med er förklaringsvariabler = Centrera eller standardisera förklaringsvariablerna. Om inte möjliga värden skiljer sig avsevärt mellan förklaringsvariablerna, så räcker det med centrering x c = x x. x x Annars är det bättre med standardisering x s = σ. X Skattade modeller med standardiserade förklaringsvariabler kan vara mer svårtolkade, men man kan konvertera tillbaka till estimationsresultat på originalskala för förklaringsvariablerna. Fördelen med standardiserade förklaringsvariabler är att man kan jämföra magnituderna på lutningsparametrarna för förklaringsvariablerna, eftersom förklaringsvariablernas värden är standardiserade till samma skala. Viktigt om mycket blir signikant pga mycket data. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 18 / 29

Enkel linjär regression - posteriorresultat Plotta den skattade regressionslinjen från map (maximum a posteriori) skattningarna. Alla regressionslinjer från alla posteriordragningar för β 0 och β 1 kan plottas enligt: µ ij = β 0j + β 1j x i, där i gäller för observation i och j är den j:te samplade dragningen från posteriorfördelningen för (β 0, β 1 ). Posteriorfördelningen för förväntad bensinförbrukning för en bil med vikt 1.5 ton (motsvarande vikt för x 0 ): µ 1500, j = β 0j + β 1j x 0, där j är den j:te samplade dragningen från posteriorfördelningen för (β 0, β 1 ). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 19 / 29

Enkel linjär regression - posteriorintervall för y och ŷ Posteriorfördelningen för förväntad bensinförbrukning för alla möjliga bilar som väger mellan 0.8 och 2.4 ton. Kredibilitetsintervall för ŷ i = kredibilitetsintervall för µ i som funktion av olika bilvikter x i en gur. Prediktionsintervall för y i som funktion av olika bilvikter x i en gur. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 20 / 29

Bayesiansk förklaringsgrad Beräkna den klassiska förklaringsgraden för varje samplat värde s från posteriorn: Rs 2 = SSR s SST = n i=1 (ŷ is ȳ) 2 n i=1 (y i ȳ) 2 Gelman et al (2017) argumenterar för att en alternativ förklaringsgrad är bättre, eftersom förklaringsgraden ovan kan leda till R 2 > 1 vid lite data och informativa priorfördelningar, se följande dokument: http://www.stat.columbia.edu/ gelman/ research/unpublished/bayes_r2.pdf Alternativ Bayesiansk förklaringsgrad: Bayesian R 2 s = SSR s SSR s + SSE s = n i=1 (ŷ is ȳ) 2 n i=1 (ŷ is ȳ) 2 + n i=1 (y i ŷ is ) 2 Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 21 / 29

Bayesiansk residualanalys Ej standard med residualanalys i Bayesiansk statistik. Val av modell är subjektivt och det är mer vanligt att utvärdera konkurrerande modeller mot varandra utifrån två huvuddrag: 1 hur bra är modellen på att replikera data (in-sample t) 2 hur bra prediktionsförmåga har modellen (out-of sample t). Om residualanalys används, så kan den utvärderas på vanligt sätt. Obs! För varje observation i data har man en posteriorfördelning över residualen för denna observation: r is = y i ŷ is för varje samplat värde s. Plotta residualerna mot µ för att undersöka om det är konstant variation σ kring µ. Undersök även här hur bra det linjära antagandet verkar vara för hur µ är länkat till förklaringsvariabler. Undersök om residualerna är normalfördelade med histogram. Undersök om residualerna verkar vara beroende av varandra över observationsordning. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 22 / 29

Multipel linjär regression - utvärdera posteriorn för (β, σ) I stort sett alla posteriorutvärderingar kan göras för den multipla linjära regressionsmodellen som för den enkla linjära regressionsmodellen, dvs 1 Tabeller över posteriorresultat för respektive parameters marginella posteriorfördelning, t.ex. medelvärde, standardavvikelse och kredibilitetsintervall. 2 Visualisering av marginella posteriorfördelningen för varje lutningsparameter. Inte viktigt vid kvadratisk approximation eller i fall där posteriorn är lik en multivariat normalfördelning. Fokusera på vissa marginella posteriorfördelningar som visar något avvikande. 3 Oddset för positiv eller negativ lutning kan beräknas för respektive lutningsparametern β j till en förklaringsvariabel j. 4 Visualisering av bivariata posteriorfördelningar kan vara intressant för att undersöka hur eekten från två förklaringsvariabler samvarierar. Contour plots är vanligt. 5 Parametrarnas korrelationsmatris kan redovisas. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 23 / 29

Multipel linjär regression - utvärdera posteriorn för ỹ och ŷ I stort sett alla posteriorutvärderingar kan göras för den multipla linjära regressionsmodellen som för den enkla linjära regressionsmodellen, dvs 1 Posteriorfördelningen för µ kan redovisas för specika värden på vektorn med förklaringsvariabler x. 2 Prediktionsintervall och den prediktiva fördelningen för y kan redovisas för specika värden på vektorn med förklaringsvariabler x. 3 Replikering av data kan jämföras med faktiska data för modellutvärdering. (in-sample t) 4 Prediktioner för nya värden kan redovisas från den prediktiva fördelningen p (ỹ y). Den prediktiva förmågan kan utvärderas mellan modeller utifrån olika prediktionsmått. (out-of sample t) 5 Och mycket annat... Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 24 / 29

Multipel linjär regression - exempel Multipel linjär regressionsanalys med beroende variabel y = miles/(us) gallon för en bils bränsleförbrukning x 1 = manuell växellåda (=1) x 2 = vikt i ton x 3 = antal hästkrafter x 4 = tid i sek på en kvarts mile x 5 = antal framåtväxlar 1 miles/gallon motsvarar ungefär 0,43 kilometer per liter. Transformera om y till kilometer per liter. 1 pound motsvarar ungefär 0,45 kilo. Transformera om x 1 till ton. Standardisera alla förklaringsvariabler förutom dummyvariabeln x 1. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 25 / 29

Multipel linjär regression - exempel Modell: Y 1,..., Y n µ i, σ 2 iid N(µi, σ 2 ) µ i = β 0 + β 1 x 1i + β 2 x 2i + β 1 x 3i + β 2 x 4i + β 1 x 5i = βx i, där variansen σ 2 är okänd och med vektorn av förklaringsvariabler som x i = (1 x 1i... x ki ) för observation i samt vektorn med parametrar β = (β 0 β 1... β k ). Om β och σ antas oberoende apriori (boken): p (β, σ) = k j=0 p (β j ) p (σ). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 26 / 29

Multipel linjär regression - uniform prior p (β, σ 2 ) Modell: Y 1,..., Y n µ, σ 2 iid N(µ, σ 2 ) µ = βx Prior: Betingad posterior: p ( β, σ 2) ( σ 2) 1 p ( β σ 2) c p ( σ 2) ( σ 2) 1 β σ 2, y, X N ( ˆβ, Vβ σ 2 ), ˆβ = ( X ) 1 X X y V β = ( X ) 1 X, där X är en n k matris med förklaringsvariabler. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 27 / 29

Multipel linjär regression - uniform prior p (β, σ 2 ) Marginell posterior för σ 2 x, y : där s 2 = (y x β ) (y x β ) n k σ 2 y Inv χ 2 (n k, s 2 ), Inv χ 2 ( n k, s 2) är en skalad invers χ 2 fördelning: (n k) s 2 σ 2 y χ 2 (n k). Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 28 / 29

Multipel linjär regression - uniform prior: posterior samples Dra värden från posteriorfördelningen för σ 2 : 1 Dra ett värde f ( σ 2) = (n k)s2 rchisq i R) σ 2 från χ 2 (n k). (använd funktion 2 Beräkna det dragna värdet för σ 2, givet värdet f ( σ 2) i punkt 1, enligt: σ 2 = (n k) s2 f (σ 2 ) 3 Upprepa denna procedur många gånger för att få många dragna värden från posteriorfördelningen för σ 2. Dra värden från den betingade posteriorfördelningen β σ 2, y, X : ( ) β i σi 2, y, X N ˆβ, Vβ σi 2, där i är den i:te samplade dragningen från respektive posteriorfördelning för σ 2 X, y och β σ 2, y, X. Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 29 / 29