Föresläsningsanteckningar 1 Gammafunktionen I flera av våra vanliga sannolikhetsfördelningar ingår den s.k. gamma-funktionen. Γ(p) = 0 x p 1 e x dx vilken är definierad för alla reella p > 0. Vi ska här sammanfatta funktionens viktigaste egenskaper. (a) Γ(p) = (p 1)Γ(p 1) (b) Γ(1) = 1 (c) För positiva heltal n gäller att Γ(n) = (n 1)! (d) Γ( 1 2 ) = π För bevis se Ross sid 231 samt Theoretical Exercise 20 på sid 241 i samma bok. Ibland kan man ha nytta av följande approximation för stora p, den så kallade Stirlings formel: Γ(p + 1) 2πe p p p+ 1 2 när p vilken ska tolkas så att vänsterledet delat med högerledet går mot 1 då p. Beviset överhoppas.
1 2 Lagen om Total Sannolikhet Låt Y = 1 om A inträffar och 0 annars. Notera att E(Y ) = P (A).Genom att tillämpa Theorem 2.1 i kapitel II på Y får vi följande resultat. Sats 2.1 (a) Lagen om total sannolikhet för diskret s.v. X. P (A) = P (A X = x k )p X (x k ) k=1 (b) Lagen om total sannolikhet för kontinuerlig s.v. X. P (A) = P (A X = x)f X (x)dx Den diskreta delen av satsen är den vanliga lagen om total sannolikhet (Guts formel (3.3) på sid 6) med H k = {X = x k } och n =. Vi har alltså fått en kontinuerlig motsvarighet till detta resultat från grundkursen. Den finns inte explicit i Gut, men antyds i Remark 2.1, sid 36, och används i exempel 3.1, sid 41. 3 Bayes Sats Betrakta en tvådimensionell diskret s.v. (X, Y ). Om vi får veta att X = j, ska vi naturligtvis använda p Y X=j (k) som sannolikhetsfördelning för Y. Om vi känner X s fördelning och den betingade fördelningen för X givet Y så kan revideringen från p Y (k) till p Y X=j (k) göras med Bayes sats, se formel (3.4) i Gut. Om vi där sätter in A = {X = j} och H k = {Y = k} får vi p Y X=j (k) = p X Y =k(j)p Y (k) i p X Y =i(j)p Y (i) (1) Anm: Det är lätt att se att grundkursens bevis av (3.4) håller även då n =. Det är den varianten av (3.4) vi använt ovan. 2
Grundkursens version av Bayes sats anger hur sannolikheter för disjunkta händelser ska revideras när vi får veta att A har inträffat. (1) anger hur sannolikhetsfunktionen för Y ska revideras när vi får veta att X = j har inträffat. Hur gör vi om X och Y är kontinuerliga? Genom användning av definitionen av betingad täthetsfunktion får vi f Y X=x (y) = f X,Y (x, y) f X (x) = f X Y =y(x)f Y (y) fx,y (x, t)dt = f X Y =y(x)f Y (y) fx Y =t (x)f Y (t)dt Notera att detta är en direkt kontinuerlig analog till (1) och således kan betraktas som en kontinuerlig version av Bayes sats. Vad gör vi om X är diskret men Y är kontinuerlig? Den betingade fördelningsfunktionen blir F Y X=k (y) = P (Y y, X = k) P (X = k) Använd nu LTS, dvs Sats 2.1 (b), på täljaren så blir den P (Y y, X = k Y = t)f Y (t)dt = Derivering m a p y av (3) ger nu y f Y X=k (y) = P (X = k Y = y)f Y (y) P (X = k) P (X = k Y = t)f Y (t)dt En ny tillämpning av LTS på nämnaren ger nu resultatet i (c)-delen av följande sats, i viken vi sammanfattar de olika varianterna av Bayes sats. Sats 3.1 Bayes sats för stokastiska variabler X och Y. (a) Om X och Y båda är diskreta: p Y X=j (k) = (b) Om X och Y båda är kontnuerliga: f Y X=x (y) = (c) Om X är diskret och Y kontinuerlig: f Y X=k (y) = p X Y =k(j)p Y (k) i p X Y =i(j)p Y (i) f X Y =y (x)f Y (y) f X Y =t(x)f Y (t)dt P (X = k Y = y)f Y (y) P (X = k Y = t)f Y (t)dt Ovanstående resultat tillämpas fr a inom Bayesiansk inferens. Som läsaren säkert redan noterat har vi utelämnat fallet X kontinuerlig och Y diskret. Det är inte svårt att gissa hur satsen ska se ut i detta fall. Huvudanledningen till att vi utelämnar det är att det är mindre vanligt vid de nämnda tillämpningarna. Resultatet i (c) kan användas för att förkorta kalkylerna i Guts två exempel på sid 46-48. Verifiera gärna detta själv! (2) (3) (4) 3
4 Flerdimensionell Normalfördelning - den klassiska definitionen I kapitel V ger Gut inte mindre än tre olika definitioner av den flerdimensionella (multivariata) normalfördelningen. Trots detta saknas en av de vanligaste definitionerna, vilken jag väljer att kalla den klassiska definitionen. Låt oss först notera att om Z är en vektor med oberoende N(0, 1)- fördelade komponenter så är den simultana fördelningen för Z väldefinierad (och väkänd). Definition 4.1 (Den klassiska definitionen) En n-dimensionell stokastisk vektor X är (n-dimensionellt) normalfördelad, om X = AZ + b där Z är en vektor med oberoende N(0, 1)-fördelade komponenter, A är en n n-matris och b är en n-vektor. Antag nu att vi vill skaffa oss en n-dimensionell normalfördelning med en viss, given väntevärdesvektor µ och given kovariansmatris Λ. För att Λ verkligen ska kunna fungera som kovariansmatris krävs att den är en symmetrisk, icke-negativt definit (positivt semi-definit) n n-matris. Från den linjära algebran (kapitel V.1) vet vi då att det finns en n n-matris Λ 1/2 sådan att Λ 1/2 Λ 1/2 = Λ. Matrisen Λ 1/2 är även den symmetrisk och icke-negativt definit. Vi får nu den önskade normalfördelningen genom att sätta X = Λ 1/2 Z + µ Från Theorem 2.2 följer att E(X) = µ och V ar(x) = Λ som önskat. Vi skriver X N(µ, Λ). Notera dock att vi egentligen inte vet ännu att µ och Λ entydigt bestämmer den flerdimensionella normalfördelningen. Det finns nämligen flera A-matriser som ger samma kovariansmatris AA. I princip skulle man kunna tänka sig att dessa gav olika sannolikhetsfördelningar. Att så inte är fallet framgår dock av att den momentgenererande funktonen endast beror av µ och Λ, i kombination med entydighetssatsen för momentgenererande funktioner. 4
Resultaten i Theorem 3.1, Remark 4.1 samt Theorem 5.1 bevisas utgående från den klassiska definitionen på ungefär samma sätt som de bevisas av Gut utifrån hans definition 1. Guts definition 1 blir en sats, som brukar kallas Cramér-Wolds device. Satsen bevisas med hjälp av den momentgenererande funktionen. Övning. Visa att nedanstående båda A-matriser ger samma kovariansmatris AA ( 2 1 1 1 ) (5) ( 5 0 3 5 1 5 ) (6) 5
5 Konvergens i fördelning via f(x) och p(k) d Konvergens i fördelning X n X definieras som att FXn (x) F X (x) då n för alla x där F X är kontinuerlig, se Gut Definition 1.4 i kapitel VI. Vi ska här presentera en sats om hur konvergens i fördelning kan visas med hjälp av sannolikhetsfunktioner resp. täthetsfunktioner. I satsen eftersträvar vi enkla villkor och har därför inte gjort den så generell som möjligt. Sats 5.1 (a) Om såväl X som X 1, X 2,... är diskreta och endast antar ickenegativa heltalsvärden gäller: p Xn (k) p X (k) för k = 1, 2,... X n d X (b) Om såväl X som X 1, X 2,... är kontinuerliga och har täthetsfunktioner gäller: f Xn (x) f X (x) xɛr = X n d X Bevis. (a) Fördelningsfunktionen F (x) för en s.v. på de icke-negativa heltalen kan skrivas som en ändlig summa av p X (k). Detta ger direkt. Implikationen åt andra hållet följer av att vi kan skriva p X (k) = F (k+ 1 2 ) F (k 1 2 ) och k + 1 2 och k 1 2 är kontinuitetspunkter till F X(x). (b) Om vi antar att vi får kasta om integration och lim så gäller F Xn (x) = x f Xn (x)dx x f X (x)dx = F X (x) Vi avstår från att försöka bevisa att den nämnda omkastningen är tillåten (men det är den). 6