Transformer i sannolikhetsteori Joakim Lübeck 28-11-13 För dig som läst eller läser sannolikhetsteori (fram till och med normalfördelningen) och läst eller läser system och transformer (till och med fouriertransform) och undrar vad man kan ha transformer till i sannolikhetsteori. 1 Inledning Transformer är vanliga i många tillämpningar, bland annat för att omvandla ett problem till ett nytt som (förhoppningsvis) är enklare att lösa. I sannolikhetsteori kan man t.ex. räkna ut väntevärden (moment) och vissa sannolikheter genom transformation och derivation. Faltning övergår efter transformation till produkt och många satser är mycket enklare att bevisa med hjälp av transformer. Det finns flera transformer som är användbara för olika ändamål. Här fokuserar jag på en lätt modifierad fouriertransform; dels för att läsaren förväntas vara bekant med den och dels att den har den trevliga egenskapen att existera för alla täthets- och sannolikhetsfunktioner. I sannolikhetsteori kan transformerna formuleras som väntevärden för en funktion av en stokastisk variabel vilket ger en kompakt och smidig notation tillsammans med räknereglerna för väntevärden. För den som vill veta mer (och få en striktare framställning) rekommenderas fortsättningskursen FMSF5: Sannolikhetsteori. 2 Karaktäristisk funktion Väntevärdet av en funktion av en stokastisk variabel X fås ur g(x) f X (x) dx om X är kontinuerlig E(g(X )) = g(k) p X (k) dx om X är diskret. k= Väljer vi t.ex g(x ) = e iûx blir dess väntevärde E(e iûx ) = k= e iûx f X (x) dx e iûk p X (k) dx om X är kontinuerlig om X är diskret (1) (2) som vi känner igen som fouriertransformen av f X respektive fouriertransform i diskret tid av p X. Vid transformation av täthets- eller sannolikhetsfunktion är minustecknet i exponenten mest till besvär så vi kan lika 1
gärna vända på Û-axeln (och kalla den t) och får då e itx f X (x) dx om X är kontinuerlig X (t) = E(e itx ) = e itk p X (k) dx om X är diskret k= (3) som kallas för karakteristisk funktion 1 till X. Fouriertransformen existerar om f X (x) dx är ändlig (och motsvarande i diskreta fallet). För täthets- resp. sannolikhetsfunktioner existerar den alltså alltid (integralen av tätheten resp. summan av sannolikhetsfunktionen är 1) och detsamma gäller den karaktäristiska funktionen. Detta kan även ses med hjälp av triangelolikheten som på väntevärdesform blir X (t) = E(e it ) E( e it ) = E(1) = 1. (4) Detta maxvärde på X (t) fås för t = eftersom X () = 1 (totala arean under tätheten resp. summan av hela slh-funktionen). En egenskap vi kan observera här är att om har X har en fördelning symmetrisk kring noll så har X samma fördelning och karaktäristiska funktion som X och X (t) = E(e itx ) = E(e itx ) = X (t). (5) Om detta skall vara lika med X (t) måste den vara reell för fördelningar symmetriska kring noll. Exempel 2.1. Rektangelfördelning. Om X U (a, b) är f X (x) = 1 b a, a x b och den karaktäristiska funktionen blir X (t) = e itx f X (x)dx = 1 b e itx dx = 1 [ ] e itx b = eitb e iat b a b a it it(b a). (6) a Speciellt ser vi att den blir reell då fördelningen är symmetrisk kring noll (dvs a = b), karaktäristiska funktionen blir då sin bt bt. Exempel 2.2. Bin(1, p)- eller Bernoulli-fördelning. Om X Bin(1, p) antar den endast värdena och 1 med sannolikheterna q = 1 p respektive p. Karaktäristiska funktionen är därför X (t) = k= e itk p X (k) = e it q+e it1 p = q+pe it. (7) Exempel 2.3. Exponentialfördelning. För X Exp(Ð) är f X (x) = Ðe Ðx, x, Ð >. Dess karktäristiska funktion fås till [ ] e X (t) = e itx Ðe Ðx dx = Ð e x(ð it) x(ð it) dx = Ð = (8) (Ð it) [ e xð e itx ] = Ð = Ð (Ð it) Ð it = 1. (9) 1 it/ð Alternativt kan man ta fram fouriertransformen med hjälp av tre formler i formelbladet till system och transformer och sedan ta komplexkonjugat. 1 Karaktäristiska funktionen är alltså komplexkonjugatet av fouriertransformen (eftersom f X resp. p X är reella). a 2
3 Räkneregler 3.1 Inversion För att gå från karaktäristisk funktion till täthets- resp. sannolikhetsfunktion behövs inversionsregler motsvarande de för fouriertransformen. I kontinuerliga fallet fås tätheten f X (x) = 1 2Ô I diskreta fallet fås sannolikhetsfunktionen ur e itx X (t)dt. (1) T p X (k) = lim e itk (t)dt. (11) T T Det viktiga är här att X fördelning unikt definieras av dess karaktäristiska funktion. Ofta kan man identifiera en stokastisk variabels fördelning genom att känna igen den karaktäristiska funktionen för någon standardfördelning och slipper därmed använda inversionsformlerna. 3.2 Linjär funktion av stokastisk variabel För en linjär funktion av en kontinuerlig s.v. X, Y = ax + b, vet vi att Y s täthet kan beräknas ur f X (x) som (Blom[1] exempel 3.18) f Y (y) = 1 a f X ( y b a ). Y s karakteristiska funktion blir (även i diskreta fallet) Y (t) = ax+b(t) = E(e it(ax+b) ) = e ibt E(e itax ) = e ibt x(at). (13) Vi kan här känna igen räknereglerna för förskjutning, skalning och multiplikation med konstant för fouriertransform. I specialfallet a = blir karaktäristiska funktionen e ibt vilket motsvarar en enpunktsfördelning i punkten b. (12) 4 Derivata av karaktäristiska funktionen och beräkning av väntevärden Om vi deriverar karaktäristiska funktionen fås X (t) = d dt E(eitX ) = E(iXe itx ) = ie(xe itx ). (14) Då t = är X () = ie(x ) och vi kan beräkna väntevärdet av X genom E(X ) = ()/i. Andraderivatan blir X (t) = d dt ie(xeitx ) = i 2 E(X 2 e itx ) (15) och E(X 2 ) = X ()/i2 = X (). Allmänt kan man beräkna nollpunktsmoment k som E(X k ) = (k) X () i k (16) 3
om X (t) är deriverbar k gånger i punkten t = (annars existerar inte E(X k )). Genom derivation kan man då beräkna t.ex. Väntevärde: E(X ) = Ñ Varians: E[(X Ñ) 2 ] = E(X 2 ) Ñ 2 (18) Skevhet: 2 E[(X Ñ) 3 ] = E(X 3 ) 3ÑE(X 2 )+2Ñ 3 (19) Exempel 4.1. Bernoulli-fördelning (forts). För Bin(1, p)-fördelningen hade vi X (t) = q+pe it. Första- och andraderivata av denna blir X (t) = pieit, X (t) = pi2 e it. (2) Väntevärde, andra nollpunktsmoment och varians blir därför E(X ) = X ()/i = pie i /i = p (21) E(X 2 ) = X ()/i 2 = pi 2 e i /i 2 = p (22) V (X ) = E(X 2 ) E(X ) 2 = p p 2 = p(1 p) = pq (23) (17) som sig bör. 5 Karaktäristiska funktionen för summor av oberoende stokastiska variabler Om X och Y är oberoende stokastiska variabler kan man få fördelningen för X+Y genom faltning. Summans karaktäristiska funktion blir X+Y (t) = E(e it(x+y ) ) = E(e itx e ity ) = [ober.] = E(e itx )E(e ity ) = X (t) Y (t) (24) dvs produkten av karaktäristiska funktionerna för X och Y. Med n oberoende variabler X i blir karaktäristiska funktionen för summan S n = n X i på samma vis n S n (t) = X i (t). (25) Är dessutom alla X i likafördelade blir det helt enkelt S n (t) = [ X i (t)] n. (26) För medelvärdet mellan oberoende och likafördelade variabler, X = S n /n, blir karaktäristiska funktionen med hjälp av räkneregeln för linjär funktion (13) X (t) = [ X i (t/n)] n. (27) Exempel 5.1. Binomialfördelning. Om X Bin(n, p) så kan X betraktas som en summa av oberoende Bin(1, p)-fördelade stokastiska variabler. Med hjälp av exempel 2.2 och (26) kan vi direkt skriva upp binomialfördelningens karaktäristiska funktion X (t) = (q+pe it ) n. (28) 4
Exempel 5.2. Cauchy-fördelning. Från Spanne[2], exempel 13.3 och 13.6, har vi fouriertransform-paret e x F 2 1+Û2. (29) Transformen liknar täthetsfunktionen för den så kallade Cauchyfördelningen (uppkommer t.ex. som en kvot mellan två oberoende N (, 1)-fördelningar). Med hjälp av relationen mellan transform och inverstransform fås f (x) = 2 1+x 2 F ˆf (Û) = ˆf ( Û) = 2Ôe Û. (3) För att f skall vara en täthet och ˆf dess fouriertransform måste arean under f vara 1 vilket är det samma som att ˆf () = 1. Här är dessutom f och ˆf (som dessutom är reell) symmetriska kring noll vilket leder till att karaktäristiska funktionen och fouriertransformen är identiska. Efter division med 2Ô fås Cauchyfördelningens täthet och dess karaktäristiska funktion f X (x) = 1 1 Ô 1+x 2, X (t) = e t. (31) Funktionerna är plottade i figur 1. Eftersom X (t) inte är deriverbar i punkten t = saknas en-.4 Täthetsfunktion till Cauchy fördelningen.3 f X (x).2.1 4 3 2 1 1 2 3 4 x Karaktäristisk funktion till Cauchy fördelningen 1 φ X (t).5 4 3 2 1 1 2 3 4 t Figur 1: Täthetsfunktion och karaktäristisk funktion till Cauchy-fördelningen. Täthetsfunktionen har arean 1 men går så långsamt mot noll i kanterna att den saknar väntevärde. ligt (16) väntevärde (och därmed även varians). Detta ger att den har en del märkliga egenskaper. Om vi till exempel tittar på karaktäristiska funktionen för medelvärdet mellan n st. oberoende Cauchy-fördelade stokastiska variabler blir den enligt (27) X (t) = [ X (t/n)] n = (e t/n ) n = e t = X (t). (32) Dvs medelvärdet har samma karaktäristiska funktion, och därmed täthetsfunktion, som termerna! Dessutom har X samma fördelning som 1/X vilket ni har (?) visat för en trunkerad positiv Cauchy-fördelning i Blom[1] övningsuppgift 3.29. 5
6 Normalfördelningen För att bestämma karaktäristisk funktion till normalfördelningen kan vi återigen använda resultat från Spanne[2] (exempel 13.4 och sats 13.1). Där härleds fouriertransformparet f (x) = e x2 F ˆf (Û) = Ôe Û2 /4. (33) Här påminner båda funktionerna om tätheten till en normalfördelning. Liksom i föregående exempel är funktionerna symmetriska kring noll så karaktäristisk funktion är även här identisk med fouriertransform. För X N (, 1) är täthetsfunktionen f X (x) = 1 2Ô e x2 /2 = f (x/ 2)/ 2Ô alltså blir, enligt 3.2, X (t) = 2ˆf ( 2 t) 2Ô = e t2 /2. (34) Om Y N (Ñ, ) vet vi att (Y Ñ)/ N (, 1). Vi kan alltså skriva Y = X + Ñ där X N (, 1). Med räkneregel (13) får vi karaktäristisk funktion för Y N (Ñ, ) Y (t) = e iñt X ( t) = e iñt e 2 t 2 /2 = e iñt+ 1 2 2 t 2. (35) 6.1 Linjära funktioner av oberoende normalfördelningar Om vi låter X 1 N (Ñ1, 1) vara oberoende av X 2 N (Ñ2, 2) och bildar Y = a 1 X 1 + a 2 X 2 + b blir Y s karaktäristiska funktion Y (t) = E(e ity ) = E(e it(a 1X 1 +a 2 X 2 +b) ) = E(e ita 1X 1 e ita 2X 2 e itb ) = [ober.] = = e itb E(e ita 1X 1 )E(e ita 2X 2 ) = e itb X 1 (a 1 t) X 2 (a 2 t) = e itb e iñ 1a 1 t+ 1 2 2 1 a2 1 t2 e iñ 2a 2 t+ 1 2 2 2 a2 2 t2 = (36) = e i(ñ 1a 1 +Ñ2a 2 +b)t+ 1 2 ( 2 1 a2 1 + 2 2 a2 2 )t2 Genom att identifiera koefficienterna framför it och t 2 /2 och jämföra med (35) ser vi att Y är normalfördelad Y N (a 1 Ñ1+ a 2 Ñ2+ b, a1 2 2 1 + a2 2 2 2 ). För en linjärkombination av n oberoende normalfördelningar fås på samma sätt Y = b+ n a i X i, där X i N (Ñi, i), ober. (37) Y (t) = e it(b+ n Ñ i)+ t2 n 2 a2 i 2 i (38) n Y N b+ Ñi, n. (39) a 2 i 2 i Vi har här visat detta välbekanta och viktiga resultat med hjälp av transformer, vilket är betydligt enklare än med faltningar eller n-dimensionella integraler 3. Här räknade vi med oberoende variabler men Y blir normalfördelad även då termerna inte är oberoende av varandra (men de ska tillsammans ha en s.k. multivariat normalfördelning), men dess varians innehåller då även kovarianstermer. Detaljerna om detta lämnar vi till fortsättningskursen där multivariat normalfördelning gås igenom grundligt. 3 Jämför t.ex. med den kraftigt förkortade bevisskissen av sats 6.4 (summa av två oberoende normalfördelningar) i Blom[1] 6
7 Stora talens lag och Centrala gränsvärdessatsen 7.1 Serieutveckling av karaktäristiska funktionen Ekvation (16) och Maclaurin... Detta sparar vi till fortsättningskursen. 7.2 Stora talens lag 7.3 Centrala gränsvärdessatsen Referenser [1] Gunnar Blom, Jan Enger, Gunnar Englund, Jan Grandell, and Lars Holst. Sannolikhetsteori och statistikteori med tillämpningar. Studentlitteratur, Lund, 25. [2] Sven Spanne. Lineära System. KFS AB, Lund, 1995. 7