SF1901: Sannolikhetslära och statistik Föreläsning 5. Flera stokastiska variabler. Jan Grandell & Timo Koski 31.01.2012 Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 1 / 30
Flerdimensionella stokastiska variabler Ofta mäter vi i samma slumpförsök flera storheter, och då beskrivs resultatet av en n-dimensionell stokastisk variabel (X 1, X 2,..., X n ). Exempel Slumpförsöket är att vi väljer en person slumpmässigt här i rummet, och sätter X = personens vikt; Y = personens längd. Vi nöjer oss med att ge detaljer i det två-dimensionella fallet. Låt (X,Y) vara en två-dimensionell s.v. F X,Y (x, y) = P(X x, Y y) kallas (den simultana) fördelningsfunktionen för (X, Y ). F X (x) = P(X x) = P(X x, Y ) = F X,Y (x, ) kallas den marginella fördelningsfunktionen för X. F Y (y) = F X,Y (, y) kallas den marginella fördelningsfunktionen för Y. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 2 / 30
Flerdimensionella stokastiska variabler Definition X och Y är oberoende stokastiska variabler om F X,Y (x, y) = F X (x)f Y (y) obs! Detta bör gälla för ALLA (x, y). Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 3 / 30
Flerdimensionella stokastiska variabler Definition (X 1, X 2,..., X n ) är oberoende stokastiska variabler om F X1,...,X n (x 1,..., x n ) = P(X 1 x 1,..., X n x n ) = F X1 (x 1 ) F Xn (x n ). Omvänt gäller att om X 1, X 2,..., X n är oberoende s.v. så fås den simultana fördelningen enl. definitionen ovan. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 4 / 30
Simultan sannolikhetsfunktion (X,Y) är en diskret två-dimensionell s.v., om där F X,Y (x, y) = j=0 k=0 0 j [x] 0 k [y] p X,Y (j, k)dudv p X,Y (j, k) = 1, p X,Y (j, k) 0. Funktionen p X,Y (i, k) kallas den simultana sannolikhetsfunktionen för (X, Y ). Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 5 / 30
Simultan täthet (X,Y) är en kontinuerlig två-dimensionell s.v., om där F X,Y (x, y) = x y f X,Y (u, v)dudv f X,Y (x, y)dxdy = 1, f X,Y (x, y) 0. Funktionen f X,Y (x, y) kallas den simultana täthetsfunktionen för (X, Y ). Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 6 / 30
Marginalfördelningar fört kontinuerliga s.v.er Låt (X,Y) vara en kontinuerlig två-dimensionell s.v.. Den marginella fördelningsfunktionen för Y är F Y (y) = F X,Y (, y) = och f Y (y) = d dy F Y (y) = y f X,Y (x, v)dxdv f X,Y (x, y)dx är den marginella täthetsfunktionen för Y. Analogt är f X (x) = d dx F X(x) = den marginella täthetsfunktionen för X. f X,Y (x, y)dy Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 7 / 30
Oberoende stokastiska variabler Definition X och Y är oberoende stokastiska variabler om f X,Y (x, y) = f X (x)f Y (y) Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 8 / 30
Normalfördelade stokastiska variabler X N(0, 1), Y N(0, 1) ϕ X (x) = 1 2π e x2 /2 ϕ Y (y) = 1 2π e y2 /2 ϕ X (x) ϕ Y (y) = 1 2π e (x2 +y 2 )/2 Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 9 / 30
Produkten ϕ X (x) ϕ Y (y) Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 10 / 30
X Exp(2), Y Exp(2), oberoende Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 11 / 30
Väntevärdet av g(x, Y ) Sats Låt (X, Y ) vara en tvådimensionell s.v. Då gäller { E [g(x, Y )] = g(x, y)f X,Y (x, y)dxdy för (X, Y ) kontinuerlig, k=0 j=0 g(k, j)f X,Y (k, j) för (X, Y ) diskret. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 12 / 30
Väntevärdet av g(x, Y ) = X + Y Sats Låt (X, Y ) vara en tvådimensionell s.v. Då gäller E [X + Y ] = E [X] + E [Y ] Bevis. Låt (X, Y ) vara en kontinuerlig tvådimensionell s.v.. Den föregående satsen visar med g(x, y) = x + y att = = x xf X,Y (x, y)dxdy + (x + y)f X,Y (x, y)dxdy = f X,Y (x, y)dydx + xf X (x)dx + y yf X,Y (x, y)dxdy f X,Y (x, y)dxdy yf Y (y)dy = E [X] + E [Y ] Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 13 / 30
Kovarians och korrelationskoefficient Låt (X, Y ) vara en tvådimensionell s.v. där vi är intresserade av sambandet mellan X s och Y s variation. Det kan vara natuligt att betrakta variablerna X µ X och Y µ Y. Vi skiljer på fallen då X och Y samvarierar resp. motverkar varandra, dvs. då ett stort/litet värde på X gör ett stort/litet värde på Y troligt resp. ett stort/litet värde på X gör ett litet/stort värde på Y troligt. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 14 / 30
Kovariansen mellan X och Y Betraktar vi nu variabeln (X µ X )(Y µ Y ), så innebär detta att den i första fallet, eftersom + + = + och = +, att den har en tendens att vara positiv. På motsvarande sätt, eftersom + = och + =, har den i andra fallet en tendens att vara negativ. Det som vi, lite slarvigt, har kallat tendens, kan vi ersätta med väntevärde. Vi leds då till följande definition. Definition Kovariansen mellan X och Y är där µ X = E(X) och µ Y = E(Y ). C(X, Y ) = E[(X µ X )(Y µ Y )], Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 15 / 30
Kovariansen mellan X och Y Sats Kovariansen mellan X och Y är där µ X = E(X) och µ Y = E(Y ). Bevis. : C(X, Y ) = E[XY ] µ X µ Y, C(X, Y ) = E[(X µ X )(Y µ Y )] = E[XY X µ Y µ X Y + µ X µ Y ] = E[XY ] E[X µ Y ] E[µ X Y ] µ X µ Y ] = E[XY ] µ Y E[X] µ X E[Y ] µ X µ Y = E[XY ] µ Y µ X µ X µ Y + µ X µ Y = E[XY ] µ Y µ X Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 16 / 30
Kovariansen mellan oberoende X och Y Sats Om X och Y är oberoende, så C(X, Y ) = 0. Bevis. : Vi tittar på C(X, Y ) = E[XY ] µ X µ Y. Låt oss betrakta det kontinuerliga fallet. Med funktionen g(x, y) = x y får vi E[XY ] = x yf X,Y (x, y)dxdy och antagandet om oberoende, f X,Y (x, y) = f X (x)f Y (y), ger = x yf X (x)f Y (y)dxdy = xf X (x)dx yf Y (y)dy = µ X µ Y. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 17 / 30
Korrelationskoefficienten mellan X och Y Kovariansen kan sägas ha fel sort. Det verkar rimligt att ett mått på ett så abstrakt begrepp som samvariation skall vara sortfritt. Det vanligaste måttet är korrelationskoefficienten. Definition Korrelationskoefficienten mellan X och Y är ρ = ρ(x, Y ) = C(X, Y ) D(X)D(Y ). Man kan visa att ρ 1, där ρ = ±1 betyder att det finns ett perfekt linjärt samband, dvs. Y = ax + b. Sats Om X och Y är oberoende så är de okorrelerade, dvs. ρ(x, Y ) = 0. Omvändningen gäller ej, dvs. okorrelerade variabler kan vara beroende. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 18 / 30
Exempel Den simultana sannolikhetsfunktionen för stokastiska variablerna X och Y med p X,Y (j, k) X /Y 0 1 2 3 0 0.2 0 0 0 1 0 0.1 0.1 0 2 0 0.1 0.1 0 3 0 0 0 0.4 Marginalfördelning för X: p X (0) = 0.2 + 0 + 0 + 0 = 0.2, p X (1) = 0 + 0.1 + 0.1 + 0 = 0.2 p X (2) = 0 + 0.1 + 0.1 + 0 = 0.2, p X (3) = 0 + 0 + 0 + 0.4 = 0.4 Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 19 / 30
Exempel (forts.) På samma sätt fås marginalfördelning för Y : p Y (0) = 0.2, p Y (1) = 0.2 p Y (2) = 0.2, p Y (3) = 0.4. X och Y är INTE oberoende, ty, t.ex., p X (0) p Y (0) = 0.2 0.2 = 0.04 = 0.2 = p X,Y (0, 0) Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 20 / 30
Exempel (forts.): E(X) = 0 0.2 + 1 0.2 + 2 0.2 + 3 0.4 = 1.8. samt E(Y ) = 1.8. E ( X 2) = 0 2 0.2 + 1 2 0.2 + 2 2 0.2 + 3 2 0.4 = 4.6. V (X) = E ( X 2) E (X) 2 = 4.6 1.8 2 = 1.36 = V (Y ). Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 21 / 30
Exempel (forts.): Kovarians och korrelation Kovariansen E(X Y ) = 0 0 0.2 + 1 1 0.1 +1 2 0.1 + 2 1 0.1 + 2 2 0.1 + 3 3 0.4 = 4.5 C(X, Y ) = E(X Y ) E (X) E (Y ) = 4.5 1.8 1.8 = 1.26 Korrelationskoefficienten ρ(x, Y ) = C(X, Y ) V (X) V (Y ) = 1.26 1.36 1.36 Vad säger detta? = 1.26 1.36 = 0.926. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 22 / 30
Mer om väntevärden Sats Låt (X, Y ) vara en tvådimensionell s.v. Då gäller (1) E(aX + by ) = ae(x) + be(y ); (2) V (ax + by ) = a 2 V (X) + b 2 V (Y ) + 2abC(X, Y ). Bevis. (1) har visats ovan. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 23 / 30
Mer om väntevärden: Bevis av (2) (2) fås av följande V (ax +by ) = E[(aX +by aµ X bµ Y ) 2 ] = E[(aX aµ X +by bµ Y ) 2 ] = E[a 2 (X µ X ) 2 + b 2 (Y µ Y ) 2 + 2ab(X µ X )(Y µ Y )] = a 2 V (X) + b 2 V (Y ) + 2abC(X, Y ). Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 24 / 30
Mer om väntevärden Följdsats Låt X och Y vara två oberoende (okorrelerade räcker) s.v. Då gäller E(X + Y ) = E(X) + E(Y ) V (X + Y ) = V (X) + V (Y ) E(X Y ) = E(X) E(Y ) V (X Y ) = V (X) + V (Y ). Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 25 / 30
Mer om väntevärden Detta går att utvidga till godtyckligt många variabler: Sats Låt X 1,..., X n vara oberoende (okorrelerade räcker) s.v. och sätt Y = c 1 X 1 +... + c n X n. Då gäller och E(Y ) = c 1 E(X 1 ) +... + c n E(X n ) V (Y ) = c 2 1V (X 1 ) +... + c 2 nv (X n ) Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 26 / 30
Arimetiskt medelvärde X = 1 n n X i i=1 Sats Låt X 1, X 2,..., X n vara oberoende och likafördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att E(X) = µ, V (X) = σ2 n och D(X) = σ n. Uttrycket X 1, X 2,..., X n är likafördelade betyder att de stokastiska variablernas fördelningar, dvs. att de stokastiska variablernas statistiska egenskaper, är identiska. Utfallen av variablerna varierar dock. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 27 / 30
Stora talens lag X = 1 n n i=1 X i Sats Stora talens lag För varje ε > 0 gäller Bevis. Enl. Tjebysjovs olikhet gäller P( X µ > ε) 0 då n. då n. P( X µ > ε) V (X) ε 2 = σ2 nε 2 0 Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 28 / 30
Summans fördelning Låt X och Y vara två oberoende kontinuerliga stokastiska variabler med tätheter f X (x) och f Y (y). Sätt Z = X + Y. Då gäller F Z (z) = P(X + Y z) = P((X, Y ) {(x, y); x + y z}) = f X (x)f Y (y) dx dy x+y z (fixera x och integrera över y) ( z x ) = f X (x) f Y (y) dy dx = f X (x)f Y (z x) dx. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 29 / 30
Summans fördelning Z är också en kontinuerlig stokastisk variabel. Derivation map. z ger Denna operation kallas faltning. f Z (z) = F Z (z) = f X (x)f Y (z x) dx. Jan Grandell & Timo Koski () Matematisk statistik 31.01.2012 30 / 30