Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence Scatter plot Covariance Correlation Simultant fördelad Simultan sannolikhetsfunktion Marginell sannolikhetsfunktion Betingad sannolikhetsfunktion Oberoende Spridningsdiagram Kovarians Korrelation 1
Simultant fördelade stokastiska variabler Ibland vill vi samtidigt studera flera olika stokastiska variabler, vilkas värde bestäms i ett och samma slumpförsök. Ofta är vi intresserade av hur variablerna eventuellt samvarierar. Ex.: a) Välj slumpmässigt en man från en population av män. X = den valde mannens vikt Y = den valde mannens längd b) Gör två kast med en tärning. X = antal prickar i första kastet Y = antal prickar i andra kastet c) Välj slumpmässigt en familj från en population av familjer. X = antal pojkar i den valda familjen Y = antal flickor i den valda familjen Vi säger att X och Y är simultant fördelade. 2
Generalisering: n simultant fördelade stokastiska variabler X 1, X 2,, X n. Ex.: Slumpförsök = 10 kast med en tärning. X 1 = antal prickar i första kastet X 2 = antal prickar i andra kastet M X 10 = antal prickar i tionde kastet Låt X och Y vara två diskreta stokastiska variabler, som uppträder tillsammans. De har då en simultan sannolikhetsfunktion: P(x, y) = P(X=x och Y=y) = P(X=x Y=y) Den simultana slh-funktionen ger alltså slh för att få olika kombinationer av värden på X och Y. Vi säger att den ger oss den simultana sannolikhetsfördelningen för X och Y. 3
Ex.: En familj väljs slumpmässigt från en population av familjer. X = antalet pojkar; Y = antalet flickor. Antag att den simultana slh-funktionen är följande: Flickor Pojkar y = 0 1 2 3 4 Summa x = 0 0,38 0,16 0,04 0,01 0,01 0,60 1 0,17 0,08 0,02 - - 0,27 2 0,05 0,02 0,01 - - 0,08 3 0,02 0,01 - - - 0,03 4 0,02 - - - - 0,02 Summa 0,64 0,27 0,07 0,01 0,01 1,00 P(En pojke, två flickor) = P(1, 2) = 0,02 P(Inga barn) = P(0, 0) = 0,38 Tabellen visar den simultana fördelningen för X och Y. Summan av alla sannolikheterna är = 1. Marginalerna visar marginalfördelningen för X resp. Y. Den marginella slh-funktionen för X är P(x) = P(X = x) = P( x, Alla y y) Analogt definieras den marg. slh-funktionen för Y. 4
Vi kan också se på betingade sannolikheter. Definitionen är densamma som tidigare, när vi dfinierade betingade sannolikheter för händelser. P ( x y) = P( X = x Y = y) = P( X = x Y = P( Y = y) y) = P( x, y) P( y) I exemplet ovan får vi följande betingade sannolikheter för X, givet Y. OBS alla kolumnsummor blir nu = 1. y=0 1 2 3 4 Marg. x=0 0,59 0,59 0,57 1,00 1,00 0,60 1 0,27 0,30 0,29 - - 0,27 2 0,08 0,07 0,14 - - 0,08 3 0,03 0,04 - - - 0,03 4 0,03 - - - - 0,02 Summa 1,00 1,00 1,00 1,00 1,00 1,00 5
Oberoende stokastiska variabler Finns det, eller finns det inte, någon form av samvariation mellan X och Y? Två stokastiska variabler, X och Y, sägs vara oberoende om (och endast om) P(x, y) = P(x) P(y) för alla par av värden på x och y. Tänk på definitionen av oberoende mellan två händelser A och B: P(A B) = P(A) P(B). Att de stokastiska variablerna X och Y är oberoende är detsamma som att händelserna X=x och Y=y är oberoende händelser för alla kombinationer av värden på x och y. I praktiken: När man vet (t.ex. från tidigare erfarenhet) att två slumpmässiga numeriska storheter inte är relaterade till varandra på något sätt, så brukar man i modellen anta att det är fråga om två oberoende stokastiska variabler. 6
Ex.: Två kast med en tärning. Låt X = antalet prickar i första kastet Y = antalet i andra kastet. Om kasten sker korrekt, så kan resultatet i andra kastet inte påverkas av resultatet i första kastet. Alltså rimligt att anta att X och Y här är oberoende stokastiska variabler. T.ex. P(X=6 Y=6) = P(X=6) P(Y=6) = 1 6 1 6 = 1 36 Ex.: Är X och Y oberoende i exemplet med antal pojkar och flickor ovan? Nej, ty villkoret i definitionen är inte uppfyllt för alla värden på x och y. Vi ser t.ex. att Medan P(X=1, Y=1) = 0,08 P(X=1) P(Y=1) = 0,27 0,27 = 0,0729 0,08 Det räcker för att konstatera att X och Y inte är oberoende. 7
Ex.: X och Y är två stokastiska variabler, som antas oberoende av varandra. X antar värdena 1 och 2 med sannolikheterna 0,4 och 0,6. Y antar värdena 1, 2, 3 med sannolikheterna 0,2, 0,5, 0,3. Den simultana sannolikhetsfördelningen, vid oberoende, får vi genom att multiplicera marginalsannolikheterna: y=1 2 3 Summa x=1 0,08 0,20 0,12 0,4 2 0,12 0,30 0,18 0,6 Summa 0,2 0,5 0,3 1,0 (T.ex. 0,08 = 0,4 0,2 och 0,20 = 0,4 0,5) Definitionen av oberoende stokastiska variabler kan generaliseras till fallet med fler än två variabler: X 1, X 2,, X n är oberoende stokastiska variabler om och endast om P(x 1, x 2,, x n ) = P(x 1 ) P(x 2 ) P(x n ) för alla värden på x 1, x 2,, x n. 8
Kovarians och korrelation för observerade data, repetition (se NCT 2.5 och 3.4) Data: Observationer på två variabler, x och y. Obs. nr. x y 1 x 1 y 1 2 x 2 y 2 M M M n x n y n Kan åskådliggöras i spridningsdiagram: Spridningsdiagram 60 50 y 40 30 20 10 7 8 9 10 11 12 x 13 14 15 16 9
Definition av kovarians för två observerade variabler: s xy = 1 n 1 n i= 1 ( x i x)( y i y) Kovariansen positiv: positivt linjärt samband. Kovariansen negativ: negativt linjärt samband. Korrelationskoefficienten för två observerade variabler är en sorts standardiserad kovarians: r = xy s s x xy s y där s x och s y är standardavvikelsen för x resp. y. Korrelationskoefficienten kan också skrivas: r xy = n ( x x)( y i i i= 1 n n 2 ( xi x) i= 1 i= 1 y) ( y i y) 2 10
Korrelationskoefficienten är ett standardiserat mått på graden av linjär samvariation hos data. r xy och s xy har alltid samma tecken. -1 r xy +1 r xy = 1: perfekt negativ linjär samvariation r xy = 0 : ingen linjär samvariation (men det kan finnas icke-linjär samvariation) r xy = +1: perfekt positiv linjär samvariation Se exempel på sid. 66-68 i NCT. 11
Kovarians och korrelation för stokastiska variabler Vi ska nu definiera kovarians och korrelation för två stokastiska variabler. Med kovariansen för de stokastiska variablerna X och Y menas Cov(X, Y) = σ XY = E[(X µ X )(Y µ Y )] = x µ )( y Alla x Alla y ( µ ) P( x, X Y y) Beräkningsformel: Cov(X, Y) = E(XY) - µ X µ Y = xyp x, y) Alla x Alla y ( µ µ X Y 12
Med korrelationskoefficienten för X och Y menas Cov( X, Y ) σ XY ρ = ρ XY = Corr( X, Y ) = = Var( X ) Var( Y ) σ σ Både Cov(X, Y) och Corr(X, Y) mäter hur mycket linjär samvariation det finns mellan X och Y. Kovariansens värde är lite svårtolkat. Det enda vi kan säga är att positiv kovarians betyder positiv samvariation, och negativ kovarians betyder negativ samvariation. Korrelationen är en standardiserad kovarians, som kan anta värden från 1 till +1. Därigenom lättare att tolka värdet. Följande gäller: Kovariansen och korrelationskoefficienten har alltid samma tecken. Båda mäter graden av linjär samvariation mellan X och Y. Det är alltid så att 1 ρ +1. När ρ = +1, finns det ett perfekt positivt linjärt samband mellan X och Y. När ρ = 1, är det ett perfekt negativt linjärt samband. X Y 13
När ρ = 0, finns inget linjärt samband mellan X och Y. Då är X och Y okorrelerade. Om X och Y är oberoende, så är de också okorrelerade. Men omvändningen gäller inte. X och Y kan vara okorrelerade men ändå beroende. Det kan nämligen finnas ett ickelinjärt samband mellan X och Y. Korrelationskoefficienten ρ kan ses som en sorts teoretisk motsvarighet till den empiriska korrelationskoefficienten, r, som definierades nyss. Ex.: Antag att den simultana fördelningen för X och Y är följande: y=0 1 2 P(x) x=1 0,08 0,12 0,30 0,50 2 0,12 0,18 0,20 0,50 P(y) 0,20 0,30 0,50 1,00 Beräkna korrelationen mellan X och Y. (Svar: ρ = -0,18) 14
Väntevärde och varians för summor mm. X och Y är två stokastiska variabler. Säg att vi är intresserade av summan, X + Y, eller av differensen, X Y. Då gäller följande. E(X + Y) = E(X) + E(Y) E(X Y) = E(X) E(Y) Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) Var(X Y) = Var(X) + Var(Y) 2Cov(X, Y) Specialfall: X och Y okorrelerade. Då är Var(X + Y) = Var(X) + Var(Y) Var(X Y) = Var(X) + Var(Y) OBS X och Y oberoende X och Y okorrelerade. 15
Ett mer generellt resultat än vad NCT ger är följande: För n stokastiska variabler X 1, X 2,, X n och konstanter a 0, a 1, a 2,, a n gäller att: E(a 0 +a 1 X 1 + a 2 X 2 + + a n X n ) = = a 0 +a 1 E(X 1 ) + a 2 E(X 2 ) +...+ a n E(X n ) Om de stokastiska variablerna är parvis okorrelerade gäller dessutom att: Var(a 0 + a 1 X 1 + a 2 X 2 + + a n X n ) = 2 2 2 1 1 2 2 n n = a Var( X ) + a Var( X ) + K + a Var( X ) OBS X 1,, X n oberoende parvis okorrelerade. Ex.: Gör tre kast med en symmetrisk tärning. Beräkna summan av antalet prickar. Vad är väntevärde och varians för summan? För medelvärdet? Ex.: Gör ett kast med en symmetrisk tärning och multiplicera utfallet med tio. Vad är väntevärde och varians? Vad blir det om man i stället adderar tio? 16