4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används ξ, η, ζ). Alla stokastiska variabler vi stöter på i kursen är reella, vilket innebär att de bara kan anta värden som är reella tal. Den matematiska denitionen lyder: En stokastisk variabel X är en reellvärd funktion med utfallsrummet Ω som denitionsmängd. Tolkningen är att vi 1. utför ett försök och noterar utfallet ω, där ω är något av elementen in försökets utfallsrum Ω, 2. stoppar in utfallet ω i funktionen (den stokastiska variabeln) X, och erhåller värdet X(ω). De möjliga värdena på X(ω) kallas värdemängden för funktionen X, i kursen betecknar denna värdemängd med V. Eftersom vi betraktar reella stokastiska variabler så är V en delmängd av de reella talen R, alternativt hela R. Om V har ett ändligt eller uppräkneligt antal element kallas X en diskret stokastisk variabel. Exempel 4.1. Emil och Emilia spelar ett spel där en slant singlas varje omgång. Om krona hamnar uppåt måste Emil ge 0 kronor till Emilia, och om klave hamnar uppåt måste Emilia ge 0 kronor till Emil. Låt X vara den stokastiska variabel som beskriver Emilias vinst efter den första spelomgången. Det slumpmässiga försöket har utfallsrummet Ω = {krona, klave}. Den stokastiska variabeln X kan anta något av de två värdena X(krona) = 0 och X(klave) = 0, vi har alltså V = { 0, 0}. Eftersom både 0 och 0 är reella tal så är V en delmängd av R (alla reella tal). X kan anta ett ändligt antal (två) värden och är därför en diskret stokastisk variabel. För en diskret stokastisk variabel X denierar vi sannolikhetsfunktionen f genom f(x) = P (X = x), och fördelningsfunktionen F genom F (x) = P (X x). För den stokastiska variabeln i Exempel 4.1 har vi 1/2, om x = 0, f(x) = 1/2, om x = 0, 0, annars, 1
och 0, om x < 0, F (x) = 1/2, om 0 x < 0, 1, om x 0. Om vi känner f(x) (eller F (x)) för varje värde x som den stokastiska variabeln X kan anta, så säger vi att vi känner sannolikhetsfördelningen för X. Ofta säger man bara fördelningen för X när man avser sannolikhetsfördelningen. Om x 1, x 2,... är de möjliga värdena på X, alltså V = {x 1, x 2,...}, och x 1 < x 2 <..., så gäller att k k F (x k ) = P (X x k ) = P (X = x i ) = f(x i ). Ur ovanstående uttryck får vi k k 1 f(x k ) = f(x i ) f(x i ) = F (x k ) F (x k 1 ) och Generellt gäller sambandet P (X > x k ) = 1 P (X x k ) = 1 F (x k ). P (a < X b) = F (b) F (a), om a < b. Exempel 4.2. Låt X vara den stokastiska variabeln från Exempel 4.1. Då är P ( 50 < X 50) = F (50) F ( 50) = 1/2 1/2 = 0. Inom ämnet matematisk statistik är situationen ofta den att vi bara observerar värden på den stokastiska variabeln X utan att känna till den bakomliggande slumpen, alltså det slumpmässiga försök som genererar ω och som i sin tur ger X(ω). Genom att observera stokastiska variabler försöker den matematiske statistikern skaa sig en uppfattning om hur slumpgeneratorn ser ut. I spelet i Exempel 4.1 kan man tänka sig att den matematiske statistikern observerar Emilias vinst i slutet av varje spelomgång utan att veta vilket spel som spelas. Utifrån dessa observationer försöker hen fastställa hur sannolikhetsfördelningen för Emilias vinst ser ut. Väntevärde och varians Låt X vara en diskret stokastisk variabel med värdemängd V = {x 1, x 2,..., x n }. Då är väntevärdet för X E (X) = x i P (X = x i ) = x i f(x i ). 2
Väntevärdet betecknas ofta med µ och är en viktad summa av de möjliga värdena på X där vikterna är sannolikheterna för de möjliga värdena. Variansen för X ges av Var (X) = E ( (X µ) 2) = E ( X 2) µ 2, där µ = E (X) och E ( X 2) = x 2 i P (X = x i ) = x 2 i f(x i ). Variansen betecknas ofta med σ 2. Standardavvikelsen σ för en stokastisk variabel X ges av σ = Var (X). Om variansen (eller standardavvikelsen) är låg så betyder det att värdet på X med stor sannolikhet ligger nära väntevärdet, om variansen är hög är det större spridning. (Om V är en uppräknelig mängd (ej ändlig) ersätts n med i uttrycken ovan.) Exempel 4.. Låt X vara den stokastiska variabeln från Exempel 4.1. Då är V = {x 1, x 2 } = { 0, 0}, och vi får väntevärdet variansen E (X) = 2 x i f(x i ) = x 1 f(x 1 ) + x 2 f(x 2 ) =( 0) 1/2 + 0 1/2 = 0, Var (X) = E ( X 2) µ 2 = x 2 1f(x 1 ) + x 2 2f(x 2 ) µ 2 =( 0) 2 1/2 + 0 2 1/2 0 2 = 000, och standardavvikelsen σ = Var (X) = 000 = 0. Parametriska fördelningar En parametrisk fördelning har ett namn och ett antal parametrar som beskriver fördelningens egenskaper. De diskreta parametriska fördelningar som ingår i kursen är likformig fördelning, hypergeometrisk fördelning, binomialfördelning, samt Poissonfördelning.
Diskret likformig fördelning Om X är likformigt fördelad så har varje möjligt värde på X lika stor sannolikhet att inträa. Om V = {x 1, x 2,..., x n }, där x 1 < x 2 <... < x n, så gäller att f(x i ) = P (X = x i ) = 1/n, för alla i, och F (x i ) = P (X x i ) = i/n, för alla i. Exempel 4.4. Kasta en symmetrisk sexsidig tärning och låt X vara antalet prickar på sidan som hamnar uppåt. Då är X likformigt fördelad på V = {1, 2,, 4, 5, 6}. Vi har exempelvis f(5) = 1/6 och F (5) = 5/6. Hypergeometrisk fördelning Typexemplet för den hypergeometriska fördelningen är dragning utan återläggning. Exempel 4.5. Vi har en urna med kulor, 4 vita och 6 svarta. Vi drar kulor utan återläggning. Låt X beteckna antalet dragna vita kulor. Möjliga värden på X ges av mängden V = {0, 1, 2, }. Antal sätt att välja ut kulor av om ordningen inte spelar någon roll är ( ) = 120. Antalet sätt att välja 0 vita kulor av totalt 4 och svarta kulor av totalt 6 är ( 4 6 0)( ) = 1 20 = 20. Av de 120 kombinationerna av kulor består alltså 20 av enbart svarta kulor, så f(0) = P (X = 0) = 20/120 = 1/6. På samma sätt får vi f(1) = P (X = 1) = f(2) = P (X = 2) = f() = P (X = ) = ( 4 )( 6 1 ( 2) ) = 4 15 ( 4 )( 6 2( 1) ) = 6 6 120 = 1/2, 120 = /, ( 4 )( 6 ( 0) ) = 4 1 120 = 1/0. Kontrollräkning ger f(0) + f(1) + f(2) + f() = 1. Generellt har en hypergeometrisk fördelning parametrarna: N som är totala antalet objekt, n som är antalet dragna objekt, samt p som är andelen objekt med den egenskap man studerar. Den stokastiska variabeln X, som 4
är hypergeometriskt fördelad, representerar antalet dragna objekt med den egenskap man studerar. Om X är hypergeometriskt fördelad skriver man ofta X Hyp (N, n, p). Sannolikhetsfunktionen ges av Väntevärde och varians ges av f(x i ) = P (X = x i ) = E (X) = np och Var (X) = ( Np )( N Np ) x i n x i ( N n). I Exempel 4.5 är N =, n = och p = 4/ = 0.4. Binomialfördelning (N n) np(1 p). N 1 Typexemplet för binomialfördelningen är ett upprepat antal oberoende Bernoulliförsök, där varje enskilt försök har sannolikheten p att lyckas och 1 p att misslyckas. Exempel 4.6. Kasta en symmetrisk sexsidig tärning gånger. Låt X vara totala antalet sexor under de kasten. De möjliga värdena på X ges av V = {0, 1, 2, }. Vi ser varje kast som ett Bernoulliförsök där vi lyckas om vi slår en sexa. Sannolikheten att lyckas är 1/6 och sannolikheten att misslyckas är 5/6. Det nns ( 0) = 1 sätt att misslyckas tre gånger i rad och sannolikheten för detta är (5/6), så f(0) = P (X = 0) = ( ) (5/6) = 125/216. 0 Det nns ( 1) = sätt att lyckas exakt en gång (antingen lyckas man första, eller andra, eller tredje gången) och sannolikheten för vart och ett av dessa sätt är (1/2)(5/6) 2, så ( ) f(1) = P (X = 1) = (1/6)(5/6) 2 = 75/216. 1 På liknande sätt blir ( ) f(2) = P (X = 2) = (1/6) 2 (5/6) = 15/216, 2 ( ) f() = P (X = ) = (1/6) = 1/216. Kontrollräkning ger f(0) + f(1) + f(2) + f() = 1. 5
Generellt har binomialfördelningen parametrarna: n som är totala antalet oberoende Bernoulliförsök, och p som är sannolikheten att ett försök lyckas. Den stokastiska variabeln X, som är binomialfördelad, representerar antalet lyckade försök. Om X är binomialfördelad skriver man ofta X Bin (n, p). Sannolikhetsfunktionen ges av f(k) = P (X = k) = Väntevärde och varians ges av ( n k ) p k (1 p) n k, för k = 0, 1,..., n. E (X) = np och Var (X) = np(1 p). I Exempel 4.6 är n = och p = 1/6. Poissonfördelning Poissonfördelningen är användbar om man är intresserad av hur ofta en händelse inträar i ett givet tids- eller rumsintervall. Den stokastiska variabeln X representerar antalet gånger en händelse inträar i det givna intervallet. Poissonfördelningen har en parameter, λ, som är det genomsnittliga antalet gånger den studerade händelsen inträar i intervallet. Om X är Poissonfördelad med parametern λ skriver man ofta X Poisson (λ). Sannolikhetsfunktionen ges av f(k) = P (X = k) = e λ λ k, för k = 0, 1,.... k! Väntevärde och varians ges av E (X) = λ och Var (X) = λ. Exempel 4.7. En försäkringsbolag tar emot i genomsnitt 5 skadeanmälningar per timme för en specik försäkringsgren. Vi är intresserade av sannolikheten att det sker färre än två skadeanmälningar under en slumpvis utvald timme. Låt X vara antalet anmälningar under den slumpvis utvalda timmen. Vi har X Poisson (5), så f(0) = P (X = 0) = e 5 5 0 0! f(1) = P (X = 1) = e 5 5 1 1! och det följer att = e 5 0.00678, = 5e 5 0.069, P (X < 2) = P (X = 0) + P (X = 1) = f(0) + f(1) 0.0404. 6
Sannolikheten att få färre än två anmälningar under en slumpvis utvald timme är alltså ungefär 4%. Exempel 4.8. Vad är sannolikheten att det inkommer exakt 5 skadeanmälningar till försäkringsbolaget i Exempel 4.7 under en slumpmässigt utvald 8-timmars arbetsdag? Låt Y vara antalet skadeanmälningar under den slumpvis utvalda arbetsdagen. Eftersom det i genomsnitt inkommer 5 anmälningar per timme så inkommer det i genomsnitt 8 5 = 40 anmälningar per arbetsdag till bolaget. Vi antar därför att Y Poisson (40), och det följer att P (Y = 5) = e 40 40 5 5! = 0.04854. Sannolikheten att få exakt 5 anmälningar under en slumpvis utvald arbetsdag är alltså ungefär 5%. Approximationer För att underlätta beräkningar kan man under vissa förutsättningar använda följande approximationer: 1. Om n är stort och p är litet, då kan Bin (n, p) approximeras med Poisson (np). 2. Om n är mycket mindre än N, då kan Hyp (N, n, p) approximeras med Bin (n, p).. Om n är stort och p är litet samt n är mycket mindre än N (alltså båda villkoren ovan), då kan Hyp (N, n, p) approximeras med Poisson (np). 7