Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative probability function Expected value Variance Standard deviation Bernoulli distribution Stokastisk variabel (slumpvariabel) Diskret Kontinuerlig Sannolikhetsfördelning Sannolikhetsfunktion Fördelningsfunktion Väntevärde Varians Standardavvikelse Bernoullifördelning 1
Stokastisk variabel En stokastisk variabel är en kvantitativ variabel vars värde bestäms av ett slumpförsök. (Annat namn: slumpvariabel) Utfallet av slumpförsöket bestämmer vilket värde den stokastiska variabeln skall anta. Innan slumpförsöket äger rum, vet vi inte vilket värde den kommer att anta. Men vi kan i förväg säga vilka som är dess möjliga värden. Exempel på stokastiska variabler: 1. Antal prickar vid ett kast med en tärning. Summan av antal prickar vid två tärningskast 3. Antal kast tills man för första gången får en sexa 4. Antal flickor i en slumpmässigt vald trebarnsfamilj 5. Längden hos ett slumpmässigt valt nyfött barn 6. Livslängden hos en slumpmässigt vald glödlampa 7. Årsinkomsten i ett slumpmässigt valt hushåll. Vilka är de möjliga värdena för dessa stokastiska variabler?
Stokastiska variabler kan vara diskreta eller kontinuerliga. En diskret stokastisk variabel kan anta ett ändligt (eller uppräkneligt oändligt) antal möjliga värden. En kontinuerlig stokastisk variabel kan anta alla värden inom ett intervall på den reella talaxeln (intervallet kan ha oändlig utsträckning). Vilka av de stokastiska variablerna i exemplet ovan är diskreta och vilka är kontinuerliga? 3
Sannolikhetsfördelning för en diskret stokastisk variabel Beteckningsprincip: Stokastiska variabler betecknas med stora bokstäver: X, Y, Z etc. Ett numeriskt värde som antas av en stokastisk variabel betecknas med motsvarande lilla bokstav: x, y, z etc. Ex.: Låt X = antal prickar vi kommer att få vid ett (ännu inte utfört) tärningskast. Nu kastar vi tärningen och får en trea. Då säger vi att den stokastiska variabeln X har antagit värdet x = 3. Eftersom slumpen bestämmer vilket värde X skall anta, så kan vi tala om sannolikheten att X antar olika värden. Vi låter P(x) beteckna slh för händelsen att den diskreta stokastiska variabeln X skall anta det numeriska värdet x, dvs. P(x) = P(X = x) 4
Funktionen P(.) kallas för den stokastiska variabelns sannolikhetsfunktion. Det måste gälla att: 0 P(x) 1 för alla x P( x) = 1 Alla x Om vi känner till sannolikheten P(x) för alla möjliga värden, x, som den diskreta stokastiska variabeln X kan anta, så säger vi att vi känner till sannolikhetsfördelningen för X. Slh-fördelningen för en diskret stokastisk variabel kan presenteras (1) i tabellform, eller () med stolpdiagram, eller (3) med en formel. Ex.: Slumpförsöket = två kast med ett mynt. Utfallsrum: {(kr,kr), (kr,kl), (kl,kr), (kl,kl)} Alla utfall antas ha lika slh, 0,5. Låt X = antal krona i de två kasten. (Forts.) 5
Utfall, O Slh, P(O) X antar värdet kr, kr 0,5 kr, kl 0,5 1 kl, kr 0,5 1 kl, kl 0,5 0 Summa 1,00 Slh-fördelningen för X blir följande, i tabellform: x P(x) 0 0,5 1 0,50 0,5 Summa 1,00 eller som stolpdiagram: 0,5 0,4 Sannolikhetsfördelningen för X P(x) 0,3 0, 0,1 0,0 0 1 x 6
Hur kan man uttrycka slh-fördelningen med en formel? Fördelningsfunktionen, F(x), är en funktion som för varje givet tal x anger slh att X skall anta ett värde mindre än eller lika med talet x, dvs. F(x) = P(X x) I exemplet ovan ser fördelningsfunktionen ut så här (komplettera bilden!): 1,0 0,8 Fördelningsfunktionen för X F(x) 0,6 0,4 0, 0,0 0,0 0,5 1,0 x 1,5,0 7
Väntevärde och varians En stokastisk variabels slh-fördelning kan (på samma sätt som en empirisk fördelning) beskrivas med hjälp av lägesmått och spridningsmått. Lägesmått: väntevärde (motsvarar medelvärde). Spridningsmått: standardavvikelse. Väntevärdet för den stokastiska variabeln X definieras som E ( X ) = x P( x) ( = µ Alla x X ) Ex.: (Forts. på föreg. ex.) X = antal krona vid två kast med ett mynt. E(X) = µ X = 0 0,5 + 1 0,50 + 0,5 = 1 Frekventistisk tolkning av väntevärde: E(X) kan tolkas som genomsnittsvärdet av X i det långa loppet. (En lång serie oberoende upprepningar av försöket. Varje gång observeras vilket värde X antar. Genomsnittet bildas av dessa värden.) 8
På analogt sätt definieras E[g(X)], när g(x) är en funktion av X: E[g(X)] = g( x) P( x) Alla x Kan tolkas som ett genomsnittsvärde av g(x) i det långa loppet. Variansen för den stokastiska variabeln X definieras som Var( X ) = E[( X µ ) ] = ( x µ σ X ( = ) X Alla x X ) P( x) Med standardavvikelsen för X menas den positiva kvadratroten ur variansen, σ X = Var(X ) Ex.: (Forts.) Variansen blir Var(X) = (0-1) 0,5 + (1-1) 0,50 + (-1) 0,5 = 0,50 = σ Forts. X 9
och standardavvikelsen blir σ X = 0,50 0,7071 Ibland lättare att beräkna variansen enligt formeln: Var(X) = E(X ) µ = X [ x p( x)] µ X Alla x Ex.: (Forts.) Variansen kan beräknas såsom Var(X) = [0 0,5 + 1 0,50 + 0,5] 1 = 0,50 Ex.: X = antalet prickar vid ett tärningskast. Värdena 1,, 3, 4, 5, 6 antas med lika slh = 1/6. E(X) = 1 (1/6) +... +6 (1/6) = 7/ E(X ) = 1 (1/6) + + 6 (1/6) = 91/6 Var(X) = E(X ) = 35/1,9 µ X = (91/6) (7/) 10
Räkneregler för väntevärde och varians Antag att vi redan känner till väntevärde och varians för en stokastisk variabel X. Om nu den stokastiska variabeln Y är definierad som en linjär funktion av X, så kan vi lätt beräkna väntevärde och varians för Y. Om Y = a + b X, så gäller att E(Y) = E(a + b X) = a + b E(X) Var(Y) = Var(a + b X) = b Var(X) Ex.: (=NCT, Ex. 5.5, sid. 146) X = antal arbetsdagar i ett framtida projekt. X antas vara en stokastisk variabel med följande sannolikhetsfördelning: x (= antal arb.-dagar) 10 11 1 13 14 P(x) 0,1 0,3 0,3 0, 0,1 Forts. 11
Kostnaden för projektet består av dels en fast kostnad på $5 000, dels en arbetskostnad på $900 per arbetsdag. Beräkna väntevärde, varians och standardavvikelse för projektets totalkostnad. Med användning av givna definitioner av väntevärde och varians får vi (visa detta!) E(X) = 11,9 och Var(X) = 1,9 Låt nu Y = totalkostnaden. Eftersom så blir Y = 5 000 + 900 X E(Y) = E(5 000 + 900 X) = 5 000 + 900 E(X) = 5 000 + 900 11,9 = 35 710 Var(Y) = Var(5 000 + 900 X) = 900 Var(X) = 900 1,9 = 1 044 900 σ Y = Var( Y ) = 1044 900 = 10,0 1
Ex.: Låt X vara en stokastisk variabel med väntevärde µ X. Av räknereglerna ovan följer (visa!) att E(X µ X ) = 0 Ex.: Standardiserad stokastisk variabel. Låt X vara en stokastisk variabel med väntevärde µ X och varians σ X. Vi bildar nu den standardiserade variabeln Z såsom Z = X µ X σ X Av räknereglerna följer (visa!) att E(Z) = 0 och Var(Z) = 1. En på detta sätt standardiserad stokastisk variabel har alltså alltid väntevärde = 0 och varians = 1. 13
Bernoullifördelningen Vi ska se på några olika slh-fördelningar som brukar användas som sannolikhetsmodeller i vissa typiska situationer. Den första är Bernoullifördelningen. Formell definition: En stokastisk variabel X har en Bernoullifördelning, om den antar endast värdena 0 och 1, med slh 1-P respektive P. (0 P 1) Sannolikhetsfördelningen ser alltså ut så här: x P(x) 0 1-P 1 P För en Bernoullifördelad stokastisk variabel X gäller att E(X) = P Var(X) = P(1-P) Visa! 14
En typisk användning av Bernoullifördelningen är följande: Vi har ett slumpförsök där vi bara är intresserade av ifall en viss händelse A inträffar eller ej. Låt P(A) = P och P( A ) = 1-P. Låt X vara en indikatorvariabel för händelsen A. Dvs. om A inträffar, så blir X = 1, och om A inte inträffar, så blir X = 0. Alltså är X en stokastisk variabel som anger om händelsen A inträffar eller ej. Då har X en Bernoullifördelning med P(X=1) = P. (I många böcker, t.ex. NCT, talar man om A som Success och A som Failure. Men man ska inte tolka dessa termer alltför bokstavligt.) Observera att E(X) = P = P(A) 15
Ex.: Slumpförsök = ett kast med en tärning. Låt X vara indikatorvariabel för händelsen att få sexa. Dvs. X = 0 1 om vi inte får en sexa om vi får en sexa Då har X en Bernoullifördelning med P = 1/6, och E(X) = P = 1/6 Var(X) = P(1-P) = (1/6) (5/6) = 5/36 16