Finansiell Statistik (GN, 7,5 hp, HT 008) Föreläsning Diskreta sannolikhetsfördelningar (LLL kap. 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS, Autumn 008) 1 Stokastisk Variabel En stokastisk variabel (slumpvariabel) är en kvantitativ variabel vars värde bestäms av ett slumpförsök. Utfallet av slumpförsöket bestämmer vilket värde den stokastiska variabeln skall anta. Innan slumpförsöket äger rum, vet vi inte vilket värde den kommer att anta. Men vi kan i förväg säga vilka som är dess möjliga värden. Eempel: (vilka är de möjliga värdena?) Antal prickar vid ett kast med en tärning Summan av antal prickar vid två tärningskast Antal kast tills man för första gången får en sea Antal krona vid två myntkast Antal flickor i en slumpmässigt vald trebarnsfamilj Längden hos ett slumpmässigt valt nyfött barn Livslängden hos en slumpmässigt vald glödlampa Årsinkomsten i ett slumpmässigt valt hushåll.
Diskret eller Kontinuerlig? Stokastiska variabler kan vara diskreta eller kontinuerliga. En diskret stokastisk variabel kan anta ett ändligt (eller uppräkneligt oändligt) antal möjliga värden. En kontinuerlig stokastisk variabel kan anta alla värden inom ett intervall på den reella talaeln (intervallet kan ha oändlig utsträckning). Eempel Stokastiska Variabler Kap. 6 Diskreta Kontinuerliga Kap. 7 & 9 Stokastiska Variabler Stokastiska Variabler 3 Diskreta Stokastiska Variabler kan anta ett ändligt (eller uppräkneligt oändligt) antal möjliga värden. Eempel: Kasta en tärning två ggr Låt vara # ggr man får 4 prickar ( kan anta värdena 0, 1, eller ) Kasta ett mynt 5 ggr. Låt Y vara # krona (Heads) (Y kan anta värdena 0, 1,, 3, 4, eller 5) 4
Diskreta sannolikhetsfördelningar (Sannolikhetsfördelningar för diskreta stokastiska variabler) Slumpförsök: Kasta mynt ggr. Låt # heads. Visa P(), dvs, P( ), för alla möliga värdena på : 4 möjliga utfall T T T H H T H H Sannolikhetsfördelning -värde sannolikhet 0 1/4.5 1 /4.50 1/4.5 Sannolikhet.50.5 0 1 5 Diskret Sannolikhetsfördelning: Egenskaper P() 0 för alla möjliga värde på Sannolikheterna på alla möjliga värde adderas till 1; P() 1 6
Fördelningsfunktionen Fördelningsfunktion (eng. cumulative probability distribution function) betecknas med F( 0 ), och är sannolikheten att är mindre eller lika med 0: F( 0 ) P( 0 ) Med andra ord, F( 0 ) P() 0 7 Väntevärde Väntevärde (eller genomsnittvärde) av en diskret stokastisk variabel är den viktade medelvärde: E() Eempel: Kasta mynt ggr, # of heads, Beräkna väntevärde av : P() E() (0.5) + (1.50) + (.5) 1.0 P() 0.5 1.50.5 8
Varians & Standardavvikelse Varians för en dieskret stokastisk variabel defineras som E( ) ( Standardavvikelse för en dieskret stokastisk variabel defineras som ) P() ( ) P() 9 Standardavvikelse: Eempel Eempel: Kasta mynt (eller en mynt ggr) och låt # heads. (Vi minns E() 1 ). Därför får vi ( ) P() (0 1) (.5) + (1 1) (.50) + ( 1) (.5).50.707 Möjliga # heads 0, 1, or 10
Några speciella Sannolikhetsfördelningar Kap. 6 Diskreta Kontinuerliga Kap. 7 Sannolikhetsfördelningar Sannolikhetsfördelningar Sannolikhetsfördelningar Bernoulli Binomial Hypergeometriska Poisson Likformig Normal Standard Normal Eponential 11 Bernoullifördelningen Diskreta Sannolikhetsfördelningar Bernoulli Sannolikhetsfördelningar Binomia l Hypergeometriska Poisson 1
Bernoullifördelningen En stokastisk variabel har en Bernoullifördelning, om den antar endast värdena 0 och 1 (mots. Failure och Success ), med sannolikheter 1-p respektive p. (0 p 1). Sannolikhetsfördelningen ser alltså ut så här: : 0 1 P(): 1 p Väntevärde och varians E() P() (0)(1 p) + (1)p p E[( ) ] (0 p) ( (1 p) + (1 p) ) p p p() p(1 p) 13 Bernoullifördelningen: typisk användning Vi har ett slumpförsök där vi bara är intresserade av ifall en viss händelse A inträffar eller ej. Låt P(A) p och P( A) 1-p. Låt vara en indikatorvariabel för händelsen A. Dvs. om A inträffar, så blir 1, och om A inte inträffar, så blir 0. Alltså är en stokastisk variabel som anger om händelsen A inträffar eller ej. Då har en Bernoullifördelning med P(A) P(1) p. 14
Bernoullifördelningen: eempel Slumpförsök: ett kast med en tärning. Låt vara indikatorvariabel för händelsen att få sea. Dvs. 1 om vi får en sea, och 0 om vi inte får en sea. Då har en Bernoullifördelning med p 1/6 E() p 1/6 Var() p(1-p) (1/6) (5/6) 5/36 15 Binomialfördelningen Sannolikhetsfördelningar Diskreta Sannolikhetsfördelningar Bernoulli Binomial Hypergeometriska Poisson 16
Binomialfördelningen Används som modell i situation av följande slag: Ett slumpförsök upprepas n gånger (oberoende upprepningar). Varje gång två möjliga resultat: A (Success) och icke- A (Failure). Sannolikheten för A (Success) är densamma varje gång, P(A) p. antalet gånger som A inträffar totalt. Då är en binomialfördelad stokastisk variabel med parametrar n och p. ~Bin(n, p) Hur ser sannolikhetsfunktionen, P(), ut? 17 Binomial sannolikhetsfunktion n P() p ( 1-p) n! för 0,1,..., n. n! ( n - ) p! ( 1-p) n P() Sannolikheten att få successes i n försök, med sannolikhet för successes p vid varje försök. # successes bland n försök ( 0, 1,,..., n) n p stickprovsstorleken (# försök eller # observationer) sannolikheten för success vid varje försök Eempel: Kasta ett mynt 4 ggr. och låt # heads: n 4 p 0.5 1 - p (1-0.5) 0.5 0, 1,, 3, 4
Binomial sannolikhetsfunktion: mer eempel Vad är sannolikheten att få 1 success i 5 försök om sannolikheten för success vid varje försök är 0.1? n 5, p 0.1, och 1 P( 1) n! n P (1 P)!(n )! 5! 1 (0.1) (1 0.1) 1!(5 1)! (5)(0.1)(0.9).3805 4 5 1 19 Binomialfördelningen: form Formen (eng. shape) på binomialfördelningen Mean beror på n och p: Här, n 5 och p 0.1 P().6.4. 0 n 5 p 0.1 0 1 3 4 5 Här, n 5 och p 0.5 n 5 p 0.5 P().6.4. 0 0 1 3 4 5 0
Binomialfördelningen: Väntevärde & varians Väntevärde: E() np Varians (och) standardavvikelse: np(1 np(1 - p) - p) där n stickprovsstorlek p sannolikheten för success (1 p) sannolikheten för failure 1 Väntevärde & varians: eempel np (5)(0.1) 0.5 Mean np(1- p) (5)(0.1)(1 0.1) 0.6708 np (5)(0.5) np(1- p) 1.118.5 (5)(0.5)(1 0.5) P().6.4. 0 n 5 p 0.1 0 1 3 4 5 n 5 p 0.5 P().6.4. 0 0 1 3 4 5
Binomial-tabell (LLL Table A1, sid. A) N p.0 p.5 p.30 p.35 p.40 p.45 p.50 10 0 1 3 4 5 6 7 8 9 10 0.1074 0.684 0.300 0.013 0.0881 0.064 0.0055 0.0008 0.0001 0.0563 0.1877 0.816 0.503 0.1460 0.0584 0.016 0.0031 0.0004 0.08 0.111 0.335 0.668 0.001 0.109 0.0368 0.0090 0.0014 0.0001 0.0135 0.075 0.1757 0.5 0.377 0.1536 0.0689 0.01 0.0043 0.0005 0.0060 0.0403 0.109 0.150 0.508 0.007 0.1115 0.045 0.0106 0.0016 0.0001 0.005 0.007 0.0763 0.1665 0.384 0.340 0.1596 0.0746 0.09 0.004 0.0003 0.0010 0.0098 0.0439 0.117 0.051 0.461 0.051 0.117 0.0439 0.0098 0.0010 Eempel: n 10, 3, P 0.35: P( 3 n 10, p 0.35).5 n 10, 8, P 0.45: P( 8 n 10, p 0.45).09 3 Binomial-tabellen (forts.) Tabell A1 i LLL ger sannolikheterna P() P() ( 0, 1,,, n) för n 1,,, 0 och p 0.05, 0.10, 0.15,, 0.50. Hur gör man när p > 0.5? Man söker för sannolikheten för # Failuire istället (eempel kommer senare). Hur gör man när n > 0? Approimation med hjälp av normalfördelningen (kommer längre fram). Binomialsannolikheter kan även enkelt erhållas med Ecel eller Minitab (för många fler värden på n och p).
Mer eempel (övning) Vi gör 0 kast med ett mynt. Oberoende mellan kasten antas. (a) Vilken fördelning har antalet krona? (b) Bestäm P( 1). (c) Bestäm P( 1). (d) Bestäm P( 15). (e) Bestäm P(8 1). (f) Vad är det förväntade antalet krona? Svar: a) är Bin(0; 0.5). b) P( 1) 0.101 c) P( 1) 0.868 d) P( 15) 1 P( 14) 1 0.979 0.01 e) P(8 1) P( 1) P( 7) 0.868 0.13 0.736 f) E() np 0 (0.5) 10. Mer eempel (övning) Man utför en serie om 1 oberoende försök. Varje gång är sannolikheten 0.8 för att det skall bli ett lyckat försök. (a) Vilken fördelning har antalet lyckade försök? (b) Bestäm P( 10). (c) Bestäm P( 10). (d) Bestäm P(5 < 10). Svar: a) är Bin(1; 0.8). Här kan tabellerna inte användas direkt, eftersom p>0.5. Vi ser i stället på Y antalet misslyckade försök. Vi inser att Y är Bin(1; 0,). Alltså kan tabellerna användas för att bestämma sannolikheter med avseende på Y. b) P( 10) P(10 lyckade försök) P( misslyckade) P(Y ) 0.835 c) P( 10) P(Y ) 1 P(Y 1) 1 0.75 0.75 d) P(5 < 10) P( Y 6) P(Y 6) P(Y 1) 0.996 0.75 0.71
Hypergeometriska fördelningen Diskreta Sannolikhetsfördelningar Bernoulli Binomial Sannolikhetsfördelningar Hypergeometriska Poisson 7 Hypergeometriska fördelningen: Typisk situation Population med N individer, varav N 1 har en viss egenskap, medan de övriga N N N 1 saknar egenskapen. Från populationen väljs (utan återläggning) ett stickprov med n individer. antal individer i stickprovet, som har den aktuella egenskapen. Då är en hypergeometriskt fördelad stokastisk variabel. ~ Hyp(n; N 1 ; N). Varför INTE använda Binomial fördelningen? Hur ser sannolikhetsfunktionen, p(), ut? 8
Hypergeometriska sannolikhetsfunktionen N 1 N n P() N n N 1! N!!(N 1 )! (n )!(N N! n!(n n)! ( n ) )! där N populationsstorlek N 1 # i populationen med en viss egenskap N N N 1 # i populationen utan egenskapen n stickprovsstorleken # i stickprovet med egenskapen n - # i stickprovet utan egenskapen 9 Hypergeometriska sann. funktion: eempel 1 3 datorer undersöks från 10 vid ett institution. 4 av de 10 datorer har programvara som installerats illegalt. Vad är sannolikheten att av de 3 undersökta datorer har den illegala programvaran? N 10 n 3 N 1 4 N 1 N 4 6 n - 1 (6)(6) P( ) 0.3 N 10 10 n 3 Sannolikheten att av de 3 undersökta datorer har den illegala programvaran är 0.30, eller 30%. 30
Hypergeometriska sann. funktion: eempel En låda innehåller tio lampor varav tre är felaktiga. Fem lampor väljs ut slumpmässigt (utan återläggning). (a) Vad är slh att högst en utvald lampa är felaktig? (b) Vad är slh att åtm. en utvald lampa är felaktig? N 10 n 5 N 1 3 < (a) > 0 (b) P( < ) P( 0) + P( 1) 3 7 0 5 1 P( > 0) 1 P( 0) 1 1 10 5 3 11 1 31 Poissonfördelningen Diskreta Sannolikhetsfördelningar Bernoulli Binomial Sannolikhetsfördelningar Hypergeometriska Poisson 3
Poissonfördelningen Används ibland som sannolikhetsmodell, när man studerar hur många gånger en händelse inträffar under ett givet tidsintervall. Inträffandena antas ske i viss mening slumpmässigt i tiden. Inträffandena kan ske vid vilka tidpunkter som helst, oberoende av varandra, och hela tiden med samma intensitet, λ (lambda). antal gånger som händelsen inträffar under ett tidsintervall av given längd. Då är en Poissonfördelad stokastisk variabel med parameter λ. ~ Poisson(λ). 33 Sannolikhetsfunktionen för Poissonfördelning P() e! där: antal gånger som händelsen inträffar under ett tidsintervall av given längd (# success ) λ intensiteten, dvs. förväntade antalet gånger som händelsen kommer att inträffa under en tidsperiod av given längd e base of the natural logarithm system (.7188...) 34
Poissonfördelning: Väntevärde och varians Väntevärde E() Varians och standardavvikelse E[( µ) ] Dvs. för Poissonfördelning är väntevärde och varians lika. 35 Poisson-tabellen (LLL Tabell A, sid. A7) λ 0.10 0.0 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0 1 3 4 5 6 7 0.9048 0.0905 0.0045 0.000 0.8187 0.1637 0.0164 0.0011 0.0001 0.7408 0. 0.0333 0.0033 0.0003 0.6703 0.681 0.0536 0.007 0.0007 0.0001 0.6065 0.3033 0.0758 0.016 0.0016 0.000 0.5488 0.393 0.0988 0.0198 0.0030 0.0004 0.4966 0.3476 0.117 0.084 0.0050 0.0007 0.0001 0.4493 0.3595 0.1438 0.0383 0.0077 0.001 0.000 0.4066 0.3659 0.1647 0.0494 0.0111 0.000 0.0003 Eempel: Beräkna P( ) om λ.50 e λ λ e 0.50 (0.50) P( ).0758!! 36
Graf för Poissonsannolikheter Grafisk: λ.50 0 1 3 4 5 6 7 λ 0.50 0.6065 0.3033 0.0758 0.016 0.0016 0.000 P() 0.70 0.60 0.50 0.40 0.30 0.0 0.10 0.00 0 1 3 4 5 6 7 P( ).0758 37 Poissonfördelningen: form Formen (eng. shape) på Poissonfördelningen beror på parametern λ: 0.70 λ 0.50 λ 3.00 0.5 0.60 0.0 0.50 P() 0.40 0.30 P() 0.15 0.10 0.0 0.05 0.10 0.00 0 1 3 4 5 6 7 0.00 1 3 4 5 6 7 8 9 10 11 1 38
Simultant fördelade stokastiska variabler Ibland vill vi samtidigt studera flera olika stokastiska variabler, vilkas värde bestäms i ett och samma slumpförsök. Ofta är vi intresserade av hur variablerna eventuellt samvarierar. Eempel: a) Välj slumpmässigt en man från en population av män. den valde mannens vikt Y den valde mannens längd b) Gör två kast med en tärning. antal prickar i första kastet Y antal prickar i andra kastet c) Välj slumpmässigt en familj från en population av familjer. antal pojkar i den valda familjen Y antal flickor i den valda familjen Vi säger att och Y är simultant fördelade. 39 Simultant sannolikhetsfunktioner Låt och Y vara två diskreta stokastiska variabler, som uppträder tillsammans. De har då en simultan sannolikhetsfunktion: P(, y) P( Y y) Den simultana slh-funktionen ger alltså slh för att få olika kombinationer av värden på och Y. Vi säger att den ger oss den simultana sannolikhetsfördelningen för och Y. 40
Marginella sannolikhetsfunktioner De marginella sannolikheter får vi enligt nedan: P() P(,y) y P(y) P(,y) Eempel: 41 Betingad sannolikhetsfunktioner Den betingade sannolikhetsfunktionen för Y ger sannolikheten att Y antar värde y för ett specificerat värde på : P(,y) P(y ) P() På liknande sätt, den betingade sannolikhetsfunktionen för ger sannolikheten att antar värde för ett specificerat värde på Y: P(,y) P( y) P(y) 4
Oberoende och Y är oberoende om den simultan sannolikhetsfunktion är lika som produkten av de marginella sannolikhetsfunktionerna : P(, y) P()P(y) för alla värde av och y. Detta kan generaliseras till k stokastiska variabler: 1,,, k är oberoende om P(1,, L,k ) P(1)P( ) LP( k ) 43 Kovarians Låt och Y vara diskreta stokastiska variabler med väntevärde resp. Y Kovarians mellan och Y definieras som väntevärdet av ( - )(Y - Y): Cov(, Y) E[( )(Y Y )] ( )(y y )P(, y) y eller Cov(, Y) E(Y) yp(, y) y y y 44
Kovarians och Oberoende Kovarians mäter linjär samband mellan två variabler: Om två stokastiska variabler är statistisk oberoende, är kovariansen dem emellan 0. Omvänd är det inte alltid sant 45 Korrelation Korrelationen mellan och Y är: Corr(, Y) Cov(, Y) 0 ingen linjär samband mellan och Y > 0 positiv linjär samband mellan och Y när is hög (låg) är det mer sannolikt att Y också är hög (låg) +1 perfekt positiv linjär samband < 0 negativ linjär samband mellan and Y när är hög (låg) är det mer sannolikt att Y är låg (hög) -1 perfekt negativ linjär samband Y 46
Funktioner av Stokastiska Variabler p() är sannolikhetsfördelning för en stokastisk variable g() är någon funktion av Då är väntevärdet för g() E[g()] g()p() 47 Linjära funktioner av stokastiska variabler Låt a och b vara konstanter. Då gäller E(a) a och Var(a) 0 dvs, om en stokastisk variabel antar endast ett värde a då blir väntevärdet (medelvärde) a och variansen blir 0 (det finns ju inga variation!) Vidare gäller E(b) b och Var(b) b dvs, väntevärde (medelvärde) för b är b gånger väntevärdet för, medan variansen för b är b gånger variansen för (diskutera!) 48
Linjära funktioner av stokastiska variabler Låt vara en stokastisk variabel med väntevärde µ och varians Låt a och b vara konstanter. Låt Y a + b Då gäller det att Y E( Y) E(a+ b) E(a) + be() a + b Y Var( Y) Var(a + b) Var(a) + Var(b) b så att standardavvikelsen för Y blir Y b 49 Linjära funktioner av stokastiska variabler: eempel antal arbetsdagar i ett framtida projekt. antas vara en stokastisk variabel med följande sannolikhetsfördelning: ( antal arbetsdagar) 10 11 1 13 14 P() 0.1 0.3 0.3 0. 0.1 Kostnaden för projektet består av dels en fast kostnad på $5 000, dels en arbetskostnad på $900 per arbetsdag. Beräkna väntevärde, varians och standardavvikelse för projektets totalkostnad. Med användning av givna definitioner av väntevärde och varians får vi (se nästa sida för detaljerna) 50
Linjära funktioner av stokastiska variabler: eempel Låt nu Y totalkostnaden. Eftersom Y 5 000 + 900, blir och Y ( antal arbetsdagar) 10 11 1 13 14 Y P() 0.1 0.3 0.3 0. 0.1 P() 10(0.1) + 11(0.3) + 1(0.3) + 13(0.) + 14(0.1) 11.90 E( ) ( ) P() (10 1 1.90 ) (0.1) + (11 1 1.90 ) (0.3) + (1 1 1.90 ) (0.3) + (13 1 1.90 ) (0.) + (14 1 1.90 ) (0.1) E( Y ) E(5000 + 900) 5000 + 900E() 5000 + 900(11.90) 35710 Var( Y ) Var(5000 + 900) ( 900) ( 1.9) 1044900 ( 900) Y 1.9 Var( Y) ( 900) 1.9 1044900 10.0 51 Tillämpning (eempel) Låt den stokastiska variabeln vara värdet på aktie A Låt den stokastiska variabeln Y vara värdet på aktie B Marknadsvärde, W, för portföljen ges av den linjär funktion W a + by där a # aktie A b # aktie B 5
Tillämpning (forts.) Väntevärdet för W: E[W] E[a + by] W a Varians för W: + b W a + b Y + abcov(,y) eller W a + b Y + abcorr(, Y) Y Y 53 Tillämpning (forts.) Avkastning per $1,000 för två investeringstyp Investeringstyp P( i y i ) Marknadsföruts. Passiv fond () Aktiv fond (Y). lågkonjunktur - $ 5 - $00.5 Stadig konjunktur + 50 + 60.3 högkonjunktur + 100 + 350 E() (-5)(.) +(50)(.5) + (100)(.3) 50 E(Y) y (-00)(.) +(60)(.5) + (350)(.3) 95 54
Tillämpning (forts.) Standardavvikelse för Avkastning Investeringstyp P( i y i ) Marknadsföruts. Passiv fond () Aktiv fond (Y). lågkonjunktur - $ 5 - $00.5 Stadig konjunktur + 50 + 60.3 högkonjunktur + 100 + 350 (-5 43.30 50) (0.) + (50 50) (0.5) + (100 50) (0.3) y (-00 95) (0.) + (60 95) (0.5) + (350 95) (0.3) 193.71 55 Tillämpning (forts.) Kovarians för Avkastning Investeringstyp P( i,y i ) Marknadsföruts. Passiv fond () Aktiv fond (Y). lågkonjunktur - $ 5 - $00.5 Stadig konjunktur + 50 + 60.3 högkonjunktur + 100 + 350 Cov(, Y) (-5 50)(-00 95)(.) + (50 50)(60 95)(.5) + (100 50)(350 95)(.3) 850 Cov(, Y) 850 Corr(, Y) 0.986 Y ( 43.30)( 193.1) 56
Tillämpning (forts.) Investment : 50 43.30 Investment Y: y 95 y 193.1 y 850 Om 40% av portföljen (P) är investerad i och 60% i Y, då får vi E(P).4(50) + (.6)(95) 77 P (.4) (43.30) + (.6) (193.1) + (.4)(.6)(850) 133.04 57 Tillämpning (forts.) Den aktiva fonden har högre förväntad avkastning, men också mycket högre risk (variabilitet) y 95 > 50 men y 193.1 > 43.30 Kovariansen på 850 (eller korrelationen på 0.986) visar att de passiva och aktiva investeringar samvarierar starkt i samma inriktning. 58