Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016

Ytterligare begrepp Viktiga begrepp vid dagens föreläsning: Funktioner av slumpvariabler? Väntevärden och varianser för enklare funktioner av slumpvariabler Summor av oberoende variabler: specialfall för normal, binomial och Poisson. Centrala gränsvärdessatsen

Funktioner

Inledning I vissa sammanhang är flera slumpvariabler av intresse, och i synnerhet funktioner av dessa. Antag att vi studerar två slumpvariabler X 1 och X 2. Summan: Tillämpning: totalvärde etc. Differensen: Y = X 1 + X 2, Y = X 1 X 2 Tillämpning: Tillgång och efterfrågan, styrka och last Central fråga: Vad blir fördelningen för Y för olika kombinationer av fördelningar. Svar: I de flesta fall svårt att teckna! Specialfall studeras.

Exempel, diskreta slumpvariabler Tva ta rningar kastas. Bera kna fo rdelningen fo r Y = summan av antalet o gon. Mo jliga va rden pa Y : {2, 3, 4,..., 12} Bildka lla: lemerg.com

Exempel, forts. Utfallsrum samt tillhörande resultat för summan: (1,6) 7 (2,6) 8 (3,6) 9 (4,6) 10 (5,6) 11 (6,6) 12 (1,5) 6 (2,5) 7 (3,5) 8 (4,5) 9 (5,5) 10 (6,5) 11 (1,4) 5 (2,4) 6 (3,4) 7 (4,4) 8 (5,4) 9 (6,4) 10 (1,3) 4 (2,3) 5 (3,3) 6 (4,3) 7 (5,3) 8 (6,3) 9 (1,2) 3 (2,2) 4 (3,2) 5 (4,2) 6 (5,2) 7 (6,2) 8 (1,1) 2 (2,1) 3 (3,1) 4 (4,1) 5 (5,1) 6 (6,1) 7 Klassiska sannolikhetsdefinitionen ger sannolikhetsfunktionen p(y): y 2 3 4 5 6 7 8 9 p(y) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 10 11 12 3/36 2/36 1/36

Oberoende slumpvariabler Definition. Två slumpvariabler X 1 och X 2 kallas oberoende om P({X 1 A} {X 2 B}) = P(X 1 A)P(X 2 B) för alla mängder A och B. Kan generaliseras till flera slumpvariabler, X 1, X 2,..., X n. Jämför sannolikheter för oberoende händelser: P(A B) = P(A)P(B)

Väntevärden och varianser för linjärkombinationer

Räkneregler för väntevärden och varianser Betrakta slumpvariablerna X 1,..., X n. Låt a 1,..., a n vara givna konstanter. Inför en ny slumpvariabel Y = a 1 X 1 + a 2 X 2 + + a n X n Väntevärde: E[Y ] = a 1 E[X 1 ] + a 2 E[X 2 ] + + a n E[X n ] Varians (i fallet att X 1,..., X n är oberoende): V[Y ] = a1v[x 2 1 ] + a2v[x 2 2 ] + + anv[x 2 n ].

Exempel X 1 och X 2 är oberoende slumpvariabler med E[X 1 ] = 1, E[X 2 ] = 1, V[X 1 ] = 5, V[X 2 ] = 7, Ex. 1. Låt Y = 3X 1 + 2X 2. E[Y ] = E[3X 1 + 2X 2 ] = 3E[X 1 ] + 2E[X 2 ] = 3 1 + 2 ( 1) = 1, V[Y ] = V[3X 1 + 2X 2 ] = 3 2 V[X 1 ] + 2 2 V[X 2 ] = 9 5 + 4 7 = 73. Ex. 2. Låt Y = X 1 X 2. E[Y ] = E[X 1 X 2 ] = E[X 1 ] E[X 2 ] = 1 ( 1) = 2, V[Y ] = V[X 1 X 2 ] = V[X 1 ] + ( 1) 2 V[X 2 ] = 5 + 7 = 12.

Exempel Låt X 1 N(1, 4), X 2 N(0, 2.5) vara oberoende slumpvariabler. Väntevärde och varians för Y = X 1 2X 2 ges av E[Y ] = E[X 1 2X 2 ] = E[X 1 ] 2E[X 2 ] = 1 2 0 = 1, V[Y ] = V[X 1 2X 2 ] = 1 2 V[X 1 ] + ( 2) 2 V[X 2 ] = 4 + 4 2.5 = 14.

AKTIVERING! Bildkälla: sodahead.com De oberoende slumpvariablerna X 1 och X 2 har fördelningarna X 1 Po(3), X 2 Po(2). Beräkna väntevärde och varians för Y = 2X 1 + X 2.

Några ytterligare räkneregler PRODUKT. För oberoende slumpvariabler X 1,..., X n med väntevärden E[X 1 ],..., E[X n ] gäller E[X 1... X n ] = E[X 1 ]... E[X n ]. ADDITION AV KONSTANT. För en slumpvariabel X gäller för godtyckliga konstanter a och b att E[aX + b] = ae[x ] + b, V[aX + b] = a 2 V[X ].

Medelvärdesbildning! Betrakta de oberoende slumpvariablerna X 1,..., X n, var och en med väntevärdet µ och variansen σ 2. En speciell linjärkombination ges av konstanterna 1/n, dvs. Y = 1 n X 1 + 1 n X 2 + + 1 n X n. Detta är inget annat än medelvärdet av slumpvariabler: X = 1 n (X 1 + + X n ). Räknereglerna ger E[ X ] = µ, V[ X ] = σ2 n.

VIKTIGASTE FORMELN I KURSEN?! V[ X ] = σ2 n.

Summor av oberoende variabler

Fördelningar för summor Hittills: Väntevärden och varianser för Y, där Y är en linjärkombination av (oftast oberoende) slumpvariabler. Kan man finna fördelningen för Y? Ja, i vissa specialfall. Normalfördelade variabler (linjärkombination) Binomialfördelade variabler (endast summa) Poissonfördelade variabler (endast summa)

Normalfördelningen Låt X 1,..., X n vara oberoende normalfördelade slumpvariabler med väntevärden µ 1,..., µ n och varianser σ 2 1,..., σ2 n. Låt Y = n a i X i + b, i=1 där a 1,..., a n och b är konstanter. Då gäller att där µ Y = E[Y ] = Y N(µ Y, σ 2 Y ), n n a i µ i + b, σy 2 = V[Y ] = ai 2 σi 2. i=1 i=1

Exempel Antag att X 1 N(5, 4), X 2 N(3, 6). Då gäller för Y = 2X 1 + X 2 att där Y N(µ Y, σ 2 Y ) µ Y = 2 5 + 3 = 13, σ 2 Y = 22 4 + 6 = 22.

Exempel: Mätfel Avstånd mäts med ett instrument. Antagande: Mätvärdena är oberoende observationer av normalfördelade slumpvariabler med väntevärdet lika med det sanna värdet och inkluderande ett slumpmässigt mätfel. Modell: Y = a + X där a är det sanna avståndet och X är mätfel, X N(0, σ 2 ). Fördelning för Y? Räknas på tavlan! Bildkälla: sydsvenskan.se

AKTIVERING! Antag att Bildkälla: sodahead.com X 1 N(0, 2), X 2 N(1, 3), X 3 N(0, 4). Finn fördelningen för Y = X 1 + X 2 + X 3.

Exempel: Medelvärdesbildning Antag att X N(20, 5 2 ). Då gäller för medelvärdet X av n oberoende variabler X N(20, 5 2 /n). Täthetsfunktioner. Heldragen kurva: X. Streckad kurva: X, n = 5. Punktstreckad kurva: X, n = 20. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 10 20 30 40

Additionssats: Binomialfördelning Låt X 1 Bin(n 1, p) och X 2 Bin(n 2, p) vara oberoende slumpvariabler. Då gäller för slumpvariabeln att Y = X 1 + X 2 Y Bin(n 1 + n 2, p). OBS 1 Resultatet kan generaliseras till fler än två variabler. OBS 2 Samma parametervärde p för samtliga variabler.

Additionssats: Poissonfördelning Låt X 1 Po(m 1 ) och X 2 Po(m 2 ) vara oberoende slumpvariabler. Då gäller för slumpvariabeln Y = X 1 + X 2 att Y Po(m 1 + m 2 ).

AKTIVERING! Bildkälla: sodahead.com De oberoende slumpvariablerna X 1 och X 2 har fördelningarna X 1 Po(3), X 2 Po(2). Ange fördelningen för Y = X 1 + X 2.

Ett centralt resultat: Centrala gränsvärdessatsen

Centrala gränsvärdessatsen Fråga: Låt Y = X 1 + X 2 + + X n, en summa av oberoende slumpvariabler. Går det att enkelt bestämma fördelningen för Y? Svar: I de flesta fall nej. En approximativ fördelning kan dock anges, om antalet termer är stort.

Centrala gränsvärdessatsen (CGS) Låt X 1, X 2,..., X n vara oberoende, likafördelade slumpvariabler med väntevärde µ och varians σ 2. Då gäller för stora n att är (approximativt) fördelad enligt Y = X 1 + X 2 + + X n Y N(µ Y, σ 2 Y ) där µ Y = nµ, σ 2 Y = nσ2.

Kommentarer, CGS Vad menas med stora n? Något allmänt svar finns inte, avgörande är fördelningens form. Symmetriska fördelningar konvergerar snabbare mot normalfördelningen än skeva. Kan diskreta fördelningar approximeras av (den kontinuerliga) normalfördelningen? Svar ja, approximationen kan dock förbättras med s.k. halvkorrektion. CGS kan också presenteras i en form för medelvärdesbildning (se sid. 110, exempel 5.25).

Quincunx Galtons bean machine Simulering: Bildkälla: galton.org http://www.mathsisfun.com/data/quincunx.html

Exempel Summor av binomialvariabler, X i Bin(1, 0.2), dvs. E[X ] = 0.2, V[X ] = 0.16. Additionssatsen för oberoende binomialvariabler ger Approximation med CGS ger ty 30 0.2 = 6, 30 0.16 = 4.8. Y = X 1 + + X 30 Bin(30, 0.2). Y N(6, 4.8)

Exempel, forts. Sannolikhet 0.0 0.2 0.4 Bin(5,0.2) Sannolikhet 0.00 0.10 0.20 0.30 Bin(10,0.2) 0 1 2 3 4 5 0 2 4 6 8 10 y y Sannolikhet 0.00 0.10 0.20 Bin(20,0.2) Sannolikhet 0.00 0.10 Bin(30,0.2) 0 5 10 15 20 0 5 10 15 20 25 30 y y

AKTIVERING! För slumpvariabeln X gäller E[X ] = 2.5, V[X ] = 0.1. Bildkälla: sodahead.com Betrakta summan av 100 oberoende variabler Y = X 1 + X 2 + + X 100 och finn dess sannolikhetsfördelning.

Exempel En säljare ringer 20 telefonsamtal. Längden av ett samtal anses vara exponentialfördelad med väntevärdet 10 minuter och samtalslängderna anses vara oberoende. (a) Ange fördelningen för den totala samtalstiden. (b) Beräkna sannolikheten att totala samtalstiden överstiger 220 minuter. www.uppvidingetidning.se

Avslutningsvis... Sannolikhetsdelen i kursen är nu genomgången vid föreläsning. Mycket träning återstår på lektioner och egen hand. Begreppen kommer till användning när statistikdelen av kursen tar sin början.