SF1911: Statistik för bioteknik

SF1911: Statistik för bioteknik Föreläsning 6. TK 14.11.2016 TK Matematisk statistik 14.11.2016 1 / 38

Lärandemål Stokastiska modeller för kontinuerliga datatyper Fördelningsfunktion (cdf) Sannolikhetstäthetsfunktion (pdf) Speciella sannolikhetstäthetsfunktioner Likformig fördelning Expoentialfördelning Normalfördelning Väntevärde och varians Senare (föreläsning 7): Väntevärde och varians för linjära kombinationer av oberoende stokastiska variabler TK Matematisk statistik 14.11.2016 2 / 38

Kontinuerlig stokastisk variabel Det mest allmänna sättet att beskriva X, dvs. hur X varierar, är att ange dess fördelningsfunktion. Definition En s.v. X är kontinuerlig, dess fördelningsfunktion har framställningen F X (x) = x f X (t) dt för någon funktion f X (x). Funktionen f X (x) kallas täthetsfunktionen (pdf) för X. Omvänt gäller att f X (x) = F X (x). TK Matematisk statistik 14.11.2016 3 / 38

Kontinuerlig stokastisk variabel F X (x) = x f X (t) dt, f X (x) = F X (x). 1 f X (x) 0 för alla x. 2 + f X (x) dx = 1. TK Matematisk statistik 14.11.2016 4 / 38

Kontinuerlig stokastisk variabel Täthetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, för små värden på h, P(x < X x + h) = F X (x + h) F X (x) = x+h x f X (t) dt h f X (x). TK Matematisk statistik 14.11.2016 5 / 38

En fördelningsfunktion F X (x) har följande egenskaper: 1) F X (x) är icke-avtagande 1 ; 2) F X (x) 1 då x ; 3) F X (x) 0 då x ; 4) F X (x) är kontinuerlig. 1 d.v.s. x 1 x 2 F X (x 1 ) F X (x 2 ) TK Matematisk statistik 14.11.2016 6 / 38

Beräkning av sannolikheter Låt X vara en kontinuerlig stokastisk variabel. a < b är reella tal, P(a < X b) = F X (b) F X (a) = = b a b f X (t) dt a f X (t) dt f X (t) dt TK Matematisk statistik 14.11.2016 7 / 38

Beräkning av sannolikheter Låt X vara en kontinuerlig stokastisk variabel. a < b är reella tal Men för h > 0 ty F X (x) är kontinuerlig. P(a X b) = F X (b) F X (a) + P (X = a) P (X = a) = lim h 0 P(a h < X a + h) = lim h 0 (F X (a + h) F X (a h)) = 0 TK Matematisk statistik 14.11.2016 8 / 38

Beräkning av sannolikheter Med andra ord, om X är en kontinuerlig stokastisk variabel och a < b är reella tal, Sats P(a X b) = P(a < X b) = b a f X (x) dx. TK Matematisk statistik 14.11.2016 9 / 38

Beräkning av sannolikheter: arean under kurvan P(a < X b) = F X (b) F X (a) = b a f X (x) dx. f X (x) a b F X (b) F X (a) TK Matematisk statistik 14.11.2016 10 / 38

Beräkning av sannolikheter Om X är en kontinuerlig stokastisk variabel och b är ett reellt tal, P(X > b) = P(X b) = 1 P(X < b) = 1 P(X b) dvs. = 1 F X (b) = = b b f X (x) dx f X (x) dx f X (x) dx. P(X > b) = P(X b) = b f X (x) dx. TK Matematisk statistik 14.11.2016 11 / 38

Likformig fördelning U(a, b) X U(a, b) { 1 f X (x) = b a för a x b, 0 annars. 0 för x a, F X (x) = x a b a för a x b, 1 för x b. TK Matematisk statistik 14.11.2016 12 / 38

Exponentialfördelningen E(λ) X E(λ) { λ e λx för x 0, f X (x) = 0 för x < 0. { 1 e λx för x 0, F X (x) = 0 för x < 0. TK Matematisk statistik 14.11.2016 13 / 38

Exponentialfördelningen E(λ) Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett enkelt exempel: Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter x tidsenheter. P(X > x) = (1 p) nx ty nx personer har gått förbi. Låt oss anta, att p = µ/n, där n är stor men µ är lagom. Då gäller P(X > x) = (1 p) nx = (1 µ n )nx e µx. Detta ger att F X (x) = 1 P(X > x) 1 e µx, dvs X är approximativt E(µ). TK Matematisk statistik 14.11.2016 14 / 38

Kvantil, median Ett par begrepp: Definition Lösningen till ekvationen 1 F X (x) = α kallas α-kvantilen till X och betecknas med x α. x 0.5 kallas för medianen och är således det värde som överskrides med samma sannolikhet som det underskrides. TK Matematisk statistik 14.11.2016 15 / 38

Normalfördelningen N (µ, σ) X N(µ, σ) f X (x) = 1 σ /2σ2 e (x µ)2 2π där µ godtycklig konstant och σ > 0. Denna fördelning är mycket viktig, och vi skall återkomma till den. TK Matematisk statistik 14.11.2016 16 / 38

Fördelningsfunktion och Sl-täthet för Y = Y = ax + b Vi antar att X är en kontinuerlig s.v. och sätter Y = ax + b. 1. a positivt När a är positivt blir F Y (y) = P(Y y) = P(aX + b y) = P ( X y b ) a ( ) y b = F X. a Fördelningsfunktionen för Y får man alltså genom att i fördelningsfunktionen F X (x) ersätta argumentet x med (y b)/a. Täthetsfunktionen för Y erhålles sedan genom derivering med avseende på y: f Y (y) = 1 ( ) y b a f X. a TK Matematisk statistik 14.11.2016 17 / 38

Fördelningsfunktion och Sl-täthet för Y = g(x ): Linjär transformation 2. a negativt Om a är negativt blir i stället F Y (y) = P(aX + b y) = P ( X y b ) a ( ) Eftersom X är en kontinuerlig s.v. är P X < y b a alltså blir ( F Y (y) = 1 P X y b ) a Genom derivering får man slutligen f Y (y) = 1 a f X ( = 1 P X < y b a ( = P X y b a ( ) y b = 1 F X. a ( y b a ). ). ) och TK Matematisk statistik 14.11.2016 18 / 38

Fördelningsfunktion och Sl-täthet för Y = g(x ): Linjär transformation De bägge fallen a > 0 och a < 0 kan, vad täthetsfunktionen beträffar, sammanfattas så: f Y (y) = 1 ( ) y b a f X. a Om speciellt a = 1, b = 0 får man fördelningen för den s.v. Y = X : F Y (y) = 1 F X ( y) och f Y (y) = f X ( y). TK Matematisk statistik 14.11.2016 19 / 38

Anta att X har en likformig fördelning i intervallet (0, 1). Då är 0 om x < 0 F X (x) = x om 0 x 1 1 om x > 1. TK Matematisk statistik 14.11.2016 20 / 38

Fördelningsfunktion och Sl-täthet för Y = (1/λ) ln X Fördelningsfunktionen för den s.v. Y = (1/λ) ln X, där λ > 0, blir F Y (y) = P( (1/λ) ln X y) = P(ln X λy) = P ( X e λy ) = 1 P ( X < e λy ) = 1 P(X e λy ) = Alltså gäller att Y E(λ) { 0 om y < 0 1 e λy om y 0. TK Matematisk statistik 14.11.2016 21 / 38

Fördelningsfunktion och Sl-täthet för Y = g(x ) Resultatet är av stort intresse vid simulering. Ur ett likformigt fördelat slumptal X på (0, 1) kan man generera ett exponentialfördelat slumptal Y genom att låta Y = (1/λ) ln X. TK Matematisk statistik 14.11.2016 22 / 38

Fördelningsfunktion och Sl-täthet för Y = X 2 Antag speciellt att X är likformigt fördelad i intervallet ( 1, 1), så att { 1 f X (x) = 2 om 1 < x < 1 0 annars. Man får genom insättning i uttrycket för f Y (y): f Y (y) = { 1 2 1 y om 0 < y < 1 0 annars. (1) (2) TK Matematisk statistik 14.11.2016 23 / 38

Paretofördelning f X (x) = { λx λ m x λ+1 x x m, 0 x < x m. Vi säger att X är paretofördelad med parametrarna x m och λ. TK Matematisk statistik 14.11.2016 24 / 38

Paretotäthet: x m = 4 λ = 2 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20 TK Matematisk statistik 14.11.2016 25 / 38

Väntevärden Väntevärdet ger samma information och samma brist på information för den s.v. som medelvärdet ger för en datamängd. TK Matematisk statistik 14.11.2016 26 / 38

Väntevärde: definition Definition + E (X ) def = x f X (x)dx. TK Matematisk statistik 14.11.2016 27 / 38

Väntevärde för exponentialfördelningen = 1 λ { λ e λx för x 0, f X (x) = 0 för x < 0. y = λx E (X ) = xf X (x) dx = xλ e λx dx = x = y/λ 0 dx = dy/λ ye y dy = 1 [ ye y ] 0 λ 0 + 1 e y dy = 0 1 [ e y ] λ 0 λ 0 = 1 λ. TK Matematisk statistik 14.11.2016 28 / 38

Väntevärde för Y = g(x ) E (Y ) = g(x)f X (x) dx. Exempel: Momentgenererande funktionen: m X (t) = E [ ] e tx = e tx f X (x) dx TK Matematisk statistik 14.11.2016 29 / 38

Väntevärde för Y = g(x ) Från denna sats följer bl.a. följande: E (h(x ) + g(x )) = E (h(x )) + E (g(x )) med det viktiga specialfallet Sats E (ax + b) = ae (X ) + b. TK Matematisk statistik 14.11.2016 30 / 38

Varians Väntevärdet säger inget om hur X varierar. Sätt µ E (X ). Betrakta följande: X µ och (X µ) 2 Vi leds nu till följande definition. Definition Variansen σ 2 för en s.v. X är σ 2 = Var(X ) = E [(X µ) 2 ]. TK Matematisk statistik 14.11.2016 31 / 38

Varians Följande räkneregel är mycket användbar: Sats Var(X ) = E (X 2 ) [E (X )] 2 = E (X 2 ) µ 2. Bevis. Var(X ) = E [(X µ) 2 ] = E [X 2 + µ 2 2µX ] = E [X 2 ] + µ 2 2µE [X ] = E (X 2 ) µ 2. TK Matematisk statistik 14.11.2016 32 / 38

Varians Sats Var(aX + b) = a 2 Var(X ). Bevis. Var(aX + b) = E [(ax + b E (ax + b)) 2 ] = E [(ax + b aµ b) 2 ] = E [(ax aµ) 2 ] = a 2 E [(X µ) 2 ] = a 2 Var(X ). TK Matematisk statistik 14.11.2016 33 / 38

Standardavvikelsen Definition Standardavvikelsen σ för en s.v. X är σ = D(X ) = Var(X ). Sats D(aX + b) = a D(X ). Allmänt gäller: D rätt sort. V lättare att räkna med. TK Matematisk statistik 14.11.2016 34 / 38

Exponentialfördelningen. E (X 2 ) = 0 x 2 λe λx dx = 1 λ 2 y 2 e y dy = part. int. = 2 λ 2 Var(X ) = 2 λ 2 1 λ 2 = 1 λ 2 D(X ) = 1 λ. 0 TK Matematisk statistik 14.11.2016 35 / 38

En linjär kombination av n s.v. X 1,..., X n a 1 X 1 + a 2 X 2 + + a n X n + b Konstanterna a 1,..., a n och b kan vara positiva eller negativa tal. För alla s.v. X 1,..., X n gäller att ( n ) n E a i X i + b = a i E (X i ) + b (3) i=1 i=1 TK Matematisk statistik 14.11.2016 36 / 38

För oberoende s.v. X 1,..., X n gäller att ( n ) n Var a i X i + b = ai 2 Var(X i ). i=1 i=1 Om X 1,..., X n är s.v. med samma väntevärde µ så gäller att ( n ) E X i = nµ. (4) i=1 TK Matematisk statistik 14.11.2016 37 / 38

Om X 1,..., X n är oberoende och har samma standardavvikelse σ gäller även att ( n ) ( Var X i = nσ 2 n ) och D X i = σ n. (5) i=1 i=1 TK Matematisk statistik 14.11.2016 38 / 38