Kontinuerliga stokastiska variabler Exempel En stokastisk variabel är kontinuerlig om den kan anta vilka värden som helst i ett intervall, men sannolikheten för varje enskilt utfall är noll: P(X = x) =. Typexemplet är tid, eller vilken annan kvantitet som helst som man kan uppmäta kontinuerligt: Sannolikheten att kvantiteten skall vara exakt lika med x och inte x +. eller x +. t.ex., är noll. Figur: Tätheten f (x) = 9x för x, f (x) = för x <, x >. Integraler i stället för summor Integraler i stället för summor Kom ihåg: För diskreta stokastiska variabler är P(a X b) = b x=a f (x). För kontinuerliga stokastiska variabler gäller i stället P(a X b) = b a f (x)dx, för en funktion f som också kallas täthetsfunktionen. f (x) och f (x)dx =. För kontinuerliga stokastiska variabler är f (x) INTE en sannolikhet, man kan ha f (x) > vilket är omöjligt för diskreta stokastiska variabler (P(X = x) kan ju inte vara större än ett!). Fördelningsfunktionen har dock samma definition som för diskreta stokastiska variabler: F(x) = P(X x). Detta betyder att F(x) = f (u)du och f (x) = F (x). Obs: Det är ofta lättare analytiskt att integrera och derivera än att beräkna summor. Väntevärde: µ = E[X] = xf (x)dx, E[h(X)] = h(x)f (x)dx. Obs: f (x) kan vara lika med noll utanför ett intervall [a, b], så att de faktiska gränserna i integralerna ovan blir b a. σ = Var(X) = E[X ] (E[X]) som för diskreta variabler.
Exempel f (x) = 9x för x, f (x) = för x <, x >. F(x) = f (u)du = om x <. För x : F(x) = För x > så är F(x) = f (u)du = f (u)du = = [ u 9 u] x = x 9 x. f (u)du = ( 9 u) du f (u)du+ f (u)du = F()+ =. Exempel E[X] = xf (x)dx = xf (x)dx = ( x 9 x) dx =. E[X ] = x f (x)dx = ( x 9 x) dx =.5. Var(X) =.5 =.5, SD(X) =.5 =..7. µ σ µ µ + σ Figur: E[X] =, Var(X) =, SD(X). =.7.7.6.5. Exempel P( X ) = arean =.7.6.5. P(X ) = arean = 5/9 Normalfördelningen Den viktigaste fördelningen är den så kallade normalfördelningen med täthetsfunktion f (x) = (x µ) e σ, < x <. πσ...... Man brukar skriva X N(µ, σ ) eller X N(µ, σ)..5 N(,) tathet.7 P( X ) = arean = /9.7 P(.5 X.5) = arean = /.5..6.5..6.5..5....5......5..5
Normalfördelningen Kvantiler Normalfördelningen är viktig pga den centrala gränsvärdessatsen (kap. 7.) som vi kommer att gå igenom senare och som förklarar varför denna fördelning är så vanligt förekommande överallt. Parametrarna µ och σ är precis väntevärdet och variansen för den normalfördelade stokastiska variabeln. Obs: En normalfördelad stokastisk variabel kan anta hur små värden som helst eftersom f (x) > för alla x. T.ex. betyder det att man ofta menar att något är approximativt normalfördelat då man t.ex. säger Längden på en godtyckligt vald person i Sverige är normalfördelad. Längd kan ju aldrig vara negativ, men sannolikheten för detta är ofta mikroskopisk, så det gör inget. Med hjälp av Table V. kan vi svara på frågor av typen P(X x) =?, där x är ett givet tal och X är normalfördelad. Ibland vill man kunna svara på den omvända frågan: P(X >?) = α, där α är en given sannolikhet. Lösningen x α, P(X > x α ) = α, kallas för α-kvantilen. Vi skriver z α för N(, )-fördelningens α-kvantil: α..5.5..5 z α.8.65.96.6.576 Standardisering X N(µ X, σx ), Y N(µ Y, σy ), X och Y ober. X + Y N(µ X + µ Y, σx + σy), ax + b N(aµ X + b, a σx ). Så med a = och b = µ X σ X σ X är alltså Z = X µ σ N(, ). Detta gör att man kan omvandla alla sannolikheter som har med X att göra till sannolikheter som har med Z att göra, dvs behöver inte bekymra oss om olika specialfall för olika värden på µ och σ. Fördelningsfunktionen F för Z finns tabulerad (Table V.). Ex: X N(, ). ( P( X 6) = P X = P(.5 Z.5) 6 ) = F(.5) F(.5). =.9.695 =.7 Ex. Kvalitet. Antag att du producerar en vara som inte får väga för mycket. Produktionsprocessen är sådan att vikten X för en produkt kan anses vara normalfördelad med väntevärde µ = g, och σ = 5g. Om vi ska ge en garanti: Varan väger högst x g, som ska hålla för 95% av alla varor så ska vi hitta 5%-kvantilen x..5 = P(X > x) = P ( X 5 > x ) 5 = P(Z > x 5 ) x 5 = z.5. =.65 x = 5z.5 +. = 8.
Normalfördelade variabler avviker oftast inte så mycket, mätt i standardavvikelser, från sitt väntevärde Binomialfördelningen liknar normalfördelningen då n ökar. Exempel: Bin(n,.), n =,,,..5 P( σ X σ) =.68.5 P( σ X σ) =.95.5 n =. n =..........5..5.....5 5 6 7 8 9.5 P( σ X σ) =.997 P(.65σ X) =.5, dvs.65 ar 5% kvantil for N(,).5. n =. n =...5.8......6....5. 6 8 Standardavvikelser och Tjebyshevs olikhet För normalfördelade variabler har man (förra bilden): Bin(,.) och N(,.) i samma figur P( X µ > σ). =.7 P( X µ > σ). =.56 P( X µ > σ). =.6 För alla stokastiska variabler gäller Tjebyshevs olikhet: P( X µ > kσ) k. Bevisskiss: KP(Y > K) = K K Låt Y = (X µ) och K = k σ. f (y)dy K yf (y)dy = E[Y]. k σ P((X µ) > k σ ) = k σ P( X µ > kσ) vilket ger Tjebyshevs olikhet. E[(X µ) ] = σ,.5..5..5..5 Bin(,) och N(,.) 5 6 7 8 9
Normalapproximation av binomialfördelningen.5 F(6) = arean, for Bin(,.). Låt X Bin(n, p), dvs E[X] = np, Var(X) = np( p). Normalapproximation : X Y N(np, np( p)) då n är stort. Tumregel: n är stort om n min{p, p} > 5. Obs. X är diskret och Y är kontinuerlig så om x är ett heltal: P(X x) = P(X x +.5) P(Y x +.5)..5..5..5 5 6 7 8 9 Figur: P(X 6) =.95..5 Bin(,.).5 Bin(,) och N(,.)...5.5...5.5...5.5 5 6 7 8 9 Figur: Låt X Bin(,.). 5 6 7 8 9 Figur: n min{p, p} =. = 5 så normalapproximationen med Y N(,.) kanske inte funkar så bra...?
Utan halvkorrektion Hur får man fram siffrorna?.5 Normalappr. av F(6) utan halvkorrektion for Bin(,.)..5..5. Låt F vara fördelningsfunktionen för Z N(, ). P(Y 6.5) = P ( Y }{{}. 6.5 ) }{{. = F(.6) =.96, enl. Table V. } Z. =.6 P(X 6) =.95, enl. Table I..5 5 6 7 8 9 Figur: P(Y 6) =.97, (P(X 6) =.95). Med halvkorrektion Simultana diskreta fördelningar Normalappr. av F(6) med halvkorrektion for Bin(,.).5..5..5..5 5 6 7 8 9 Figur: P(Y 6.5) =.96.95 = P(X 6)! Hittills har vi talat om stokastiska variabler en och en. Det är enkelt att utvidga de definitioner vi har till så kallade simultana fördelningar med flera stokastiska variabler på en och samma gång. Ex. Diskret simultan täthet f XY (x, y) = P(X = x, Y = y) som kan sammanfattas i en tabell. f XY (x, y) x\y.8....6..8...5.. Eftersom tätheterna är sannolikheter måste vi ha f XY (x, y) och x y f XY(x, y) =.
Marginell fördelning Obs: f X (x) = P(X = x) = y P(X = x, Y = y) = y f XY(x, y), och på samma sätt f Y (y) = x f XY(x, y). Detta kallas för den marginella tätheten. Ex. forts. f XY (x, y) x\y Σ y.8....9.6..8..8..5... Σ x.9.5... Allmänt: E[h(X, Y)] = x E[X] = x som sig bör! E[X + Y] = x = x Väntevärden, etc. xf XY (x, y) = y x y h(x, y)f XY (x, y). x y (x + y)f XY (x, y)dxdy y xf XY (x, y) + y x f XY (x, y) = x xf X (x), yf XY (x, y) = E[X] + E[Y], y vilket vi påstod tidigare. Simultana kontinuerliga fördelningar För kontinuerliga stokastiska variabler finns det också en simultan täthet f XY (x, y) som uppfyller: f XY (x, y) f XY (x, y)dxdy = P(a X b, c Y d) = Marginella tätheter: f X (x) = f Y (y) = b a ( d c f XY (x, y)dy f XY (x, y)dx ) f XY (x, y)dy dx Oberoende Kom ihåg: Händelserna A och B är oberoende om P(A B) = P(A)P(B). Två stokastiska variabler X och Y är oberoende om f XY (x, y) = f X (x)f Y (y) för alla x och y..5..5 Figur: Täthet för två oberoende normalfördelade stokastiska variabler: f XY (x, y) = f X (x)f Y (y) = exp{.5x } exp{.5y }/π.
Kovarians Det som gör det intressant att tala om simultana fördelningar är det faktum att variablerna kan vara beroende. Kovariansen är ett mått på beroendet: Cov(X, Y) = E[(X E[X])(Y E[Y])] = E[XY] E[X]E[Y] Om X och Y tenderar att röra sig åt samma håll så är Cov(X, Y) >, och omvänt. Cov(X, X) = Var(X). X och Y oberoende Cov(X, Y) =, ty E[XY] = x y xyf XY(x, y) = x y xyf X(x)f Y (y) = x xf X(x) y yf Y(y) = E[X]E[Y]. Det omvända är inte alltid sant: Cov = oberoende. Exempel, forts. Nivåkurvor Figur: Nivåkurvor för föregående täthet. Exempel Exempel, forts. Tusen realisationer från en två dimensionell fördelning med beroende..5..5 Figur: Täthet med positivt beroende. Figur: Tusen realisationer från fördelningen med föregående täthet. Var(X) = Var(Y) =, Cov(X, Y) =.5.
Korrelation Korrelation säger bara något om linjärt beroende:.5 Ingen korrelation, men beroende.5 Definition av korrelation: ρ = Cov(X,Y) SD(X)SD(Y) Det gäller alltid att ρ, så korrelationen är enhetslös. ρ = Cov(X, Y) =. ρ = ± Y = ±ax + b, a >, dvs X och Y är helt linjärt beroende. Men: ρ = X och Y oberoende..5.5.5.5.5 Ingen korrelation och oberoende.5 Figur: Överst: ρ =, men vi har ett tydligt beroende (Y = cos X). Nederst: ρ = och X och Y är oberoende. Korrelation, exempel Perfekt positivt linjart beroende Perfekt negativt linjart beroende Starkt linjart beroende 6 Svagt linjart beroende