SF1901: Sannolikhetslära och statistik

SF9: Sannolikhetslära och statistik Föreläsning 3. Stokastiska variabler, diskreta och kontinuerliga Jan Grandell & Timo Koski 8.9.28 Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 / 45

Stokastiska variabler: inledning I nästan alla situationer som vi betraktar, kommer resultaten av slumpförsöken att vara tal, kontinerliga mätvärden eller antal. Det är praktiskt att anpassa beteckningarna till detta. Definition En stokastisk variabel s.v. (eller en slumpvariabel) X är en funktion från Ω till reella linjen. Lite löst kommer vi att uppfatta X som en beteckning för resultatet av ett slumpförsök. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 2 / 45

Stokastiska variabler Ω X X(ω) ω Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 3 / 45

Stokastiska variabler: inledning Låt X vara en stokastisk variabel. Det mest allmänna sättet att beskriva X, dvs. hur X varierar, är att ange dess fördelningsfunktion. Definition Fördelningsfunktionen F X (x) till en s.v. X definieras av F X (x) = P(X x). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 4 / 45

Stokastiska variabler: inledning En fördelningsfunktion F X (x) har följande egenskaper: ) F X (x) är icke-avtagande ; 2) F X (x) då x ; 3) F X (x) då x ; 4) F X (x) är högerkontinuerlig. d.v.s. x x 2 F X (x ) F X (x 2 ) Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 5 / 45

Beräkning av sannolikheter Låt X vara en stokastisk variabel. F X (x) = P(X x). Då fås P(a < X b) = P(X b) P(X a) = F X (b) F X (a) Sats P(a < X b) = F X (b) F X (a) Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 6 / 45

Stokastiska variabler: Diskret stokastisk variabel Det är lämpligt att skilja på fallen då vår stokastiska variabel representerar kontinuerliga mätvärden eller antal. Vi ska nu betrakta fallet med antal. Definition En s.v. X säges vara diskret om den kan anta ett ändligt eller uppräkneligt oändligt antal olika värden. Det viktiga är att de möjliga värdena ligger i en ändlig eller högst uppräknelig mängd. Oftast tar en diskret s.v. icke-negativa heltalsvärden räknar ett antal. Vi kommer att förutsätta detta, om vi inte explicit säger något annat. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 7 / 45

Diskreta stokastiska variabler Definition För en diskret s.v. definieras sannolikhetsfunktionen p X (k) av p X (k) = P(X = k). Om X beskriver ett tärningskast gäller således { p X (k) = 6 för k =, 2, 3, 4, 5, 6 för övriga värden på k. Gör vi nu slumpförsöket att på måfå dra en av 6 lappar med talen, 2, 3, 4, 5 eller 6, så får vi samma s.v. som i tärningskasten. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 8 / 45

En sannolikhetsfunktion p (2) X p (6) X p () X p (3) X p (4) X p (5) X 2 3 4 5 6 Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 9 / 45

Diskreta stokastiska variabler Relationen mellan sannolikhetsfunktionen och fördelningsfunktionen för en diskret stokastisk variabel fås av sambanden och F X (x) = p X (j), där [x] betyder heltalsdelen av x, j [x] Det följer av detta att p X (k) = F X (k) F X (k ). p X (k) och p X (k) =. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 / 45

En fördelningsfunktion F (x) X p (4) X p (2) X p (3) = F (4) F (3) X X X p () X 2 3 4 5 6 obs Ej samma sannolikheter som i föregående figur om sannolikhetsfunktion Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 / 45

Beräkning av sannolikheter Sats P(a < X b) = F X (b) F X (a) Om X är diskret, så fås, om a och b är positiva heltal, att P(a < X b) = F X (b) F X (a) = p X (j) p X (j) j b j a = b p X (j). j=a+ Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 2 / 45

Beräkning av sannolikheter Om X är diskret, och a och b är positiva heltal, gäller det att P(a X b) = P(a < X b) + P (X = a) = F X (b) F X (a) + P (X = a) = = b p X (j). j=a b p X (j) + p X (a) j=a+ obs! Om X är diskret, och p X (a) >, så gäller alltså enligt ovananförda att P(a < X b) = P(a X b) Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 3 / 45

Beräkning av sannolikheter X är diskret, och b är ett positivt heltal, P(X b) = P(X < b) = P(X b ) = F X (b ) = p X (j) j b P(X > b) = P(X b) = F X (b) Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 4 / 45

Beräkning av sannolikheter: allmänt A en delmängd av den reella axeln, P(X A) = sannolikheten för att X antar ett värde i A. Om X diskret: P(X A) = p X (j) j A Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 5 / 45

Kast av ett häftstift (= Thumbtack på (amerikansk) engelska) Slumpexperiment: Kast av ett häftstift. Om det landar på spetsen som i bilden ovan, säger vi att en etta () inträffar. Vi säger att en nolla () inträffar om häftstiftet landar på hatten. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 6 / 45

Tre kast av ett häftstift: utfallsrummet som ett träddiagram Kast Kast 2 Kast 3 ω = ( ) ω 2 = () ω 3 = () ω 4 = ( ) ω 5 = () ω 6 =() ω 7 = () ω 8 =() Antalet utfall= 2 3 Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 7 / 45

Tre oberoende kast av ett häftstift: sannolikheter Kast Kast 2 Kast 3 p p p ω ω 2 P( ω ) = P( ω 2 ) = p 3 2 p ( p) p p p p ω 3 ω 4 P( ω 3 ) P( ω 4 ) = = 2 p ( p) p ( p) 2 3 p p p ω 5 ω 6 P( ω 5 ) = P( ω6 ) = 2 p ( p) p ( p) 2 p p p p ω 7 ω 8 P( ω 7 ) = P( ω ) = 8 p ( p) 2 ( p) 3 P(en nolla ()) = p, P(en etta ()) = p. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 8 / 45

Tre oberoende kast av ett häftstift: en stokastisk variabel Kast Kast 2 Kast 3 ω = ( ) ω 2 = () ω 3 = () ω 4 = ( ) ω 5 = () ω 6 =() ω ω 7 8 = () =() X = antalet ettor i tre oberoende kast av ett häftstift. X (ω ) = 3,X (ω 2 ) = X (ω 3 ) = X (ω 5 ) = 2, X (ω 4 ) = X (ω 6 ) = X (ω 7 ) =, X (ω 8 ) =. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 9 / 45

Tre oberoende kast av ett häftstift: sannolikhetsfunktion för antalet ettor X (ω ) = 3,X (ω 2 ) = X (ω 3 ) = X (ω 5 ) = 2, X (ω 4 ) = X (ω 6 ) = X (ω 7 ) =, X (ω 8 ) =. P (X = 3) = P (ω ) = p 3, P (X = 2) = P (ω 2 ) + P (ω 3 ) + P (ω 5 ) = 3p 2 ( p) P (X = ) = P (ω 4 ) + P (ω 6 ) + P (ω 7 ) = 3p( p) 2 P (X = ) = P (ω 8 ) = ( p) 3 Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 2 / 45

Tre oberoende kast av ett häftstift: sannolikhetsfunktion för antalet ettor Vi omskriver dessa med hjälp av binomialkoefficienterna: ( ) 3 P (X = 3) = p 3 = p 3 ( p) 3 ( ) 3 P (X = 2) = 3p 2 ( p) = p 2 ( p) 2 ( ) 3 P (X = ) = 3p( p) 2 = p( p) 2 ( ) 3 P (X = ) = ( p) 3 eller med en enda formel P (X = k) = ( ) 3 p k ( p) 3 k,, k =,, 2, 3. k Denna är sannolikhetsfunktionen för binomialfördelningen med parametrarna 3 och p. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 2 / 45

Diskreta st. v:er: Binomialfördelningen Definition En diskret s.v. X säges vara binomialfördelad med parametrarna n och p, Bin(n, p)-fördelad, om ( ) n p X (k) = p k ( p) n k, för k =,,..., n. k Vi skriver detta med X Bin(n, p). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 22 / 45

Diskreta st. v:er: Poissonfördelningen Ofta när det är rimligt att anta att en s.v. X är Bin(n, p)-fördelad, så är det även rimligt att anta att p är liten och att n är stor. Låt oss anta att p = µ/n, där n är stor men µ är lagom. Då gäller ( ) n p X (k) = p k ( p) n k n(n )... (n k + ) ( µ ) k ( = µ ) n k k k! n n = µk ( µ k! n ) n n(n )... (n k + ) }{{} n k µ }{{}}{{ n } e µ ( ) k µk k! e µ. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 23 / 45

Diskreta st. v:er: Poissonfördelningen Definition En diskret s.v. X säges vara Poissonfördelad med parameter µ, Po(µ)-fördelad, om Vi skriver detta med X Po(µ). p X (k) = µk k! e µ, för k =,, 2.... Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 24 / 45

Sannolikhetsfunktionerna för Po(2) och Po() Po(2), Po() Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 25 / 45

Singla en slant Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 26 / 45

En urnmodell: Dragning utan återläggning I en urna finns kulor av två slag: v vita och s svarta. Drag n kulor ur urnan slumpmässigt och så att en kula som dragits inte stoppas tillbaka. dvs dragning utan återläggning. Sätt X = Man får k vita kulor i urvalet. Välj Ω: Alla uppsättningar om n kulor utan hänsyn till ordning. Då fås: och således ( ) v + s m = n och g = ( v s ) P(X = k) = k)( n k ). ( v+s n ( )( ) v s k n k Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 27 / 45

Hypergeometrisk fördelning, Hyp(N, n, p) Definition Om den st.v. X har sannolikhetsfunktionen ( v s ) p X (k) = k)( n k ). ( v+s n där k har värden sådana att k v, n k s, så säges X vara hypergeometriskt fördelad. Vi sätter N = v + s och p = v/(v + s) och skriver X Hyp(N, n, p). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 28 / 45

Kontinuerlig stokastisk variabel Här kan vi tyvärr inte ge definitionen i termer av den stokastiska variabeln själv. Det räcker inte att säga att X kan ta ett överuppräkneligt antal värden. Vi får därför ge definitionen i termer av fördelningsfunktionen, som ju är den allmännaste beskrivningen av en s.v. Definition En s.v. X säges vara kontinuerlig om dess fördelningsfunktion har framställningen F X (x) = x f X (t) dt för någon funktion f X (x). Funktionen f X (x) kallas täthetsfunktionen för X. Omvänt gäller att f X (x) = F X (x). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 29 / 45

Kontinuerlig stokastisk variabel Täthetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, för små värden på h, P(x < X x + h) = F X (x + h) F X (x) = x+h x f X (t) dt h f X (x). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 3 / 45

Beräkning av sannolikheter Låt X vara en kontinuerlig stokastisk variabel. a < b är reella tal, P(a < X b) = F X (b) F X (a) = = b a b f X (t) dt a f X (t) dt f X (t) dt Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 3 / 45

Beräkning av sannolikheter Låt X vara en kontinuerlig stokastisk variabel. a < b är reella tal Men för h > P(a X b) = F X (b) F X (a) + P (X = a) P (X = a) = lim h P(a h < X a +h) = lim h (F X (a + h) F X (a h)) = ty F X (x) är kontinuerlig (och därmed högerkontinuerlig). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 32 / 45

Beräkning av sannolikheter Med andra ord, om X är en kontinuerlig stokastisk variabel och a < b är reella tal, Sats P(a X b) = P(a < X b) = b a f X (t) dt. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 33 / 45

Beräkning av sannolikheter: arean under kruvan P(a < X b) = F X (b) F X (a) = b a f X (t) dt. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 34 / 45

Beräkning av sannolikheter Om X är en kontinuerlig stokastisk variabel och b är ett reellt tal, P(X > b) = P(X b) = P(X < b) = P(X b) dvs. = F X (b) = = b b f X (t) dt f X (t) dt f X (t) dt. P(X > b) = P(X b) = b f X (t) dt. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 35 / 45

Kvantil, median Ett par begrepp: Definition Lösningen till ekvationen F X (x) = α kallas α-kvantilen till X och betecknas med x α. x.5 kallas för medianen och är således det värde som överskrides med samma sannolikhet som det underskrides. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 36 / 45

Likformig fördelning U(a, b) X U(a, b) { f X (x) = b a för a x b, annars. för x a, F X (x) = x a b a för a x b, för x b. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 37 / 45

Exponentialfördelningen Exp(λ) X Exp(λ) { λ e λx för x, f X (x) = för x <. { e λx för x, F X (x) = för x <. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 38 / 45

Exponentialfördelningen Exp(λ) Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett enkelt exempel: Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter x tidsenheter. P(X > x) = ( p) nx ty nx personer har gått förbi. Låt oss anta precis som då vi härledde Poissonfördelningen, att p = µ/n, där n är stor men µ är lagom. Då gäller P(X > x) = ( p) nx = ( µ n )nx e µx. Detta ger att F X (x) = P(X > x) e µx, dvs X är approximativt Exp(µ). Observera att väntevärdet (ännu ej definierat, men det kommer) är /µ! Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 39 / 45

Normalfördelningen N(µ, σ) X N(µ, σ) f X (x) = σ /2σ2 e (x µ)2 2π där µ godtycklig konstant och σ >. Denna fördelning är mycket viktig, och vi skall återkomma till den. Man kan inte analytiskt ge fördelningsfunktionen. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 4 / 45

Täthetsfunktionerna för N(, ) och N(, ) Tätheten för N(, ) till vänster om tätheten för N(, ) Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 4 / 45

Beräkning av sannolikheter: allmänt A en delmängd av den reella axeln, P(X A) = sannolikheten för att X antar ett värde i A. Om X kontinuerlig: P(X A) = A f X (x)dx Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 42 / 45

Flerdimensionella stokastiska variabler Ofta mäter vi i samma slumpförsök flera storheter, och då beskrivs resultatet av en n-dimensionell stokastisk variabel (X, X 2,..., X n ). Exempel Slumpförsöket är att vi väljer en person slumpmässigt här i rummet, och sätter X = personens vikt; Y = personens längd. Vi nöjer oss med att ge detaljer i det två-dimensionella fallet. Låt (X,Y) vara en två-dimensionell s.v. F X,Y (x, y) = P(X x, Y y) kallas (den simultana) fördelningsfunktionen för (X, Y ). F X (x) = P(X x) = P(X x, Y ) = F X,Y (x, ) kallas den marginella fördelningsfunktionen för X. F Y (y) = F X,Y (, y) kallas den marginella fördelningsfunktionen för Y. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 43 / 45

Flerdimensionella stokastiska variabler Definition X och Y är oberoende stokastiska variabler om F X,Y (x, y) = F X (x)f Y (y) obs! Detta bör gälla för ALLA (x, y). Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 44 / 45

Flerdimensionella stokastiska variabler Definition (X, X 2,..., X n ) är oberoende stokastiska variabler om F X,...,X n (x,..., x n ) = P(X x,..., X n x n ) = F X (x ) F Xn (x n ). Omvänt gäller att om X, X 2,..., X n är oberoende s.v. så fås den simultana fördelningen enl. definitionen ovan. Jan Grandell & Timo Koski () Matematisk statistik 8.9.28 45 / 45