SF1901: Sannolikhetslära och statistik

SF9: Sannolikhetslära och statistik Föreläsning 3. Stokastiska variabler, diskreta och kontinuerliga Jan Grandell & Timo Koski 25..26 Jan Grandell & Timo Koski Matematisk statistik 25..26 / 44

Stokastiska variabler: inledning I nästan alla situationer som vi betraktar, kommer resultaten av slumpförsöken att vara tal, kontinerliga mätvärden eller antal. Det är praktiskt att anpassa beteckningarna till detta. Definition En stokastisk variabel s.v. (eller en slumpvariabel) X är en funktion från Ω till reella linjen. Lite löst kommer vi att uppfatta X som en beteckning för resultatet av ett slumpförsök. Jan Grandell & Timo Koski Matematisk statistik 25..26 2 / 44

Lärandemål: X st.v. Fördelningsfunktion F X (x); P(a < X b) = P(X b) P(X a) = F X (b) F X (a) diskreta st.v:er, F X (x) = j [x] p X (j), p X (k) = P(X = k),sannolikhetsfunktion. kontinuerliga st.ver F X (x) = x f X(t)dt. Funktionen f X (x) kallas täthetsfunktionen för X. f X (x) = F X (x). binomialfördelning, poissonfördelning, exponentialfördelning, Jan Grandell & Timo Koski Matematisk statistik 25..26 3 / 44

Stokastiska variabler Ω X X(ω) ω Jan Grandell & Timo Koski Matematisk statistik 25..26 4 / 44

Stokastiska variabler: inledning Låt X vara en stokastisk variabel. Det mest allmänna sättet att beskriva X, dvs. hur X varierar, är att ange dess fördelningsfunktion. Definition Fördelningsfunktionen F X (x) till en s.v. X definieras av F X (x) = P(X x). Jan Grandell & Timo Koski Matematisk statistik 25..26 5 / 44

Stokastiska variabler: inledning En fördelningsfunktion F X (x) har följande egenskaper: ) F X (x) är icke-avtagande ; 2) F X (x) då x ; 3) F X (x) då x ; 4) F X (x) är högerkontinuerlig. d.v.s. x x 2 F X (x ) F X (x 2 ) Jan Grandell & Timo Koski Matematisk statistik 25..26 6 / 44

Beräkning av sannolikheter Låt X vara en stokastisk variabel. F X (x) = P(X x). Då fås P(a < X b) = P(X b) P(X a) = F X (b) F X (a) Sats P(a < X b) = F X (b) F X (a) Jan Grandell & Timo Koski Matematisk statistik 25..26 7 / 44

Stokastiska variabler: Diskret stokastisk variabel Det är lämpligt att skilja på fallen då vår stokastiska variabel representerar kontinuerliga mätvärden eller antal. Vi ska nu betrakta fallet med antal. Definition En s.v. X säges vara diskret om den kan anta ett ändligt eller uppräkneligt oändligt antal olika värden. Det viktiga är att de möjliga värdena ligger i en ändlig eller högst uppräknelig mängd. Oftast tar en diskret s.v. icke-negativa heltalsvärden räknar ett antal. Vi kommer att förutsätta detta, om vi inte explicit säger något annat. Jan Grandell & Timo Koski Matematisk statistik 25..26 8 / 44

Diskreta stokastiska variabler Definition För en diskret s.v. definieras sannolikhetsfunktionen p X (k) av p X (k) = P(X = k). Om X beskriver ett tärningskast gäller således { p X (k) = 6 för k =,2,3,4,5,6 för övriga värden på k. Gör vi nu slumpförsöket att på måfå dra en av 6 lappar med talen, 2, 3, 4, 5 eller 6, så får vi samma s.v. som i tärningskasten. Jan Grandell & Timo Koski Matematisk statistik 25..26 9 / 44

En sannolikhetsfunktion p (2) X p (6) X p () X p (3) X p (4) X p (5) X 2 3 4 5 6 Jan Grandell & Timo Koski Matematisk statistik 25..26 / 44

Diskreta stokastiska variabler Relationen mellan sannolikhetsfunktionen och fördelningsfunktionen för en diskret stokastisk variabel fås av sambanden och F X (x) = p X (j), där [x] betyder heltalsdelen av x, j [x] Det följer av detta att p X (k) = F X (k) F X (k ). p X (k) och p X (k) =. Jan Grandell & Timo Koski Matematisk statistik 25..26 / 44

En fördelningsfunktion F (x) X p (4) X p (2) X p (3) = F (4) F (3) X X X p () X 2 3 4 5 6 obs Ej samma sannolikheter som i föregående figur om sannolikhetsfunktion Jan Grandell & Timo Koski Matematisk statistik 25..26 2 / 44

Benfords lag Benfords lag beskriver hur olika siffror är statistiskt fördelade som förstasiffror i olika material och ges av sannolikhetsfunktionen ( p X (k) = P(X = k) = log + ), k =,...,9. k En formell check (av att p X (k) är en sannolikhetsfunktion): p X (k), ty + k. Jan Grandell & Timo Koski Matematisk statistik 25..26 3 / 44

Benfords lag = 9 ( k + log k k= 9 9 ( p X (k) = log + ) k k= k= ) = 9 [log (k +) log (k)] = k= = log (2) log ()+log (3) log (2) +log (4) log (3)+log (5) log (4) +log (6) log (5)+log (7) log (6) +log (8) log (7)+log (9) log (8) +log () log (9) = log ()+log () = + =. Jan Grandell & Timo Koski Matematisk statistik 25..26 4 / 44

Benfords lag Benfords lag ger fördelningen för olika siffror som förstasiffror. Lagen säger till exempel att siffran bör vara frstasiffra i 3,% av fallen, siffran 2 i 7,6% av fallen och siffran 9 i 4,6% av fallen i en mycket stor datamängd. Benfords lag visar sig tillämplig inom många skilda områden. Exempel är lagen tillämplig vid ekonomisk redovisning, prislistor, antal röster vid omröstningar mellan ett stort antal alternativ, samt folkmängd i städer. Om en stor datamängd inte följer Benfords lag är det en indikation på att siffrorna kan vara påhittade eller manipulerade. Jan Grandell & Timo Koski Matematisk statistik 25..26 5 / 44

Benfords lag Till exempel de tal som förekommer i en inkomstdeklaration, borde mer eller mindre följa Benfords lag. Om talen inte uppför sig enligt Benfords ordination kan det vara något skumt i görningen. Antingen har någon manipulerat siffrorna med flit, till exempel en skattesmitare, eller så är det något annat som har gått snett. För få tal som börjar med en etta räcker som en varningssignal. Då bör myndigheterna eller företaget gå igenom siffrorna en extra gång. I Sverige använder till exempel företaget Trelleborg AB Benfords lag i sin internrevision fr att avslöja bedrägerier. Jan Grandell & Timo Koski Matematisk statistik 25..26 6 / 44

Beräkning av sannolikheter Sats P(a < X b) = F X (b) F X (a) Om X är diskret, så fås, om a och b är positiva heltal, att P(a < X b) = F X (b) F X (a) = p X (j) p X (j) j b j a = b p X (j). j=a+ Jan Grandell & Timo Koski Matematisk statistik 25..26 7 / 44

Beräkning av sannolikheter Om X är diskret, och a och b är positiva heltal, gäller det att P(a X b) = P(a < X b)+p (X = a) = F X (b) F X (a)+p(x = a) = = b p X (j). j=a b p X (j)+p X (a) j=a+ obs! Om X är diskret, och p X (a) >, så gäller alltså enligt ovananförda att P(a < X b) = P(a X b) Jan Grandell & Timo Koski Matematisk statistik 25..26 8 / 44

Beräkning av sannolikheter X är diskret, och b är ett positivt heltal, P(X b) = P(X < b) = P(X b ) = F X (b ) = p X (j) j b P(X > b) = P(X b) = F X (b) Jan Grandell & Timo Koski Matematisk statistik 25..26 9 / 44

Beräkning av sannolikheter: allmänt A en delmängd av den reella axeln, P(X A) = sannolikheten för att X antar ett värde i A. Om X diskret: P(X A) = p X (j) j A Jan Grandell & Timo Koski Matematisk statistik 25..26 2 / 44

Kast av ett häftstift (= Thumbtack på (amerikansk) engelska) Slumpexperiment: Kast av ett häftstift. Om det landar på spetsen som i bilden ovan, säger vi att en etta () inträffar. Vi säger att en nolla () inträffar om häftstiftet landar på hatten. Jan Grandell & Timo Koski Matematisk statistik 25..26 2 / 44

Tre kast av ett häftstift: utfallsrummet som ett träddiagram Kast Kast 2 Kast 3 ω = ( ) ω 2 = () ω 3 = () ω 4 = ( ) ω 5 = () ω 6 =() ω 7 = () ω 8 =() Antalet utfall= 2 3 Jan Grandell & Timo Koski Matematisk statistik 25..26 22 / 44

Tre oberoende kast av ett häftstift: sannolikheter Kast Kast 2 Kast 3 p p p ω ω 2 P( ω ) = P( ω 2 ) = p 3 2 p ( p) p p p p ω 3 ω 4 P( ω 3 ) P( ω 4 ) = = 2 p ( p) p ( p) 2 3 p p p ω 5 ω 6 P( ω 5 ) = P( ω6 ) = 2 p ( p) p ( p) 2 p p p p ω 7 ω 8 P( ω 7 ) = P( ω ) = 8 p ( p) 2 ( p) 3 P(en nolla ()) = p,p(en etta ()) = p. Jan Grandell & Timo Koski Matematisk statistik 25..26 23 / 44

Tre oberoende kast av ett häftstift: en stokastisk variabel Kast Kast 2 Kast 3 ω = ( ) ω 2 = () ω 3 = () ω 4 = ( ) ω 5 = () ω 6 =() ω ω 7 8 = () =() X = antalet ettor i tre oberoende kast av ett häftstift. X (ω ) = 3,X (ω 2 ) = X (ω 3 ) = X (ω 5 ) = 2, X (ω 4 ) = X (ω 6 ) = X (ω 7 ) =, X (ω 8 ) =. Jan Grandell & Timo Koski Matematisk statistik 25..26 24 / 44

Tre oberoende kast av ett häftstift: sannolikhetsfunktion för antalet ettor X (ω ) = 3,X (ω 2 ) = X (ω 3 ) = X (ω 5 ) = 2, X (ω 4 ) = X (ω 6 ) = X (ω 7 ) =, X (ω 8 ) =. P (X = 3) = P (ω ) = p 3, P(X = 2) = P (ω 2 )+P (ω 3 )+P (ω 5 ) = 3p 2 ( p) P(X = ) = P (ω 4 )+P (ω 6 )+P (ω 7 ) = 3p( p) 2 P(X = ) = P (ω 8 ) = ( p) 3 Jan Grandell & Timo Koski Matematisk statistik 25..26 25 / 44

Tre oberoende kast av ett häftstift: sannolikhetsfunktion för antalet ettor Vi omskriver dessa med hjälp av binomialkoefficienterna: ( ) 3 P(X = 3) = p 3 = p 3 ( p) 3 ( ) 3 P (X = 2) = 3p 2 ( p) = p 2 ( p) 2 ( ) 3 P (X = ) = 3p( p) 2 = p( p) 2 ( ) 3 P(X = ) = ( p) 3 eller med en enda formel P (X = k) = ( ) 3 p k ( p) 3 k,,k =,,2,3. k Denna är sannolikhetsfunktionen för binomialfördelningen med parametrarna 3 och p. Jan Grandell & Timo Koski Matematisk statistik 25..26 26 / 44

Diskreta st. v:er: Binomialfördelningen Definition En diskret s.v. X säges vara binomialfördelad med parametrarna n och p, Bin(n, p)-fördelad, om ( ) n p X (k) = p k ( p) n k, för k =,,...,n. k Vi skriver detta med X Bin(n,p). Jan Grandell & Timo Koski Matematisk statistik 25..26 27 / 44

Diskreta st. v:er: Binomialfördelningen De generella villkoren för detta: n oberoende upprepningar av ett försök. varje försök har två utfall, och. sannolikheten för lyckat försök (=) är densamma = p vid varje försök. X = antalet lyckade försök. ( ) n p X (k) = p k ( p) n k, för k =,,...,n. k Vi skriver detta med X Bin(n,p). Jan Grandell & Timo Koski Matematisk statistik 25..26 28 / 44

Diskreta st. v:er: Poissonfördelningen Ofta när det är rimligt att anta att en s.v. X är Bin(n,p)-fördelad, så är det även rimligt att anta att p är liten och att n är stor. Låt oss anta att p = µ/n, där n är stor men µ är lagom. Då gäller ( ) n p X (k) = p k ( p) n k n(n )...(n k +) ( µ k ( = k k! n) µ ) n k n = µk ( µ k! n ) n n(n )...(n k +) }{{} n k µ }{{}}{{ n } e µ ( ) k µk k! e µ. Jan Grandell & Timo Koski Matematisk statistik 25..26 29 / 44

Diskreta st. v:er: Poissonfördelningen Definition En diskret s.v. X säges vara Poissonfördelad med parameter µ, Po(µ)-fördelad, om Vi skriver detta med X Po(µ). p X (k) = µk k! e µ, för k =,,2.... Jan Grandell & Timo Koski Matematisk statistik 25..26 3 / 44

Sannolikhetsfunktionerna för Po(2) och Po() Po(2), Po() Jan Grandell & Timo Koski Matematisk statistik 25..26 3 / 44

En urnmodell: Dragning utan återläggning I en urna finns kulor av två slag: v vita och s svarta. Drag n kulor ur urnan slumpmässigt och så att en kula som dragits inte stoppas tillbaka. dvs dragning utan återläggning. Sätt X = Man får k vita kulor i urvalet. Välj Ω: Alla uppsättningar om n kulor utan hänsyn till ordning. Då fås: och således ( ) v +s m = n och g = P(X = k) = (v k )( s n k ) ( v+s n ). ( )( ) v s k n k Jan Grandell & Timo Koski Matematisk statistik 25..26 32 / 44

Hypergeometrisk fördelning, Hyp(N, n, p) Definition Om den st.v. X har sannolikhetsfunktionen p X (k) = (v k )( s n k ) ( v+s n ). där k har värden sådana att k v, n k s, så säges X vara hypergeometriskt fördelad. Vi sätter N = v +s och p = v/(v +s) och skriver X Hyp(N,n,p). Jan Grandell & Timo Koski Matematisk statistik 25..26 33 / 44

Kontinuerlig stokastisk variabel Här kan vi tyvärr inte ge definitionen i termer av den stokastiska variabeln själv. Det räcker inte att säga att X kan ta ett överuppräkneligt antal värden. Vi får därför ge definitionen i termer av fördelningsfunktionen, som ju är den allmännaste beskrivningen av en s.v. Definition En s.v. X säges vara kontinuerlig om dess fördelningsfunktion har framställningen F X (x) = x f X (t)dt för någon funktion f X (x). Funktionen f X (x) kallas täthetsfunktionen för X. Omvänt gäller att f X (x) = F X (x). Jan Grandell & Timo Koski Matematisk statistik 25..26 34 / 44

Kontinuerlig stokastisk variabel Täthetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, för små värden på h, P(x < X x +h) = F X (x +h) F X (x) = x+h x f X (t)dt hf X (x). Jan Grandell & Timo Koski Matematisk statistik 25..26 35 / 44

Beräkning av sannolikheter Låt X vara en kontinuerlig stokastisk variabel. a < b är reella tal, P(a < X b) = F X (b) F X (a) = = b a b f X (t)dt a f X (t)dt f X (t)dt Jan Grandell & Timo Koski Matematisk statistik 25..26 36 / 44

Beräkning av sannolikheter Låt X vara en kontinuerlig stokastisk variabel. a < b är reella tal Men för h > P(a X b) = F X (b) F X (a)+p (X = a) P (X = a) = lim h P(a h < X a+h) = lim h (F X (a+h) F X (a h)) = ty F X (x) är kontinuerlig (och därmed högerkontinuerlig). Jan Grandell & Timo Koski Matematisk statistik 25..26 37 / 44

Beräkning av sannolikheter Med andra ord, om X är en kontinuerlig stokastisk variabel och a < b är reella tal, Sats P(a X b) = P(a < X b) = b a f X (t)dt. Jan Grandell & Timo Koski Matematisk statistik 25..26 38 / 44

Beräkning av sannolikheter: arean under kruvan P(a < X b) = F X (b) F X (a) = b a f X (t)dt. f X (x) a b F X (b) F X (a) Jan Grandell & Timo Koski Matematisk statistik 25..26 39 / 44

Beräkning av sannolikheter Om X är en kontinuerlig stokastisk variabel och b är ett reellt tal, P(X > b) = P(X b) = P(X < b) = P(X b) dvs. = F X (b) = = b b f X (t)dt f X (t)dt f X (t)dt. P(X > b) = P(X b) = b f X (t)dt. Jan Grandell & Timo Koski Matematisk statistik 25..26 4 / 44

Likformig fördelning U(a, b) X U(a,b) { f X (x) = b a för a x b, annars. för x a, F X (x) = x a b a för a x b, för x b. Jan Grandell & Timo Koski Matematisk statistik 25..26 4 / 44

Exponentialfördelningen Exp(λ) X Exp(λ) { λe λx för x, f X (x) = för x <. { e λx för x, F X (x) = för x <. Jan Grandell & Timo Koski Matematisk statistik 25..26 42 / 44

Exponentialfördelningen Exp(λ) Denna fördelning är viktig i väntetidsproblem. För att inse detta så tar vi ett enkelt exempel: Antag att n personer går förbi en affär per tidsenhet. Låt var och en av dessa gå in i affären oberoende av varandra och med sannolikheten p. Låt X vara tiden tills första kunden kommer. X > x betyder att ingen kund kommit efter x tidsenheter. P(X > x) = ( p) nx ty nx personer har gått förbi. Låt oss anta precis som då vi härledde Poissonfördelningen, att p = µ/n, där n är stor men µ är lagom. Då gäller P(X > x) = ( p) nx = ( µ n )nx e µx. Detta ger att F X (x) = P(X > x) e µx, dvs X är approximativt Exp(µ). Observera att väntevärdet (ännu ej definierat, men det kommer) är /µ! Jan Grandell & Timo Koski Matematisk statistik 25..26 43 / 44

Kvantil, median Ett par begrepp: Definition Lösningen till ekvationen F X (x) = α kallas α-kvantilen till X och betecknas med x α. x.5 kallas för medianen och är således det värde som överskrides med samma sannolikhet som det underskrides. Jan Grandell & Timo Koski Matematisk statistik 25..26 44 / 44