1 Stokastiska processer En stokastisk process är en stokastisk variabel X(t), som beror på en parameter t, kallad tiden. Tiden kan vara kontinuerlig, eller diskret (i vilket fall man brukar beteckna processen med X n, d.v.s. processen är en följd av stokastiska variabler). Oftast är tiden också verklig tid. En stokastisk process kan också ses som en slumpmässig kurva eller funktion. Ett tredje sett att se på saken är att en stokastisk process är en samling stokastiska variabler, indexerade av en parameter kallad tiden. Exempel: X(t) = temperaturen vid tiden t. Kontinuerlig tid, X(t) kontinuerlig. X n = medeltemperaturen dag n. Diskret tid, X n kontinuerlig. X n = antal mål lag L gör i match n. Diskret tid, X n diskret. X(t) = antal e-mejl jag fått fram tills tid t. Kontinuerlig tid, X(t) diskret. 2 Poissonprocessen Poissonprocessen är en diskret stokastisk process i kontinuerlig tid. Poissonprocessen räknar antalet händelser som inträffat från tid 0 tills tid t, där händelser inträffar oberoende av varann. För att få en entydig defintion behövs ytterligare antaganden. Heuristisk definition: Anta att det förväntade antalet händelser under tiden t är λ t. Anta att händelser inträffar oberoende av varann, och helt slumpmässigt (i betydelsen att givet att det inträffat k st. händelser fram tills tid t, så är tidpunkterna då händelserna inträffade oberoende och likformigt fördelade på intervallet (0, t)). Då är X(t) = antalet händelser som inträffat fram tills tid t, en Poissonprocess med intensitet λ. Formell definition: Poissonprocessen är den heltalsvärda stokastiska processen {X(t), t 0}, som uppfyller 1. X(t) har oberoende ökningar. 2. Om h > 0, gäller P (X(t + h) X(t) = 1) = λh + o(h). 3. Om h > 0, gäller P (X(t + h) X(t) 2) = o(h). 1. betyder att, om t 1 < t 2 t 3 < t 4, så är X(t 2 ) X(t 1 ) (= ökningen i intervallet (t 1, t 2 )) och X(t 4 ) X(t 3 ) (= ökningen i intervallet (t 3, t 4 )) oberoende. I 2. och 3. är o(h) sådan att o(h)/h 0 när h 0. Alltså betyder 2. att P (X(t+h) X(t) = 1) λh då h är litet, och 3. att (X(t+h) X(t) 2) 0 då h är litet. Trots att Poissonprocessen i viss mening är den enklaste processen, fungerar den väldigt bra som modell i många tillämpningar. Exempel på situationer där Poissonprocessen framgångsrikt används som modell. 1. Telefonsamtal som anländer till en växel. 2. Olyckstillbud i ett kärnkraftverk. 3. Bilar som passerar t.ex. en bro. 4. Personer som ställer sig i en kö.
5. Mutationer i DNA. 6. Partikelemissioner från ett radioaktivt ämne. 7. Och många andra. 2.1 Egenskaper Ur den korta definitionen kan man visa att Poissonprocessen har föjlande egenskaper. A. X(t) Po(λt) (därav namnet). Speciellt gäller E(X(t)) = λt. B. Om s > t så är X(s) X(t) Po(λ(s t)). C. Om u > v s > t så är X(u) X(v) och X(s) X(t) oberoende. (Dvs 1.) D. Tiden T 1 tills den första händelsen är Exp( 1 λ ). E. Tiden S n mellan n:te och n 1:te händelserna är Exp( 1 λ ). Dessutom är S n och S m oberoende, om n m. F. Tiden T n = T 1 +S 2 +... S n tills den n:te händelsen är Γ(n, 1 λ ) (= Gammafördelningen med parametrar n och 1/λ = summan av n st. Exp( 1 λ )). G. Händelsen X(t) < n är ekvivalent med T n > t om tiden tills den n:te händelsen är större än t, har det inträffat färre än n händelser fram tills tiden t. Notera att A. ger att X(t) = 0! B. säger ungefär att processen startar om vid alla tidpunkter: Y (t) = X(s + t) X(s) = antalet händelser från tid s till tid t är en ny Poissonprocess (med intensitet λ). G. är väldigt användbart; det är en direkt koppling mellan summor av exponentialvariabler och Poissonfördelningen. 2.1.1 Gammafördelningen (Γ-fördelningen). Om en s.v. X har täthet f X (x) = 1 (n 1)! xn 1 1 m p ex/a, sägs X vara Gammafördelad med parametrar n och m: X Γ(n, m). Om n är ett heltal, är X summan av n st. Exp(m) variabler. Alltså är Γ(1, m) = Exp(m).
2.2 Exempel Anta att vi får SMS som en Poisson-process med intensitet 4 SMS per timme. a) Vad är sannolikheten att vi får minst 4 första timmen? X(1) Po(λt) = Po(4), så P (X(1) 4) = 1 P (X(1) 3) = 1 0.43347 = 0.56653. b) Vad är sannolikheten att vi får minst fyra både första och andra timmen? X(1) Po(4), och X(2) X(1) Po(λ(2 1)) = Po(4), och dessa två variabler är oberoende, så P (X(1) 4 X(2) X(1) 4) = P (X(1) 4)P (X(2) X(1) 4) = 0.56653 2 = 0.321. c) Vad är sannolikheten att vi måste vänta en timme på det första SMS:et? Tiden T 1 tills den första händelsen är Exp( 1 λ ) = Exp( 1 4 ), som har fördelningsfunktion F T1 (t) = 1 e 4t, så P (T 1 > 1) = e 4 = 0.0183. Alternativt, så är händelsen {T 1 > 1} ekvivalent med {X(1) = 0} (om vi måste vänta längre än 1 timme på det första SMS:et, har det kommit 0 st. fram till tid 1). Den sökta 4 40 sannolikheten är alltså P (X(1) = 0) = e 0! = 0.0183. d) Vad är sannolikheten att det tiden tills det fjärde SMS:et kommer är mindre än en timme? Vi vill veta sannolikheten för P (T 4 < 1), där T 4 Γ(4, 1 4 ). Det blir en ganska krånglig integral, men vi kan skriva om det med hjälp av X(t) istället; Händelsen {T 4 < 1} är ekvivalent med {X(1) 4} (om vi har fått minst 4 efter en timme, måste ju det fjärde ha kommit inom en timme). Så P (T 4 < 1) = P (X(1) 4) = 0.56653. 2.3 Tidsberonde intensitet En nackdel med vår nuvarande defintion av Poissonprocessen är att intensiteten λ måste vara konstant. Man inser ju att det tex. rings mindre under natten än under dagen. Ofta är detta inget problem; man är intresserad av ett kort intervall (i telefonexemplet kanske en minut eller en timme), där intensiteten kan antas vara konstant. Inom vissa områden är det dock nödvändigt att anta att intensiteten varierar. Turligt nog är detta inget formellt problem, dock kan de praktiska räkningarna bli krångliga. Anta att intensiten vid tid t beskrivs av en funktion λ(t). Då kan man definera en Poissonprocess med intensitetsfunktion λ(t) (också kallad en icke-homogen Poissonprocess). Den kommer då att få följande egenskaper: X(t) Po(Λ 0,t ), där Λ 0,t = t 0 λ(x)dx. X(t) X(s) Po(Λ s,t ), där Λ s,t = t s λ(x)dx. Oberoende ökningar (precis som C.). Tiden T tills första händelsen har fördelningsfunktion P (T < t) = 1 exp(λ 1 0,t ). osv.
2.3.1 Bitvis konstant intensitet. Ett användbart specialfall är då intensiteten är bitvis konstant, dvs. λ(t) = λ 1, 0 t < t 1, λ 2, t 1 t < t 2, λ 3, t 2 t < t 3,... Detta är förhållandevis lätt att använda. Så länge man är intresserad av ett intervall med konstant intensitet, har man en vanlig (homogen) Poissonprocess. Annars delar man upp processen i bitarna med konstant intensitet. Exempel. Anta att X(t) är en Poissonprocess med intensitet 2 för t mellan 0 och 3, och med intensitet 1 för t större än 3. Vad är P (X(4) = 3)? Lösning: Dela in så här: X(3) är Po(2 3), och X(4) X(3) är Po(1 1), och oberoende av X(3). Därför är P (X(4) = 3) = 3 P (X(3) = k)p (X(4) X(3) = 3 k) = k=0 3 Övningsuppgifter 3 k=0 6 6k 1 3 k e k! e 1 (3 k)! =... Poängen efter uppgifterna anger ungerfär svårighetsgraden, i meningen att det är ungefär så många poäng den uppgiften skulle ge på en normal tenta. Anta att fel i en dataström inträffar som en Poisson-process med intensitet λ = 15 fel per sekund. Låt X(t) vara antalet fel fram till tid t. a) Vad har X(1) = antalet fel under första sekunden för väntevärde? (1p) b) Vad är sannolikheten att det blir minst 16 fel första sekunden? (2p) c) Vad har antalet fel under tredje sekunden (X(3) X(2)) för fördelning? (1p) d) Vad har S 2 = tiden mellan 1:a och 2:a händelsen för väntevärde? (2p) e) Vad är sannolikheten att det under varje av de fyra första sekunderna finns minst 16 fel? (4p) f) Vad är sannolikheten att det finns minst 64 fel under de fyra första sekunderna? Motivera eventuella approximationer. (4p) g) Låt T n vara tiden tills det n:te felet. Vad är P (T 64 < 4)? Motivera eventuella approximationer. (5p)
h) Vad är sannolikheten att tiden mellan 1:a och 2:a, mellan 2:a och 3:de, och mellan 3:de och 4:de felen alla är mindre än 0.05 sekunder? (5p) i) Under de 2 första sekunderna fanns det 20 fel. Vad är sannolikheten att alla dessa kom under andra sekunden? (mer än 5p) 4 Lösningar a) X(1) Po(λ 1) = Po(15), så E(X(1)) = 15. b) X(1) Po(15), så P (X(1) 15) = 1 P (X(1) 15) = 1 0.56809 = 0.43191 (tab. 7). c) X(3) X(2) Po(λ(3 2) = Po(15). d) S 2 är Exp( 1 λ ) = Exp( 1 15 ), så E(S 2) = ( 1 15 ). e) Antalet fel första sekunden är Po(16) enligt a), antalet fel under tredje sekunden är också Po(16) enligt c). Det samma gäller för andra- och fjärde sekunden. Eftersom det rör sig om disjunkta intervall, är de fyra variablerna oberoende, och den sökta sannolikheten är: P (X(1) 16, X(2) X(1) 16, X(3) X(2) 16, X(4) X(3) 16) = 0.43191 4 (från b)). f) Antal fel under de fyra första sekunderna X(4) är Po(15 4) = Po(60). Eftersom 60 > 15, kan vi approximera med normalfördelningen; X(4) N(60, 60), och P (X(4) 64) = 1 P (X(4) 63) 1 Φ( 63 60 60 ) = 1 Φ(0.39) = 0.3483. (Med halvkorrektion: P (X(4) 64) = 1 P (X(4) 63 + 0.5) 1 Φ( 63+0.5 60 60 ) = 1 Φ(0.45) = 0.3264. (Exakt P (X(4) 64) = 0.3196.) g) {T 64 < 4} är ekvivalent med {X(4) 64}, så från f) är P (T 64 < 4) 0.3483. h) S 2, S 3, S 4 är alla Exp( 1 15 ), och oberoende. P (S 2 < 0.05, S 3 < 0.05, S 4 < 0.05) = (P (S 2 < 0.05)) 3 = ( 1 e 0.05 15) 3 = 0.527633 3 = 0.1469. i) Lång lösning: Vi vill veta P (X(1) = 0 X(2) = 20) = P (X(1)=0 X(2)=20) P (X(2)=20). X(1) och X(2) är inte oberoende, men X(1) och X(2) X(1) är det. Händelsen {X(1) = 0 X(2) = 20} är ekvivalent med {X(1) = 0 X(2) X(1) = 20}, och P (X(1) = 0 X(2) X(1) = 20) = P (X(1) = 0)P (X(2) X(1) = 20) 15 1 (15 1)0 P (X(1) = 0) = e = e 15 15 1520, P (X(2) X(1) = 20) = e 0! 20!. P (X(1) = 0 X(2) = 20) = 15 2 (15 2)20 P (X(2) = 20) = e 20! P (X(1) = 0 X(2) = 20) P (X(2) = 20) 30 3020 = e 20!. = P (X(1) = 0)(X(2) X(1) = 20). P (X(2) = 20)
= e 15 e 20 15 15 20! e 30 30 20 20! = 1520 30 20 = 1 2 20 9.5 10 7. Kort lösning: Givet att det inträffat 20 händelser fram till tid 2, är tidpunkterna för de 20 händelserna oberoende, och likformigt fördelade i intervallet (0,2). Sannolikheten att en händelse inträffar i intervallet (1,2) är därför 0.5, och sannolikheten att alla 20 gör det 0.5 20.