Matematisk statistik KTH Formel- och tabellsamling i Matematisk statistik, grundkurs Varterminen 2005
. Kombinatorik ( ) n = k n! k!(n k)!. Tolkning: ( n k mängd med n element. 2. Stokastiska variabler V (X) = E(X 2 ) (E(X)) 2 ) = antalet delmängder av storlek k ur en C(X, Y ) = E ( (X E(X))(Y E(Y )) ) = E(XY ) E(X)E(Y ) ρ(x, Y ) = C(X, Y ) D(X)D(Y ) 3. Diskreta fördelningar Binomialfördelningen X är Bin(n, p) om p X (k) = E(X) = np, V (X) = np( p) ( n k ) p k ( p) n k, k = 0,,..., n, där 0 < p <. För-första-gangen -fördelningen X är ffg(p) om p X (k) = p( p) k, k =, 2, 3,..., där 0 < p <. E(X) = p, V (X) = p p 2 Hypergeometriska fördelningen ( )( ) Np N( p) k n k X är Hyp(N, n, p) om p X (k) = ( ), 0 k Np, Nn 0 n k N( p), där N, Np och n är positiva heltal samt N 2, n < N, 0 < p <. E(X) = np, V (X) = N n np( p) N Poissonfördelningen X är Po(µ) där µ > 0 om p X (k) = µk k! e µ, k = 0,, 2,... E(X) = µ, V (X) = µ 4. Kontinuerliga fördelningar Likformig fördelning { för a < x < b X är U(a, b) där a < b om f X (x) = b a 0 annars E(X) = a + b 2, V (X) = (b a)2 2
2 Exponentialfördelningen { X är Exp(λ) där λ > 0 om f X (x) = λ e λx för x > 0 0 annars E(X) = λ, V (X) = λ 2 Normalfördelningen X är N(µ, σ) om f X (x) = E(X) = µ, V (X) = σ 2 X är N(µ, σ) om och endast om X µ σ (x µ)2 2σ e 2, < x <, σ > 0. 2π σ är N(0, ). Om Z är N(0, ) sa har Z fördelningsfunktionen Φ(x) enligt tabell och täthetsfunktionen ϕ(x) = 2π e x2 /2, < x <. En linjär sammansättning a i X i + b av oberoende, normalfördelade stokastiska variabler är normalfördelad. 5. Centrala gränsvärdessatsen Om X, X 2,..., X n är oberoende likafördelade stokastiska variabler med väntevärde µ och standardavvikelse σ > 0 sa är Y n = X + + X n approximativt N(nµ, σ n ) om n är stort. 6. Approximation Hyp(N, n, p) Bin(n, p) om n N 0. Bin(n, p) Po(np) om p 0. Bin(n, p) N ( np, np( p) ) om np( p) 0 Po(µ) N(µ, µ) om µ 5 7. Tjebysjovs olikhet Om E(X) = µ och D(X) = σ > 0 sa gäller för varje k > 0 att P ( X µ > kσ) k 2 8. Statistiskt material x = n x n j j= s 2 = n (x n j x) 2 = [ n x n j 2 ( n ) ] 2 x n j j= j= j=
3 9. Punktskattningar 9. Maximum-likelihood-metoden Lat x i vara en observation pa X i, i =, 2,..., n, där fördelningen för X i beror pa en okänd parameter θ. Det värde θobs som maximerar L -funktionen { px,...,x (x n,..., x n ; θ) = (om oberoende) = p X (x ; θ) p Xn (x n ; θ) L(θ) = f X,...,X n (x,..., x n ; θ) = (om oberoende) = f X (x ; θ) f Xn (x n ; θ) kallas maximum-likelihood-skattningen (ML-skattningen) av θ. 9.2 Minsta-kvadrat-metoden Lat x i vara en observation pa X i, i =, 2,..., n, och antag att E(X i ) = µ i (θ, θ 2,..., θ k ) och V (X i ) = σ 2, där θ, θ 2,..., θ k är okända parametrar och X, X 2,..., X n är oberoende. Minsta-kvadrat-skattningarna (MK-skattningarna) av θ, θ 2,..., θ k är de värden (θ ) obs, (θ 2) obs,..., (θ k) obs som minimerar kvadratsumman n ( Q = Q(θ, θ 2,..., θ k ) = xi µ i (θ, θ 2,..., θ k ) ) 2. 9.3 Medelfel En skattning av D(θ ) kallas medelfelet för θ och betecknas d(θ ). 9.4 Felfortplantning Med beteckningar och förutsättningar enligt läroboken gäller a) E(g(θ )) g(θ obs ) D(g(θ )) g (θobs ) D(θ ) b) E(g(θ,..., θn)) g ( (θ ) obs,..., (θ n) ) obs [ V (g(θ,..., θn) n n C(θi, θ g j ) g ] x j= i x j x k =(θ k ) obs,k=,...,n 0. Nagra vanliga fördelningar i statistiken χ 2 -fördelningen Om X, X 2,..., X f är oberoende och N(0, ) sa gäller att f Xk 2 är χ2 (f) -fördelad. k= t -fördelningen Om X är N(0, ) och Y är χ 2 (f) samt om X och Y är oberoende sa gäller att X Y/f är t(f) -fördelad.
. Stickprovsvariablernas fördelningar vid normalfördelade stickprov. Lat X,..., X n vara oberoende stokastiska variabler som alla är N(µ, σ). Da gäller: a) X är N b) ( ) σ µ, n n (X i X) 2 (n )S2 σ 2 = σ 2 är χ 2 (n ) c) X och S 2 är oberoende d) X µ S/ n är t(n ) 4.2 Lat X,..., X n vara N(µ, σ) och Y,..., Y n2 vara N(µ 2, σ) och samtliga stokastiska variabler antas oberoende. Da gäller: ( a) X Y är N µ µ 2, σ n + ) n2 b) (n + n 2 2)S 2 σ 2 är χ 2 (n + n 2 2) där S 2 = (n 2 )S + (n 2 )S2 2 n + n 2 2 S 2 = n (X n i X) 2 och S2 2 = n 2 (Y n 2 i Y ) 2 c) X Y och S 2 är oberoende d) X Y (µ µ 2 ) är t(n + n 2 2) S n + n 2,.3 Lat X,..., X n vara N(µ, σ ) och Y,..., Y n2 vara N(µ 2, σ 2 ) och samtliga stokastiska variabler antas oberoende. Da gäller: ( σ 2 ) X Y är N µ µ 2, + σ2 2 n n 2 2. Konfidensintervall 2. λ -metoden Lat θ vara N(θ, D) där D är känd och θ okänd. Da är θ obs ± D λ α/2 ett konfidensintervall för θ med konfidensgraden α.
5 2.2 t -metoden Lat θ vara N(θ, D) där D och θ är okända och D inte beror pa θ. Lat Dobs vara en punktskattning av D sadan att θ θ D är t(f). Da är θobs ± D obs t α/2 (f) ett konfidensintervall för θ med konfidensgraden α. 2.3 Approximativa metoden Lat θ vara approximativt N(θ, D). Antag att D obs är en lämplig punktskattning av D. Da är θ obs ± D obs λ α/2 ett konfidensintervall för θ med den approximativa konfidensgraden α. 2.4 Metod baserad pa χ 2 -fördelning Lat θobs vara en punktskattning av en parameter θ sadan att ( θ ) 2 f är χ 2 (f). Da är θ ( ) θobs f χ 2 α/2 (f), θ f obs χ 2 α/2 (f) ett konfidensintervall för θ med konfidensgraden α. 3. Linjär regression 3. Fördelningar Lat Y i vara N(α + βx i, σ), i =, 2,..., n, och oberoende. Da gäller: ( ) n a) β (x = i x)(y i Y ) σ n (x i x) 2 är N β, n (x i x) 2 b) α = Y β x är N c) α + β x 0 är N ( ( α, σ α + βx 0, σ ) n + (x) 2 n (x i x) 2 ) n + (x 0 x) 2 n (x i x) 2 d) (n 2)S2 σ 2 är χ 2 (n 2) där S 2 = n 2 e) S 2 är oberoende av α och β n (Y i α β x i ) 2
6 3.2 Konf idensintervall I α : α obs ± t p/2 (n 2)s n + (x) 2 n (x i x) 2 I β : βobs ± t s p/2 (n 2) n (x i x) 2 I α+βx0 : α obs + β obs x 0 ± t p/2 (n 2)s n + (x 0 x) 2 n (x i x) 2 3.3 Beräkningsaspekter n n n n S xy = (x i x)(y i y) = (x i x)y i = x i (y i y) = x i y i nx y n S xx = (x i x) 2 n = x 2 i nx2 n S yy = (y i y) 2 (n 2)s 2 = S yy (βobs )2 S xx = S yy βobs n S xy = min (y i α βx i ) 2 α,β 4. Hypotesprövning 4. Def initioner Signifikansnivan (felrisken) α är (det maximala värdet av) P (förkasta H 0 ) da hypotesen H 0 är sann. Styrkefunktionen h(θ) = P (förkasta H 0 ) da θ är rätt parametervärde. 4.2 Konf idensmetoden Förkasta H 0 : θ = θ 0 pa nivan α om θ 0 ej faller inom ett lämpligt valt konfidensintervall med konfidensgraden α. 4.3 χ 2 -test Man gör n oberoende upprepningar av ett försök som ger nagot av resultaten A, A 2,..., A r med respektive sannolikheter P (A ), P (A 2 ),..., P (A r ). Lat för j =, 2,..., r den stokastiska variabeln X j beteckna antalet försök som ger resultatet A j.
7 Test av given fördelning: Vi vill testa H 0 : P (A ) = p, P (A 2 ) = p 2,..., P (A r ) = p r för givna sannolikheter p, p 2,..., p r. Da blir r (x j np j ) 2 Q = np j= j ett utfall av en approximativt χ 2 (r ) -fördelad stokastisk variabel om H 0 är sann och np j 5, j =, 2,..., r. Om vi skattar k parametrar ur data, θ = (θ,..., θ k ), för att skatta p, p 2,..., p r med p (θobs ), p 2 (θ obs ),..., p r (θ obs ) sa är ( r xj np Q j (θobs = )) 2 j= np j (θobs ) ett utfall av en approximativt χ 2 (r k ) -fördelad stokastisk variabel. r x 2 j Beräkningsaspekt: Q = n, Q = np j= j r j= x 2 j np j (θ obs ) n Homogenitetstest: Man vill testa om sannolikheterna för resultaten A, A 2,..., A r är desamma i s försöksserier. Inför beteckningar enligt nedanstaende tabell: Serie Antal observationer av Antal försök A A 2 A 3... A r x x 2 x 3... x r n 2. x 2. x 22 x 23... x 2r n 2. s x s x s2 x s3... x sr n s Kolonnsumma m m 2 m 3... m r N ( s r x ij n i m ) j 2 N Bilda Q =. n i m j j= N Q är ett utfall av en approximativt χ 2 ((r )(s )) -fördelad stokastisk variabel. Kontingenstabell (test av oberoende mellan rader och kolonner): Samma teststorhet och fördelning som ovan.
5. Markovprocesser 5. Markovkedjor i diskret tid 5.. Grundläggande begrepp Tillstandsrum: E Ȯ vergangsmatris: P = (p ij ) i,j E där p ij = P (X n = j X n = i) p (n) = (p (n), p(n) 2,...) där p(n) i = P (X n = i). Initialfördelning: p (0) Stationär fördelning: π Gränsfördelning: p 5..2 Chapman-Kolmogorovs ekvationer a) p (m+n) ij = p (m) ik p(n) kj k E b) P (m+n) = P (m) P (n) c) P (n) = P n d) p (n) = p (0) P (n) = p (0) P n. 5..3 Stationära sannolikheter 8 Om π = (π, π 2,..., π N ) är en stationär sannolikhetsfördelning till en irreducibel markovkedja (ändlig eller oändlig), är π i = /E(T i ) där T i är tiden mellan tva besök i tillstand i. π j /π i är förväntat antal besök i tillstand j mellan tva besök i tillstand i. 5..4 Ergodicitet. En markovkedja kallas ergodisk om den har en asymptotisk fördelning som är oberoende av startfördelningen. 2. En ändlig markovkedja är ergodisk om och endast om dess tillstandsmängd E innehaller en enda sluten irreducibel deltillstandsmängd och denna är aperiodisk. Speciellt är en ändlig, irreducibel och aperiodisk markovkedja ergodisk. 3. En irreducibel, aperiodisk markovkedja (ändlig eller oändlig) är ergodisk 5..5 Absorption om och endast om det existerar en stationär fördelning. En markovkedja kallas en A-kedja om E = A G, där alla tillstand i A är absorberande och alla tillstand i G leder till ett absorberande tillstand i A. Sannolikheten för absorption i tillstand j A, da den startar i tillstand i: a ij. Tiden till absorption, da den startar i tillstand i G: T i, t i = E(T i ).
9 För en ändlig A-kedja gäller för alla j A att a ij = p ij + k G p ik a kj, i G, och t i = + k G p ik t k, i G. 5.2 Markovprocesser i kontinuerlig tid 5.2. Grundläggande begrepp Ȯ vergangsmatris: P (t) = ( p ij (t) ) i,j E där p ij (t) = P (X(s + t) = j X(s) = i) p(t) = (p 0 (t), p (t),...) där p i (t) = P (X(t) = i) Uthoppsintensitet fran tillstand i: q i Ȯ vergangsintensitet fran tillstand i till tillstand j : q ij Stationär fördelning: π Gränsfördelning: p Intensitetsmatrisen (eller generatorn): Q = där q ii = q i. 5.2.2 Chapman-Kolmogorovs ekvationer a) p ij (s + t) = p ik (s)p kj (t) k E b) P (s + t) = P (s)p (t) c) p(t) = p(0)p (t). P (h) I lim h 0+ h = (q ij ) i,j E Kolmogorovs framat- resp. bakat-ekvation: P (t) = P (t)q = QP (t) 5.2.3 Stationära sannolikheter. π är en stationär fördelning till en markovprocess om och endast om πq = 0. 2. Om π = (π 0, π,...) är en stationär sannolikhetsfördelning till en ändlig 5.2.4 Ergodicitet (eller reguljär oändlig) irreducibel markovprocess, är π i = /q i E(T i ) där T i π j är tiden mellan tva inträden i tillstand i. är förväntad tid i tillstand q i π i j mellan tva inträden i tillstand i.. En ändlig och irreducibel markovprocess är ergodisk. 2. En reguljär, irreducibel markovprocess (ändlig eller oändlig) är ergodisk om och endast om det existerar en stationär fördelning.
0 5.2.5 Absorption Definitioner se 5..5. För en ändlig A-process gäller för alla j A att a ij = q ij + q ik a q i q kj, i G, och t i = + i q i k G\{i} k G\{i} 5.2.6 Poissonprocesser Om {N(t); t 0} är en poissonprocess med intensitet λ sa är q ik q i t k, i G. N(t) N(s) Po(λ (t s)), för t > s, och processens ökningar i disjunkta tidsintervall är oberoende. {N(t); t 0} är en födelseprocess med alla λ i = λ. 5.2.7 Födelseprocesser En födelseprocess med födelseintensiteter λ 0, λ,... är en markovprocess med X(0) = 0 och med övergangsintensiteter λ i, j = i +, i = 0,, 2,... q ij = λ i, j = i, i = 0,, 2,... 0, annars. En födelseprocess med födelseintensiteter λ 0, λ,... är reguljär, d.v.s. exploderar ej, om och endast om =. λ i=0 i 5.2.8 Födelse-döds-processer En födelse-döds-process med födelseintensiteter λ 0, λ,... och dödsintensiteter µ, µ 2,... är en markovprocess med övergangsintensiteter λ i, j = i +, i = 0,, 2,... µ i, j = i, i =, 2,... q ij = λ i µ i, i = j, i =, 2,... λ 0, i = j = 0 0, annars. Lat ρ 0 = och ρ i = λ 0 λ λ i µ µ 2 µ i. En födelse-döds-process är reguljär om och endast om k=0 λ k ρ k k ρ i =. i=0 En födelse-döds-process har en stationär fördelning π om och endast om ρ i < och =. λ i=0 i=0 i ρ i Den stationära fördelningen π är given av π j = ρ j. ρ i i=0
6. Köteori 6. Allmänt system Vi förutsätter att inblandade gränsvärden existerar. Beskrivning av systemet λ = ankomstintensitet. U = betjäningstiden för en godtycklig kund. B(t) = P (U t) = betjäningstidens fördelningsfunktion. c = antalet betjäningsstationer. Beteckningar µ = /E(U) = betjäningsintensitet för en godtycklig kund. ρ = λ = trafikintensiteten (betjäningsfaktorn). Vi förutsätter att ρ <. cµ X(t) = antalet kunder i systemet vid tid t. p = (p 0, p,...) = gränsfördelningen för antalet kunder i systemet, d.v.s. p i = lim P (X(t) = i). t l(t) = E(X(t)) = förväntat antal kunder i systemet vid tid t. l = lim l(t) = ip t i = förväntat antal kunder i systemet (efter lang tid). i=0 X q (t) = antalet kunder i kön vid tid t. l q (t) = E(X q (t)) = förväntat antal kunder i kön vid tid t. l q = lim l q (t) = förväntat antal kunder i kön (efter lang tid). t Q n = n:te kundens kötid. G q (τ) = lim n P (Q n τ). U n = n:te kundens betjäningstid, P (U n t) = B(t). S n = Q n + U n = n:te kundens tid i systemet. G(τ) = lim n P (S n τ). Lat Q vara en s.v. med fördelningsfunktion G q (τ). w q = E(Q) = förväntad tid i kön. w = E(Q + U) = förväntad tid i systemet. Under mycket allmänna villkor gäller att l = cρ + l q, w q = l q λ och w = l λ. Da c = gäller under mycket allmänna villkor att sannolikheten att en kund maste sta i kö = p 0 = λ µ = ρ.
2 6.2 System med Poissonankomster och exponentialfördelade betjäningstider System med c ( c (cρ) n ) p 0 = + (cρ)c. n! c!( ρ) n=0 p p n = 0 (cρ)n, n =, 2,..., c, n! p c ρ n c, n = c +, c + 2,... l q = p c ρ ( ρ) 2. G q (τ) = p c ρ e cµ( ρ)τ, τ 0. Sannolikheten att en kund maste sta i kö = System med c = p n = ( ρ)ρ n, n = 0,,... l q = ρ2 ρ. G q (τ) = ρe µ( ρ)τ, τ 0. G(τ) = e µ( ρ)τ, τ 0. System med c = 2 p n = l q = ρ + ρ, n = 0, 2( ρ)ρ n + ρ 2ρ3 ρ 2., n =, 2,... G q (τ) = 2ρ2 + ρ e 2µ( ρ)τ, τ 0. Förlustsystem med c p c ρ. Detta innebär att en kund, som inte far betjäning omedelbart, lämnar systemet. p n = (cρ) n n! + cρ! + (cρ)2 + + (cρ)c 2! c!, n = 0,,..., c.
3 6.3 System med Poissonankomster och godtyckligt fördelade betjäningstider System med c = ρ 2 l q = 2( ρ) 6.4 Jacksonnätverk ( + V (U) (E(U)) 2 ). Ett könätverk som har m noder kallas ett Jacksonnätverk om följande villkor är uppfyllda:. Varje nod har identiska betjäningsstationer med exponentialfördelade betjäningstider. Nod i har c i betjäningsstationer, vardera med betjäningsintensitet µ i. 2. Kunder som kommer till nod i utifran kommer enligt en Poissonprocess med intensitet λ i. (Kunder kan även komma till nod i fran andra noder i systemet.) 3. Sa snart en kund är betjänad i nod i sa gar kunden till nod j med sannolikheten p ij för j =,..., m eller lämnar systemet med sannolik- m heten p i = p ij. Alla förflyttningar sker ögonblickligen. j= 4. Alla ankomstprocesser, betjäningstider och förflyttningar är oberoende av varandra och av systemet i övrigt. m Ankomstintensiteten till nod i ges av Λ i = λ i + p ji Λ j för i =,..., m. j= Lat X i (t) vara antalet kunder som befinner sig i nod i. För ett Jacksonnätverk med Λ i /(c i µ i ) < för i =,..., m gäller att lim P (X (t) = n, X 2 (t) = n 2,..., X m (t) = n m ) = t p() n p (2) n 2 p (m) n m, där (p (i) 0, p(i), p(i) 2,...) är sannolikhetsfördelningen för ett M/M/c i -system i stationärt tillstand med ankomstintensitet Λ i och förväntad betjäningstid /µ i.