Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005

. Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 = antalet delmängder av storlek k ur en CX, Y = E X EXY EY = EXY EXEY ρx, Y = CX, Y DXDY 3. Diskreta fördelningar Binomialfördelningen X är Binn, p om p X k = EX = np, V X = np p n k p k p n k, k = 0,,..., n, där 0 < p <. För-första-gangen -fördelningen X är ffgp om p X k = p p k, k =, 2, 3,..., där 0 < p <. EX = p, V X = p p 2 Hypergeometriska fördelningen Np N p k n k X är HypN, n, p om p X k =, 0 k Np, Nn 0 n k N p, där N, Np och n är positiva heltal samt N 2, n < N, 0 < p <. EX = np, V X = N n np p N Poissonfördelningen X är Poµ där µ > 0 om p X k = µk k! e µ, k = 0,, 2,... EX = µ, V X = µ 4. Kontinuerliga fördelningar Likformig fördelning { för a < x < b X är Ua, b där a < b om f X x = b a 0 annars EX = a + b 2, V X = b a2 2

2 Exponentialfördelningen { X är Expλ där λ > 0 om f X x = λ e λx för x > 0 0 annars EX = λ, V X = λ 2 Normalfördelningen X är Nµ, σ om f X x = EX = µ, V X = σ 2 X är Nµ, σ om och endast om X µ σ x µ2 2σ e 2, < x <, σ > 0. 2π σ är N0,. Om Z är N0, sa har Z fördelningsfunktionen Φx enligt tabell och täthetsfunktionen ϕx = 2π e x2 /2, < x <. En linjär sammansättning a i X i + b av oberoende, normalfördelade stokastiska variabler är normalfördelad. 5. Centrala gränsvärdessatsen Om X, X 2,..., X n är oberoende likafördelade stokastiska variabler med väntevärde µ och standardavvikelse σ > 0 sa är Y n = X + + X n approximativt Nnµ, σ n om n är stort. 6. Approximation HypN, n, p Binn, p om n N 0. Binn, p Ponp om p 0. Binn, p N np, np p om np p 0 Poµ Nµ, µ om µ 5 7. Tjebysjovs olikhet Om EX = µ och DX = σ > 0 sa gäller för varje k > 0 att P X µ > kσ k 2 8. Statistiskt material x = x n j j= s 2 = x n j x 2 = [ x n j 2 n ] 2 x n j j= j= j=

3 9. Punktskattningar 9. Maximum-likelihood-metoden Lat x i vara en observation pa X i, i =, 2,..., n, där fördelningen för X i beror pa en okänd parameter θ. Det värde θobs som maximerar L -funktionen { px,...,x x n,..., x n ; θ = om oberoende = p X x ; θ p Xn x n ; θ Lθ = f X,...,X n x,..., x n ; θ = om oberoende = f X x ; θ f Xn x n ; θ kallas maximum-likelihood-skattningen ML-skattningen av θ. 9.2 Minsta-kvadrat-metoden Lat x i vara en observation pa X i, i =, 2,..., n, och antag att EX i = µ i θ, θ 2,..., θ k och V X i = σ 2, där θ, θ 2,..., θ k är okända parametrar och X, X 2,..., X n är oberoende. Minsta-kvadrat-skattningarna MK-skattningarna av θ, θ 2,..., θ k är de värden θ obs, θ 2 obs,..., θ k obs som minimerar kvadratsumman Q = Qθ, θ 2,..., θ k = xi µ i θ, θ 2,..., θ k 2. 9.3 Medelfel En skattning av Dθ kallas medelfelet för θ och betecknas dθ. 9.4 Felfortplantning Med beteckningar och förutsättningar enligt läroboken gäller a Egθ gθ obs Dgθ g θobs Dθ b Egθ,..., θn g θ obs,..., θ n obs [ V gθ,..., θn Cθi, θ g j g ] x j= i x j x k =θ k obs,k=,...,n 0. Nagra vanliga fördelningar i statistiken χ 2 -fördelningen Om X, X 2,..., X f är oberoende och N0, sa gäller att f Xk 2 är χ2 f -fördelad. k= t -fördelningen Om X är N0, och Y är χ 2 f samt om X och Y är oberoende sa gäller att X Y/f är tf -fördelad.

. Stickprovsvariablernas fördelningar vid normalfördelade stickprov. Lat X,..., X n vara oberoende stokastiska variabler som alla är Nµ, σ. Da gäller: a X är N b σ µ, n n X i X 2 n S2 σ 2 = σ 2 är χ 2 n c X och S 2 är oberoende d X µ S/ n är tn 4.2 Lat X,..., X n vara Nµ, σ och Y,..., Y n2 vara Nµ 2, σ och samtliga stokastiska variabler antas oberoende. Da gäller: a X Y är N µ µ 2, σ n + n2 b n + n 2 2S 2 σ 2 är χ 2 n + n 2 2 där S 2 = n 2 S + n 2 S2 2 n + n 2 2 S 2 = n X n i X 2 och S2 2 = n 2 Y n 2 i Y 2 c X Y och S 2 är oberoende d X Y µ µ 2 är tn + n 2 2 S n + n 2,.3 Lat X,..., X n vara Nµ, σ och Y,..., Y n2 vara Nµ 2, σ 2 och samtliga stokastiska variabler antas oberoende. Da gäller: σ 2 X Y är N µ µ 2, + σ2 2 n n 2 2. Konfidensintervall 2. λ -metoden Lat θ vara Nθ, D där D är känd och θ okänd. Da är θ obs ± D λ α/2 ett konfidensintervall för θ med konfidensgraden α.

5 2.2 t -metoden Lat θ vara Nθ, D där D och θ är okända och D inte beror pa θ. Lat Dobs vara en punktskattning av D sadan att θ θ D är tf. Da är θobs ± D obs t α/2 f ett konfidensintervall för θ med konfidensgraden α. 2.3 Approximativa metoden Lat θ vara approximativt Nθ, D. Antag att D obs är en lämplig punktskattning av D. Da är θ obs ± D obs λ α/2 ett konfidensintervall för θ med den approximativa konfidensgraden α. 2.4 Metod baserad pa χ 2 -fördelning Lat θobs vara en punktskattning av en parameter θ sadan att θ 2 f är χ 2 f. Da är θ θobs f χ 2 α/2 f, θ f obs χ 2 α/2 f ett konfidensintervall för θ med konfidensgraden α. 3. Linjär regression 3. Fördelningar Lat Y i vara Nα + βx i, σ, i =, 2,..., n, och oberoende. Da gäller: n a β x = i xy i Y σ n är N β, n b α = Y β x är N c α + β x 0 är N α, σ α + βx 0, σ n + x 2 n n + x 0 x 2 n d n 2S2 σ 2 är χ 2 n 2 där S 2 = n 2 e S 2 är oberoende av α och β Y i α β x i 2

6 3.2 Konf idensintervall I α : α obs ± t p/2 n 2s n + x 2 n I β : βobs ± t s p/2 n 2 n I α+βx0 : α obs + β obs x 0 ± t p/2 n 2s n + x 0 x 2 n 3.3 Beräkningsaspekter S xy = x i xy i y = x i xy i = x i y i y = x i y i nx y S xx = = x 2 i nx2 S yy = y i y 2 n 2s 2 = S yy βobs 2 S xx = S yy βobs S xy = min y i α βx i 2 α,β 4. Hypotesprövning 4. Def initioner Signifikansnivan felrisken α är det maximala värdet av P förkasta H 0 da hypotesen H 0 är sann. Styrkefunktionen hθ = P förkasta H 0 da θ är rätt parametervärde. 4.2 Konf idensmetoden Förkasta H 0 : θ = θ 0 pa nivan α om θ 0 ej faller inom ett lämpligt valt konfidensintervall med konfidensgraden α. 4.3 χ 2 -test Man gör n oberoende upprepningar av ett försök som ger nagot av resultaten A, A 2,..., A r med respektive sannolikheter P A, P A 2,..., P A r. Lat för j =, 2,..., r den stokastiska variabeln X j beteckna antalet försök som ger resultatet A j.

7 Test av given fördelning: Vi vill testa H 0 : P A = p, P A 2 = p 2,..., P A r = p r för givna sannolikheter p, p 2,..., p r. Da blir r x j np j 2 Q = np j= j ett utfall av en approximativt χ 2 r -fördelad stokastisk variabel om H 0 är sann och np j 5, j =, 2,..., r. Om vi skattar k parametrar ur data, θ = θ,..., θ k, för att skatta p, p 2,..., p r med p θobs, p 2 θ obs,..., p r θ obs sa är r xj np Q j θobs = 2 j= np j θobs ett utfall av en approximativt χ 2 r k -fördelad stokastisk variabel. r x 2 j Beräkningsaspekt: Q = n, Q = np j= j r j= x 2 j np j θ obs n Homogenitetstest: Man vill testa om sannolikheterna för resultaten A, A 2,..., A r är desamma i s försöksserier. Inför beteckningar enligt nedanstaende tabell: Serie Antal observationer av Antal försök A A 2 A 3... A r x x 2 x 3... x r n 2. x 2. x 22 x 23... x 2r n 2. s x s x s2 x s3... x sr n s Kolonnsumma m m 2 m 3... m r N s r x ij n i m j 2 N Bilda Q =. n i m j j= N Q är ett utfall av en approximativt χ 2 r s -fördelad stokastisk variabel. Kontingenstabell test av oberoende mellan rader och kolonner: Samma teststorhet och fördelning som ovan.