Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017
1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska variabler V X) = E X 2) E X)) 2 C X, Y ) = E X E X)) Y E Y ))) = E XY ) E X) E Y ) ρ X, Y ) = C X, Y ) D X) D Y ) 3 Diskreta fördelningar Binomialfördelningen ) n X är Binn, p) om p X k) = p k 1 p) n k, k = 0, 1,..., n, där 0 < p < 1. k E X) = np, V X) = np 1 p) För-första-gången -fördelningen X är ffgp) om p X k) = p 1 p) k 1, k = 1, 2, 3,..., där 0 < p < 1. E X) = 1 p, V X) = 1 p p 2 Hypergeometriska fördelningen ) ) Np N 1 p) X är HypN, n, p) om p X k) = k n k ), 0 k Np, N n 0 n k N 1 p), där N, Np och n är positiva heltal samt N 2, n < N, 0 < p < 1. E X) = np, V X) = N n np 1 p) N 1 Poissonfördelningen X är Poµ), där µ > 0, om p X k) = µk k! e µ, k = 0, 1, 2,... E X) = µ, V X) = µ 4 Kontinuerliga fördelningar Likformig fördelning X är U a, b), där a < b, om f X k) = E X) = a + b b a)2, V X) = 2 12 1 för a < x < b b a 0 annars 2
Exponentialfördelningen X är Expλ), där λ > 0, om f X x) = E X) = 1 λ, V X) = 1 λ 2 { λe λx för x > 0 0 annars Normalfördelningen X är N µ, σ) om f X k) = E X) = µ, V X) = σ 2 1 x µ)2 e 2σ 2, < x <, σ > 0 2πσ 2 X är N µ, σ) om och endast om X µ är N 0, 1) σ Om Z är N 0, 1) så har Z fördelningsfunktionen Φ x) enligt Tabell 1 och täthetsfunktionen ϕ x) = 1 e x2 /2, < x <. 2π En linjärkombination i a i X i + b av oberoende, normalfördelade stokastiska variabler är normalfördelad. 5 Centrala gränsvärdessatsen Om X 1, X 2,..., X n är oberoende, likafördelade stokastiska variabler med väntevärde µ och standardavvikelse σ > 0, så är Y n = X 1 +... + X n approximativt N µn, σ n) om n är stort. 6 Approximation HypN, n, p) Binn, p) om n N 0.1 Binn, p) Ponp) om p 0.1 Binn, p) N np, ) np 1 p) om np 1 p) 10 Poµ) N µ, µ ) om µ 15 7 Tjebysjovs olikhet Om E X) = µ och D X) = σ > 0 så gäller för varje k > 0 att P X µ < kσ) 1 k 2 8 Statistiskt material x = 1 n s 2 = 1 n 1 x j x j x) 2 = 1 x 2 j 1 n 1 n x j 2 3
9 Punktskattningar 9.1 Maximum-likelihoodmetoden Låt x i vara en observation av X i, i = 1, 2,..., n, där fördelningen för X i beror på en okänd parameter θ. Det värde θobs som maximerar likelihoodfunktionen L θ) = p X 1,...,X n x 1,..., x n ; θ) =om oberoende)= p X1 x 1 ; θ) p Xn x n ; θ) f X1,...,X n x 1,..., x n ; θ) =om oberoende)= f X1 x 1 ; θ) f Xn x n ; θ) kallas maximum-likelihoodskattningen ML-skattningen) av θ. 9.2 Minsta-kvadratmetoden Låt x i vara en observation av X i, i = 1, 2,..., n, och antag att E X i ) = µ i θ 1, θ 2,..., θ k ) och V X i ) = σ 2, där θ 1, θ 2,..., θ k är okända parametrar och X 1, X 2,..., X k är oberoende. Minsta-kvadratskattningarna MK-skattningarna) av θ 1, θ 2,..., θ k är de värden θ 1 ) obs, θ 2) obs,..., θ k) obs som minimerar kvadratsumman Q = Q θ 1, θ 2,..., θ k ) = x i µ i θ 1, θ 2,..., θ k )) 2. 9.3 Medelfel En skattning av D θ ) kallas medelfelet för θ och betecknas d θ ). 9.4 Felfortplantning Med beteckningar och förutsättningar enligt läroboken gäller a) E g θ )) gθ obs ) D g θ )) g θ obs ) D θ ) b) E g θ 1,..., θ n)) gθ 1 ) obs,..., θ n) obs ) V g θ 1,..., θ n)) C θi, θj ) [ g x i ] g x j x k =θ k ) obs,k=1,...,n 10 Några vanliga fördelningar i statistiken χ 2 -fördelningen Om X 1, X 2,..., X f är oberoende N 0, 1), så gäller det att f Xk 2 är χ 2 f)-fördelad. k=1 4
t-fördelningen Om X är N 0, 1) och Y är χ 2 f) samt om X och Y är oberoende, så gäller det X att är t f)-fördelad. Y/f 11 Stickprovsvariablernas fördelningar vid normalfördelade stickprov 11.1 Ett normalfördelat stickprov Låt X 1,..., X n vara oberoende stokastiska variabler som alla är N µ, σ). Då gäller: ) σ a) X är N µ, n b) Xi X ) 2 σ 2 = c) X och S 2 är oberoende d) X µ S/ n är t n 1) n 1) S2 σ 2 är χ 2 n 1) 11.2 Två normalfördelade stickprov med samma varians Låt X 1,..., X n1 vara N µ 1, σ) och Y 1,..., Y n2 vara N µ 2, σ) och samtliga dessa stokastiska variabler antas vara oberoende. Då gäller: 1 a) X Y är N µ 1 µ 2, σ + 1 ) n 1 n 2 b) n 1 + n 2 2) S 2 σ 2 är χ 2 n 1 + n 2 2) där S 2 = n 1 1) S1 2 + n 2 1) S2 2, n 1 + n 2 2 S1 2 = 1 n 1 Xi X ) 2 och S 2 n 1 1 2 = 1 n 2 Yi Y ) 2 n 2 1 c) X Y och S 2 är oberoende d) X Y µ 1 µ 2 ) 1 S + 1 n 1 n 2 är t n 1 + n 2 2) 11.3 Två normalfördelade stickprov med olika varians Låt X 1,..., X n1 vara N µ 1, σ 1 ) och Y 1,..., Y n2 vara N µ 2, σ 2 ) och samtliga dessa stokastiska variabler antas vara oberoende. ) Då gäller: σ1 2 X Y är N µ 1 µ 2, + σ2 2 n 1 n 2 5
12 Konfidensintervall 12.1 λ-metoden Låt θ vara N θ, D), där D är känd och θ okänd. Då är θ obs ± D λ α/2 ett konfidensintervall för θ med konfidensgraden 1 α. 12.2 t-metoden Låt θ vara N θ, D), där D och θ är okända och D inte beror på θ. Låt Dobs vara en punktskattning av D sådan att θ θ är t f). Då är D θ obs ± D obs t α/2 f) ett konfidensintervall för θ med konfidensgraden 1 α. 12.3 Approximativa metoden Låt θ vara approximativt N θ, D). Antag att Dobs är en lämplig punktskattning av D. Då är θ obs ± D obs λ α/2 ett konfidensintervall för θ med den approximativa konfidensgraden 1 α. 12.4 Metod baserad på χ 2 -fördelning Låt θobs vara en punktskattning av en parameter θ sådan att ) θ 2 f är χ 2 f). Då är θ ) f θ f obs χ 2 α/2 f), θ obs χ 2 1 α/2 f) ett konfidensintervall för θ med konfidensgraden 1 α. 13 Linjär regression 13.1 Fördelningar Låt Y i vara N α + βx i, σ), i = 1, 2,..., n, och oberoende. Då gäller: a) β = x i x) Y i Y ) är N β, x i x) 2 σ n x i x) 2 ) b) α = Y β 1 x är N α, σ n + x) 2 n x i x) 2 ) c) α + β 1 x 0 är N α + βx 0, σ n + x 0 x) 2 n x i x) 2 6
d) n 2) S2 σ 2 är χ 2 n 2) där S 2 = 1 n 2 e) S 2 är oberoende av α och β Y i α β x i ) 2 13.2 Konfidensintervall I α : αobs ± t 1 p/2 n 2) s n + x) 2 n x i x) 2 I β : βobs ± t s p/2 n 2) n x i x) 2 I α+βx0 : αobs + β obs x 1 0 ± t p/2 n 2) s n + x 0 x) 2 n x i x) 2 13.3 Beräkningsaspekter S xy = x i x) y i y) = x i x) y i = S xx = S yy = x i x) 2 = y i y) 2 x 2 i n x) 2 x i y i y) = n 2) s 2 = S yy β obs )2 S xx = S yy β obs S xy = min α,β 14 Hypotesprövning 14.1 Definitioner x i y i nx y y i α βx i ) 2 Signifikansnivån felrisken) α är det maximala värdet av) P förkasta H 0 ) då hypotesen H 0 är sann. Styrkefunktionen h θ) = P förkasta H 0 ) då θ är rätt parametervärde. 14.2 Konfidensmetoden Förkasta H 0 : θ = θ 0 på nivån α om θ 0 ej faller inom ett lämpligt valt konfidensintervall med konfidensgraden 1 α. 14.3 χ 2 -test Antag att n oberoende upprepningar av ett försök med de möjliga utfallen A 1, A 2,..., A r med respektive sannolikheter P A 1 ), P A 2 ),..., P A r ). Låt, för j = 1, 2,..., r, den stokastiska variableln X j beteckna antalet försök som ger resultatet A j. 7
Test av given fördelning Vi vill testa H 0 : P A 1 ) = p 1, P A 2 ) = p 2,..., P A r ) = p r för givna sannolikheter p 1, p 2,..., p r. Då blir r x j np j ) 2 Q = ett utfall av en approximativt χ 2 r 1)-fördelad stokastisk np j variabel om H 0 är sann och np j 5, j = 1, 2,..., r. Om vi skattar k parametrar ur data, θ = θ 1,..., θ k ) för att skatta p 1, p 2,..., p r med p 1 θobs ), p 2θobs ),..., p rθobs ), så är r Q x j np j θobs = ))2 np j θobs ) ett utfall av en approximativt χ 2 r k 1)-fördelad stokastisk variabel. Homogenitetstest Vi vill testa om sannolikheterna för utfallen A 1, A 2,..., A r försöksserier. Inför beteckningar enligt nedanstående tabell: är desamma i s Serie Antal observationer av Antal försök A 1 A 2 A 3 A r 1 x 11 x 12 x 13 x 1r n 1 2 x 21 x 22 x 23 x 2r n 2......... s x s1 x s2 x s3 x sr n s Kolonnsumma m 1 m 2 m 3 m r N ) 2 s r x ij n im j Bilda Q = N n i m j. N Q är ett utfall av en approximativt χ 2 r 1) s 1))-fördelad stokastisk variabel om n i m j /N 5, för alla i = 1, 2,..., s och j = 1, 2,..., r. Oberoendetest Antag att värdemängden för den stokastiska variabeln X kan delas in i kategorierna A 1, A 2,..., A r och att värdemängden för den stokastiska variabeln Y kan delas in i kategorierna B 1, B 2,..., B s. Vi vill testa om de stokastiska variablerna X och Y är oberoende. Antal observationer A 1 A 2 A 3 A r Radsumma B 1 x 11 x 12 x 13 x 1r n 1 B 2 x 21 x 22 x 23 x 2r n 2......... B s x s1 x s2 x s3 x sr n s Kolonnsumma m 1 m 2 m 3 m r N Samma teststorhet och fördelning kan användas som vid homogenitetstest. 8