LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD 208-08-26 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A P(Ω = P(A B = P(A + P(B, om händelserna A och B är oförenliga (disjunkta. Additionssatsen för två händelser: P(A B = P(A + P(B P(A B. Betingad sannolikhet: P(B A = P(A B. P(A Satsen om total sannolikhet : P(A = P(A H i P(H i, där händelserna H,...,H n är parvis oförenliga (disjunkta händelser och A och B är oberoende P(A B = P(A P(B. n H i = Ω. Beskrivning av data Medelvärde: x = n Varians: s 2 = n Variationskoefficient: s x Kovarians: c xy = n x i (x i x 2 = n Korrelationskoefficient: r xy = c xy s x s y [ ] xi 2 n x 2 (x i x(y i ȳ = n [ ] x i y i n xȳ Läges-, spridnings- och beroendemått Väntevärdet av g(x : E[g(X ] = g(kp X (k k= g(xf X (x dx (diskreta s.v. (kontinuerliga s.v.
Varians: V(X = E[(X E(X 2 ] = E(X 2 [E(X ] 2. Standardavvikelse: D(X = V(X. Kovarians: C(X, Y = E[(X E(X (Y E(Y ] = E(XY E(X E(Y. ( Väntevärde av linjärkombination: E a i X i + b = a i E(X i + b ( Varians av linjärkombination: V a i X i + b = ai 2 V(X i + 2 a i a j C(X i, X j. j=i+ X,..., X n oberoende X,..., X n okorrelerade, dvs C(X i, X j = 0, i j. Fördelningar Tabell över vanliga fördelningar Fördelning Väntevärde Varians Binomialfördelning, Bin(n, p p(k = ( n p k k ( p n k k = 0,,..., n np np( p Poissonfördelning, Po(μ μ μk p(k = e k! k = 0,, 2,... μ μ ffg-fördelning p(k = p( p k k =, 2,... /p ( p/p 2 Rektangelfördelning, R(a, b f (x = b a a x b a + b 2 (a b 2 2 Exponentialfördelning, Exp(λ f (x = λ e λx x 0 λ λ 2 Normalfördelning, N(μ, σ f (x = (x μ2 e 2σ 2 < x < μ σ 2 2πσ 2 t-fördelning, t(n 2 f (x = Γ( n+ nπ Γ( n 2 n+ ( + x2 2 n < x < 0, n > n n 2, n > 2 Gumbelfördelning F(x = e e (x a/b (obs fördelningsfunktion < x <, a + γb b 2 π 2 /6 b > 0 (γ 0.57722 Weibullfördelning ( c x b F(x = e a (obs fördelningsfunktion x b, a, c > 0 b +aγ( + /c a 2 Γ( + 2/c a 2 Γ 2 ( + /c Lognormalfördelning (ln X N (m, σ f (x = xσ (ln x m 2 2π e 2σ 2 x 0 e m+σ2 /2 e 2m+2σ2 e 2m+σ2 2
Additionsformler Om X och Y oberoende så gäller: X Bin(n, p, Y Bin(n 2, p X + Y Bin(n + n 2, p. X Po(μ, Y Po(μ 2 X + Y Po(μ + μ 2. X χ 2 (n, Y χ 2 (m X + Y χ 2 (n + m. Normalfördelning X N(μ, σ Z = X μ N(0, σ ( x μ F X (x = Φ där Φ( ges av tabell σ X,..., X n oberoende och N(μ, σ,..., N(μ n, σ n a i X i N( a i μ i, n ai 2 σ 2 i Centrala gränsvärdessatsen X, X 2,... oberoende och likafördelade med E(X i = μ, V(X i = σ 2 X i N(nμ, nσ om n är stort nog Med utnyttjande av, bland annat, CGS gäller följande approximationer: Bin(n, p Po(np om p 0. och n 0. Bin(n, p N(np, np( p om np( p 0. Po(μ N(μ, μ om μ 5. Gauss approximationsformler: Med μ = E(X gäller att E [ g(x ] g(μ, V [ g(x ] [ g (μ ] 2 V(X. Med μ i = E(X i och c i = g i (μ,..., μ k gäller att E [ g(x,..., X n ] g(μ,..., μ k, V [ g(x,..., X n ] k k ci 2 V(X i + 2 c i c j C(X i, X j. j=i+ Obs: X,..., X n oberoende X,..., X n okorrelerade, dvs C(X i, X j = 0, i j. 3
Fördelningar besläktade med normalfördelningar X,..., X n oberoende och N(0, X,..., X n oberoende och N(μ, σ σ 2 X N(0,, Y χ 2 (n samt oberoende X 2 i χ 2 (n (X i X 2 χ 2 (n X Y /n t(n X χ 2 (n, Y χ 2 (m samt oberoende X /n F(n, m Y /m F α (n, m = /F α (m, n Konfidensintervall Konfidensintervall med konfidensgrad α för väntevärdet av en normalfördelad skattning: Om θ N(θ, D(θ så I θ = (θ ± λ α/2 D(θ, I θ = (θ ± λ α/2 d(θ, I θ = (θ ± t α/2 (f d(θ, om D(θ är känd om D(θ skattas med d(θ, eller θ N enl. CGS. om D(θ = c σ där σ okänd och skattad med (σ 2 = s 2 = Q f med Q σ 2 χ2 (f Intervallen är approximativa vid normalapproximation av skattaren, θ N(θ, D(θ. Konfidensintervall med konfidensgrad α för variansen i en normalfördelning: Om X,..., X n N(μ, σ med (σ 2 = s 2 = Q f och Q σ 2 χ2 (f så ( f s 2 f s 2 I σ 2 = χ 2 α/2 (f, χ 2 α/2 (f Konfidensintervall med konfidensgrad α för kvoten mellan varianserna i två normalfördelningar: Om X,..., X n N(μ, σ och Y,..., Y n2 N(μ 2, σ 2 och μ, μ 2 är okända: ( s 2 I σ 2 /σ 2 = 2 s2 2 F α/2 (n 2, n, s2 s2 2 F α/2 (n 2, n 4
Skattning av σ 2 Om X i N(μ, σ, i =,..., n är oberoende och μ okänd skattas variansen med (σ 2 = s 2 = Q n = ( Xi X 2 Q och n σ 2 χ2 (n Poolade variansskattningen vid 2 stickprov: (σ 2 = s 2 p = Q f = (n s 2 + (n 2 s 2 2 n + n 2 2 och Q σ 2 χ2 (n + n 2 2 Poolade variansskattning vid k stickprov: (σ 2 = s 2 p = Q f med f = n i k frihetsgrader. = (n s 2 + (n 2 s 2 2 + + (n k s 2 k (n + (n 2 + + (n k och Q σ 2 χ2 (f Vanliga medelfel Modell Skattning Medelfel X i N(μ, σ, i =,..., n μ = x D(μ = σ n X i N(μ, σ, i =,..., n Y j N(μ 2, σ, j =,..., n 2 X Bin(n, p X Bin(n, p X 2 Bin(n 2, p 2 μ = x μ 2 = ȳ p = x n D(μ μ 2 = σ + n n 2 p d(p = ( p p i = x i n i d(p p 2 = X Po(μ μ = x d(μ = x n p ( p + p 2 ( p 2 n n 2 Intervall för skillnad i medelvärde vid olika varianser (Welchs t-test Om X i N(μ, σ, i =,..., n, Y j N(μ 2, σ 2, j =,..., n 2 och σ σ 2 är okända (approximativt: ( s 2 2 s I μ μ 2 = x 2 ȳ ± t α/2 (f + s2 2 n + s2 2 n2 där f = n Hypotestest n 2 (s 2/n 2 n + (s2 2 /n 2 2 n 2 Direktmetoden: P ( Få det vi fått eller längre från H 0 H 0 sann, jmf. med signifikansnivån α. Teststorhet, om skattningen θ är (approximativt normalfördelad, T = θ θ 0 d H 0 (θ, jmf. med λ eller t(f -kvantil. Styrkefunktion: h(θ = P(H 0 förkastas θ är det rätta parametervärdet Speciellt: Signifikansnivån, α = P(H 0 förkastas H 0 sann 5
Regression Enkel linjär regression: Modell: y i = α + βx i + ε i, i =,..., n, där ε i N(0, σ är oberoende. Parameterskattningar: β = S xy N(β, σ Sxx α = ȳ β x N(α, σ ( n + x2 s 2 = Q 0 där Q 0 = (y i α β x i 2 = S yy S2 xy n 2 S xx = (x i x 2, S yy = (y i ȳ 2, S xy = (x i x(y i ȳ Ett tvåsidigt konfidensintervall med konfidensgrad p för μ Y (x 0 = α + βx 0 ges av I μy (x 0 = α + β x 0 ± t p/2 (n 2 s n + (x 0 x 2 Ett prediktionsintervall för y(x 0 = α + βx 0 + ε 0 ges av I y(x0 = α + β x 0 ± t p/2 (n 2 s + n + (x 0 x 2 Ett kalibreringsintervall med konfidensgrad p för x 0 = y 0 α ges av β I x0 = x0 s ± t p/2 (n 2 β + n + (x 0 x2 där x0 = y 0 α β Multipel linjär regression: Modell: y i = β 0 + β x i + β 2 x 2i +... + β p x pi + ε i, där ε i N(0, σ är oberoende. Med matrisrepresentation kan modellen skrivas som Y = X β + E. Parameterskattningar: β = (X T X X T Y V(β = σ 2 (X T X s 2 Q 0 = där Q 0 = (y i β0 β x i... βp x pi 2 = Y T Y β T X T Y n (p + Konfidensintervall för β i : I βi = ( β i ± t α/2 (n p d(β i där d(β i = s element(ii i (X T X Konfidensintervall för μ Y (x 0 = β 0 + β x 0 +... + β px 0 p: ( I μy (x 0 = μ Y (x 0 ± t α/2 (n p s x 0T (X T X x 0 Vid stegvis regression baseras valet av modell i varje steg på variablernas testkvantiteter T = β i d(β i 6
Korrelation ρ = r xy = cxy s xs y = t = r xy (n 2/( r 2 xy n (x i x(y i ȳ n (x i x 2 n (y i ȳ 2 Om data kommer från en bivariat normalfördelning är t-fördelad med n 2 frihetsgrader då H 0 : ρ = 0 är sann. Tidsserier y,..., y n är en tidsserie ρ k = r k = n k t= (yt ȳ(y t+k ȳ n t= (yt ȳ2 AR(-process: Y t = α Y t + e t där < α < och slumpvariablerna {e t } är oberoende med varians σ 2 ; ρ k = α k, k = 0,, 2,... 7