LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A 1 P(Ω = 1 P(A B = P(A + P(B, om händelserna A och B är oförenliga (disjunkta. Additionssatsen för två händelser: P(A B = P(A + P(B P(A B. Betingad sannolikhet: P(B A = P(A B. P(A Satsen om total sannolikhet : P(A = P(A H i P(H i, där händelserna H 1,...,H n är parvis oförenliga (disjunkta händelser och A och B är oberoende P(A B = P(A P(B. n H i = Ω. Beskrivning av data Medelvärde: x = 1 n Varians: s 2 = 1 Variationskoefficient: s x Kovarians: c xy = 1 x i (x i x 2 = 1 Korrelationskoefficient: r xy = c xy s x s y [ ] xi 2 n x 2 (x i x(y i ȳ = 1 [ ] x i y i n xȳ Läges-, spridnings- och beroendemått Väntevärdet av g(x : E[g(X ] = g(kp X (k k= g(xf X (x dx (diskreta s.v. (kontinuerliga s.v.
Varians: V(X = E[(X E(X 2 ] = E(X 2 [E(X ] 2. Standardavvikelse: D(X = V(X. Kovarians: C(X, Y = E[(X E(X (Y E(Y ] = E(XY E(X E(Y. ( Väntevärde av linjärkombination: E a i X i + b = a i E(X i + b ( Varians av linjärkombination: V a i X i + b = ai 2 V(X i + 2 a i a j C(X i, X j. j=i+1 X 1,..., X n oberoende X 1,..., X n okorrelerade, dvs C(X i, X j = 0, i j. Fördelningar Vanliga fördelningar Fördelning Väntevärde Varians Binomialfördelning, Bin ( n, p p(k = ( n p k k (1 p n k k = 0, 1,..., n np np(1 p Poissonfördelning, Po ( μ μ μk p(k = e k! k = 0, 1, 2,... μ μ Rektangelfördelning, R(a, b f (x = 1 b a a x b a + b 2 (a b 2 12 Exponentialfördelning, Exp(a f (x = 1 a e x/a x 0 a a 2 Normalfördelning 1, N ( μ, σ 2 f (x = 1 (x μ2 e 2σ 2 < x < μ σ 2 2πσ 2 χ 2 -fördelning, χ 2 (n f (x = 1 2 e x/2 ( x 2 n/2 1 Γ( n 2 x 0 n 2n t-fördelning, t(n 2 f (x = 1 Γ( n+1 nπ Γ( n 2 n+1 (1 + x2 2 n < x < 0, n > 1 n n 2, n > 2 F-fördelning, F(n, m f (x = Γ ( n+m 2 n n/2 m m/2 x 0 Γ( n 2Γ( m 2 x (n 2/2 (m + nx (n+m/2 m m 2 m 2 (2m + 2n 4 n(m 2 2 (m 4, m > 4 1 I Olbjer och extentor N ( μ, σ 2 ; i Räkna med Variation och MATLAB N ( μ, σ. 2
Additionsformler Om X och Y oberoende så gäller: X Bin ( n 1, p, Y Bin ( n 2, p X + Y Bin ( n 1 + n 2, p. X Po ( ( μ 1, Y Po μ2 X + Y Po ( μ 1 + μ 2. X χ 2 (n, Y χ 2 (m X + Y χ 2 (n + m. Normalfördelning X N ( μ, σ 2 Z = X μ N(0, 1 σ ( x μ F X (x = Φ där Φ( ges av tabell σ X 1,..., X n oberoende och N ( μ 1, σ 2 ( ( 1,..., N μn, σ 2 n a i X i N a i μ i, ai 2 σ 2 i Centrala gränsvärdessatsen X 1, X 2,... oberoende och likafördelade med E(X i = μ, V(X i = σ 2 X i N ( nμ, nσ 2 om n är stort nog Med utnyttjande av, bland annat, CGS gäller följande approximationer: Bin ( n, p Po ( np om p 0.1 och n 10. Bin ( n, p N ( np, np(1 p om np(1 p 10. Po ( μ N ( μ, μ om μ 15. Gauss approximationsformler: Med μ = E(X gäller att E [ g(x ] g(μ, V [ g(x ] [ g (μ ] 2 V(X. Med μ i = E(X i och c i = g i (μ 1,..., μ k gäller att E [ g(x 1,..., X n ] g(μ 1,..., μ k, V [ g(x 1,..., X n ] k k ci 2 V(X i + 2 c i c j C(X i, X j. j=i+1 Obs: X 1,..., X n oberoende X 1,..., X n okorrelerade, dvs C(X i, X j = 0, i j. 3
Fördelningar besläktade med normalfördelningar X 1,..., X n oberoende och N(0, 1 X 1,..., X n oberoende och N ( μ, σ 2 1 σ 2 X N(0, 1, Y χ 2 (n samt oberoende X 2 i χ 2 (n (X i X 2 χ 2 ( X Y /n t(n X χ 2 (n, Y χ 2 (m samt oberoende X /n F(n, m Y /m F 1 α (n, m = 1/F α (m, n Konfidensintervall Konfidensintervall med konfidensgrad 1 α för väntevärdet av en normalfördelad skattning: Om θ N ( θ, D(θ 2 så I θ = (θ ± λ α/2 D(θ, I θ = (θ ± λ α/2 d(θ, I θ = (θ ± t α/2 (f d(θ, om D(θ är känd om D(θ skattas med d(θ, eller θ N enl. CGS. om D(θ = c σ där σ okänd och skattad med (σ 2 = s 2 = Q f med Q σ 2 χ2 (f Intervallen är approximativa vid normalapproximation av skattaren, θ N ( θ, D(θ 2. Konfidensintervall med konfidensgrad 1 α för variansen i en normalfördelning: Om X 1,..., X n N ( μ, σ 2 med (σ 2 = s 2 = Q f och Q σ 2 χ2 (f så ( f s 2 f s 2 I σ 2 = χ 2 α/2 (f, χ 2 1 α/2 (f Konfidensintervall med konfidensgrad 1 α för kvoten mellan varianserna i två normalfördelningar: Om X 1,..., X n1 N ( μ 1, σ 2 1 och Y1,..., Y n2 N ( μ 2, σ 2 2 och μ1, μ 2 är okända: ( s 2 I σ 2 1 /σ 2 = 1 2 s2 2 F 1 α/2 (n 2 1, n 1 1, s2 1 s2 2 F α/2 (n 2 1, n 1 1 4
Skattning av σ 2 Om X i N ( μ, σ 2, i = 1,..., n är oberoende och μ okänd skattas variansen med (σ 2 = s 2 = Q = 1 ( Xi X 2 Poolade variansskattning vid k stickprov: och Q σ 2 χ2 ( (σ 2 = s 2 p = Q f = (n 1 1s 2 1 + (n 2 1s 2 2 + + (n k 1s 2 k (n 1 1 + (n 2 1 + + (n k 1 och Q σ 2 χ2 (f med f = n i k frihetsgrader. Vanliga medelfel Modell Skattning Medelfel X i N ( μ, σ 2, i = 1,..., n μ = x D(μ = σ n X i N ( μ 1, σ 2, i = 1,..., n 1 Y j N ( μ 2, σ 2, j = 1,..., n 2 X Bin ( n, p X 1 Bin ( n 1, p 1 X 2 Bin ( n 2, p 2 μ 1 = x μ 2 = ȳ p = x n 1 D(μ 1 μ 2 = σ + 1 n 1 n 2 p d(p = (1 p p i = x i n i d(p 1 p 2 = X Po ( μ μ = x d(μ = x n p 1 (1 p 1 + p 2 (1 p 2 n 1 n 2 Hypotestest Direktmetoden: P ( Få det vi fått eller längre från H 0 H 0 sann, jmf. med signifikansnivån α. Teststorhet, om skattningen θ är (approximativt normalfördelad, T = θ θ 0 d H 0 (θ, jmf. med λ eller t(f -kvantil. Styrkefunktion: h(θ = P(H 0 förkastas θ är det rätta parametervärdet Speciellt: Signifikansnivån, α = P(H 0 förkastas H 0 sann 5
Regression Enkel linjär regression: Modell: y i = α + βx i + ε i, i = 1,..., n, där ε i N ( 0, σ 2 är oberoende. Parameterskattningar: β = S xy N (β, σ2 α = ȳ β x ( 1n N (α, σ 2 S + x2 xx s 2 = Q 0 där Q 0 = (y i α β x i 2 = S yy S2 xy n 2 S xx = (x i x 2, S yy = (y i ȳ 2, S xy = (x i x(y i ȳ Ett tvåsidigt konfidensintervall med konfidensgrad 1 p för μ Y (x 0 = α + βx 0 ges av I μy (x 0 = α + β 1 x 0 ± t p/2 (n 2 s n + (x 0 x 2 Ett prediktionsintervall för y(x 0 = α + βx 0 + ε 0 ges av I y(x0 = α + β x 0 ± t p/2 (n 2 s 1 + 1 n + (x 0 x 2 Ett kalibreringsintervall med konfidensgrad 1 p för x 0 = y 0 α ges av β I x0 = x0 s ± t p/2 (n 2 β 1 + 1 n + (x 0 x2 där x0 = y 0 α β Multipel linjär regression: Modell: y i = β 0 + β 1 x 1i + β 2 x 2i +... + β p x pi + ε i, där ε i N ( 0, σ 2 är oberoende. Med matrisrepresentation kan modellen skrivas som Y = X β + E. Parameterskattningar: β = (X T X 1 X T Y V(β = σ 2 (X T X 1 s 2 Q 0 = där Q 0 = (y i β0 β1 x 1i... βp x pi 2 = Y T Y β T X T Y n (p + 1 Konfidensintervall för β i : I βi = ( β i ± t α/2 ( n p 1 d(β i där d(β i = s element(i + 1, i + 1 i (X T X 1 Konfidensintervall för μ Y (x 0 = β 0 + β 1 x 0 1 +... + β px 0 p: I μy (x 0 = (μ Y (x 0 ( ± t α/2 n p 1 s x 0T (X T X 1 x 0 6
Faktorförsök 2 k -försök Varje faktor kan anta låg ( och hög (+ nivå. För t.ex. ett 2 3 -försök med n observationer per faktorkombination är modellen y ijkl = μ ± A ± B ± C(±(±AB(±(±AC(±(±BC(±(±(±ABC + ε ijkl Effekten skattas med hjälp av ett teckenschema. Dividera med 2 3 (allmänt med 2 k Förs Medelv μ A B C AB AC BC ABC (1 ȳ + + + + (a ȳ + + + + + (b ȳ + + + + + (ab ȳ ++ + + + + (c ȳ + + + + + (ac ȳ + + + + + + (bc ȳ ++ + + + + (abc ȳ +++ + + + + + + + + Medelfelet d(effekt = s 2 k n, där s2 är den poolade variansskattningen från de olika försökspunkterna om n 2. Om n = 1 kan en variansskattning erhållas från samspel av högre ordning. För dessa måste då antas E((effekt 2 = σ 2 /2 k. 2 k 1 -försök Vanligen kopplas högsta samspelet till I. För k = 4, t.ex., blir kopplingen I = ±ABCD. Härur erhålles kopplingar mellan övriga effekter. Försökspunkterna fås genom att i teckenschemat för 2 k -försöket välja de rader som antingen har + eller för högsta samspelet. Effekterna skattas med hjälp av det så erhållna halverade teckenschemat. Dividera med 2 k 1 s. Medelfelet d(effekt =. 2 k 1 7