Matematisk statistik för B, K, N, BME och Kemister Johan Lindström Repetition Johan Lindström - johanl@maths.lth.se FMS86/MASB2 1/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Grundläggande begrepp (Kap. 3.1) Utfall resultatet av ett slumpmässigt försök. Bet. ω 1, ω 2,... Händelse en samling av ett eller flera utfall. Bet. A, B,... Utfallsrum mängden av möjliga utfall. Bet Ω Oberoende händelser (Kap. 3.2.4) Händelserna A och B är oberoende av varandra P(A B) = P(A)P(B) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 2/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Stokastisk variabel (Kap. 3.3) En stokastisk variabel eller slumpvariabel är ett tal vars värde styrs av slumpen. Bet X, Y,.... En stokastisk variabel beskrivs av: Sannolikhetsfunktion För en diskret s.v. X p X (k) = P(X = k) Täthetsfunktion För en kontinuerlig s.v X har vi f X (x). P(a X b) = b a f X (x) dx Fördelningsfunktion Summa av p X (k) eller integral av f X (x). F X (x) = P(X x) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 3/44
Begrepp S.V. Fördelning Väntevärde Gauss CGS Fördelningsfunktioner (Kap. 3.3) Diskret b P(a < X b) = p X(k) P(a < X b) = F X(b) F X(a) k=a+1 p X (k) F X (x) P(a < X b) = a b a b k k b a f X(x) dx Kontinuerligt P(a < X b) = F X(b) F X(a) f X (x) F X (x) a b x a b x Johan Lindström - johanl@maths.lth.se FMS86/MASB2 4/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Standardfördelningar (Kap. 3.6 & 6) Diskret fördelning: Binomialfördelning Ett slumpmässigt försök som lyckas med slh. p upprepas n oberoende ggr, X = Antal ggr försöket lyckas. Poissonfördelning Räknar antal händelser. Kontinuerlig fördelning: Rektangel- eller likformig fördelning Lika fördelade händelser i intervall. Exponentialfördelning Ofta överlevnadstid, eller tid till/mellan händelser. Normalfördelning Summor av många oberoende, vanligt antagande om för mätfel. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 5/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Väntevärde, E(X), μ, μ X, m,... (Kap. 3.5) Väntevärdet anger tyngdpunkten för fördelningen och kan tolkas som det värde man får i medeltal i långa loppet. { E(X) = xf X(x) dx Kont. k kp X(k) Diskr. Varians, V(X), σ 2, σ 2 X (Kap. 3.5) Variansen anger hur utspridd X är kring sitt väntevärde. [ ] } 2 V(X) = E{ X E(X) = E(X 2 ) E(X) 2 Standardavvikelse:, D(X), σ, σ X D(X) = V(X) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 6/44
Begrepp S.V. Fördelning Väntevärde Gauss CGS Räkneregler för Väntevärde och Varians (Kap. 3.5.4 & 4.4) E ( n ) a i X i = ( n ) a i X i = V n a i E(X i ) n a 2 i V(X i) om oberoende Johan Lindström - johanl@maths.lth.se FMS86/MASB2 7/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Linjärisering av g(x) kring punkten μ = E(X) g(x) g(µ) + g (µ)(x µ) g(µ) g(x) µ Johan Lindström - johanl@maths.lth.se FMS86/MASB2 8/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Gauss approximationsformler i en variabel (Kap. 5.2) Y = g(x). Taylorutveckla funktionen g kring μ = E(X) g(x) g(μ) + (X μ)g (μ) = E(Y) g(e(x)) V(Y) g [E(X)] 2 V(X) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 9/44
Begrepp S.V. Fördelning Väntevärde Gauss CGS Summa av tärningar.2 p X (k).1 1 2 3 4 5 6 Antal tärningar 7 8 1 2 k 3 4 5 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 1/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Centrala gränsvärdessatsen CGS (Kap. 4.5) Om X 1, X 2,..., X n är oberoende likafördelade stokastiska variabler med E(X i ) = μ, V(X i ) = σ 2 så är n ( X i N nμ, nσ 2) då n stort (n ) 1. Om Y = n X i gäller Y N ( nμ, nσ 2) 2. Om X n = 1 n n ( ) X i gäller X n N μ, σ2 n Johan Lindström - johanl@maths.lth.se FMS86/MASB2 11/44 Statistikteori översikt Punktskattning Hur gör man en bra gissning av en okänd storhet? Hur vet man att den är bra? Intervallskattning Hitta istället ett intervall som täcker den okända storheten med en given (stor) sannolikhet. Hypotestest Om gissningen blev.13, kan rätt värde på den okända storheten ändå vara.1? Regression Hur vet vi om två variabler påverkar varandra? Försöksplanering & Faktorförsök Hur konstruerar man studier som på bäst sätt (minst antal mätningar) undersöker effekten av olika faktorer (behandlingar)? Johan Lindström - johanl@maths.lth.se FMS86/MASB2 12/44
Statistikteori, grundläggande begrepp (Kap. 7.1) Stickprov Ett stickprov, x 1, x 2,..., x n, är observationer av s.v. X 1,..., X n från någon fördelning X i F(θ) där θ är en okänd parameter. Skattning En skattning av θ, θ (x 1,..., x n ) är en observation av den s.v. θ (X 1,..., X n ). Båda betecknas oftast bara med θ. Bra egenskaper för en skattning är Väntevärdesriktig: E(θ ) = θ, inget systematiskt fel. Effektiv: liten varians (osäkerhet) V(θ ). Johan Lindström - johanl@maths.lth.se FMS86/MASB2 13/44 Konfidensintervall (Kap. 7.3 & 9) Ett konfidensintervall för en parameter θ täcker rätt värde på θ med sannolikheten 1 α. 1 α kallas konfidensgrad. Vanliga värden är.95,.99 och.999. Normalfördelad skattning, θ N (θ, V(θ )) D(θ ) känd: I θ = θ ± λ α/2 D(θ ) D(θ ) okänd: I θ = θ ± t α/2 (f)d(θ ) Normalapproximation, θ N (θ, V(θ )) (Ex: CGS) D(θ ) känd: I θ = θ ± λ α/2 D(θ ) D(θ ) okänd: I θ = θ ± λ α/2 d(θ ) (alltid λ-kvantil) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 14/44 Konfidensintervall för σ 2 i N ( μ, σ 2) (Kap. 8.1) x 1,..., x n observationer av X i N ( μ, σ 2) Ett 1 α konfidensintervall för σ 2 ges av ( ) (n 1)s 2 (n 1)s 2 I σ 2 = χ 2 α/2 (n 1), χ 2 1 α/2 (n 1) I allmänhet har vi ( ) f s 2 f s 2 I σ 2 = χ 2 α/2 (f), χ 2 1 α/2 (f) där f är antalet frihetsgrader Johan Lindström - johanl@maths.lth.se FMS86/MASB2 15/44
Sammanvägd variansskattning (Kap. 7.4 & 7.7) Om vi har x 1,..., x nx y 1,..., y ny obs. av X i N (μ x, σ 2) obs. av Y i N (μ y, σ 2) kan den gemensamma variansen σ 2 skattas med s 2 p = (n x 1)s 2 x + (n y 1)s 2 y = Q ( ) Q n x 1 + n y 1 f, σ 2 χ2 (f) Ett konfidensintervall för μ x μ y blir t.ex. I μx μ y = x ȳ ± t α/2 (f) s p 1 n x + 1 n y eftersom μ x μ y = X Ȳ N ( μ x μ y, σ 2 ( 1 n x + 1 n y )). Johan Lindström - johanl@maths.lth.se FMS86/MASB2 16/44 Stickprov i par (Kap. 7.8) Vid många mätsituationer är det vanligt att man mäter före och efter en behandling på n inbördes olika föremål. Modell: Före: X i N ( μ i, σ 2 ) 1 Efter: Y i N ( μ i + Δ, σ 2 ) 2 Bilda Z i = Y i X i N ( Δ, σ 2) och skatta Δ med z. Gör konfidensintervall som vanligt för ett stickprov, dvs I Δ = z ± t α/2 (n 1) s n, s 2 = 1 n 1 n (z i z) 2. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 17/44 Hypotesprövning (Kap. 7.5 & 9) H förkastas om observationerna, θ, avviker för mycket från nollhypotesen θ. Testa nollhypotesen H : θ = θ mot mothypotesen (tex) H 1 : θ θ på nivån α; felrisken α ges av α = P(H förkastas trots att den är sann) De vanligaste mothypoteserna är H 1 : θ θ H förkastas om θ avviker för långt från θ både uppåt och nedåt. H 1 : θ < θ H förkastas om θ är tillräckligt mycket < θ. H 1 : θ > θ H förkastas om θ är tillräckligt mycket > θ. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 18/44
Olika metoder för att utföra hypotestest 1. Direktmetoden eller P-värde (Def. 7.35) Antag att H är sann Räkna ut P-värdet p = P(Få det vi fått eller värre) Om p < α förkastas H 2. Konfidensmetoden (Kap. 7.5.2) Gör ett konfidensintervall med konfidensgraden 1 α och förkasta H på nivån α om intervallet ej täcker θ. Intervallen skall, beroende på H 1, vara Test H 1 : θ < θ H 1 : θ θ H 1 : θ > θ Intervall: uppåt begr tvåsidigt nedåt begr 3. Testkvantitet T(X) och kritiskt område C (Kap. 7.5.3) Förkasta H om testskvantiteten hamnar i det kritiska området. C och T skall väljas så att α = P(T(X) C) = P( Förkasta H om H är sann ) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 19/44 Hypotestest Vilken metod? Normalfördelad skattning. σ känd: Vilken som helst. σ okänd: Direktmetoden kräver t-fördelningens fördelningsfunktion. Fördelning där μ = X N (μ, V(μ ))... enl. CGS. Vilken som helst Bin, Po,... där D(θ ) innehåller θ. Direktmetoden Går alltid att använda, ibland med normalapproximation. Konfidensmetoden Fungerar inte. Testkvantitet Kräver normalt normalapproximation. Vid styrkefunktion är det naturligt att utgå från testkvantitet. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 2/44 Testkvantiter Antag att vi vill testa H : θ = θ. Model Skattning T(X) D(θ )/d(θ ) kvantil X i N ( μ, σ 2) σ känd μ = X μ μ λ X Bin(n, p) X i Po(μ) Notera: σ okänd p = X n μ = X D(μ ) μ μ d(μ ) p p D (p ) μ μ D (μ ) 1. Standardavvikelse/medelfel räknas under H. 2. Bin och Po fallet kräver normalapproximation. 3. α-kvantil om ensidigt, α/2-kvantil om tvåsidigt. σ n s n p (1 p ) n μ n t(f) λ λ Johan Lindström - johanl@maths.lth.se FMS86/MASB2 21/44
Styrkefunktion (Kap. 7.6) Användas för att avgöra hur bra testet skiljer H från H 1. h(θ) = P( Förkasta H om θ är rätt värde ) Typ 1 fel: Typ 2 fel: α = P(H förkastas om H sann) β = P(H förkastas ej om H ej sann) Johan Lindström - johanl@maths.lth.se FMS86/MASB2 22/44 Styrkefunktion för testet av promillehalt (H : μ =.2) h(µ) = P(Förkasta H ) 1.8.6.4.2 n = 3, σ =.4.1.2.3.4 faktisk alkoholhalt µ n fördubblad resp. σ halverad 1.8.6.4.2.1.2.3.4 faktisk alkoholhalt µ Den okända sanningen Nykter Olovligt påverkad Mätresultat μ = x Säkerhetsmarginal Kritiskt område Slutsats från test Frikänns Döms μ.2.27 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 23/44 Linjär regression Modell (Kap. 1.2) Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (, σ 2). Johan Lindström - johanl@maths.lth.se FMS86/MASB2 24/44
14 12 1 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 8 6 4 2 1 2 3 4 5 6 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 25/44 Parameterskattningarna (Kap. 1.4 1.5) Skattningarna av α, β β = n (x i x)(y i ȳ) n (x i x) 2 α = ȳ β x och s 2 = (σ 2 ) är s 2 = Q n 2 där Q = Q σ 2 χ2 (n 2) = S xy n N (β, σ2 ) ( )) 1n N (α, σ 2 + x2 (y i α β x i ) 2 = S yy S2 xy Skattningarna α och β är dock inte oberoende av varandra. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 26/44 Konfidens-, prediktions- och kalibreringsintervall: I β = β s ± t a/2 (n 2) I α = α 1 ± t a/2 (n 2)s Sxx n + x2 I μ = α + β 1 x ± t a/2 (n 2)s n + (x x) 2. I Y(x ) = α + β x ± t a/2 (n 2)s 1 + 1 n + (x x) 2 I x = x ± t s a/2(n 2) β 1 + 1 n + (x x)2 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 27/44
Konfidens- och prediktionsintervall.5 Konfidensintervall för µ(x) och prediktionsintervall.4.3 Absorption.2.1.1.2 5 5 1 15 2 25 Kopparkoncentration Johan Lindström - johanl@maths.lth.se FMS86/MASB2 28/44 Kalibreringsintervall.5 Kalibreringsintervall då y =.2.4.3 Absorption.2.1.1.2 5 5 1 15 2 25 Kopparkoncentration Johan Lindström - johanl@maths.lth.se FMS86/MASB2 29/44 Residualanalys/Modellvalidering (Kap. 1.1) För att undersöka hur bra modellen stämmer kan vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. e i = y i α β x i, i = 1,..., n Dessa är observationer av ε i, och residualerna bör alltså: se ut att komma från en och samma normalfördelning vara oberoende av varandra vara oberoende av alla x i. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 3/44
Residualplottar 1 Residualer 1 Residualer mot x 5 5 e e 5 5 1 1 2 3 1:n Probability.99.98.95.9.75.5.25.1.5.2.1 1 1 2 3 x Normal Probability Plot 5 5 Data Johan Lindström - johanl@maths.lth.se FMS86/MASB2 31/44 Multipel linjär regression (Kap. 11.2) Modellen y i = β + β 1 x 1i +... + β p x pi + ε i, kan skrivas på matrisform som Y = Xβ + E ( ε i N, σ 2) oberoende där Y och E är n 1-vektorer, β en (p + 1) 1-vektor och X en n (p + 1)-matris y 1 1 x 11 x p1 β y 2 y =., X = 1 x 21 x p2......, β = β 1.,E = y n 1 x 1n x pn β p ε 1. ε n Johan Lindström - johanl@maths.lth.se FMS86/MASB2 32/44 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 33/44
Skattning av β och σ 2 (Kap. 11.3) MK-skattningar av β,..., β p (elementen i β) blir β = (X X) 1 X Y V (β ) = σ 2 (X X) 1 och skattning av σ 2 är s 2 = där residualkvadratsumman ges av Q = Q n (p + 1) n ( yi β β 1 x 1i... βpx ) 2 pi Johan Lindström - johanl@maths.lth.se FMS86/MASB2 34/44 Konfidensintervall och hypotestest för β i Konfidensintervall för β i blir alltså I βi = βi ± t a/2 (f) d(βi ) = [(X = βi ± t a/2 (n p 1) s X) 1] i,i Ett konfidensintervall för μ (x ) blir således 1 I μ (x ) = x β ± t a/2 (n p 1)s x (X X) x För prediktionsintervallet får man, som tidigare, lägga till en etta under kvadratroten 1 I Y(x ) = x β ± t a/2 (n p 1)s 1 + x (X X) x Johan Lindström - johanl@maths.lth.se FMS86/MASB2 35/44 Kolinjäritet (ex. två variabler) (Kap. 11.6) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 36/44
CO 2 halt CO 2 halt 36 35 34 33 32 Förstagradsmodell 31 1 2 3 Tid [år] Andragradsmodell 38 36 34 32 Residualer Residualer 4 2 2 Förstagradsmodell 4 1 2 3 1:n Andragradsmodell 1.5.5 3 1 2 3 Tid [år] 1 1 2 3 1:n Linjär y = α + βx, och kvadratisk, y = β + β 1 x + β 2 x 2, anpassning av årlig CO 2 -halten vid Mauna Loa som funktion av året (sedan 196). Johan Lindström - johanl@maths.lth.se FMS86/MASB2 37/44 Undersökningar Faktorförsök Model Konfidensintervall Statistiska undersökningar (Kap. 12.1) Deskriptiv undersökning Syftar till att beskriva egenskaper hos en population. Analytisk undersökning Syftar till att undersöka effekter av olika förklarande variabler eller faktorer på en population. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 38/44 Undersökningar Faktorförsök Model Konfidensintervall Analytisk undersökning (Kap. 12.1) Observationsstudie Ett antal objekt observeras tillsammans med en behandling. Vi har ingen möjlighet att påverka behandlingen. Kontrollerat experiment Behandlingen av olika objekt kan kontrolleras och bestäms på förhand Faktorer Variabler som vi kan styra i experimentet Kovariater Variabler som kan mätas men inte styras. Övriga variabler Kallas på engelska confounding factors Johan Lindström - johanl@maths.lth.se FMS86/MASB2 39/44
Undersökningar Faktorförsök Model Konfidensintervall 2 2 -försök (Kap. 12.3) I ett 2 2 -försök har man 2 faktorer som alla kan varieras på 2 nivåer. B Hög μ 12 μ 22 Låg μ 11 μ 21 Låg Hög A Enkel effekt Effekten av en faktor om den andra faktorn är fix. Huvudeffekt Effekten av en faktor för alla värden på den andra faktorn. Samspelseffekten Skillnaden mellan de enkla effekterna. Johan Lindström - johanl@maths.lth.se FMS86/MASB2 4/44 Undersökningar Faktorförsök Model Konfidensintervall Teckenschema för 2 2 -försök (Kap. 12.3.1) Försök Respons μ A B AB A och B låg (1) μ 11 + - - + A hög a μ 21 + + - - B hög b μ 12 + - + - A och B hög ab μ 22 + + + + Johan Lindström - johanl@maths.lth.se FMS86/MASB2 41/44 Undersökningar Faktorförsök Model Konfidensintervall Model för 2 2 -försök (Kap. 12.3.2) Vid n mätningar (replikat) av varje faktorkombination ges varje observation av y ijk = μ ij + ε ijk, i = 1, 2; j = 1, 2; k = 1,..., n och felen antas vara oberoende ε ijk N (, σ 2). n ( 2 yijk ȳ ij ) μ ij = ȳ ij, s 2 ij = Â = ȳ 11 + ȳ 21 ȳ 12 + ȳ 22 2 2, k=1 s 2 = s2 11 + s2 21 + s2 12 + s2 22 2 2, f = 2 2 (n 1) n, Johan Lindström - johanl@maths.lth.se FMS86/MASB2 42/44
Undersökningar Faktorförsök Model Konfidensintervall Johan Lindström - johanl@maths.lth.se FMS86/MASB2 43/44 Undersökningar Faktorförsök Model Konfidensintervall Konfidensintervall för 2 2 -försök (Kap. 12.3.2) Givet n replikat blir konfidensintervallen för effekterna I A = Â ± t α/2(2 2 s (n 1)) 22 n I B = B ± t α/2 (2 2 s (n 1)) 22 n I A B = ÂB ± t α/2(2 2 s (n 1)) 22 n Johan Lindström - johanl@maths.lth.se FMS86/MASB2 44/44