Matematisk statistik för D, I, Π och Fysiker Föreläsning 11 Johan Lindström 13 november 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 1/25 Repetition Stickprov & Skattning Maximum likelihood & Minsta kvadrat Översikt Repetition: Kvantil & N (0, 1) Chi 2-fördelning t-fördelning Intervall för μ i N (μ, σ) Exempel Ensidiga konfidensintervall Jämförelse av två μ Två stickprov Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 2/25 Stickprov & Skattning ML & MK Översikt Repetition Stickprov & Skattning Maximum likelihood & Minsta kvadrat Översikt Repetition: Kvantil & N (0, 1) Chi 2-fördelning t-fördelning Intervall för μ i N (μ, σ) Exempel Ensidiga konfidensintervall Jämförelse av två μ Två stickprov Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 3/25
Stickprov & Skattning ML & MK Översikt Statistikteori, grundläggande begrepp (Kap. 9, 11.1 11.3) Stickprov (Def. 9.1) Ett stickprov, x 1, x 2,..., x n, är observationer av s.v. X 1,..., X n från någon fördelning X i F(θ) där θ är en okänd parameter. Punktskattning (Def. 11.1) En punktskattning, θ (x 1,..., x n ), av en observation av den s.v. θ (X 1,..., X n ). θ (x 1,..., x n ) kan också ses som en funktion av ett stickprov eller motsvarande stokastiska variabler. Båda betecknas oftast bara med θ. Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 4/25 Stickprov & Skattning ML & MK Översikt En skattning θ är ett tal, en s.v. och en funktion θ Tal x 1 x 2 θ (x 1,..., x n) S.V. X 1 X 2 θ (X) X i F(θ) θ Funktion Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 5/25 Stickprov & Skattning ML & MK Översikt Egenskaper hos skattaning (Kap. 11.3) Väntevärdesriktig (Def. 11.2): E(θ ) = θ, inget systematiskt fel. Konsistent (Def. 11.3): P ( θ n θ > ε) 0, n, Bli rätt med många observationer, Medelkvadratfel (Def. 11.4): Medelkvadratfelet Mean Squared Error (MSE) hos en skattning ges av E ( (θ θ) 2) = V(θ ) + E (θ θ) 2 Effektiv (Def. 11.5): Skatntingen θ 1 är effektivare än θ 2 om V ( θ 1) < V ( θ 2 ). Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 6/25
Stickprov & Skattning ML & MK Översikt Maximum likelihood, ML (Kap. 11.5) ML-skattningen av θ fås genom att maximera likelihood-funktionen L(θ; x 1,..., x n ) m.a.p. θ. L(θ) = p X (x 1 )... p X (x n ) L(θ) = f X (x 1 )... f X (x n ) (diskr.) (kont.) Minsta kvadrat, MK (Kap. 11.6) Om E(X i ) = μ i (θ) så fås MK-skattningen av θ genom att minimera förlustfunktionen m.a.p. θ. Q(θ) = n ( x i μ i (θ) ) 2 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 7/25 Stickprov & Skattning ML & MK Översikt Statistikteori översikt Punktskattning Hur gör man en bra gissning av en okänd storhet? Hur vet man att den är bra? Intervallskattning Hitta istället ett intervall som täcker den okända storheten med en given (stor) sannolikhet. Hypotestest Om gissningen blev 0.013, kan rätt värde på den okända storheten ändå vara 0.01? Styrkefunktion Hur många mätningar måste vi göra för att upptäcka en skillnad mellan 0.013 och 0.01? Regression Hur vet vi om två (eller fler) variabler påverkar varandra? Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 8/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga Repetition Stickprov & Skattning Maximum likelihood & Minsta kvadrat Översikt Repetition: Kvantil & N (0, 1) Chi 2-fördelning t-fördelning Intervall för μ i N (μ, σ) Exempel Ensidiga konfidensintervall Jämförelse av två μ Två stickprov Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 9/25
Repetition χ 2 t N (μ, σ) Ex Ensidiga α-kvantil, x α (Def. 3.17) En kvantil till en s.v. X är en gräns som överskrids med slh. α. F X (x α ) = 1 α f 1 a a x_a x Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 10/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga Normalfördelning (Kap. 3.6c, 6) Φ(x) = F X (x) = x 1 2π e t2 2 dt där Φ(x) räknas ut numeriskt eller fås från tabell. Standardiserad Normalfördelning (Kap. 6.3) Om X N (μ, σ), med E(X) = μ och V(X) = σ 2, så är X μ σ N (0, 1) Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 11/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga (Kap. 12.2) Ett konfidensintervall för en parameter θ täcker rätt värde på θ med sannolikheten 1 α. 1 α kallas konfidensgrad. Vanliga värden är 0.95, 0.99 och 0.999. Ett tvåsidigt konfidensintervall är alltså två skattningar a 1, a 2 så att ( ) P a 1 (X 1,..., X n ) < θ < a 2 (X 1,..., X n ) = 1 α Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 12/25
Repetition χ 2 t N (μ, σ) Ex Ensidiga Andelen 1 α av intervallen täcker rätt värde i långa loppet 100 st 95% konfidensint. för µ i N(µ,2) 100 90 80 70 100 st 95% konfidensint. för µ i N(µ,σ) 100 90 80 70 Intervall nr 60 50 40 Intervall nr 60 50 40 30 30 20 20 10 10 0 0 0.5 1 1.5 2 0 0 0.5 1 1.5 2 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 13/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga χ 2 -fördelning (chi-två) (Def. 6.1) Y χ 2 (f). f kallas antal frihetsgrader. α-kvantil: χ 2 α(f). Tabell 4. 0.6 χ 2 fördelning med f = 1, 3, 5, 15 Om X 1,..., X n N (μ, σ) och oberoende så gäller (Sats 6.6) 1 σ 2 1 σ 2 n (X i μ) 2 χ 2 (n) n (X i X) 2 χ 2 0 0 2 4 6 8 10 12 (n 1) 0.4 0.2 f = 1 f = 3 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 14/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga Student s t-fördelning X t(f). f kallas antal frihetsgrader. α-kvantil: t α (f). Tabell 3. Om X N (0, 1) och Y χ 2 (f) är oberoende gäller X Y/f t(f) 0.4 0.2 (Kap. 12.3a) t fördelning med f = 1, 2, 4, 8, f = f = 1 och speciellt för X i N (μ, σ) där X μ S/ t(n 1) n X = 1 n n X i och S 2 = 1 n 1 0 4 2 0 2 4 n (X i X) 2 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 15/25
Repetition χ 2 t N (μ, σ) Ex Ensidiga för μ i N (μ, σ) (Sats 12.1) x 1,..., x n observationer av X i N (μ, σ) σ känd: σ okänd: σ I μ = x ± λ α/2 n = μ ± λ α/2 D(μ ) I μ = x ± t α/2 (n 1) s n = μ ± t α/2 (f)d(μ ) för σ i N (μ, σ) (Kap 12.3b, F12) Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 17/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga Exempel: Sockerinnehåll i betor Sockerbetor har i regel ett sockerinnehåll på 16 18% (enligt Dansukkers hemsida). Anta att sockerinnehållet i en godtycklig beta beskrivas av X i N (μ, σ) med σ okänd. I ett visst betlass undersökte man sockerhalten hos 25 slumpmässigt utvalda betor. 1 25 25 x i = 16.8 25 (x i x) 2 = 4.8 Gör ett 95%-konfidensintervall för den förväntade sockerhalten i betlasset. Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 18/25 Repetition χ 2 t N (μ, σ) Ex Ensidiga Ensidiga konfidensintervall (Kap. 12.2) kan även vara uppåt- eller nedåt begränsade. 1. Ta ena gränsen i ett tvåsidigt konfidensintervall 2. Byt ut α/2 α för att få rätt konfidensgrad 3. Låt den andra gränsen bli så stor/liten som möjligt Ex. Om det tvåsidiga intervallet ges av x ± λ α/2 σ n är Nedåt begränsat intervall: ( x λ α σ n, ) Uppåt begränsat intervall: (, x + λ α σ n ) Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 19/25
Två stickprov Repetition Stickprov & Skattning Maximum likelihood & Minsta kvadrat Översikt Repetition: Kvantil & N (0, 1) Chi 2-fördelning t-fördelning Intervall för μ i N (μ, σ) Exempel Ensidiga konfidensintervall Jämförelse av två μ Två stickprov Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 20/25 Två stickprov Två stickprov Ex: Järnhalt i jord (Kap. 12.3c) En geokemist är intresserad av att undersöka hur halten av järn varierar i skogsmark. På två lokaler gräver hon 6 resp. 7 gropar, tar ett prov från varje grop och bestämmer sedan järnhalten (mg/g): Lokal I, x i : 23.3 9.0 9.8 19.9 15.0 20.5 Lokal II, y i : 20.8 26.5 18.3 28.6 33.1 21.5 29.3 Ange en lämplig modell och gör ett konfidensintervall för skillnaden i järnhalt mellan de två lokalerna? Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 21/25 Sammanvägd variansskattning Två stickprov (Kap. 11.7c) Om vi har x 1,..., x nx obs. av X i N (μ x, σ) y 1,..., y ny obs. av Y i N ( μ y, σ ) kan den gemensamma variansen σ 2 skattas med s 2 p = (n x 1)s 2 x + (n y 1)s 2 y n x 1 + n y 1 = Q ( ) Q f, σ 2 χ2 (f) Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 22/25
Två stickprov (Kap. 12.3d) Vid många mätsituationer är det vanligt att man mäter före och efter en behandling på n inbördes olika föremål. Modell: Före: X i N (μ i, σ 1 ) Efter: Y i N (μ i + Δ, σ 2 ) Vi vill nu skatta effekten av behandlingen (Δ). Bilda Z i = Y i X i N (Δ, σ). Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 23/25 Två stickprov eller två stickprov? Blodtrycket hos ett antal patienter mäts förre och efter behandling med blodtryckssänkande medicin; konfidensintervall för sänkningen? Luftkvaliteten mäts dagligen längs Hornsgatan i Stockholm under vintern 2009 (dubbdäck fortfarande tillåtna) och 2010 (efter dubbdäcksförbud); konfidensintervall för skillnaden i luftkvalitet? Fosfor-halten mäts varje dag i Höjeå uppströms och nedströms från Lunds reningsverk; konfidensintervall för skillnaden? Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 24/25 Två stickprov Ex: Järnhalt i jord () Geokemisten är speciellt intresserad av eventuella skillnader i järnhalten mellan olika nivåer i groparna. Hon tar därför, från 4 olika gropar, ett prov på A-nivå (nära ytan) och ett prov på C-nivå (c:a 1 meter djupt). Området är av mycket heterogen karaktär, dvs troligen varierar järnhalten mycket mellan olika gropar. Grop nr: 1 2 3 4 Nivå A: 19.15 23.35 20.10 16.7 Nivå C: 21.96 27.70 22.93 19.02 z i = y i x i 2.81 4.35 2.83 2.32 Ange en lämplig modell och gör ett konfidensintervall för skillnaden i järnhalt mellan A- och C-nivårena. Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 25/25