Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17
Matematisk statistik slumpens matematik Sannolikhetsteori: Hur beskriver man slumpen och slumpmässiga händelser? Slh. för 3 st 1:or på 10 tärningsslag? Givet fördelningen för vågor, hur höga/stora kan de 5 % värsta vågorna vara? Vi observerar ett radioaktivt material med känd halveringstid under 10 mintuer; vilken fördelning kommer det observerade antalet sönderfall att följa? Statistikteori: Vilka slutsatser kan man dra av ett datamaterial? Givet 3 st 1:or på 10 tärningslag, är tärningen rättvis? Givet 10 års mätningar av vågor, vad kan vi säga om fördelningen? Under 10 minuter observerar vi 5 sönderfall, vad är halveringstiden? Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 2/17
Statistik Från mätningar (insamlad data) dra slutsatser om verkligheten. Vi behöver då en modell för våra mätingar! Ofta innehåller vår modell okända parametrar samt ett antagande om fördelning för observationerna. Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 3/17
Exempel: Kvalitetskontroll Vi kontrollerar n st slumpmässigt utvalda komponenter från ett stort parti och ser om de fungerar. Modell: X =antalet trasiga komponenter X Bin(n, p), där p är andelen trasiga kommponenter. Parametern p är okänd. Möjliga frågeställlningar: 1. Vad är en bra uppskattning av p? 2. Hur stor är osäkerheten i uppskattningen? 3. Vilket intervall tror vi p ligger inom? 4. Hur stort måste n vara för att uppnå en tillräckligt liten osäkerhet? Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 4/17
Statistikteori översikt Punktskattning Hur gör man en bra gissning av en okänd storhet? Hur vet man att den är bra? Intervallskattning Hitta istället ett intervall som täcker den okända storheten med en given (stor) sannolikhet. Hypotestest Regression Om gissningen blev 0.013, kan rätt värde på den okända storheten ändå vara 0.01? Sambandsanalys, hur vet vi om två variabler påverkar varandra? Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 5/17
Statistikteori, grundläggande begrepp Stickprov Ett stickprov, x 1, x 2,..., x n, är observationer av s.v. X 1,..., X n från någon fördelning X i F(j) där j är en okänd parameter. Skattning En skattning av j, j (x 1,..., x n ) är en observation av den s.v. j (X 1,..., X n ). Båda betecknas oftast bara med j. Bra egenskaper för en skattning är Väntevärdesriktig: E(j ) = j, inget systematiskt fel. Effektiv: liten varians (osäkerhet) V(j ). Konsistent: P( j n j > e) 0, får fler observationer, n, dvs Blir bättre när vi Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 6/17
En skattning j är både ett tal, en s.v. och en funktion j Tal x 1 x 2 j (x 1,..., x n) S.V. X 1 X 2 j (X) X i F(j) j Funktion Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 7/17
Modell för mätning med slumpmässigt mätfel Antag att vi vill mäta en storhet m. Om man gör n st mätvärden, x 1,..., x n är dessa observationer av X i = m + e i = Rätt värde + Mätfel där e i är ett slumpmässigt mätfel. Ofta antas att e i är oberoende och Detta ger att våra observationer blir e i N(0, s) X i N(m, s) Vi ser att väntevärdet är den storhet vi försöker mäta upp. Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 8/17
Väntevärde och Varians Väntevärdet anger tyngdpunkten för fördelningen { E(X) = xḟx(x) dx Kont. k k p X(k) Diskr. Variansen anger hur utspridd X är kring sitt väntevärde. [ ] ) 2 V(X) = E( X E(X) = E(X 2 ) E(X) 2 0. ( ) E ai X i + b = a i E(X i ) + b ( ) V a i X i + b = a 2 i V(X i) + 2 a i a j C(X i, X j ) i i i<j }{{} =0 om okorrelerade Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 9/17
Variation i observationer ger variation i skattningen m n = 1 n n i=1 X i E(m n) = m V(m n) = s2 n Observationer, x jk m = x j 1 4.83 4.93 5.24 5.12 5.10 4.69 5.62 4.73 5.03 2 5.09 5.13 4.53 4.59 4.70 4.10 4.96 5.26 4.79 3 5.53 5.10 4.34 5.05 5.21 4.43 4.30 4.56 4.82 4 4.48 5.10 4.75 5.17 4.98 5.01 5.82 5.12 5.05 5 5.14 5.10 4.79 5.48 4.70 5.89 5.22 5.91 5.28 6 4.80 5.33 5.22 5.26 4.45 4.12 5.29 5.09 4.95 7 5.20 5.26 5.49 5.60 4.83 5.28 4.38 5.18 5.15 8 4.48 4.81 4.62 4.61 5.04 4.81 4.32 4.41 4.64. Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 10/17
0.8 Observationernas fördelning 0.6 0.4 0.2 0 3 3.5 4 4.5 5 5.5 6 6.5 7 2.5 Skattningarnas fördelning 2 1.5 1 0.5 0 3 3.5 4 4.5 5 5.5 6 6.5 7 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 11/17
MK ML Exempel Medelfel Minsta kvadrat-metoden, MK Om E(X i ) = m i(j) så fås MK-skattningen av j genom att minimera förlustfunktionen Q(j) = n ( x i m i(j) i=1 ) 2 m.a.p. j. Bestäm hur väntevärdet beror av j, E(X i ) = m i(j). Sätt upp Q(j) Derivera, sätt lika med noll och lös m.a.p. j. Det j som minimerar Q(j) är MK-skattningen, j MK. Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 12/17
MK ML Exempel Medelfel Maximum likelihood-metoden, ML ML-skattningen av j fås genom att maximera likelihood-funktionen L(j; x 1,..., x n ) m.a.p. j. L(j) = p X (x 1 )... p X (x n ) L(j) = f X (x 1 )... f X (x n ) (diskr.) (kont.) I det diskreta fallet anger L-funktionen: Sannolikheten att få det stickprov vi fått. Sätt upp L(j) Logaritmera ln L(j) maximeras av samma j som L(j). Derivera, sätt lika med noll och lös m.a.p. j. Det j som maximerar L(j) är ML-skattningen j ML. Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 13/17
MK ML Exempel Medelfel Exempel: två binomialfördelningar Vi har två oberoende observationer: x 1 från X 1 Bin(n 1, p) och x 2 från X 2 Bin(n 2, 2p) där n 1 och n 2 är kända medan p är en okänd parameter. Bestäm MK-skattningen av p. Bestäm ML-skattningen av p. Beräkna skattningarnas värde när n 1 = 5, n 2 = 6, x 1 = 2 och x 2 = 3. Är skattningarna väntesvärderiktiga? Vilken av skattningarna har lägst varians? Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 14/17
MK ML Exempel Medelfel Exempel: Radon Radonkoncentrationen i inomhusluft kan mätas genom att hänga upp en a-känslig film. Antalet hål i filmen beskrivs av en Poisson-process med X i Po(mK i ) där m är den okända radonkoncentrationen och K i är kända konstanter som beror på bl.a. filmens känslighet, storlek och exponeringstiden. Radon-data återkommer i lab 4. Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 15/17
MK ML Exempel Medelfel Ex: Normalfördelning Om x 1,..., x n är observationer av X i N(m, s) blir ML- och MK-skattningen av m och en korrigerad ML-skattning av s 2 m = x (s 2 ) = s 2 = 1 n 1 n (x i x) 2 Dessa används även för att skatta väntevärde och varians vid okänd fördelning. i=1 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 16/17
MK ML Exempel Medelfel Medelfel Om standardavvikelsen, D(j ), för en skattning innehåller okända parametrar kan man inte räkna ut ett numeriskt värde på den. Om vi stoppar in skattningar på de okända parametrarna fås medelfelet d(j ). Exempel: p = X, där X Bin(n, p) n (V(X) = npq) V(p ) = V( X n ) = 1 n 2 V(X) = 1 n 2 npq = pq n p d(p ) = q n Exempel. m = X, där X N(m, s), s okänd V(m ) = s2 n, d(m ) = s, där s = 1 n n 1 n (x i x) 2 i=1 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 17/17