Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016
Föreläsningens innehåll Översikt, dagens föreläsning: Inledande exempel och motivering: två fall Skattningar som slumpvariabler Data och modell
Inledning
Exempel: Fall 1 Man vill fylla förpackningar med 500 g. Viss variation förekommer, och man modellerar massan i fylld förpackning som en slumpvariabel X, som antages vara normalfördelad: X N(µ, σ 2 ). Vilka är lämpliga värden på parametrarna µ och σ? Fokus på µ, förväntad vikt, till en början. Idé: Parametern µ är väntevärde. Kanske kan medelvärdet från insamlade data ge en uppskattning? Bildkälla: precisensan.com
Exempel, forts. Data (10 observationer x 1,..., x 10 ): 498, 502, 495, 503, 500, 501, 500, 499, 496, 492 x = 498.6. Alltså x = 498.6. Men i långa loppet, om nya stickprov om 10 observationer (tänks) samlas in? Nya datamaterial: 502, 499, 497, 500, 501, 491, 508, 500, 495, 503 x = 499.6. 501, 495, 498, 500, 497, 503, 502, 495, 498, 500 x = 498.9. Vi ser en slumpmässig variation hos medelvärdet. Idé: Kan denna variation modelleras på lämpligt sätt?
Exempel: Fall 2 Kvalitetskontroll: Man vill att högst 1% av tillverkade komponenter skall vara felaktiga. Man väljer ut n komponenter och räknar antalet felaktiga. Inför slumpvariabeln Modell: X = Antal felaktiga komponenter. X Bin(n, p), där n är känt men kunskap om p önskas. Idé: Uppskatta p som kvoten x/n, där x är observerat antal felaktiga.
Exempel, forts. Data (5 observationer, x 1,..., x 5 : Detta ger uppskattningen p = 1/5 = 0.2. fler stickprov om 5 observationer tänks samlas in? Dessa resulterade i följande uppskattningar av felsannolikheten p: 0.4, 0, 0.2. Idé: Kan denna variation modelleras på lämpligt sätt?
Skattningar som slumpvariabler
Formalisering: Parametrisk inferens Punktskattningar och estimatorer. Fall 1: Vi vill uppskatta parametern µ i normalfördelningen. En punktskattning, kort skattning, ges av medelvärdet: µ = x. Den kan uppfattas som en slumpvariabel X som kallas estimator. Fall 2: Vi vill uppskatta parametern p i binomialfördelningen. En punktskattning ges av p = x/n, dvs. estimatorn X /n. Egenskaper hos skattningar: Vi valde intuitivt skattningarna x resp. x/n (medelvärde resp. andel). Finns mer allmän metodik för att hitta skattningar? Kan man jämföra skattningar vad är en bra skattning? Statistiska egenskaper hos skattningar studeras.
Översikt Datavärlden ( verkligheten ). Observationer: x 1,..., x n Skattning (exempel) x = g(x 1,..., x n ) = 1 n (x 1 + + x n ) Fördelningsvärlden. Oberoende slumpvariabler: X 1,..., X n Estimator (exempel) X = g(x 1,..., X n ) = 1 n (X 1 + + X n )
Allmänna fallet Vii studerar en fördelningsfamilj F (x; θ) där θ är en okänd parameter. Stickprov: observationerna x 1,..., x n. Motsvarande slumpvariabler X 1,..., X n är oberoende, var och en med fördelningen F. Med en punktskattning t = ˆθ av parametern θ menas en funktion g av stickprovet, dvs. Motsvarande estimator: ˆθ = t = g(x 1,..., x n ). T = g(x 1,..., X n ). Fall 1: Fall 2: µ = g(x 1,..., x n ) = 1 n (x 1 + + x n ). p = g(x) = x n.
Statistiska egenskaper: Väntevärdesriktighet En god egenskap hos en skattning borde vara att den i medeltal leder till rätt parameter. En skattning av en parameter θ är väntevärdesriktig om det för estimatorn T gäller att E[T ] = θ Väntevärdesriktighet är alltså en god egenskap hos skattningar. Skattningarna µ och p är väntevärdesriktiga. Visas på tavlan!
AKTIVERING! Observationerna x 1,..., x 5 nedan anses vara oberoende observationer av en slumpvariabel X N(µ, σ 2 ). Bildkälla: sodahead.com 1.2, 1.2, 0, 2.3, 2.3 Ange en väntevärdesriktig skattning av parametern µ.
Statistisk spridning hos estimatorer Antag att vi (i allmänna fallet) har en estimator T = g(x 1,..., X n ). En uppfattning om osäkerheten hos denna estimator kan fås genom att beräkna V[T ] och D[T ]. Skattningar av D[T ] betecknas d[t ] och kallas medelfel. [ Medelfel hos µ och p, se tavlan! Svar : d[ µ] = s/ ] 1 n, d[ p] = n ˆp(1 ˆp)
VIKTIGASTE FORMELN I KURSEN?! V[ X ] = σ2 n.
Exempel: Medelvärdesbildning (föreläsning 5) Antag att X N(20, 5 2 ). Då gäller för medelvärdet X av n oberoende variabler X N(20, 5 2 /n). Täthetsfunktioner. Heldragen kurva: X. Streckad kurva: X, n = 5. Punktstreckad kurva: X, n = 20. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 10 20 30 40 Vi kan nu uppfatta fördelningen för X som fördelningen för en estimator.
Exempel: Medelfel hos skattat väntevärde µ Antag att vi har 16 observationer av en slumpvariabel X N(µ, σ 2 ). Man har beräknat parameterskattningarna µ = x = 102.7, σ = s = 16.4. Medelfelet för skattningen µ ges då av d[µ] = s = 16.4 = 4.1. n 4
Exempel, försöksplanering Tre föremål med vikterna m 1, m 2 resp. m 3 skall vägas med en våg. Vilken av följande två metoder är att föredra (ger lägst mätfel): (a): Väg vardera föremålet en gång. (b): Väg två föremål tillsammans: 1 och 2, 2 och 3, 1 och 3. Bildkälla: www.thecoolkitchen.com
Data och modell
Data och modell: Fördelningsfamilj? Grundläggande frågor: Vilken fördelningsfamilj är lämplig i min situation? Hur kan parametrar skattas, hur kan deras osäkerhet bestämmas? Inga enkla svar allmän kunskap om situationen; visuella tekniker; statistiska test.
Q-Q-plot: Normalfördelning Brottseghet hos material B. Rät linje? Normalfördelning kan passa (här: normalfördelningspapper ). Sample Quantiles 10.6 10.8 11.0 11.2 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles
Q-Q-plottar: Simulerade observationer Väntevärde 25 för normal- resp. exponentialvariabler. Normalfördelade obs Exponentialfördelade obs 0.00 0.02 0.04 0.06 10 15 20 25 30 35 40 0.000 0.010 0.020 0.030 0 20 40 60 80 100 Normalfördelade obs Exponentialfördelade obs 2 1 0 1 2 2 1 0 1 2 15 20 25 30 35 Data 0 20 40 60 80 Data
Exempel: Weibullfördelning, vindhastighet Vindhastighet modelleras ofta med hjälp av en Weibullfördelning. Täthetsfunktion: f (x) = k a Fördelningsfunktion: ( x a ) k 1 e (x/a) k, x 0. F (x) = 1 e (x/a)k, x 0. Två parametrar att skatta: skalparametern a och formparametern k.
Exempel, forts. Vindhastigheten studeras i Falsterbo respektive Uppsala. Punktskattningar: Plats â k Falsterbo 7.30 2.15 Uppsala 2.27 1.57 Bildkälla: www.tiki-toki.com
Exempel, forts. Histogram från mätdata, täthetsfunktion från anpassad fördelning. Vänster: Falsterbo. Höger: Uppsala.