1/14 Mer om konfidensintervall + repetition Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 23/2 2011
2/14 Dagens föreläsning Skattningar som slumpvariabler Väntevärde Varians Konfidensintervall Approximation p i Bin(n, p) Jämförelse av två datamaterial Stickprov i par
3/14 Skattningar som slumpvariabler I ett försök mätte man tryckhållfastheten hos fyra olika cementblandningar: M20, M25, M30 och M40. Data för M20 (enhet: MPa): 35.50, 27.80, 35.80, 30.10, 27.60, 32.45, 30.20, 26.85, 31.10, 19.20, 25.86, 31.20, 25.60, 31.15, 35.80 27.50, 28.73, 23.20, 18.95, 24.50, 22.45, 29.80, 35.65, 30.80, 24.01, 25.25, 27.55, 30.15, 24.50, 22.60. Material med högre M-värde ska i genomsnitt ha högre tryckhållfasthet. Man beräknar respektive stickprovs medelvärde för att få ett mått på den genomsnittliga tryckhållfastheten för blandningen. Se exempel med R!
4/14 Väntevärdesriktighet Vi vill nu skatta väntevärdet µ för tryckhållsfastheten hos M20-blandningen. Två skattningar föreslås: ˆµ 1 = X och ˆµ 2 = min(x 1,..., X n ) + max(x 1,..., X n ) 2 Se tavlan och exempel med R!
5/14 Skattningar med olika varians Vi jämför nu två andra skattningar av µ för tryckhållsfastheten hos M20-blandningen. Vi använder n = 5 observationer: ˆµ 1 = X = X 1 + X 2 + X 3 + X 4 + X 5 5 ˆµ 3 = X 1 + X 2 + X 3 X 4 X 5 och Se tavlan och exempel med R!
6/14 Punktskattningar och konfidensintervall Problem 4 från inlämningsuppgift 2: I hissarna på Ångströmlaboratoriet står högst 8 personer eller 630 kg. Personvikten i kg hos en slumpvis uttagen person är normalfördelad. Gör antaganden om väntevärde och varians för fördelningen och beräkna utifrån detta sannolikheten att 8 personer överbelastar hissen genom att tillsammans väga mer än 630 kg. Lösning: låt X = en slumpmässigt vald (vuxen) persons vikt. Vi antar att X N(µ, σ 2 ). Väntevärdet µ är vikten på en genomsnittlig person och för normalfördelningen så vet vi att sambandet P(µ 2σ X µ + 2σ) 0.95 gäller, vilket innebär att σ säger något om i vilket intervall 95% av vikterna kommer att hamna. Utifrån den kunskapen får vi försöka göra antaganden om µ och σ.
Punktskattningar och konfidensintervall Antag exempelvis att µ = 75 och σ = 12.5. Då väger en genomsnittlig person 75 kg och 95% av alla personer väger mellan 50 och 100 kg, vilket verkar någorlunda rimligt. Låt Y vara den totala vikten för 8 personer. Antag att de åtta personernas vikter, X 1,..., X 8 är oberoende. Räknereglerna för summor av normalfördelade slumpvariabler ger att Y = X 1 + X 2 +... + X 8 N(8 75, 8 12.5 2 ) = N(600, 1250). Vi får därmed att ( Y 600 P(Y > 630) = P > 8 12.5 630 600 8 12.5 ) 1 Φ(0.85) = 0.20. Om vi istället antar att µ = 70 så får vi sannolikheten 0.02 och om vi antar att µ = 80 så får vi sannolikheten 0.61. Olika uppskattningar av µ kan ge vitt skilda slutsatser! Därför vill vi när vi skattar µ utifrån data få en uppfattning om osäkerheten i skattningen. 7/14
8/14 Konfidensintervall för µ Ett konfidensintervall för parametern m med konfidensgrad 1 α är ett intervall med slumpmässiga gränser, som med sannolikhet 1 α innehåller det sanna värdet på m. Under förra föreläsningen så härledde vi konfidensintervall för parametern µ i normalfördelningen N(µ, σ 2 ): σ känd: ( x λ α/2 σ n, x + λ α/2 σ n ) σ okänd: ( x t α/2 s n, x + t α/2 s n ) De här intervallen kommer att innehålla det korrekta värdet på µ 100 (1 α) % av gångerna då de beräknas.
Konfidensintervall genom approximation Låt X 1,..., X n vara oberoende och likafördelade slumpvariabler med väntevärde E[X ] = µ och varians V[X ] = σ 2. Medelvärdesversionen av centrala gränsvärdessatsen säger att då n är stort så är X N (µ, σ2 ). n För stora n så är t α λ α, så vi får att ur vilket det följer att ( P λ α/2 X µ ) s/ n λ α/2 1 α ( x λ α/2 s s, x + λ n α/2 ) n är ett konfidensintervall för µ med approximativ konfidensgrad 1 α. 9/14
10/14 Konfidensintervall för p När vi hade en obeservation x av X Bin(n, p), där antalet försök n var känt så skattade vi p med ˆp = x/n. Vi kom fram till att ˆp har medelfelet d(ˆp) = ˆp(1 ˆp). Man kan visa att då n är stort så ˆp p N(0, 1) 1 n ˆp(1 ˆp) ur vilket det på samma sätt som tidigare följer att ( 1 1 ) ˆp λ α/2 n ˆp(1 ˆp), ˆp + λ α/2 n ˆp(1 ˆp) är ett konfidensintervall för p med approximativ konfidensgrad 1 α. 1 n
Jämförelse av två datamaterial Ett svenskt företag utvecklar gruvborrar och vill jämföra två olika material för hårdmetallstift på borrkronor. Man gör provborrningar i en gruva, dels med det material som används idag och dels med det nya testmaterial som man utvecklat. Vid provborrningarna mäter man dels hur långt man lyckas borra (borrmeter) och dels nötningen på stiften (i mikrometer/borrad meter). Jämförelse av borrar Nötning (mikrometer/borrmeter) 25 30 35 40 45 50 55 Standard Test 40 60 80 100 120 140 11/14
Jämförelse av två datamaterial Man vill nu undersöka om nötningen per borrad meter skiljer sig åt mellan de två materialen. Standard 1 2 3 4 5 6 Borrmeter (m) 44.0 123.2 66.7 122.7 69.4 92.0 Nötning (µm/m) 27.3 52.8 31.5 39.1 40.4 39.1 Test 1 2 3 4 5 6 7 Borrmeter (m) 109.8 113.3 122.4 99.6 146.1 121.0 117.0 Nötning (µm/m) 36.4 45.0 38.4 54.2 37.0 27.3 27.4 Standardmaterial Testmaterial Jämförelse av material Frequency 0.0 0.5 1.0 1.5 2.0 Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 30 35 40 45 50 55 25 30 35 40 45 50 55 x 25 30 35 40 45 50 55 y 12/14
13/14 Jämförelse av två datamaterial Modell: utifrån histogrammen och lådagrammen på förra sidan så verkar följande modell någorlunda rimlig. Låt X 1,..., X 6 vara mätningarna för standardmaterialet och antag att X i N(µ X, σ 2 ) samt att mätningarna är oberoende. Låt Y 1,..., Y 7 vara mätningarna för standardmaterialet och antag att Y i N(µ Y, σ 2 ) samt att mätningarna är oberoende. För standardmaterialet får man x = 38.37 och s 2 x = 76.63. För testmaterialet får man ȳ = 37.96 och s 2 y = 90.33. Hur kan vi utifrån detta få fram ett konfidensintervall för µ X µ Y? Se tavlan!
14/14 Stickprov i par I många situationer där man har samlat in två datamaterial så har man studerat samma försöksenheter (personer, föremål...) under olika förutsättningar, som man vill jämföra. I sådana situationer kan man utnyttja att observationerna hör ihop parvis när man vill konstruera konfidensintervall för skillnaden mellan resultaten under de olika förutsättningarna. Se tavlan!