Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion Stickprov Population Obundet slumpmässigt urval (OSU) Samplingfördelning Stickprovsmedelvärde Standardfel Centrala gränsvärdessatsen Proportion, andel χ (Chi-square) distribution χ -(chitvå)fördelning 1
Population och stickprov I statistiken sägs ofta att data utgör ett stickprov från en population. Vad betyder det? Två typiska situationer när dessa termer används är: 1. Stickprov från ändlig population Populationen är en tydligt definierad mängd av reellt existerande element (t.ex. människor, fastigheter, bilar), som man vill ta reda på någonting om. Från en sådan population väljs genom obundet slumpmässigt urval ett stickprov av element. Sedan samlar man från de utvalda elementen in data med avseende på aktuella undersökningsvariabler. Ändlig population = konkret, ändlig, mängd av element Stickprov = utvald delmängd av populationen Stickprovet väljs genom obundet slumpmässigt urval. För varje utvalt element observeras värdet på en viss undersökningsvariabel.
. Stickprov från oändlig population Populationen är här en tänkt, oändligt stor, mängd av något slag. T.ex. mängden av alla kast man skulle kunna göra med en viss tärning, ifall man höll på oändligt länge. Eller mängden av alla enheter som skulle kunna tillverkas i en viss tillverkningsprocess, ifall den höll på oändligt länge, under oförändrade villkor. När vi nu (t.ex.) gör en verklig serie tärningskast, så ser vi dessa som ett slumpmässigt stickprov från den oändliga populationen av alla kast, som skulle kunna göras med den aktuella tärningen. Om vi noterar antalet prickar i varje kast, så utgör detta våra stickprovsdata. Oändlig population = tänkt, oändlig, serie upprepningar av ett och samma slumpförsök. Stickprov = en verklig, ändlig, serie upprepningar. Upprepningarna antas oberoende av varandra. För varje utförd upprepning observerar vi vilket utfallet blev. 3
Ex.: Stickprov från ändlig population. Ett stickprov på 1000 personer från populationen av alla personer, 15 år eller äldre, som var folkbokförda i Stockholms kommun den 1 mars år 006. Ex.: Stickprov från oändlig population. 100 kast med en tärning ger värdena x 1, x,, x 100, där x i = antalet prickar i det i:te kastet. Kan beskrivas som att x 1,, x 100 är ett stickprov från en tänkt, oändligt stor population där värdena 1,,, 6, förekommer med samma relativa frekvens. Ex.: Stickprov från oändlig population. Med ett mätinstrument görs 50 upprepade mätningar av avståndet mellan två punkter. De 50 mätningarna ger lite olika resultat från gång till gång p.g.a. ett mätfel, som antas uppträda slumpmässigt. Under antagande att mätfelet är en normalfördelad stokastisk variabel, så utgör de erhållna mätvärdena x 1,, x 50 ett stickprov från en tänkt, oändligt stor population av normalfördelade möjliga mätvärden. 4
De förutsättningar som antas gälla i fortsättningen på den här kursen är att antingen: Stickprovet har erhållits genom OSU från en ändlig population, som är mycket stor i förhållande till stickprovet. eller: Stickprovet utgörs av ett antal oberoende observationer från en tänkt oändlig population av möjliga observationer. Båda dessa fall kommer att behandlas på samma sätt, nämligen som om det är fråga om stickprov från en oändlig population. Vi kommer i båda fallen att säga att vi har ett slumpmässigt stickprov ( random sample ), från en oändlig eller stor ändlig population. [Anm.: Urval från ändliga populationer med andra urvalsdesigner än OSU behandlas inte på den här kursen.] 5
Samplingfördelningen för ett stickprovsmedelvärde Låt X 1, X,, X n vara de värden vi kommer att observera i ett framtida stickprov av storlek n från en population med medelvärde µ och varians σ. Den formella innebörden av detta är att: X 1, X,, X n är oberoende stokastiska variabler, med samma väntevärde µ och samma varians σ. Stickprovsmedelvärdet, X, definieras som vanligt såsom X = X + + + n 1 X K X n 1 = X i n n i= 1 Stickprovsmedelvärdet ser vi som en stokastisk variabel. Dess värde bestäms av värdet på de observationer vi råkar få i stickprovet. Sannolikhetsfördelningen för den stokastiska variabeln X kallas för stickprovsmedelvärdets samplingfördelning. 6
När vi tar ett stickprov, kommer X att anta ett visst värde. Om vi tar ett nytt stickprov (från samma population) kommer X antagligen att anta ett annat värde, osv. Samplingfördelningen för X ger en bild av hur stickprovsmedelvärdet X varierar från stickprov till stickprov. Vad vet vi om samplingfördelningens egenskaper? Vad har samplingfördelningen för form? Vad är väntevärde och en varians för X? Vid slumpmässigt stickprov av storlek n från en population med medelvärde µ och varians σ gäller att: σ E( X ) = µ och Var( X ) = n Visa! Standardavvikelsen för X, alltså σ / kursboken för standardfelet för X. n, kallas i Hur påverkas variansen för X av (1) populationens varians, och () stickprovsstorleken? Vad säger formeln? 7
Ex.: Två kast med en tärning: X 1 = antal prickar i första kastet X = antal prickar i andra kastet a) Hur ser populationen ut? Vad är µ och σ? b) Hur ser samplingfördelningen för X ut? c) Vad är E( X ) och Var( X )? Kolla att formlerna ovan stämmer. Vad kan vi säga mer generellt om en samplingfördelnings form? Ett resultat är följande: Vid slumpmässigt stickprov från en population som är normalfördelad, N(µ; σ ), så gäller att X är normalfördelad, dvs. X är N(µ; σ /n) Ex.: Livslängden för en sorts glödlampor antas normalfördelad med medelvärdet 1 00 timmar och standardavvikelsen 50. Slumpmässigt väljs 5 lampor ur produktionen. Vad är slh att medellivslängden för dessa 5 lampor skall understiga 1 180 timmar? (Svar: 0,08) Ett ändå mer generellt resultat kommer här: 8
Centrala gränsvärdessatsen Hur ser stickprovsmedelvärdets samplingfördelning ut, ifall populationen inte är normalfördelad? Det kan vi inte säga något om med exakthet. Men vi kan uttala oss om hur samplingfördelningen för X ser ut approximativt, när vi har stort stickprov. Vi utnyttjar härvid den s.k. centrala gränsvärdessatsen, som i detta sammanhang mycket grovt skulle kunna uttryckas på följande sätt. Centrala gränsvärdessatsen: Stickprovsmedelvärdet, X, kan betraktas som en approximativt normalfördelad stokastisk variabel, när n är tillräckligt stort, oavsett vad populationen har för fördelning. Vad menas med tillräckligt stort? Vanlig tumregel: n 30. På grund av centrala gränsvärdessatsen blir normalfördelningen en viktig fördelning i många olika sammanhang. 9
Oavsett vad populationen har för fördelning, kan vi (om n är tillräckligt stort) approximativt beräkna P( X c) c µ Φ( ) σ / n Exempel: Slumpmässigt stickprov av storlek n = 100 från en population med medelvärde µ = 65 och varians σ = 64. Vad är slh att få ett stickprovsmedelvärde som är mindre än 63? Vi vet att E( X ) = µ = 65 och Var( X ) = σ /n = 0,64. Enl. CGS är X approx. N(65; 0,64), varför 63 65 P( X < 63) Φ ( ) 0,64 = Φ(-,5) = 1 Φ(,5) = 1 0,9938 = 0,006 10
Samplingfördelningen för en stickprovsproportion Två olika fall, som kommer att behandlas på samma sätt: 1. Vi tänker oss att ett stickprov med n element dras med OSU från en (stor) ändlig population. Andelen element i populationen som har en speciell egenskap, A, är lika med P. Låt X = antal A-element i stickprovet Pˆ = X/n = proportionen A-element i stickprovet (Vi vet att X har en hypergeometrisk fördelning.). Vi tänker oss n oberoende upprepningar av ett slumpförsök. Varje gång kan händelsen A inträffa med slh = P. Låt X = antal gånger som A inträffar Pˆ = X/n = proportionen inträffanden av A (Vi vet att X är Bin(n; P).) 11
I båda fallen säger vi att vi har ett slumpmässigt stickprov från en (ändlig eller oändlig) population med proportionen P. Den observerade proportionen Pˆ kallar vi för stickprovsproportionen. Eftersom slumpen bestämmer vilket värde Pˆ skall anta, så är Pˆ en stokastisk variabel. Sannolikhetsfördelningen för Pˆ kallar vi för stickprovsproportionens samplingfördelning. Den beskriver hur Pˆ kan variera från stickprov till stickprov. Vid slumpmässigt stickprov av storlek n från en population med proportionen P gäller att: E(Pˆ ) = P och Var( Pˆ) = P(1 n P) Vad kan vi säga om samplingfördelningens form? Stickprovsproportionen Pˆ kan betraktas som en approximativt normalfördelad stokastisk variabel, när stickprovet är tillräckligt stort. Tumregel: np(1-p) > 9. 1
[Anm.: Stickprovsproportionen kan ses som ett specialfall av ett stickprovsmedelvärde, nämligen ett medelvärde av n stycken 0/1-variabler.] Ex.: (NCT, Ex. 7.7) 30% av villorna i en (stor) population av äldre villor har dåliga elinstallationer. Hur stor är sannolikheten att mellan 5% och 35% av villorna i ett slumpmässigt stickprov på 50 villor skall ha dåliga elinstallationer? P = 0,3 och n = 50 Pˆ = proportionen dåliga bland de 50 utvalda E(Pˆ ) = P = 0,3 P(1 P) 0,3 0,7 Var ( Pˆ) = = = 0,00084 n 50 Kolla tumregeln: np(1-p) = 50 0,3 0,7 =5,5> 9. Alltså Pˆ är approx. N(0,3; 0,00084). P(0,5 < Pˆ < 0,35) 0,35 0,30 0,5 0,30 Φ( ) Φ( ) 0,00084 0,00084 = Φ(1,7) Φ (-1,7) = 0,9146 13
Låt X 1, X,, X n vara ett slumpmässigt stickprov från en population med medelvärde µ och varians σ. Med stickprovsvariansen menas s ( X = = 1 1 1 X ) n n i= 1 + ( X ( X i X ) X ) n 1 + K+ ( X n X ) Samplingfördelningen för en stickprovsvarians Stickprovsvariansen s är en stokastisk variabel. Värdet bestäms av vilka observationer vi råkar få i stickprovet. Sannolikhetsfördelningen för s kallar vi för stickprovsvariansens samplingfördelning. Vad vet man om den? 14
För ett slumpmässigt stickprov av storlek n från en population med medelvärde µ och varians σ gäller att E(s ) = σ Om populationen dessutom är normalfördelad, så gäller att den stokastiska variabeln ( n 1) s σ har en s.k. χ -fördelning (chitvåfördelning) med n-1 frihetsgrader. Vad är en χ -fördelning? Hur ser en χ -fördelning ut? Följande diagram ger ett exempel: Chitvåfördelning med 10 frihetsgrader 0,10 0,08 f(x) 0,06 0,04 0,0 0,00 0 5 10 15 x 0 5 30 15
I Tabell 7 (sid. 869) i NCT kan vi för vissa värden på α finna den punkt, χ, som är sådan att ytan α ν,α under täthetsfunktionen ligger till höger om punkten, när vi har en χ -fördelning med ν frihetsgrader. Se illustration till Tabell 7 i boken. Ex.: Ett slumpmässigt stickprov av storlek n = 0 skall dras från normalfördelad population med medelvärde 100 och varians 5. Ange två gränser inom vilka stickprovsvariansen s med sannolikheten 0,95 kommer att ligga. Eftersom (n-1)s /σ är χ -fördelat med n-1 frihetsgrader, så är alltså 19s /5 χ -fördelat med 19 frihetsgrader. Från Tabell 7 får vi 19s 0,95 = P (8,91 3,85) 5 8,91 5 3,85 5 = P ( s ) 19 19 = P(11,7 s 43,) Med 95% sannolikhet kommer vi att få en stickprovsvarians mellan 11,7 och 43,. 16