Samplingfördelningar 1
Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2
Vi har hittills berört problem av följande typ: Antag att proportionen moderater i en population är 0.20. Vad är sannolikheten att få två moderater om vi slumpmässigt väljer tio individer ur populationen? 3
När vi kommer över till statistikteorin (inferensteorin) handlar det i stället om att utifrån ett stickprov dra slutsatser om en population. 4
Estimation: Vi vill med hjälp av ett stickprov skatta proportionen moderater i populationen. Hur gör vi detta på bästa sätt och hur säker är vår uppskattning? Hypotesprövning: Vår hypotes är att proportionen moderater i populationen är minst 0.25. Hur skall vi med hjälp av ett stickprov avgöra om hypotesen är falsk eller ej? 5
Vid såväl estimation som hypotesprövning använder vi observationerna i stickprovet för att räkna fram numeriska värden av olika slag. Exempel: Vi använder kanske stickprovsproportionen för att uppskatta populationsproportionen. 6
Numeriska värden som på detta sätt beräknas med hjälp av observationerna i ett stickprov kallas för statistikor. Observera att en statistika är en slumpvariabel eftersom dess värde bestäms av ett slumpmässigt försök och varierar från stickprov till stickprov. Exempel på statistikor: Stickprovsmedelvärdet, stickprovsstandardavvikelsen 7
Statistikor som används för estimation kallas för estimatorer. Observationer på estimatorer kallas för estimat. Statistikor som används vid hypotesprövning brukar kallas för teststatistikor. 8
Samplingfördelningar och centrala gränsvärdessatsen En samplingfördelning är en sannolikhetsfördelning för en statistika. En viktig samplingfördelning är den för stickprovsmedelvärdet som anger vilka värden som kan antas av stickprovsmedelvärdet och sannolikheten för dessa olika värden. 9
Centrala gränsvärdessatsen (CGS) Oavsett formen på den populationsfördelning ett slumpmässigt stickprov hämtas från, förutsatt att fördelningen har ändligt väntevärde och varians, så går fördelningen för stickprovsmedelvärdet mot normalfördelningen då stickprovsstorleken ökar. 10
Ett exempel Likformigt (uniformt)-fördelade tal mellan 1 och 8: UniformDistribution(1,8) 0.2 P ( ) 0.1 0.0 E() = = 4.5 V() = 2 = 5.25 SD() = = 2.2913 1 2 3 4 5 6 7 8 11
Ett exempel (forts.) Ta ett stickprov med n=2. 8*8 = 64 olika utfall 1 2 3 4 5 6 7 8 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 4 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 5 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 6 6,1 6,2 6,3 6,4 6,5 6,6 6,7 6,8 7 7,1 7,2 7,3 7,4 7,5 7,6 7,7 7,8 8 8,1 8,2 8,3 8,4 8,5 8,6 8,7 8,8 Medevärdet av dessa 2: 1 2 3 4 5 6 7 8 1 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 2 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 3 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 4 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 6 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 12
Ett exempel (forts.) SamplingDistributionof themean P ( ) 0.10 0.05 0.00 E ( ) V ( ) 2 SD( ) 16202. 4.5 2.625 1.01.52.02.53.03.54.04.55.05.56.06.57.07.58.0 13
Ett exempel (forts.) Jämför! Samma medelvärde P ( ) UniformDistribution(1,8) SamplingDistributionof themean 0.2 0.10 Mindre varians Mer klockformad P ( ) 0.1 0.0 1 2 3 4 5 6 7 8 0.05 0.00 1.01.52.02.53.03.54.04.55.05.56.06.57.07.58.0 14
Illustration:CGS Population n = 2 n = 30 15
Centrala gränsvärdessatsen är även tillämpbar på summor av oberoende slumpvariabler. Exempel: En binomialfördelad variabel, som består av en summa av oberoende bernoullifördelade variabler, tenderar att bli normalfördelad då n ökar. 16
Hur stort stickprov som behövs för att normalfördelningen skall kunna användas som en approximativ modell beror på hur populationsfördelningen ser ut. Tumregel: I de flesta fall är normalfördelningen en tillräckligt god approximation redan vid stickprovsstorleken 30. 17
Fördelningen för stickprovsmedelvärdet Om vi samplar från en normalfördelning är stickprovsmedelvärdet alltid normalfördelat oavsett stickprovsstorlek. Om vi samplar från någon annan fördelning är stickprovsmedelvärdet approximativt normalfördelat om stickprovet är stort. 18
Stickprovsmedelvärdets väntevärde och varians Låt n vara stickprovsstorleken och låt och 2 vara medelvärdet och variansen i den population vi tar stickprovet ifrån (samplar ur) Väntevärde: E Varians: V n 2 19
Exempel: Fördelningen för stickprovsproportionen Tag ett stickprov av n st individer och sätt man=1 och kvinna=0. Vi har då observationer på n st bernoullifördelade variabler, 1,..., n. Om vi antar oberoende mellan variablerna är summan av dem, dvs. antalet män i stickprovet, binomialfördelad. 20
Bilda andelen män i stickprovet, dvs. stickprovsproportionen: Pˆ i n 1 n i 21
Som vi ser i exemplet är stickprovsproportionen inget annat än ett stickprovsmedelvärde där variablerna i summan i täljaren är bernoullifördelade. Om stickprovet är stort kan vi, med stöd av centrala gränsvärdessatsen, hävda att stickprovsproportionen är approximativt normalfördelad. Tumregel: np 5 n 1 p 5 och 22
Väntevärde och varians Vi såg tidigare att väntevärdet och variansen för stickprovsmedelvärdet var lika med populationens medelvärde och populationens varians dividerad med stickprovsstorleken. När populationen är bernoullifördelad är populationens medelvärde p och populationens varians p(1-p). 23
Väntevärdet för stickprovsproportionen: E P ˆ p Variansen för stickprovsproportionen: V Pˆ p 1 n p 24