Föreläsig 5 73G70, 73G01 Statistik A Föreläsigsuderlage är baserade på uderlag skriva av Karl Wahli
Kapitel 5 Stickprovsteori Sid 15-150
Statistisk iferes Populatio (äve målpopulatio) = de (på logisk väg defiierade) grupp av eheter (ofta idivider) som vi vill dra slutsatser om Urvalsram (äve rampopulatio) = förteckig över ehetera i populatioe, ofta ett register Stickprov = de av ehetera i populatioe som vi faktiskt udersöker Urvalseheter = de eheter som blivit utvalda i stickprovet Koste att dra slutsatser om e populatio baserat på ett stickprov (statistisk iferes eller statistisk slutledig) är e av grudpelara iom statistike! Det är också vad merparte av dea kurs kommer att hadla om. 3
Obudet slumpmässigt urval (OSU) (egelska Simple Radom Sample) Stickprovsdragig på ett sådat sätt att alla eheter i populatioe har samma saolikhet N att bli utvalda. Exempel: Vår populatio är alla studeter i ett klassrum, och vi vill udersöka geomsittsvikte i klasse. Att väga alla skulle ta låg tid, och ma vill därför dra ett stickprov om 0 persoer. Det eklaste sättet att göra ett OSU skulle då vara att skriva ed allas am på lappar, lägga dem i e låda och dra 0 lappar ur låda. Då har slumpe valt ut 0 persoer åt oss och alla har lika stor chas att bli utvalda.
Stratifierat urval (egelska Stratified Radom Sample) När vi vill dra slutsatser om e heteroge populatio (e populatio som ka delas i i udergrupper med avseede på ågo egeskap som vi tror påverkar det som vi vill udersöka). Varje såda grupp kallas för ett stratum, och vi drar ett OSU ur varje stratum och väger ihop resultate. Stratifierat urval ger, om populatioe är heteroge, ormalt lägre stadardavvikelse ä ett OSU och därmed säkrare slutsatser om populatioe. Exempel (forts): Vi delar upp populatioe i kvior och mä, och lägger seda lappara med am i e låda för kvior och e för mä. Seda drar vi 10 lappar ur varje låda.
Felkällor vid stickprovsudersökigar Övertäckig: är det fis eheter i urvalsrame som egetlige ite tillhör målpopulatioe Exempel: Vid studie av vikter blad studeter i ett klassrum aväds klasslista som urvalsram. Me vissa studeter har hoppat av utbildige seda klasslista trycktes de tillhör ite lägre målpopulatioe uta utgör övertäckig. Udertäckig: är det fis eheter i målpopulatioe som sakas i urvalsrame Exempel: Vissa studeter har påbörjat si utbildig seda klasslista trycktes. De tillhör därför målpopulatioe me har ige chas att bli utvalda och utgör därför udertäckig. 6
Felkällor vid stickprovsudersökigar Bortfall: är eheter ite vill (eller ka) mätas. Skilj på Partiellt bortfall: är ehete har åtts, me vi ite fått all iformatio (exempelvis att ite alla frågor på e ekät besvarats) Totalbortfall: är ige iformatio erhållits alls frå ehete Bortfallet ka delas i ytterligare i Slumpmässigt bortfall Systematiskt bortfall Exempel: Socialstyrelse utsäder e ekät om tobaks- och alkoholvaor. Ma ka då täka sig att ykterister och ickerökare är mer beäga att besvara ekäte ä adra. Slutsatser draga frå ekäte riskerar att bli sedvrida eftersom bortfallet ite är slumpmässigt. 7
Felkällor vid stickprovsudersökigar Replikat Replikat beteckar problemet att samma ehet igår flera gåger i urvalsrame. Detta iebär att saolikhete för att de replikerade ehete ska bli utvald är större ä för övriga eheter. Exempel: Om vi avser att studera e populatio av hushåll, me väljer e urvalsram som består av idivider fis det risk för replikat i och med att flera persoer ka tillhöra samma hushåll. 8
Relatio mella populatio och stickprov Populatiosparametrar: beskrivade mått för populatioe. Okäda, och de som vi öskar dra slutsatser om Stickprovsstatistikor: skattigar av populatiosparametrara baserat på stickprov Medelvärde Varias Adel Populatiosparameter x µ = N σ π = 1 N ( x µ ) Stickprovsstatistika x x = s P 1 = 1 ( x x) Tabelle visar vätevärdesriktiga (egelska ubiased) skattigar av populatiosparametrara. 9
Vätevärdesriktighet Vi studerar u relatioe mella stickprovsstatistikor och populatiosparametrar geom att fokusera på relatioe mella stickprovsmedelvärde och populatiosmedelvärde. Låt X vara e slumpvariabel med vilke fördelig som helst. Ia stickprovet har dragits är de första observatioe vi ska göra, X 1, också e slumpvariabel, med vätevärde E = och varias Samma sak gäller för X, X 3,, X : de har vart och ett vätevärde och varias Var ( X ) = 1 σ ( X ) E( X ) = = E( X ) = µ E... Var = 3 ( X ) Var( X ) = = Var( X ) = = 3... σ ( ) µ X 1 10
Vätevärdesriktighet (forts) Vi utyttjar räkereglera för lijära variabeltrasformatioer: 1 1 1 E X = E X i = E X1 + X +... + X = E X1 + X +... + X i= 1 1 1 ( µ + µ +... + µ ) = µ = µ ( ) ( ) ( ) Vi ser att vätevärdet för stickprovsmedelvärdet är populatiosmedelvärdet! Vi har visat att stickprovsmedelvärdet är e vätevärdesriktig skattig av populatiosmedelvärdet. Iebörde i vätevärdesriktighet är alltså att iga systematiska fel görs är stickprovsstatistika aväds för att uppskatta populatiosparameter. På motsvarade sätt ka det visas att ( S ) = σ E E( P) = π Dock är ite stickprovsstadardavvikelse e vätevärdesriktig skattig av populatiosstadardavvikelse! Felet, som är e systematisk uderskattig, är dock litet och stickprovsstadardavvikelse aväds därför ädå som e skattig av populatiosstadardavvikelse. = 11
Medelfel Vilket fel gör vi i geomsitt är vi aväder e stickprovsstatistika som e uppskattig av populatiosparameter? Återige eligt reglera för lijära variabeltrasformatioer: Var 1 1 1 ( X ) Var X = Var ( X + X +... + X ) = i= 1 i 1 ( Var( X ) + Var( X ) +... + Var( X )) = ( + σ +... + σ ) 1 1 1 σ σ = σ = Härledige visar att är stickprovsstorleke ökar så miskar stickprovsmedelvärdets varias fördelige för stickprovsmedelvärdet blir mer och mer kocetrerad krig µ. σ Medelfel för stickprovsmedelvärdet: σ = X Medelfelet är e uppskattig av de geomsittliga osäkerhete är vi aväder e stickprovsstatistika för att uppskatta populatiosparameter = 1
Egeskaper hos stickprovsstatistikora Stickprovsmedelvärde Stickprovssumma Stickprovsadel Lägesmått Spridig Medelfel E ( X ) = µ Var( X ) = σ E ( X ) = µ Var( X ) = σ E ( P) = π Var( P) σ = X σ X σ = σ ( 1 ) π ( 1 π ) σ P = π π = Eftersom σ respektive π i allmähet är okäda skattas de med s respektive p. Exempel stickprovssumma: Flygbolag räkar med att medelvikte på e passagerare är 80 kg med e stadardavvikelse om 5 kg. E viss flygplastyp rymmer 90 passagerare. Totalvikte blad dessa 90 passagerare är exempel på e stickprovssumma. 13
De stora tales lag Ju större stickprov vi drar, desto mer lika blir stickprovsstatistikora populatiosparametrara 14
Sampligfördelig Hur ofta kommer vårt stickprovsmedelvärde att överesstämma med populatiosmedelvärdet, om vi skulle dra måga OSU ur samma populatio? Exempel: Vi studerar ett företag med 100 aställda, och vi är itresserade av medelikomste blad de aställda. Företagets aställda utgör alltså vår populatio, och med hjälp av företagets ekoomiavdelig ka vi faktiskt plocka fram löeivå för samtliga 100 aställda vid e viss tidpukt. Vi åskådliggör löefördelige vid företaget i ett histogram: 35 30 5 Ur löestatistike bestäms medellöe vid företaget till µ = 465 kr Percet 0 15 10 Histogrammet visar tydligt att populatioe lö för de aställda vid företaget ite ka betraktas som ormalfördelad! 5 0 10 0 30 40 Ikomst (tkr) 50 60 Vilke medellö skulle ett stickprov ge? 15
Sampligfördelig (forts) Låt oss u göra ett teoretiskt experimet: vi drar 50 oberoede stickprov om storleke = 10, beräkar de 50 stickprovsmedelvärdea och åskådliggör stickprovsmedelvärdea i ett histogram. Följade resultat erhålles. x = 4381 kr Notera beteckige för medelvärde av medelvärde 19.5 1.0.5 4.0 5.5 7.0 Medelvärde Ikomst i stickprovet (tkr) (tkr) 8.5 30.0 16
Sampligfördelig (forts) Experimetet upprepas för 50 oberoede stickprov om storleke = 0: x = 434 kr 3 4 Medelvärde Ikomst i stickprovet (tkr) (tkr) 5 6 17
Sampligfördelig (forts) Slutlige upprepas experimetet för 50 oberoede stickprov om storleke = 30: x = 499 kr 1.6.8 4.0 5. Medelvärde Ikomst i stickprovet (tkr) (tkr) 6.4 18
Sampligfördelig (forts) Fördelige för stickprovsmedelvärdea kallas för e urvalsfördelig. Urvalsfördelige är alltså e förteckig över vilka värde vi ka förväta oss få i vårt urval, och hur ofta de ka förvätas förekomma. Vi ka betrakta urvalsfördelige som e uppskattig av de fördelig som skulle fås om vi åskådliggjorde stickprovsmedelvärdea för samtliga möjliga stickprov av e viss storlek ur populatioe, vilket kallas för e sampligfördelig. 19
Cetrala gräsvärdessatse sampligfördelige blir mer och mer lik e ormalfördelig (trots att populatioe som stickprove drogs ur ite alls var ormalfördelad!) är stickprovsstorleke ökar sampligfördeliges medelvärde hamar allt ärmare populatiosmedelvärdet är stickprovsstorleke ökar Cetrala gräsvärdessatse säger Sampligfördelige för summor eller medelvärde av oberoede slumpvariabler med samma fördelig är approximativt ormalfördelad om är tillräckligt stort Valig tumregel: 30 0
Stickprovsstatistikors fördelig Om 30 gäller, tack vare cetrala gräsvärdessatse oavsett vilke fördelig populatioe som stickprovet dragits ur har, att σ Stickprovsmedelvärdet X N µ = µ ; σ = X X Stickprovssumma X N ( ) µ = µ σ = σ X ; X Om < 30 krävs att populatioe som stickprovet dragits ur är ormalfördelad. Då gäller fortfarade ovaståede formler eftersom lijära variabeltrasformatioer av ormalfördelade slumpvariabler också är ormalfördelade. 1
Stickprovsstatistikors fördelig (forts) För e stickprovsadel där X = atalet eheter i stickprovet med studerad egeskap gäller, givet att p(1-p) > 5, att P N µ P = π ; σ P = π ( 1 π ) P = X
Exempel E grossist importerar 500-grams påsar med ris i partier om 10000 påsar. Grossiste kotrollerar de leveraser om 10000 påsar ma mottar geom att kotrollväga ett slumpmässigt urval om 50 påsar ur varje parti. Vid e viss leveras uppmäts geomsittsvikte till 496.7 gram blad 50 slumpmässigt utvalda påsar. Beräka saolikhete att få e geomsittsvikt blad 50 slumpmässigt valda påsar som är 496.7 gram eller lägre, givet att det är sat att geomsittsvikte per påse i hela partiet är 500 gram och stadardavvikelse mella påsar är 10.0 gram, vilket leveratöre hävdar. Vad är saolikhete för att de sammalagda vikte blad de 50 slumpmässigt valda påsara överstiger 5. kg, givet att det är sat att geomsittsvikte per påse i hela partiet är 500 gram och stadardavvikelse mella påsar är 10.0 gram? 3