Föreläsning 4 732G19 Utredningskunskap I Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin
Dagens föreläsning Systematiskt urval Väntevärdesriktiga skattningar Jämförelse med OSU Stratifierat urval Punktskattningar Konfidensintervall Allokeringar 2
Systematiskt urval Förutsätter en mycket bra urvalsram (register) Istället för att helt slumpmässigt dra element (exempelvis individer) ur rampopulationen som vid OSU tas elementen med slumpmässigt val av det första elementet periodiskt ur urvalsramen enligt: Om N t, t + k, t + 2 k,, t + n 1 k n är ett heltal har alla element chans att bli utvalda, men om kvoten inte blir ett heltal har de N n k sista elementen ingen chans att bli utvalda. Korrigera genom cyklisk urvalsram! 3
Systematiskt urval Stickprovsmedelvärde, stickprovsandel och stickprovsvarians beräknas som vanligt. Stickprovsmedelvärdets varians skattas Var x sy (1 + n 1 ρ) n Om korrelationen bedöms vara liten beräknas skattningen enligt = σ2 Var x sy = σ2 N n n N 1 varpå vi kan räkna med formlerna från ett vanligt OSU. Resultatet blir dock ej väntevärdesriktigt. 4
Väntevärdesriktiga skattningar vid systematiskt urval Vi har dragit g systematiska urval med olika startpunkter. För varje urval j (j = 1, 2,, g) beräknas Stickprovsmedelvärde x sy,j Stickprovsvarians 2 s sy,j Vi kan då beräkna en punktskattning av populationsmedelvärdet: g x sy = 1 g j=1 x sy,j 5
Väntevärdesriktiga skattningar vid systematiskt urval Vi kan även beräkna ett konfidensintervall för populationsmedelvärdet: x sy ± z α/2 2 s x sy g 1 g G där G = totala antalet möjliga systematiska urval om storlek n ur populationen och 2 s x sy = 1 g g 1 j=1 x sy,j 2 g xsy 2 6
Systematiskt urval jämfört med OSU Slumpmässigt ordnad urvalsram: när ordningen i urvalsramen inte har någon betydelse för det som ska undersökas. Jämförelse: Systematiskt urval får i genomsnitt samma precision som OSU Urvalsram med linjär trend: när elementen i urvalsramen är storleksordnade med avseende på den egenskap som vi vill undersöka. Jämförelse: Precisionen blir i genomsnitt högre än för OSU, eftersom chansen är större att vi får med enheter från hela spektrat av element Periodisk urvalsram: när elementen i urvalsramen förekommer i homogena delgrupper som återkommer med jämna mellanrum. Jämförelse: Systematiskt urval är olämplig urvalsdesign 7
Stratifierat urval (engelska Stratified Random Sample) När vi vill dra slutsatser om en heterogen population (en population som kan delas in i delpopulationer med avseende på någon egenskap som vi tror påverkar det vi vill undersöka). Varje sådan grupp kallas för ett stratum, och vi drar ett OSU ur varje stratum och väger ihop resultaten. Fördelar mot OSU Ger bättre precision genom att hänsyn tas till undergrupper i populationen Nackdelar mot OSU Beräkningsmässigt mer komplicerat Exempel: För vår population med studenter i ett klassrum bland vilka vi vill undersöka genomsnittsvikten delar vi upp populationen i kvinnor och män, och lägger sedan lapparna med namn i en låda för kvinnor och en för män. Sedan drar vi 10 lappar ur varje låda.
Beteckningssystem N i : storleken hos stratum i (i = 1, 2,, ) n i : antal element som väljs ut från stratum i x i S : stickprovsmedelvärde från stratum i p i : stickprovsandel från stratum i 2 s i S : stickprovsvarians från stratum i Stickprovsmedelvärde, stickprovsvarians och stickprovsandel beräknas inom respektive stratum med de vanliga formlerna. 9
Punktskattningar vid stratifierat urval Storhet Väntevärdesriktig skattning Populationsmedelvärde μ = x st = W i x i i=1 Populationstotalmängd τ = N x st Populationsandel P P = p st = i=1 W i p i Vikterna bestäms enligt: W i = N i N 10
Dubbelsidiga konfidensintervall vid stratifierat urval Populationsparameter Populationsmedelvärde Formel för konfidensintervall x st ± z α/2 i=1 W i 2 s i 2 n i 1 n i N i Populationstotal N x st ± z α/2 N 2 i=1 W i 2 s i 2 n i 1 n i N i Populationsandel P p st ± z α/2 i=1 W i 2 p i (1 p i ) n i 1 1 n i N i 11
Exempel Vi betraktar en population om 1000 företag och är intresserade av hur stora investeringar som har gjorts det senaste året. Bakgrundsstudier har visat att populationen består av en grupp företag inom tillverkningsindustrin som har mycket höga investeringar, medan övriga företag verkar inom servicesektorn och har relativt låga investeringar. Närmare bestämt har vi med hjälp av bakgrundsinformationen kunnat dela upp populationen i två strata, där N 1 = 800 företag inom servicesektorn N 2 = 200 företag inom tillverkningsindustrin Vi har tid och ekonomi för att dra ett stickprov om 150 företag. Stratum Medelvärde Standardavvikelse Stickprovsstorlek Stratumstorlek Service Tillverkn x 1 = 15,54 s 1 = 8,93 n 1 = 120 N 1 = 800 x 2 = 438,85 s 2 = 18,92 n 2 = 30 N 2 = 200 Bestäm ett 95% konfidensintervall för de genomsnittliga investeringarna i populationen. 12
Exempel En kommun består av två kommundelar med 10000 respektive 15000 innevånare. Från varje kommundel väljer man slumpmässigt 2000 personer och för varje utvald person undersöker man om denna har förvärvsarbete eller ej. I den första kommundelen har 400 personer förvärvsarbete och i den andra 640 personer. Bestäm ett 95% konfidensintervall för andelen personer med förvärvsarbete i kommunen. 13
Allokering Allokering innebär att man bestämmer hur stora stickprov som ska dras från de olika strata. Vi kommer att diskutera dessa allokeringar: Proportionell allokering Neymannallokering Optimal allokering 14
Proportionell allokering Stickprovsstorleken i respektive stratum väljs proportionellt mot stratumstorleken i förhållande till populationsstorleken enligt n i = n N i N Stickprovsstorleken bestäms enligt följande. För medelvärden För andelar n 0 4 z α 2 2 i=1 B 2 W i σ i 2 n 0 4 z α 2 2 i=1 B 2 W i P i 1 P i Om n 0 N > 5% korrigeras n enligt n = n 0 1+ n 0 1 N 15
Proportionell allokering Vi återgår till den kommunen vi undersökte i ett tidigare exempel. Anta att vi inte har någon förhandsuppfattning om andelen förvärvsarbetande i de två kommundelarna och vi vill skatta totala andelen förvärvsarbetande i kommunen. Ett 95 % konfidensintervall ska skapas och den maximala bredden som accepteras är 3 procentenheter. Kommundel N i 1 10 000 2 15 000 16
Neymanallokering Används när man vill ta hänsyn till (och har kännedom om) standardavvikelsen i varje stratum. För medelvärden: För andelar: n i = n n i = n N i σ i N j σ j j=1 N i P i (1 P i ) Stickprovsstorleken bestäms enligt: n B 2 4 z α 2 j=1 N j P j (1 P j ) i=1 W i σ i 2 Om andelar sätts σ i = P i (1 P i ) 2 + 1 N 2 i=1 W i σ i 17
Neymanallokering Exempel: Man vill skatta medelvärdet i en population som redovisas enligt nedanstående tabell. Vi accepterar en bredd om 7 enheter för ett 95% konfidensintervall. Hur stort stickprov bör dras, och hur ska stickprovet allokeras? i Stratum N i 1 700 20 2 300 50 18
Optimal allokering Används när man vill ta hänsyn till (och har kännedom om) spridningen och kostnaden i olika strata. För medelvärden: För andelar n i = n N i σ i N j j=1 σ j c i c j n i = n N i j=1 N j P i (1 P i ) P j (1 P j ) c i c j 19
Optimal allokering Stickprovsstorleken bestäms enligt: Fixerad kostnad i=1 n C max C 0 N i N i σ i c i i=1 σ i c i Fixerad precision n i=1 W i σ i c i i=1 B 2 4 z α 2 W i σ i 2 + 1 N 2 i=1 W i σ i c i Om andelar sätts σ i = P i 1 P i 20
Exempel Vid en undersökning kring vanor i att använda kollektivtrafiken (mätt som antal resor per år) i en kommun har man delat in kommunen i tre strata: centrum (13350 individer), förort (29960 individer) samt landsbygd (4810 individer). Man uppskattar initialkostnaden till 5000 kr och utöver det är kostnaden 100 kronor för att uppsöka en person i centrum, 150 kronor för att uppsöka en person i förorten och 250 kronor för att uppsöka en person på landsbygden. Man har uppskattat att standardavvikelsen för antalet gjorda resor per år och person är 58 i centrum, 76 i förorterna och 31 på landsbygden. Vi har en total budget på 30000 kr. Hur stort stickprov bör dras, och hur ska urvalet allokeras? 21
Tack för idag! Nästa tillfälle: Datorövning, torsdag 8 maj, 15-17, sal PC2 PC5 22