Introduktion till statistik för statsvetare

och enkäter "Det finns inget så praktiskt som en bra teori" September 2011

och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag eller motsvarande) har vi att göra en undersökning. Denna undersökning kan antingen vara en totalundersökning eller en urvalsundersökning Frågor som måste besvaras för varje sådan undersökning är 1 Vad vill vi mäta? 2 På vilka skall vi mäta? 3 Hur skall vi mäta? 4 Hur många mätningar skall göras? Det vill säga hur skall urval göras, hur skall enkäter konstrueras och hur många skall vi fråga.

och enkäter Inledning Inledning (forts) Vi behöver först införa några gemensamma begrepp Definition En population är den mängd individer, U = {1, 2, 3,..., N}, som vi vill studera med avseende på någon egenskap θ. Definition Ram är en förteckning över populationen. Det följer direkt att vissa individer kan saknas (de är inte noterade) och vissa tillhör inte populationen (dödsfall). Vi talar om undertäckning respektive övertäckning. Vanligtvis är populationen för stor för att en totalundersökning kan göras. Därför börjar vi med att studera hur man gör ett urval ur sin population/ram.

och enkäter Inledning Inledning (forts) Vi behöver några exakta begrepp: 1 U = {1, 2, 3,..., N} 2 A = mängden av alla möjliga delmängder till U 3 A är en sådan delmängd till U och således gäller A A 4 Till varje individ i hör en egenskap x i 5 F= {x 1, x 2, x 3,..., x N } 6 Vi vill skatta X = N i=1 x i eller X = 1 N N i=1 x i. Vi inför även slumpvariabeln { 1 om i är i urvalet I i = 0 annars

och enkäter För ett obundet slumpmässigt urval gäller att varje individ har precis samma sannolikhet som varje annan individ att komma med i urvalet. Om ett urval består utav n individer uttrycks detta formell som att varje urval {x i1, x i2,..., x in } har samma sannolikhet att bli valt. Detta medför speciellt att varje individ har samma sannolikhet, n N, att bli vald. Matematiskt följer detta ur P (I i ) = P (sannolikhet att bli vald) = (1 1 1 )(N n 1 ) ( N n ) = (N 1)! (n 1)!(N n)! N! n!(n n)! = n N Framöver antar vi att N är så stort att centrala gränsvärdessatsen gäller samt att N N 1.

och enkäter (forts) För att skatta X har vi att beräkna X = 1 N N x i i=1 men vi har endast en delmängd {x i1, x i2,..., x in } om n individer och därför endast X n = 1 n n x ij j=1 För denna skattning kan visas att E ( X n ) = θ = 1 N N x i i=1 V ( X n ) = N n N 1 σ2 n (1 n N ) σ 2 där σ 2 skattas som vanligt med s 2. Termen ( 1 n ) Introduktion till statistik N för statsvetare kallas n

och enkäter (forts) En skattning utan sitt konfidensintervall är inte så användbart. Vi beräknar således även konfidensintervallet vilket blir ( X n ± 1.96 1 n ) s 2 N n Med hjälp av konfidensintervallet kan vi bestämma stickprovets storlek n. Först bestämmer vi oss för hur brett konfidensintervallet får vara till en given konfidensgrad 1 α: Säg 2L. Vi har därmed ekvationen λ α/2 ( 1 n N ) s 2 n = L λ α/2 gäller för alla val av α. Om α = 0.05 får vi speciellt 1.96.

och enkäter (forts) Denna ekvation har lösningen n = vilket följer ut likheterna nedan. s 2 ( ) 2 L λ α/2 + s 2 N ( λ α/2 1 n ) s 2 N n = L ( 1 n ) s 2 N n = L2 s 2 n s2 N = n L 2 (λ α/2 ) 2 ( ) L 2 n (λ α/2 ) 2 + s2 = s 2 N

och enkäter används då vi har extra kunskap om populationen. Tex om populationen kan delas in i fattiga och rika områden, i olika familjestorlekar osv. Dylika indelningar kallas strata och om vi har L strata med N j individer i strata j så gäller N = N 1 + N 2 + + N L. Definiera W j = N j N observera att N j förutsätts känd I varje strata räknar vi på samma sätt som vid OSU. Dvs för strata j gäller X j = 1 N j N j x i i=1 Målet med denna procedur är att erhålla större precision på skattningarna dvs en mindre spridning.

och enkäter (forts) och för X j n j kan visas att E V ( ) X j nj = θ j = 1 N j N j x i i=1 ( ) X j nj = N j n j N j 1 σ2 j n j ( 1 n ) j σ 2 j N j n j Den slutliga skattningen för X n viktas sedan ihop på följande sätt X n = L W j X n j j=1

och enkäter (forts) För denna skattning gäller E ( X n ) = V ( X n ) L ( ) W j E X j nj = j=1 L Wj 2 j=1 ( 1 n j N j L j=1 ) σ 2 j n j W j θ j = θ Dahmström innehåller ett exempel som visar på vinsten med stratifiering. Att tänka på vid stratifierat urval Vilka variabler bestämmer stratifieringen? Hur många strata skall konstrueras? Hur många enheter skall vi välja från strata j?

och enkäter (forts) De två första punkterna styrs mycket av den aktuella situationen så här skall endast den sista punkten diskuteras. Hur bestämmer man fördelningen av n k? Det enklaste valet är att ta lika många från varje strata n j = n L Det kräver dock rätt starka bivillkor/önskemål. Tex skall stratas storlek vara ungefär lika och vi skall ha lika variation eller vi önskar skatta stratas eget medelvärde. Ett mer naturligt val är n j = n N j N dvs vi tar lika många som proportionellt finns i stratat. Detta kallas proportionell allokering.

och enkäter (forts) Ett mer intrikat val är att välja n j så att man minimerar den totala variansen. För att göra detta måste man ta fler från de strata där spridningen är stor och vice versa. För att göra ett sådant val har man att lösa ett minimieringsproblem. Svaret blir N j σ j n j = n L k=1 N k σ k och det kallas för optimal allokering. Optimal allokering innehåller ovanstående val som specialfall. Det finns även metoder där man tar hänsyn till kostnaden för att mäta den intressanta egenskapen hos enheten.

och enkäter (forts) För den optimala allokeringen har vi följande specialfall Vi ser att om varianserna är lika så erhåller vi proportionell allokering n j = n N j σ j L = n N j σ k=1 N k σ k L k=1 N k σ = n N j N Om strata är lika stora erhålls (N j = N 0 ) så erhålls N j σ j n j = n L = n N 0σ j k=1 N k σ k L = n σ j k=1 N 0 σ j L k=1 σ j och om σ j = σ 0 erhålls n j = n σ j L = n σ 0 k=1 σ j L = n k=1 σ 0 L vilket var det första valet.

och enkäter Systematiskt och kluster

och enkäter Example Antag att vi på en population vill mäta en egenskap dels med obundet slumpmässigt urval, X n OSU, dels med proportionellt allokerat stratifierat urval, X n PASU, och dels med ett optimalt allokerat urval, X n OASU. Det gäller allmänt ( ) ( ) ( ) V X n OASU V X n PASU V X n OSU

och enkäter (forts) smetod Fördelar Nackdelar OSU Teoretiskt enkelt Kräver ram Kan ge dålig precision Kan ge bra precision Stratifiering ej entydig Bra vid sneda fördelningar Bra vid olika storlekar Systematiskt urval Enkel att göra Risk för periodicitet Kluster urval Kräver ej ram Sämre precision än OSU Spridd population Billigt