Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-06

En stratifierad sundersökning: NTU2014

Från NTU2014

Dellens et al. (2000). Lancet

Bakgrund Ofta tillgång till fler variabler än undersökningsvariabeln i sramen. T ex: En sram med identifieringsvariabeln personnummer ger även variablerna kön och ålder. Kan den extra information i sramen användas för att förbättra undersökningen? Består hjälpinformationen av en kategorivaraibel 1 kan vi genomföra. 1 Nominal- eller ordinalskala. En kontinuerlig hjälpvariabel kan kategoriseras

Definition (1) () innebär att en ändlig population U = {1, 2,..., N} delas upp i K disjunkta delpopulationer, U 1, U 2,..., U K. Populationsstorlek: N = N 1 + N 2 +... + N K = K j=1 N j, där N j är populationstorlek i stratum j.

Parametrar vid stratifiering Populationsmedelvärde: µ = N 1 N µ 1 + N 2 N µ 2 +... + N K N µ K = K N j j=1 N µ j, där µ j är populationsmedelvärde i stratum j. Populationstotal: τ = N 1 µ 1 + N 2 µ 2 +... N K µ K = K j=1 N jµ j, där τ j är populationstotal i stratum j. Populationsandel: p = N 1 N p 1 + N 2 N p 2 +... + N K N p K = K där p j är populationstotal i stratum j. j=1 N j N p j,

Illustration av stratifiering

och Definition (2) (Stratifierat ) Stratifierat innebär att dras oberoende av varandra från varje stratum U j. Definition (3) (Stratifierat med OSU-UÅ) STOSU innebär att OSU-UÅ dras oberoende av varandra från varje stratum U j. Om inget annat nämns är stratifierat = STOSU. Total stickprovsstorlek: n = n 1 + n 2 + + n K = K j=1 n j, där n j är stickprovsstorleken i stratum j.

av parametrar Mål: Skatta populationsmedelvärdet µ Estimator: x st = N 1 N x 1 + N 2 N x 2 +... + N K N x K = K N j j=1 N x j, där x j = 1 nj i=1 n x i är stickprovsmedelvärdet i stratum j j Mål: Skatta populationstotalen τ Estimator: ˆτ st = N 1 x 1 +N 2 x 2 +...+N K x K = K j=1 N j x j = K j=1 ˆτ j Mål: Skatta populationsandelen p Estimator: ˆp st = N 1 N ˆp 1 + N 2 N ˆp 2 +... + N K N ˆp K = K där ˆp j stickprovsandelen i stratum j j=1 N j N ˆp j,

Illustration: av µ

Bias och precision Vi koncentrerar oss nu på skattning av µ med x st För att veta hur bra vår nya estimator är givet att vi drar ett OSU-UÅ från respektive stratum ska följande frågor besvaras: 1 Är estimatorn x st väntevärdesriktig (vvr)? 2 Vilken precision har estimatorn x st? (framför allt jämfört med x)

Recap: Väntevärde av summor av slumpvariabler Låt X och Y vara 2 slumpvariabler. Låt a, b och c vara konstanter. Då gäller följande räkneregler för väntevärdet: E(X + c) = E(X ) + c E(X + Y ) = E(X ) + E(Y ) E(aX ) = ae(x ) E(aX + by ) = ae(x ) + be(y ) E(aX + by + c) = ae(x ) + be(y ) + c

Bias E( x st ) = E = E N x 1 + N 2 N x 2 +... + N ) K N x K ) ( ) N2 + E N x 2 +... + E ( N1 ( N1 N x 1 = N 1 N E( x 1) + N 2 N E( x 2) +... + N K N E( x K) = N 1 N µ 1 + N 2 N µ 2 +... + N K N µ K K N j = N µ j = µ j=1 ( ) NK N x K Kriterium 1 uppfyllt eftersom estimatorn x st är vvr!

Recap: Varians av summor av slumpvariabler Låt X och Y vara 2 oberoende slumpvariabler. Låt a, b och c vara konstanter. Då gäller följande räkneregler för variansen: V (X + c) = V (X ) V (X + Y ) = V (X ) + V (Y ) V (ax ) = a 2 V (X ) V (ax + by ) = a 2 V (X ) + b 2 V (Y ) V (ax + by + c) = a 2 V (X ) + b 2 V (Y )

Precision Vi vet stickprovsmedelvärdets varians vid OSU-UÅ: ( ) N n σ 2 V ( x) = N 1 n Eftersom vi har OSU-UÅ i respektive stratum är variansen för ett stratumspecifikt stickprovsmedelvärde V ( x j ) = ( ) Nj n j σ 2 j, N j 1 n j där σ 2 j är populationsvariansen i stratum j.

Precision Stickprovsmedelvärdets varians vid stratifierat är ( N1 V ( x st ) = V N x 1 + N 2 N x 2 + + N ) K N x K ( ) ( ) ( ) 2 N1 = V N x N2 1 + V N x NK 2 + + V N x K = = ( N1 ) 2 ( ) 2 N2 V ( x 1 ) + V ( x 2 ) + + N N K ( ) 2 Nj K V ( x j ) = N j=1 j=1 ( NK N ( ) 2 ( ) Nj Nj n j σ 2 j N N j 1 n j ) 2 V ( x K ) 2 Oberoende stickprov gör att likheten gäller! En förutsättning.

Bias och precision Vi har nu härlett variansen för x st. Hur står den sig mot V ( x)? Vi ska alltså jämföra V ( x st ) = K j=1 ( ) 2 ( ) Nj Nj n j σ 2 j N N j 1 n j med V ( x) = ( ) N n σ 2 N 1 n En generell jämförelse utelämnas, men vi räknar ett exempel där hela populationen är känd ser vilken estimator som har minst varians!

Bias och precision Exempel: Genomsnittligt antal sjukdagar N = 10 anställda vid ett företag har följande antal sjukdagar. Populationen kan delas in i två strata - anställda med gratis friskvård (S1) och anställda som inte får gratis friskvård (S2). µ j σj 2 S1 12 9 4 7 5 7,4 8,24 S2 14 8 6 12 11 10,2 8,16 Populationens medelvärde är µ = 8, 8 och populationsvariansen σ 2 = 10, 16. Anta att man vill dra ett stickprov med storlek n = 4 för att skatta antalet sjukdagar. Vilken estimator har bäst precision?

Bias och precision Exempel: Genomsnittligt antal sjukdagar Vid OSU-UÅ och n = 4 är ( ) N n σ 2 V ( x) = N 1 n = ( ) 10 4 10,16 10 1 4 = 1,69 Nu väljer vi n 1 = 2 och n 2 = 2 med OSU-UÅ från varje stratum, vilket ger ( ) ( ) N1 n 1 σ 2 V ( x 1 ) = 1 5 2 8,24 = = 3,09 N 1 1 n 1 5 1 2 ( ) ( ) N2 n 2 σ 2 V ( x 2 ) = 2 5 2 8,16 = = 3,06 N 2 1 n 2 5 1 2

Bias och precision Exempel: Genomsnittligt antal sjukdagar ( N1 ( N2 ) 2 ) 2 V ( x st ) = V ( x 1 ) + V ( x 2 ) N N ( ) 2 ( ) 2 5 5 = 3,09 + 3,06 = 1,5375 10 10 I det här fallet är V ( x) V ( x st ) = 1, 69 1,5375 = 1, 1. Estimatorn x st 10% effektivare än estimatorn x.

Skattning av V ( x) I praktiken är σj 2 okänd och V ( x st ) måste skattas, men på motsvarande sätt som med OSU-UÅ fås den skattade variansen för x st som ˆV ( x st ) = K j=1 ( ) 2 ( Nj 1 n ) j s 2 j, N N j n j där s 2 j är stickprovsvariansen i stratum j.

Egenskaper för x st Parameter: µ Estimator: x st Bias: E( x st ) = µ Precision: V ( x st ) = K j=1 Variansestimator: ˆV ( x st ) = K j=1 ( Nj ) 2 ( 1 n j ( ) 2 ( ) Nj Nj n j σ 2 j N N j 1 n j ) s 2 j N N j n j Fördelning: x st är approx. N(µ, V ( x st )) om alla n j > 20. CGS! Samma regler som tidigare gäller för konfidensintervall och hypotesprövning.

Egenskaper för ˆτ st Parameter: τ Estimator: ˆτ st Bias: E(ˆτ st ) = τ Precision: V (ˆτ st ) = K j=1 N2 j Variansestimator: ˆV (ˆτ st ) = K j=1 N2 j ( 1 n j N j ) s 2 j ( ) Nj n j σ 2 j N j 1 n j Fördelning: ˆτ st är approx. N(τ, V (ˆτ st )) om alla n j > 20. CGS! Samma regler som tidigare gäller för konfidensintervall och hypotesprövning. n j

Egenskaper för ˆp st Parameter: p Estimator: ˆp st Bias: E(ˆp st ) = p Precision: ( Nj V (ˆp st ) = K j=1 N Variansestimator: ˆV (ˆp st ) = K j=1 ( Nj ) 2 ( ) Nj n j pj (1 p j ) N j 1 n j ) 2 ( 1 n j ) ˆpj (1 ˆp j ) N N j n j 1 Fördelning: ˆp st är approx. N(p, V (ˆp st ) om alla n j p j (1 p j ) > 5. CGS! Samma regler som tidigare gäller för konfidensintervall och hypotesprövning.

Exempel Uppgift 1109 En kommun består av två kommundelar med 10 000 och 15 000 invånare. Från varje kommundel väljer man slumpmässigt 2 000 invånare. För varje person antecknar man om personen har förvärvsarbete eller inte. I et från den mindre kommundelen har 400 personer förvärvsarbete. I andra et är siffran 640 personer.

Exempel Mål: En kommun vill skatta andelen förvärvsarbetande i kommunen, p. Bestäm också den statistiska felmarginalen av andelen förvärvsarbetande. Kommun består av två kommundelar med 10 000 och 15 000 invånare. Från varje kommundel väljer man slumpmässigt 2 000 invånare. Estimator: ˆp st

Exempel Förutsättningar: Vi har K = 2 strata, där N 1 = 10000 och N 2 = 15000. Således är N = N 1 + N 2 = 25000. Urvalsstorleken är n 1 = n 2 = 2000 och n = n 1 + n 2 = 4000. 1) Stratifierat med OSU-UÅ innebär att E(ˆp st ) = p. 2) Stratifierat innebär per design att stickproven är oberoende, vilket V (ˆp st ) förutsätter 3) Eftersom n/n > 0,1 skattas V (ˆp st ) med ˆV (ˆp st ) = K j=1 ( Nj ) 2 ( 1 n j ) ˆpj (1 ˆp j ) n j 1. N N j 4) n j p j (1 p j ) > 5 innebär att ˆp s t är approx. Nf pga CGS. Måste kontrolleras i efterhand!

Exempel Beräkningar: En punktskattning av p ges av ˆp st = N 1 N ˆp 1 + N 2 N ˆp 2 I stickprovet från första stratumet är 400 och i stickprovet från andra stratumet är 640 förvärvsarbetande. Alltså är ˆp 1 = 400/2000 = 0,2 och ˆp 2 = 640/2000 = 0,32. Insättning av värden ger punktskattningen: ˆp st = 10000 15000 0, 2 + 0, 32 = 0, 272 25000 25000

Exempel Beräkningar: För att vi ska kunna beräkna den statistiska felmarginalen måste n j p j (1 p j ) > 5. Vi kontrollerar med skattningarna från stickprovet: n 1 ˆp 1 (1 ˆp 1 ) = 64, n 2 ˆp 2 (1 ˆp 2 ) = 139. OK! Den statistiska felmarginalen utgår från 95% konfidensgrad (om inget annat anges) och den ges av z α/2 ˆV (ˆp st ) = = z α/2 (N1 N där z α/2 = 1, 96. ) 2 ( 1 n ) 1 p1(1 p1 ) + N 1 n 1 1 ( ) 2 ( N2 1 n ) 2 p2(1 p2 ), N N 2 n 2 1

Exempel Beräkningar: z α/2 ˆV (p st) = ( 10000 = 1,96 25000 = 0, 01303 ) 2 ( 1 2000 ) 0, 2 0, 8 + 10000 1999 ( ) 15000 2 ( 1 2000 ) 0, 32 0, 68 25000 15000 1999 Svar: Felmarginalen är 0, 013, vilket innebär att vi med 95% säkerhet kan säga att andelen förvärvsarbetande i kommunen befinner sig i intervallet 0, 272 ± 0, 013.

ett stratifierat Val av stratifieringsvariabel? Hur många strata? Var ska gränserna dras? Hur ska stickprovet allokeras? Bestämning av stickprovsstorlek n (Ingår ej på kursen.)

Val av stratifieringsvariabel? Ju högre korrelation mellan hjälpvariabeln och undersökningsvariabeln, desto bättre precision! är bra för precisionen om det finns stora skillnader mellan µ i och µ j, dvs medelvärdena mellan olika strata skiljer sig åt. det finns små skillnader inom strata. Det innebär att σ 2 j < σ 2 Dessutom Välj en stratifieringsvariabel som ger information om alla element i sramen Välj en stratifieringsvariabel utifrån planerade analyser av delgrupper

Val av stratifieringsvariabel? Det är möjligt att ha flera hjälpvariabler. Ett stratum är en kombination av kategorierna. Exempelvis ger 21 län och 3 ålderskategorier 63 strata. Sveriges län 18-24 år 25-34 år 35-64 år A Stratum 1.. B....... Y.. Stratum K

Antal strata Skilj på teori och praktik. Teoretiskt ska man ta så många strata man kan eftersom variansen (i princip) aldrig öka genom ytterligare stratumindelning. I praktiken gäller dock följande: Ju fler strata, desto mindre marginell ökningen av precisionen. Första indelningarna är viktigast. Det räcker oftast med 5-10 strata. Sneda fördelningar kan kräva finare indelning. Använd strata som är standard och använts tidigare för att förenkla presentation och jämförelser Eventuellt måste hänsyn tas till eventuell särredovisning för vissa grupper. Ett stort antal strata kan bli dyrt.

Exempel Förslagsvis konstrueras en tabell som redovisar resultatet från undersökningen. Detta är speciellt viktigt om undersökningen har många strata. Stratum N j n j p j 1 10000 2000 0,2 2 15000 2000 0,32 Stratum N j n j x j sj 2 1 N 1 n 1 x 1 s1 2 2 N 2 n 2 x 2 s2 2..... K N K n K x K sk 2

Allokering Givet n ska n 1, n 2,..., n K väljas. Målet är att göra en allokering som ger en viss mängd information till minsta möjliga kostnad. Detta bestäms av följande tre faktorer Antalet element i varje stratum. Antalet element i ett stratum påverkar mängden information i ett stickprov. Större stratum kräver alltså fler observationer. Variationen i varje stratum. Om populationen i ett stratum är heterogen har vi stor variation och det kräver fler element. Kostnaden att undersöka ett element i varje stratum. Om kostnaden varierar mellan stratum vill vi dra små stickprov från stratum med höga kostnader.

Formel för allokering ( N j σ j / ) c j n j = n N 1 σ 1 / c 1 + N 2 σ 2 / c 2 + + N K σ K / c ( 2K Nj σ j / ) c j = n K l=1 N lσ l / c l N j är stratum storleken i stratum j σ j är populationsstandardavvikelsen i stratum j c j är kostnaden att erhålla en observation från stratum j

Exempel Optimal allokering Anta att man vill göra en marknadsundersökning. Vi har 3 strata: två städer och landsbygd. Eftersom det kostar mer att resa på landsbygden har vi att kostnaden för en observation i städerna är c 1 = c 2 = 9 medan kostnaden för en observation på landsbygden är c 3 = 16. Tidigare undersökningar har gett oss följande variation i respektive stratum: Stratumstorlekarna är: σ 1 = 5, σ 2 = 15, σ 3 = 10. N 1 = 155, N 2 = 62, N 3 = 93.

Exempel Optimal allokering Anta att stickprovsstorleken före undersökningen har bestämts till n = 58. Vi börjar med anämnaren i allokeringsformeln: 3 i=l N l σ l cl = N 1σ 1 c1 + N 2σ 2 c2 + N 3σ 3 c3 = 155 5 62 15 93 10 + + = 800, 83 9 9 16 n 1 = n ( Nj σ j / ) ( c j 3 l=1 N lσ l / 155 5/ ) 9 = 58 = 18, 5 c l 800, 83 På samma sätt får vi att n 2 = 22, 6 och n 3 = 16, 8. Då n = 58 avrundar vi så att stickprovsstorlekarna blir n 1 = 18, n 2 = 23 och n 3 = 17.

Neyman-allokering Samma kostnad i varje stratum: c 1 = c 2 = = c K. Allokering med hänsyn till stratumstorlekar och varianser kallas för Neyman-allokering. Exempel Vi börjar med nämnaren i allokeringsformeln: 3 N l σ l = 155 5 + 62 15 + 93 10 = 2635 l=1 n 1 = n ( ) ( ) N 1 σ 1 155 5 3 l=1 N = 58 = 17, 4 lσ l 2635 och på motsvarande sätt erhålls n 2 = 20, 3 och n 3 = 20, 3, vilket avrundas till n 1 = 18, n 2 = 20 och n 3 = 20.

Proportionell allokering Allokering med hänsyn till enbart stratumstorlekarna proportionell allokering. Exempel Vi börjar med nämnaren i allokeringsformeln: 3 N l = 155 + 62 + 93 = 310 l=1 N j n 1 = n 3 l=1 N l = 58 155 310 = 29 och vi får på motsvarande sätt att n 2 = 11, 6 och n 3 = 17, 4. Vi avrundar stickprovsstorlekarna till n 1 = 29, n 2 = 12 och n 3 = 17.

Proportionell allokering Proportionellt stratifierat (PSU) är ett självvägt. Vid ett PSU har alla element samma inklusionssannolikhet, n/n, dvs samma egenskap som vid ett OSU. Punktskattningar är väntevärdesriktiga även om vi inte tar hänsyn till stratifieringen. Däremot överskattar vi variansen. Vid proportionell allokering är N j N = n j n så x PSU = K j=1 N j N x j = K j=1 n j n x j = K j=1 1 n n j x j = 1 n n K j j=1 i=1 x ij

Lika allokering Vid lika allokering har vi lika stora från samtliga strata, dvs n 1 = n 2 = = n K. Det innebär att där K är antalet strata. Exempel n j = n K I fallet med lika allokering, med n = 58 och K = 3 har vi att n 1 = n 2 = n 3 = n K = 58 = 19, 33 3 Vi avrundar två av sstorlekarna till 19 och ett till 20.

Fördelar och nackdelar med stratifierat + Det går att kontrollera precisionen för olika redovisningsgrupper, det vill säga vi kan redan i förväg planera delanalyser. + Precision. I regel behövs mindre stickprov än vid OSU. Tidskrävande. Kräver hjälpinformation. Försvårar statistisk analys. Kom ihåg att analysmetoden måste anpassas efter sdesignen.

Exempel att fundera på Söderqvist et al. 3 undersökte bland barn andelen som pratar i mobiltelefon mer än 2 minuter om dagen, p. För att skatta parametern användes. Stickprovsstorleken bestämdes till n = 2000. Enkäter med 24 frågor skickades ut till barnens målsmän. Totalt erhölls n = 1423 ifyllda enkäter. Undersökningen bestod ursprungligen av K = 16 strata - de 8 åldersgrupperna uppdelat på flickor och pojkar, dvs n 1 = n 2 = = n 16. 3 Söderqvist, F., Hardell, L., Carlberg, M., & Mild, K. H. (2007). Ownership and use of wireless telephones: a population-based study of Swedish children aged 7 14 years. BMC Public Health, 7(1), 105

Söderqvist et al. Vilken allokering har författarna gjort? Vilken allokering bygger förutsätter deras beräkning för punktskattningen?

Rådata från Söderqvist et al.

Läsanvisningar D: 11.5

Övningsuppgifter D: 11.9-11.14 Övningsuppgifter kommer att tillkomma.