Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Relevanta dokument
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Urvalsmetoder: Stratifierat urval (kap 9.5)

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Tidigare exempel. Några beteckningar. Stratifierat urval

Introduktion till statistik för statsvetare

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 4. Kapitel 5, sid Stickprovsteori

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Lektionsanteckningar 11-12: Normalfördelningen

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

F3 Introduktion Stickprov

Föreläsning G60 Statistiska metoder

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Samplingfördelningar 1

TMS136. Föreläsning 10

F9 Konfidensintervall

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

Formel- och tabellsamling i matematisk statistik

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 5. Kapitel 6, sid Inferens om en population

Mer om konfidensintervall + repetition

TMS136. Föreläsning 7

Föreläsning 12: Repetition

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Summor av slumpvariabler

F9 SAMPLINGFÖRDELNINGAR (NCT

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Föreläsning G60 Statistiska metoder

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Exempel i stickprovsteori

FÖRELÄSNING 7:

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

F10 Problemlösning och mer om konfidensintervall

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 11: Mer om jämförelser och inferens

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

, s a. , s b. personer från Alingsås och n b

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Föreläsning 7. Statistikens grunder.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

10. Konfidensintervall vid två oberoende stickprov

Kurssammanfattning MVE055

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 8: Konfidensintervall

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

TMS136. Föreläsning 11

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 7: Punktskattningar

Tillämpad statistik (A5), HT15 Föreläsning 2: Obundet slumpmässigt urval 1

TMS136. Föreläsning 13

Matematisk statistik för B, K, N, BME och Kemister

9. Konfidensintervall vid normalfördelning

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

FÖRELÄSNING 8:

Repetitionsföreläsning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Föreläsning 4: Konfidensintervall (forts.)

TENTAMEN I STATISTIKENS GRUNDER 2

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Diskussionsproblem för Statistik för ingenjörer

Systematiskt urval, gruppurval, val mellan metoderna (kap , 9.10)

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

MVE051/MSG Föreläsning 7

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Statistik 1 för biologer, logopeder och psykologer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Föreläsning 6, Repetition Sannolikhetslära

Laboration 3: Urval och skattningar

Studietyper, inferens och konfidensintervall

Parade och oparade test

Laboration 3: Urval och skattningar

Ytterligare urvalsmetoder och skattningsmetoder

Några extra övningsuppgifter i Statistisk teori

SF1901 Sannolikhetsteori och statistik I

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Härledning av Black-Littermans formel mha allmänna linjära modellen

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning G60 Statistiska metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

TENTAMEN I STATISTIKENS GRUNDER 2

Formler och tabeller till kursen MSG830

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Transkript:

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-06

En stratifierad sundersökning: NTU2014

Från NTU2014

Från NTU2014

Dellens et al. (2000). Lancet

Dellens et al. (2000). Lancet

Bakgrund Ofta tillgång till fler variabler än undersökningsvariabeln i sramen. T ex: En sram med identifieringsvariabeln personnummer ger även variablerna kön och ålder. Kan den extra information i sramen användas för att förbättra undersökningen? Består hjälpinformationen av en kategorivaraibel 1 kan vi genomföra. 1 Nominal- eller ordinalskala. En kontinuerlig hjälpvariabel kan kategoriseras

Definition (1) () innebär att en ändlig population U = {1, 2,..., N} delas upp i K disjunkta delpopulationer, U 1, U 2,..., U K. Populationsstorlek: N = N 1 + N 2 +... + N K = K j=1 N j, där N j är populationstorlek i stratum j.

Parametrar vid stratifiering Populationsmedelvärde: µ = N 1 N µ 1 + N 2 N µ 2 +... + N K N µ K = K N j j=1 N µ j, där µ j är populationsmedelvärde i stratum j. Populationstotal: τ = N 1 µ 1 + N 2 µ 2 +... N K µ K = K j=1 N jµ j, där τ j är populationstotal i stratum j. Populationsandel: p = N 1 N p 1 + N 2 N p 2 +... + N K N p K = K där p j är populationstotal i stratum j. j=1 N j N p j,

Illustration av stratifiering

och Definition (2) (Stratifierat ) Stratifierat innebär att dras oberoende av varandra från varje stratum U j. Definition (3) (Stratifierat med OSU-UÅ) STOSU innebär att OSU-UÅ dras oberoende av varandra från varje stratum U j. Om inget annat nämns är stratifierat = STOSU. Total stickprovsstorlek: n = n 1 + n 2 + + n K = K j=1 n j, där n j är stickprovsstorleken i stratum j.

av parametrar Mål: Skatta populationsmedelvärdet µ Estimator: x st = N 1 N x 1 + N 2 N x 2 +... + N K N x K = K N j j=1 N x j, där x j = 1 nj i=1 n x i är stickprovsmedelvärdet i stratum j j Mål: Skatta populationstotalen τ Estimator: ˆτ st = N 1 x 1 +N 2 x 2 +...+N K x K = K j=1 N j x j = K j=1 ˆτ j Mål: Skatta populationsandelen p Estimator: ˆp st = N 1 N ˆp 1 + N 2 N ˆp 2 +... + N K N ˆp K = K där ˆp j stickprovsandelen i stratum j j=1 N j N ˆp j,

Illustration: av µ

Bias och precision Vi koncentrerar oss nu på skattning av µ med x st För att veta hur bra vår nya estimator är givet att vi drar ett OSU-UÅ från respektive stratum ska följande frågor besvaras: 1 Är estimatorn x st väntevärdesriktig (vvr)? 2 Vilken precision har estimatorn x st? (framför allt jämfört med x)

Recap: Väntevärde av summor av slumpvariabler Låt X och Y vara 2 slumpvariabler. Låt a, b och c vara konstanter. Då gäller följande räkneregler för väntevärdet: E(X + c) = E(X ) + c E(X + Y ) = E(X ) + E(Y ) E(aX ) = ae(x ) E(aX + by ) = ae(x ) + be(y ) E(aX + by + c) = ae(x ) + be(y ) + c

Bias E( x st ) = E = E N x 1 + N 2 N x 2 +... + N ) K N x K ) ( ) N2 + E N x 2 +... + E ( N1 ( N1 N x 1 = N 1 N E( x 1) + N 2 N E( x 2) +... + N K N E( x K) = N 1 N µ 1 + N 2 N µ 2 +... + N K N µ K K N j = N µ j = µ j=1 ( ) NK N x K Kriterium 1 uppfyllt eftersom estimatorn x st är vvr!

Recap: Varians av summor av slumpvariabler Låt X och Y vara 2 oberoende slumpvariabler. Låt a, b och c vara konstanter. Då gäller följande räkneregler för variansen: V (X + c) = V (X ) V (X + Y ) = V (X ) + V (Y ) V (ax ) = a 2 V (X ) V (ax + by ) = a 2 V (X ) + b 2 V (Y ) V (ax + by + c) = a 2 V (X ) + b 2 V (Y )

Precision Vi vet stickprovsmedelvärdets varians vid OSU-UÅ: ( ) N n σ 2 V ( x) = N 1 n Eftersom vi har OSU-UÅ i respektive stratum är variansen för ett stratumspecifikt stickprovsmedelvärde V ( x j ) = ( ) Nj n j σ 2 j, N j 1 n j där σ 2 j är populationsvariansen i stratum j.

Precision Stickprovsmedelvärdets varians vid stratifierat är ( N1 V ( x st ) = V N x 1 + N 2 N x 2 + + N ) K N x K ( ) ( ) ( ) 2 N1 = V N x N2 1 + V N x NK 2 + + V N x K = = ( N1 ) 2 ( ) 2 N2 V ( x 1 ) + V ( x 2 ) + + N N K ( ) 2 Nj K V ( x j ) = N j=1 j=1 ( NK N ( ) 2 ( ) Nj Nj n j σ 2 j N N j 1 n j ) 2 V ( x K ) 2 Oberoende stickprov gör att likheten gäller! En förutsättning.

Bias och precision Vi har nu härlett variansen för x st. Hur står den sig mot V ( x)? Vi ska alltså jämföra V ( x st ) = K j=1 ( ) 2 ( ) Nj Nj n j σ 2 j N N j 1 n j med V ( x) = ( ) N n σ 2 N 1 n En generell jämförelse utelämnas, men vi räknar ett exempel där hela populationen är känd ser vilken estimator som har minst varians!

Bias och precision Exempel: Genomsnittligt antal sjukdagar N = 10 anställda vid ett företag har följande antal sjukdagar. Populationen kan delas in i två strata - anställda med gratis friskvård (S1) och anställda som inte får gratis friskvård (S2). µ j σj 2 S1 12 9 4 7 5 7,4 8,24 S2 14 8 6 12 11 10,2 8,16 Populationens medelvärde är µ = 8, 8 och populationsvariansen σ 2 = 10, 16. Anta att man vill dra ett stickprov med storlek n = 4 för att skatta antalet sjukdagar. Vilken estimator har bäst precision?

Bias och precision Exempel: Genomsnittligt antal sjukdagar Vid OSU-UÅ och n = 4 är ( ) N n σ 2 V ( x) = N 1 n = ( ) 10 4 10,16 10 1 4 = 1,69 Nu väljer vi n 1 = 2 och n 2 = 2 med OSU-UÅ från varje stratum, vilket ger ( ) ( ) N1 n 1 σ 2 V ( x 1 ) = 1 5 2 8,24 = = 3,09 N 1 1 n 1 5 1 2 ( ) ( ) N2 n 2 σ 2 V ( x 2 ) = 2 5 2 8,16 = = 3,06 N 2 1 n 2 5 1 2

Bias och precision Exempel: Genomsnittligt antal sjukdagar ( N1 ( N2 ) 2 ) 2 V ( x st ) = V ( x 1 ) + V ( x 2 ) N N ( ) 2 ( ) 2 5 5 = 3,09 + 3,06 = 1,5375 10 10 I det här fallet är V ( x) V ( x st ) = 1, 69 1,5375 = 1, 1. Estimatorn x st 10% effektivare än estimatorn x.

Skattning av V ( x) I praktiken är σj 2 okänd och V ( x st ) måste skattas, men på motsvarande sätt som med OSU-UÅ fås den skattade variansen för x st som ˆV ( x st ) = K j=1 ( ) 2 ( Nj 1 n ) j s 2 j, N N j n j där s 2 j är stickprovsvariansen i stratum j.

Egenskaper för x st Parameter: µ Estimator: x st Bias: E( x st ) = µ Precision: V ( x st ) = K j=1 Variansestimator: ˆV ( x st ) = K j=1 ( Nj ) 2 ( 1 n j ( ) 2 ( ) Nj Nj n j σ 2 j N N j 1 n j ) s 2 j N N j n j Fördelning: x st är approx. N(µ, V ( x st )) om alla n j > 20. CGS! Samma regler som tidigare gäller för konfidensintervall och hypotesprövning.

Egenskaper för ˆτ st Parameter: τ Estimator: ˆτ st Bias: E(ˆτ st ) = τ Precision: V (ˆτ st ) = K j=1 N2 j Variansestimator: ˆV (ˆτ st ) = K j=1 N2 j ( 1 n j N j ) s 2 j ( ) Nj n j σ 2 j N j 1 n j Fördelning: ˆτ st är approx. N(τ, V (ˆτ st )) om alla n j > 20. CGS! Samma regler som tidigare gäller för konfidensintervall och hypotesprövning. n j

Egenskaper för ˆp st Parameter: p Estimator: ˆp st Bias: E(ˆp st ) = p Precision: ( Nj V (ˆp st ) = K j=1 N Variansestimator: ˆV (ˆp st ) = K j=1 ( Nj ) 2 ( ) Nj n j pj (1 p j ) N j 1 n j ) 2 ( 1 n j ) ˆpj (1 ˆp j ) N N j n j 1 Fördelning: ˆp st är approx. N(p, V (ˆp st ) om alla n j p j (1 p j ) > 5. CGS! Samma regler som tidigare gäller för konfidensintervall och hypotesprövning.

Exempel Uppgift 1109 En kommun består av två kommundelar med 10 000 och 15 000 invånare. Från varje kommundel väljer man slumpmässigt 2 000 invånare. För varje person antecknar man om personen har förvärvsarbete eller inte. I et från den mindre kommundelen har 400 personer förvärvsarbete. I andra et är siffran 640 personer.

Exempel Mål: En kommun vill skatta andelen förvärvsarbetande i kommunen, p. Bestäm också den statistiska felmarginalen av andelen förvärvsarbetande. Kommun består av två kommundelar med 10 000 och 15 000 invånare. Från varje kommundel väljer man slumpmässigt 2 000 invånare. Estimator: ˆp st

Exempel Förutsättningar: Vi har K = 2 strata, där N 1 = 10000 och N 2 = 15000. Således är N = N 1 + N 2 = 25000. Urvalsstorleken är n 1 = n 2 = 2000 och n = n 1 + n 2 = 4000. 1) Stratifierat med OSU-UÅ innebär att E(ˆp st ) = p. 2) Stratifierat innebär per design att stickproven är oberoende, vilket V (ˆp st ) förutsätter 3) Eftersom n/n > 0,1 skattas V (ˆp st ) med ˆV (ˆp st ) = K j=1 ( Nj ) 2 ( 1 n j ) ˆpj (1 ˆp j ) n j 1. N N j 4) n j p j (1 p j ) > 5 innebär att ˆp s t är approx. Nf pga CGS. Måste kontrolleras i efterhand!

Exempel Beräkningar: En punktskattning av p ges av ˆp st = N 1 N ˆp 1 + N 2 N ˆp 2 I stickprovet från första stratumet är 400 och i stickprovet från andra stratumet är 640 förvärvsarbetande. Alltså är ˆp 1 = 400/2000 = 0,2 och ˆp 2 = 640/2000 = 0,32. Insättning av värden ger punktskattningen: ˆp st = 10000 15000 0, 2 + 0, 32 = 0, 272 25000 25000

Exempel Beräkningar: För att vi ska kunna beräkna den statistiska felmarginalen måste n j p j (1 p j ) > 5. Vi kontrollerar med skattningarna från stickprovet: n 1 ˆp 1 (1 ˆp 1 ) = 64, n 2 ˆp 2 (1 ˆp 2 ) = 139. OK! Den statistiska felmarginalen utgår från 95% konfidensgrad (om inget annat anges) och den ges av z α/2 ˆV (ˆp st ) = = z α/2 (N1 N där z α/2 = 1, 96. ) 2 ( 1 n ) 1 p1(1 p1 ) + N 1 n 1 1 ( ) 2 ( N2 1 n ) 2 p2(1 p2 ), N N 2 n 2 1

Exempel Beräkningar: För att vi ska kunna beräkna den statistiska felmarginalen måste n j p j (1 p j ) > 5. Vi kontrollerar med skattningarna från stickprovet: n 1 ˆp 1 (1 ˆp 1 ) = 64, n 2 ˆp 2 (1 ˆp 2 ) = 139. OK! Den statistiska felmarginalen utgår från 95% konfidensgrad (om inget annat anges) och den ges av z α/2 ˆV (ˆp st ) = = z α/2 (N1 N där z α/2 = 1, 96. ) 2 ( 1 n ) 1 p1(1 p1 ) + N 1 n 1 1 ( ) 2 ( N2 1 n ) 2 p2(1 p2 ), N N 2 n 2 1

Exempel Beräkningar: z α/2 ˆV (p st) = ( 10000 = 1,96 25000 = 0, 01303 ) 2 ( 1 2000 ) 0, 2 0, 8 + 10000 1999 ( ) 15000 2 ( 1 2000 ) 0, 32 0, 68 25000 15000 1999 Svar: Felmarginalen är 0, 013, vilket innebär att vi med 95% säkerhet kan säga att andelen förvärvsarbetande i kommunen befinner sig i intervallet 0, 272 ± 0, 013.

ett stratifierat Val av stratifieringsvariabel? Hur många strata? Var ska gränserna dras? Hur ska stickprovet allokeras? Bestämning av stickprovsstorlek n (Ingår ej på kursen.)

Val av stratifieringsvariabel? Ju högre korrelation mellan hjälpvariabeln och undersökningsvariabeln, desto bättre precision! är bra för precisionen om det finns stora skillnader mellan µ i och µ j, dvs medelvärdena mellan olika strata skiljer sig åt. det finns små skillnader inom strata. Det innebär att σ 2 j < σ 2 Dessutom Välj en stratifieringsvariabel som ger information om alla element i sramen Välj en stratifieringsvariabel utifrån planerade analyser av delgrupper

Val av stratifieringsvariabel? Det är möjligt att ha flera hjälpvariabler. Ett stratum är en kombination av kategorierna. Exempelvis ger 21 län och 3 ålderskategorier 63 strata. Sveriges län 18-24 år 25-34 år 35-64 år A Stratum 1.. B....... Y.. Stratum K

Antal strata Skilj på teori och praktik. Teoretiskt ska man ta så många strata man kan eftersom variansen (i princip) aldrig öka genom ytterligare stratumindelning. I praktiken gäller dock följande: Ju fler strata, desto mindre marginell ökningen av precisionen. Första indelningarna är viktigast. Det räcker oftast med 5-10 strata. Sneda fördelningar kan kräva finare indelning. Använd strata som är standard och använts tidigare för att förenkla presentation och jämförelser Eventuellt måste hänsyn tas till eventuell särredovisning för vissa grupper. Ett stort antal strata kan bli dyrt.

Exempel Förslagsvis konstrueras en tabell som redovisar resultatet från undersökningen. Detta är speciellt viktigt om undersökningen har många strata. Stratum N j n j p j 1 10000 2000 0,2 2 15000 2000 0,32 Stratum N j n j x j sj 2 1 N 1 n 1 x 1 s1 2 2 N 2 n 2 x 2 s2 2..... K N K n K x K sk 2

Allokering Givet n ska n 1, n 2,..., n K väljas. Målet är att göra en allokering som ger en viss mängd information till minsta möjliga kostnad. Detta bestäms av följande tre faktorer Antalet element i varje stratum. Antalet element i ett stratum påverkar mängden information i ett stickprov. Större stratum kräver alltså fler observationer. Variationen i varje stratum. Om populationen i ett stratum är heterogen har vi stor variation och det kräver fler element. Kostnaden att undersöka ett element i varje stratum. Om kostnaden varierar mellan stratum vill vi dra små stickprov från stratum med höga kostnader.

Formel för allokering ( N j σ j / ) c j n j = n N 1 σ 1 / c 1 + N 2 σ 2 / c 2 + + N K σ K / c ( 2K Nj σ j / ) c j = n K l=1 N lσ l / c l N j är stratum storleken i stratum j σ j är populationsstandardavvikelsen i stratum j c j är kostnaden att erhålla en observation från stratum j

Exempel Optimal allokering Anta att man vill göra en marknadsundersökning. Vi har 3 strata: två städer och landsbygd. Eftersom det kostar mer att resa på landsbygden har vi att kostnaden för en observation i städerna är c 1 = c 2 = 9 medan kostnaden för en observation på landsbygden är c 3 = 16. Tidigare undersökningar har gett oss följande variation i respektive stratum: Stratumstorlekarna är: σ 1 = 5, σ 2 = 15, σ 3 = 10. N 1 = 155, N 2 = 62, N 3 = 93.

Exempel Optimal allokering Anta att stickprovsstorleken före undersökningen har bestämts till n = 58. Vi börjar med anämnaren i allokeringsformeln: 3 i=l N l σ l cl = N 1σ 1 c1 + N 2σ 2 c2 + N 3σ 3 c3 = 155 5 62 15 93 10 + + = 800, 83 9 9 16 n 1 = n ( Nj σ j / ) ( c j 3 l=1 N lσ l / 155 5/ ) 9 = 58 = 18, 5 c l 800, 83 På samma sätt får vi att n 2 = 22, 6 och n 3 = 16, 8. Då n = 58 avrundar vi så att stickprovsstorlekarna blir n 1 = 18, n 2 = 23 och n 3 = 17.

Neyman-allokering Samma kostnad i varje stratum: c 1 = c 2 = = c K. Allokering med hänsyn till stratumstorlekar och varianser kallas för Neyman-allokering. Exempel Vi börjar med nämnaren i allokeringsformeln: 3 N l σ l = 155 5 + 62 15 + 93 10 = 2635 l=1 n 1 = n ( ) ( ) N 1 σ 1 155 5 3 l=1 N = 58 = 17, 4 lσ l 2635 och på motsvarande sätt erhålls n 2 = 20, 3 och n 3 = 20, 3, vilket avrundas till n 1 = 18, n 2 = 20 och n 3 = 20.

Proportionell allokering Allokering med hänsyn till enbart stratumstorlekarna proportionell allokering. Exempel Vi börjar med nämnaren i allokeringsformeln: 3 N l = 155 + 62 + 93 = 310 l=1 N j n 1 = n 3 l=1 N l = 58 155 310 = 29 och vi får på motsvarande sätt att n 2 = 11, 6 och n 3 = 17, 4. Vi avrundar stickprovsstorlekarna till n 1 = 29, n 2 = 12 och n 3 = 17.

Proportionell allokering Proportionellt stratifierat (PSU) är ett självvägt. Vid ett PSU har alla element samma inklusionssannolikhet, n/n, dvs samma egenskap som vid ett OSU. Punktskattningar är väntevärdesriktiga även om vi inte tar hänsyn till stratifieringen. Däremot överskattar vi variansen. Vid proportionell allokering är N j N = n j n så x PSU = K j=1 N j N x j = K j=1 n j n x j = K j=1 1 n n j x j = 1 n n K j j=1 i=1 x ij

Lika allokering Vid lika allokering har vi lika stora från samtliga strata, dvs n 1 = n 2 = = n K. Det innebär att där K är antalet strata. Exempel n j = n K I fallet med lika allokering, med n = 58 och K = 3 har vi att n 1 = n 2 = n 3 = n K = 58 = 19, 33 3 Vi avrundar två av sstorlekarna till 19 och ett till 20.

Fördelar och nackdelar med stratifierat + Det går att kontrollera precisionen för olika redovisningsgrupper, det vill säga vi kan redan i förväg planera delanalyser. + Precision. I regel behövs mindre stickprov än vid OSU. Tidskrävande. Kräver hjälpinformation. Försvårar statistisk analys. Kom ihåg att analysmetoden måste anpassas efter sdesignen.

Exempel att fundera på Söderqvist et al. 3 undersökte bland barn andelen som pratar i mobiltelefon mer än 2 minuter om dagen, p. För att skatta parametern användes. Stickprovsstorleken bestämdes till n = 2000. Enkäter med 24 frågor skickades ut till barnens målsmän. Totalt erhölls n = 1423 ifyllda enkäter. Undersökningen bestod ursprungligen av K = 16 strata - de 8 åldersgrupperna uppdelat på flickor och pojkar, dvs n 1 = n 2 = = n 16. 3 Söderqvist, F., Hardell, L., Carlberg, M., & Mild, K. H. (2007). Ownership and use of wireless telephones: a population-based study of Swedish children aged 7 14 years. BMC Public Health, 7(1), 105

Söderqvist et al. Vilken allokering har författarna gjort? Vilken allokering bygger förutsätter deras beräkning för punktskattningen?

Rådata från Söderqvist et al.

Läsanvisningar D: 11.5

Övningsuppgifter D: 11.9-11.14 Övningsuppgifter kommer att tillkomma.