Urvalsökningar Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken En urvalsökning från 21000 till 29500 individer borde då resultera i förbättring med ca 15% Eller? 1
Urvalsökning AKU En ökning av urvalet med 37% (21500->29000) gjordes i AKU 2010, med huvudsyfte att förbättra redovisningen för utsatta grupper. Det gällde de med svag anknytning till arbetsmarknaden Önskvärt var också förbättringar av precision mer allmänt 2
Arbetskraftsundersökningen, AKU Mäter antalet sysselsatta, arbetslösa, arbetade timmar Startades 1961 Månatlig sedan 1970 Resultat tas fram för månader, kvartal och år Publicering ungefär två veckor efter mätmånaden Helt EU-harmoniserad sedan 2005 Utökat urval från 2010 3
Arbetsmarknaden, AKU Befolkningen I arbetskraften Ej i arbetskraften Sysselsatta Arbetslösa Sjuk Heltidsstuderande Pensionär Övrigt I arbete Frånvarande hela veckan Sjuk Semester Föräldraledighet Övrigt 4
Grundtabell 1, april 2012 TAB. 1 (15Befolkningen fördelad efter arbetskraftstillhörighet samt efter kön och ålder. Arbetslösa enlig Kön 1000-tal I ARBETSKRAFTEN Ålder Syssel- därav Arbets- därav Summa satta I arbete Från- lösa heltidsvarande studerande hela veckan (1) (2) (3) (4) (5) (6) Båda könen 15-24 år 457,0 413,9 43,1 153,1 94,1 610,1 25-34 951,5 830,5 121,0 78,2.. 1 029,7 35-44 1 120,8 1 006,9 113,9 54,8.. 1 175,6 45-54 1 091,8 1 007,6 84,2 57,4.. 1 149,2 55-64 842,8 762,5 80,3 44,6.. 887,4 65-74 144,8 125,5 19,3.... 146,9 15-74 4 608,6 4 146,9 461,7 390,2 145,5 4 998,8 därav 5
Arbetslösa, procentandel 11,0 10,0 9,0 8,0 7,0 6,0 5,0 2005 2006 2007 2008 2009 2010 2011 6
Urvalsdesign Individer 15-74 år utgör målpopulationen Sannolikhetsurval av individer från RTB Månatlig urvalsstorlek 21500 (29 000) Varje månad ingår 4-6 stratifierade urval Individerna är med 8 gånger, varje kvartal under två år Panelundersökning med roterande urval Individerna utfrågas om i vilken utsträckning de arbetade under en bestämd vecka Urvalet fylls på varje år 7
Före utökningen Ordinarie urval (ORD) Stratifiering Kön Region (län och stora städer) Ålder (12-15, 16-64, 65-74) Ger 2*24*3=144 strata 8
Tilläggsurval (NY) Redovisning för de med svag anknytning till arbetsmarknaden ska förbättras utanförskapet En generell urvalsökning för dyr Urvalet riktas mot intressanta grupper med hjälp av registeruppgifter: Arbetslöshet, sjukfrånvaro, studier, pension 9
Tilläggsurval (NY) Målsättningen är att förfina redovisningen av stockar och flöden iför de fetmarkerade delgrupperna/arbetsmarknadstillstånden i trädet ovan, dvs. inom: För personer i arbetskraften: Personer i arbete Personer frånvarande hela veckan efter frånvaroskäl Arbetslösa För personer utanför arbetskraften: Sjuka Personer i heltidsstudier Pensionärer exkl. sjuka Övriga 10
Tilläggsurval (NY) Stratifiering Indikator för arbetsmarknadsanknytning Kön Ålder (13-24, 25-54,55-66) Region (7 länsgrupper) Utlandsfödd Ger 2*7*2*2 +7*2=70 strata för infödda, 2*7*2+7= 35 strata för utlandsfödda 11
Estimation Generell RegressionsEstimator (GREG) Kalibrering med hjälpinformation: registervariabler som samvarierar med viktiga undersökningsvariabler samvarierar med svarsbenägenhet identifierar viktiga redovisningsgrupper 12
Hjälpinformation Ålder * kön: 13 x 2 = 26 Näringsgren = 8 Arbetssökande enligt AF = 2 Region = 26 Födelseland = 4 Summa 66 13
Sammansatt estimation Två urval med estimatorer X 1 och X 2 En sammansatt estimator är Z där 0<=a=<1 Z = a *X 1 + (1-a) *X 2, (1) Hur ska a väljas så att var(z) minimeras? För två oberoende urval är a=v 2 /(V 1 +V 2 ) (2) där V 1 och V 2 är varianserna för de två skattningarna. I det enklaste fallet är det endast urvalsstorlekarna som har betydelse: a = n 1 / [n 1 + n 2 ], (3) 14
Sammansatt estimation Två urval med estimatorer X 1 och X 2 En sammansatt estimator är Z där 0<=a=<1 Z = a *X 1 + (1-a) *X 2, (1) Hur ska a väljas så att var(z) minimeras? För två oberoende urval är a=v 2 /(V 1 +V 2 ) (2) där V 1 och V 2 är varianserna för de två skattningarna. I det enklaste fallet är det endast urvalsstorlekarna som har betydelse: a = n 1 / [n 1 + n 2 ], (3) 15
AKU januari 2010 urval URVAL År Storlek andel andel totalt urvalsdel ORD 1 2008 7990 0,37 0,27 2 2009 10694 0,50 0,37 3 2010 2674 0,13 0,09 totalt 21358 0,73 NY 4 2009 6832 0,87 0,23 5 2010 985 0,13 0,03 totalt 7817 0,27 16
AKU januari 2010, osäkerhet antal sysselsatta, medelvärden över 7 åldersgrupper 16-64 år sammanvägningsfaktor a se ORD se ORD+NY procentuell förbättring ORD+NY 0,732 7,8537 7,7708-1,06 0,75 7,8537 7,6511-2,58 0,78 7,8537 7,4860-4,68 0,8 7,8537 7,4019-5,75 0,82 7,8537 7,3399-6,54 0,85 7,8537 7,2898-7,18 0,9 7,8537 7,3266-6,71 1 7,8537 7,8537 0,00 17
Problemen beror på att precisionen i NY är sämre för den här typen av skattningar också om vi bortser från det mindre urvalet. En sammansatt estimation kan till och med leda till sämre precision än med den ursprungliga urvalet (ORD) Något tycks förlorat genom designen med det riktade urvalet 18
Sammansatt estimation för urval med olika design Designeffekterna d 1 och d 2 kan beaktas. Dessa anger hur variansen för en estimator och urvalsdesign förhåller sig till OSU-variansen. Nu blir den optimala sammanvägningsfaktorn a = [n 1 /d 1 ]/[n 1 /d 1 + n 2 /d 2 ], (4) i stället för (3). Kvoten n h /d h där h=1,2 kallas den relativa effektiva sampelstorleken. 19
Sammansatt estimation för urval med olika design Designeffekterna d 1 och d 2 kan beaktas. Dessa anger hur variansen för en estimator och urvalsdesign förhåller sig till OSU-variansen. Nu blir den optimala sammanvägningsfaktorn a = [n 1 /d 1 ]/[n 1 /d 1 + n 2 /d 2 ], (4) i stället för (3). Kvoten n h /d h där h=1,2 kallas den relativa effektiva sampelstorleken. 20
Sammansatt estimation för urval med olika design Designeffekterna blir i allmänhet olika för olika redovisningar (variabler och tabellceller). En global designeffekt är generellare, till exempel genom den kvadrerade variationskoefficienten för vikterna w hi i de olika urvalen h d h = 1 + cv(w hi ) 2. (5) 21
Kumulerade sannolikheter Är det möjligt att i stället beakta de individuella urvalssannolikheter? Vilken är sannolikheten P i att ingå i det sammansatta urvalet för en individ i, genom att väljas genom antingen det ordinarie urvalet, ORD eller tilläggsurvalet, NY? P i = P i ORD + P i NY (6) 22
Kumulerade sannolikheter Är det möjligt att i stället beakta de individuella urvalssannolikheter? Vilken är sannolikheten P i att ingå i det sammansatta urvalet för en individ i, genom att väljas genom antingen det ordinarie urvalet, ORD eller tilläggsurvalet, NY? P i = P i ORD + P i NY (6) 23
Kumulerade sannolikheter P i ORD för NY resp. P i NY för ORD går att räkna ut genom att vi kan ta fram (rekonstruera stratumtillhörighet enligt ORD för NY-urvalet och enligt NY för ORD-urvalet. 24
Estimation HT-estimatorn för en total, urval j tˆ, j s j y k j, k (7) Sammanvägning flera urval, icke-stokastiska vikter ger tˆ e J a j, a j J j 1 1 a j j tˆ, j 1 (8) (9) 25
Estimation Sammanvägning flera urval Olika delurvalsvikter Urval j tˆ j s j b j, k y j, k sammanvägning tˆ i J j 1 tˆ j J k b j, k y s j j 1 j, k b j, b k, k J j 1 j, k 1 (10) (11) (12) 26
Estimation Från dessa uttryck kan varianser härledas Vidare andra estimatorer härledas, som GREG Det senare har gjorts för AKU för några olika specifikationer vad gäller hanteringen av bortfallet bland annat Kalibrering för bortfall enbart Svarshomogenitetsgrupper (modell genom strata) 27
Resultat Små förändringar i punktskattningarna relativt sett Precisionsförbättringar mellan 3 och 11 procent dvs. variationskoefficienten ( variansen/punktskattningen) blir så mycket lägre jämfört med nuvarande ordinarie skattningsförfarande från 2010. 28
Resultat Utökad och aktuell hjälpinformation kan leda till ytterligare 4 till 6 procents förbättring i genomsnitt för viktiga tabeller. Den tillsammantagna effekten blir en förbättring på mellan 5 och 19 procent. För enskilda skattningar har precisionen förbättrats mycket mer i några fall, samtidigt som effekten i andra fall är obetydlig eller till och med kan vara något negativ. 29
Resultat Urvalsökningen på drygt 35 procent och den nya estimationen innebär en minskning av osäkerheten på mellan 8 och 25 procent igenomsnitt för viktiga tabeller. Med OSU väntar vi 15 procents minskning. Med det tilläggsurvalet får vi särskilt en ökad träffsäkerhet mot de nya målgrupperna 30
Multipla ramar Intressant för kostnadsreducering där man ändå vill uppnå god precision Också användbart för populationer som det är svårt att dra urval från Kunskapen om ramidentifikation kan vara begränsad för andra urvalsramar än den individen dragits från Singh o Mecatti JOS 2011 31