Om register och imputering av binära variabler. Preliminär version:

Om register och imputering av binära variabler av Thomas Laitila 1,2, Anders Holmberg 1, Emma Snölilja 1 1 Statistisa Centralbrån, SE-701 89 Örebro 2 Handelshögsolan, Örebro universitet, SE-701 82 Örebro Preliminär version: 2010-06-21 1. Introdution Ett flertal anledningar ligger baom statistibråernas öande intresse för användning av register och administrativa data vid statistiprodution (Wallgren och Wallgren, 2007). Kostnadsbesparingar och minsad uppgiftslämnarbörda är två förväntade effeter av en öad användning av sådana data. En tredje förväntan är minsande produtionstider och öad atualitet i publicerad statisti. Cerroni, Migliardo och Morganti (2010) presenterar en utvärdering av ISTATs företagsregister som bl.a. indierar snabbare publicering av statisti. Fastän insamling av data från register och administrativa ällor siljer sig från insamling av data vid urvalsbaserade undersöningar, så finns ett antal gemensamma problem och felällor. Två gemensamma och väsentliga problem är bortfall och mätfel. Hantering av bortfall och mätfel an göras enligt två strategier. I den första används estimatorer som tar hänsn till bortfall och mätfel. Exempel på sådana estimatorer är alibreringsestimatorn (Särndal och Lundström, 2005) och ML estimation via tillämpning av EM algoritmen (Dempster, Laird och Rubin, 1977). Ett annat exempel är Ilves och Laitila (2009) som föreslår en biasorrigerad estimator vid mätfel. I den andra strategin anpassas data så att ordinare estimationsförfarande an användas, d.v.s. imputering för bortfall och mätfel. Ett stort antal olia imputeringstenier finns föreslagna i litteraturen. De an lassificeras efter dataälla för imputering, om parametris eller ice parametris metod används, och om randomisering används eller inte. Notera att de två strategierna an ombineras vilet bl.a. 1

Särndal och Lundström (2005) föreslår, där variabelbortfall hanteras med imputering och objetsbortfall hanteras med alibrering. Ett problem med imputering är dess effet på uppsattningar av estimatorernas varians. Vid deterministis imputering med medelvärdet över tillgängliga observationer undersattas variansen. Ett sätt att försöa återspegla variationen i den studerade variabeln och orrigera för undersattning är att tillämpa randomiserad imputering, d.v.s. att istället för imputering av ett förväntat värde imputeras ett slumptal draget från en sattad fördelning. En ansats för att satta variansen hos estimatorer baserade på imputerade data är Multipel Imputation (MI) (Rubin, 1989). Vid MI genereras flera datamängder med olia randomiserade imputationer av bortfallet. Den extra variationen an mätas via variationen hos sattningarna över datamängderna. En vitig aspet på teorin för MI behandlas av Björnstad (2007) som utveclar MI ansatsen för tillämpning vid officiell statistiprodution. Denna artiel bgger på resultat i Laitila (2010) och behandlar problemet med imputering av binära variabler för bortfall när registerdata används för sattning av populationstotaler. En vitig utgångspunt i analsen är utgångspunterna i teorin för designbaserad inferens, (t.ex. Särndal, Swenson and Wretman, 1992), där populationens objet och deras egensaper ses som fixa enheter. Resultaten visar att randomiserad imputering ger sämre precision i sattningar jämfört med deterministis imputering och, att randomisering i sig ger ingen information om sattningarnas precision. 2. Bortfall av en binär variabel Betrata sattning av en populationstotal av en binär variabel, d.v.s. en variabel som antar värdet ett eller noll. Populationen betecnas med, vilen för enelhets sull antas motsvara registerpopulationen. Den binära variabeln betecnas med och mängden betecnar de individer i registret för vila det finns data på variabeln. 2

betecnar omplementmängden till avseende populationen, d.v.s. individer för vila data sanas för variabeln. Antalet enheter i respetive med N and N. innehåller de betecnas Den populationstotal som sattas är t = = +. Imputerade värden betecnas med ŷ och den imputeringsbaserade estimatorn av populationstotalen t är = ˆ (1) Vid randomiserad imputering, antag att imputerade värden genereras från oberoende bernoullifördelninger enligt ˆ ~ Bern( ),. Här an vara en onstant eller en funtion definierad på tillgänglig hjälpinformation. Den randomiserade imputeringsestimatorn betecnas med R och har väntevärdet och variansen = E( R ) (2) t R = 1 ( ) V ( ˆ ) (3) Definiera den deterministisa imputeringsestimatorn enligt D = (4) Via definition av enpuntsfördelningar för imputerade värden erhålls väntevärdet och variansen noll, d.v.s. V ( ˆ ) = 0. t D = E( D ) (5) Estimatorerna R och D har samma väntevärde och bias Notera att bias begränsas till intervallet = ( ) B( ) = B(ˆ t ) (6) R D 3

där N ( 1 ) B(ˆ ) = N N. Intervallets längd är t N och med = 0. 5 centreras intervallet ring 0. Eftersom estimatorerna har samma bias följer att D har mindre MSE (Mean Squared Error) än R, d.v.s. MSE ) < MSE(ˆ t ( D R Vid sattningar av populationsparametrar är det bruligt att illustrera sattningarnas osäerhet m.h.a. onfidensintervall. Variansen hos den randomiserade estimatorn R ges av evation (3) och ett onfidensintervall an bildas enligt ) Källan till variation i ( ) R ± 1.96 1 (7) R är det slumpmässiga urvalet av värden från fördelningarna ˆ ~ Bern( ). Intervallet (7) illustrerar därför osäerheten hos R som estimator av det ända värdet + D, inte som estimator av E( R) = = t. 3. ppsattning av antal svensa arbetspendlare till Norge Snölilja (2010) studerar egensaper hos personer som arbetspendlar till Norge från svensa gränsommuner i västra Svealand och nord-västra Götaland. Redovisning av inomststatistien problematiseras av att uppgifter om inomster från Norge blir tillgängliga efter publicering av den svensa inomststatistien, vilet inför en undersattning av de totala inomsterna i gränsommunerna. I Snölilja (2010) prövas en ansats där en modell för arbetspendling utveclas baserat på data för tidigare inomstår, varefter modellen används för uppsattning av arbetspendling innevarande år. I hennes arbete används inomststatisti från 2006 för utvecling av modell, varefter modell och sattning utvärderas med inomststatisti för 2007. Analsen avgränsas till ommunerna Strömstad, Årjäng och Eda. 4

Baserat på data från 2006 sattas en logistis regressionsmodell för variabeln 1 = 0 om individ har inomst från Norge 2006 i annat fall Den sattade modellen appliceras på data från 2007 och sannoliheter = ( ) Pr =1 beränas enligt den sattade modellen. För 2007 beränas två deterministisa imputationssattningar: t ˆ 1 = + 1( 0.5) D D2 = Beränade sattningar presenteras i Tabell 1. Den första imputeringsestimatorn undersattar antalet pendlare raftigt. Om en mindre andel arbetspendlar an fördelningen av Pr ( =1) = över populationen förväntas vara sev mot små värden. En tröselgräns på 0.5 ger därmed en undersattning av antalet pendlare. I extrema fall an en sådan tröselgräns ge uppsattningar på noll arbetspendlare. Ett alternativ är att säna tröselgränsen från 0.5 till ett mindre tal. Ett annat alternativ är att använda den estimator som föreslås i evation (4). I exemplet har den estimatorn en liten bias, -10%, fastän den modell som används för beräning av imputeringsvärden ˆ = är baserad på en cold dec ansats med data från ett föregående år. I tabell 1 inluderas även en sattning baserad på randomiserad imputering. För denna realisering är bias på -11%. Estimatorns bias är doc densamma som för t ˆD 2 enligt (6). Variansen för estimatorn med randomiserad imputering är V ( ) ( 1 ) = 596. 9 5 ˆ t R =, vilet ger ett litet högre MSE vid randomiserad imputering jämfört med deterministis imputering. I detta exempel domineras MSE av bias. Ett 95% KI enligt (7) ger intervallet 2075 ± 47.9, vilet inluderar t ˆD 2. Däremot inluderas inte populationstotalen t = 2342 i onfidensintervallet.

Tabell 1: Registrerat och sattat antal personer med inomst från Norge 2007. Estimator/Register Sattning/Värde Relativt Bias MSE t 1580-33% 580644 ˆD1 t 2110-10% 53824 ˆD2 a) (2075) a) -10% b) 54421 b) R t 2342 c) --- --- Register ( ) a) En realisering av estimatorn med randomiserad imputering. b) Bias och MSE för estimatorn R. c) Värde enligt SCBs inomst och taxeringsregister. Referenser Björnstad, J.F. (2007). Non-Baesian multiple imputation, Journal of Official Statistics, 23:4, 433-452. Cerroni, F, Migliardo, S. and E. Morganti (2010). Qualit evaluation analsis of the Italian business register on enterprise groups. Paper presented at Q2010, Helsini, 3-6 Ma, 2010. Dempster, A.P, Laird, N.M. and D.B. Rubin (1977). Maximum lielihood from incomplete data via the EM algorithm. Journal of the Roal Statistical Societ B, 39, 1-38. Ilves, M. and T. Laitila (2009). Probabilit-Sampling Approach to Editing, Austrian Journal of Statistics, 38(3), 171-182. Laitila, T. (2010). On imputation of binar variables in registers, Mimeo, Statistics Sweden. Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surves. Wile, New Yor. Snölilja, E. (2010). Inomststatisti och pendling Predition av arbetspendlare till Norge. Kandidatuppsats i statisti, Örebro universitet. Särndal, C.-E., Swensson, B. och J. Wretman (1992). Model Assisted Surve Sampling, Springer, New Yor. Särndal, C.-E. and S. Lundström (2005). Estimation in Surves with Nonresponse, Wile, Chichester, England. Wallgren, A. och B. Wallgren (2007). Register-based Statistics, Wile, Chichester. 6