Om register och imputering av binära variabler. Preliminär version:

Relevanta dokument
STATISTISKA CENTRALBYRÅN

Uppföljning av Ky- och Yh-utbildning 2011

Europaparlamentsval, valdeltagandeundersökningen

Kalibreringsrapport. Bilaga 1(6)

Kalibreringsrapport Elevpaneler - enkätundersökning

Kalibreringsrapport. Bilaga 1(6)

STATISTIKENS FRAMSTÄLLNING

Matematisk statistik

STATISTISKA CENTRALBYRÅN

STATISTIKENS FRAMSTÄLLNING

STATISTIKENS FRAMSTÄLLNING

Uppgift 2. För två händelser A och B gäller P(A B)=0.5, P ( A ) = 0. 4 och P ( B

1 Föreläsning IV; Stokastisk variabel

Variansjämförelse av excess-of-loss-kontrakt med och utan aggregerat självbehåll

Centrala gränsvärdessatsen (CGS). Approximationer

EN 1990 Eurokod: Grundläggande dimensioneringsregler för bärande konstruktioner Elisabeth Helsing, Boverket

Ekonomisk statistik 2 Economic statistics 2. Imputering

Uppföljningsundersökning. Elever. Teknisk rapport

Ungdomar utan fullföljd gymnasieutbildning en undersökning med många utmaningar

STATISTIKENS FRAMSTÄLLNING

INLEDNING TILL. U/ADB / Statistics Sweden. Stockholm : Statistiska centralbyrån, Nr E24- E26

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Faktorer som påverkar aktiefondsparandet

Samplingfördelningar 1

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 14

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

F3 Introduktion Stickprov

KONTROLLSKRIVNING 2 Kurs: HF1012 Matematisk statistik Lärare: Armin Halilovic Datum: 14 apr 2014 Skrivtid: 13:15-15:00

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Kalibreringsrapport. Föräldraundersökningen 2012, 1 5 år

Kalibreringsrapport studiecirkeldeltagare 65+

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Allmänna valen, valdeltagandeundersökningen

Inträdet på arbetsmarknaden bland gymnasieavgångna 2006 UF0512

Lektionsanteckningar 11-12: Normalfördelningen

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Multipel Regressionsmodellen

Allmänna val, valdeltagandeundersökningen

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige.

Föreläsning 11: Mer om jämförelser och inferens

Hyror i bostadslägenheter (HiB)

Föreläsning 12: Regression

Jörgen Säve-Söderbergh

STATISTISKA CENTRALBYRÅN

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

STATISTIKENS FRAMSTÄLLNING

1 Föreläsning II, Vecka I, 21/1-25/11, 2019, avsnitt

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

F22, Icke-parametriska metoder.

STATISTIKENS FRAMSTÄLLNING

Inträdet på arbetsmarknaden bland gymnasieavgångna 2012 UF0512. Innehållsförteckning

Bortfallsproblematik ur ett metodperspektiv

STATISTISKA CENTRALBYRÅN

Hur Keplers lagar för planetrörelser följer av Newtons allmänna fysikaliska lagar.

Punktskattning 1 Ett exempel

1 Jag själv lärde om detta av en kollega som, kanske, heter Joel Andersson

Instruktioner för rapportering av räntestatistikblankett MIR

4 Diskret stokastisk variabel

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Regressions- och Tidsserieanalys - F4

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Fördjupad dokumentation av statistiken

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Riktlinjer för rapportering av räntestatistikblankett MIR

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Om användning av potensserier på kombinatorik och rekursionsekvationer

, s a. , s b. personer från Alingsås och n b

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Arbetsutvecklingsrapport

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Kalibreringsrapport. Utländska doktorander

Sökaktivitet inom olika arbetsmarknadspolitiska program

Kalibrering som ett sätt att hantera bortfall

F9 SAMPLINGFÖRDELNINGAR (NCT

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Teknisk Rapport En beskrivning av genomförande och metoder. Lärares tidsanvändning Vt 2012

STATISTIKENS FRAMSTÄLLNING

Bortfallshantering. En illustrerande studie med metoderna viktning och imputation

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

dt = x 2 + 4y 1 typ(nod, sadelpunkt, spiral, centrum) och avgöra huruvida de är stabila eller instabila. Lösning.

Digital signalbehandling Kamfilter och frekvenssamplande filter

FORSKNINGSMETODIK, KVANTITATIV DEL

Föreläsning 4: Konfidensintervall (forts.)

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

bli bekant med summor av stokastiska variabler.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

ÖVNINGSUPPGIFTER KAPITEL 9

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Datakvalitet. Hva duger data til? Jonas Ranstam

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Transkript:

Om register och imputering av binära variabler av Thomas Laitila 1,2, Anders Holmberg 1, Emma Snölilja 1 1 Statistisa Centralbrån, SE-701 89 Örebro 2 Handelshögsolan, Örebro universitet, SE-701 82 Örebro Preliminär version: 2010-06-21 1. Introdution Ett flertal anledningar ligger baom statistibråernas öande intresse för användning av register och administrativa data vid statistiprodution (Wallgren och Wallgren, 2007). Kostnadsbesparingar och minsad uppgiftslämnarbörda är två förväntade effeter av en öad användning av sådana data. En tredje förväntan är minsande produtionstider och öad atualitet i publicerad statisti. Cerroni, Migliardo och Morganti (2010) presenterar en utvärdering av ISTATs företagsregister som bl.a. indierar snabbare publicering av statisti. Fastän insamling av data från register och administrativa ällor siljer sig från insamling av data vid urvalsbaserade undersöningar, så finns ett antal gemensamma problem och felällor. Två gemensamma och väsentliga problem är bortfall och mätfel. Hantering av bortfall och mätfel an göras enligt två strategier. I den första används estimatorer som tar hänsn till bortfall och mätfel. Exempel på sådana estimatorer är alibreringsestimatorn (Särndal och Lundström, 2005) och ML estimation via tillämpning av EM algoritmen (Dempster, Laird och Rubin, 1977). Ett annat exempel är Ilves och Laitila (2009) som föreslår en biasorrigerad estimator vid mätfel. I den andra strategin anpassas data så att ordinare estimationsförfarande an användas, d.v.s. imputering för bortfall och mätfel. Ett stort antal olia imputeringstenier finns föreslagna i litteraturen. De an lassificeras efter dataälla för imputering, om parametris eller ice parametris metod används, och om randomisering används eller inte. Notera att de två strategierna an ombineras vilet bl.a. 1

Särndal och Lundström (2005) föreslår, där variabelbortfall hanteras med imputering och objetsbortfall hanteras med alibrering. Ett problem med imputering är dess effet på uppsattningar av estimatorernas varians. Vid deterministis imputering med medelvärdet över tillgängliga observationer undersattas variansen. Ett sätt att försöa återspegla variationen i den studerade variabeln och orrigera för undersattning är att tillämpa randomiserad imputering, d.v.s. att istället för imputering av ett förväntat värde imputeras ett slumptal draget från en sattad fördelning. En ansats för att satta variansen hos estimatorer baserade på imputerade data är Multipel Imputation (MI) (Rubin, 1989). Vid MI genereras flera datamängder med olia randomiserade imputationer av bortfallet. Den extra variationen an mätas via variationen hos sattningarna över datamängderna. En vitig aspet på teorin för MI behandlas av Björnstad (2007) som utveclar MI ansatsen för tillämpning vid officiell statistiprodution. Denna artiel bgger på resultat i Laitila (2010) och behandlar problemet med imputering av binära variabler för bortfall när registerdata används för sattning av populationstotaler. En vitig utgångspunt i analsen är utgångspunterna i teorin för designbaserad inferens, (t.ex. Särndal, Swenson and Wretman, 1992), där populationens objet och deras egensaper ses som fixa enheter. Resultaten visar att randomiserad imputering ger sämre precision i sattningar jämfört med deterministis imputering och, att randomisering i sig ger ingen information om sattningarnas precision. 2. Bortfall av en binär variabel Betrata sattning av en populationstotal av en binär variabel, d.v.s. en variabel som antar värdet ett eller noll. Populationen betecnas med, vilen för enelhets sull antas motsvara registerpopulationen. Den binära variabeln betecnas med och mängden betecnar de individer i registret för vila det finns data på variabeln. 2

betecnar omplementmängden till avseende populationen, d.v.s. individer för vila data sanas för variabeln. Antalet enheter i respetive med N and N. innehåller de betecnas Den populationstotal som sattas är t = = +. Imputerade värden betecnas med ŷ och den imputeringsbaserade estimatorn av populationstotalen t är = ˆ (1) Vid randomiserad imputering, antag att imputerade värden genereras från oberoende bernoullifördelninger enligt ˆ ~ Bern( ),. Här an vara en onstant eller en funtion definierad på tillgänglig hjälpinformation. Den randomiserade imputeringsestimatorn betecnas med R och har väntevärdet och variansen = E( R ) (2) t R = 1 ( ) V ( ˆ ) (3) Definiera den deterministisa imputeringsestimatorn enligt D = (4) Via definition av enpuntsfördelningar för imputerade värden erhålls väntevärdet och variansen noll, d.v.s. V ( ˆ ) = 0. t D = E( D ) (5) Estimatorerna R och D har samma väntevärde och bias Notera att bias begränsas till intervallet = ( ) B( ) = B(ˆ t ) (6) R D 3

där N ( 1 ) B(ˆ ) = N N. Intervallets längd är t N och med = 0. 5 centreras intervallet ring 0. Eftersom estimatorerna har samma bias följer att D har mindre MSE (Mean Squared Error) än R, d.v.s. MSE ) < MSE(ˆ t ( D R Vid sattningar av populationsparametrar är det bruligt att illustrera sattningarnas osäerhet m.h.a. onfidensintervall. Variansen hos den randomiserade estimatorn R ges av evation (3) och ett onfidensintervall an bildas enligt ) Källan till variation i ( ) R ± 1.96 1 (7) R är det slumpmässiga urvalet av värden från fördelningarna ˆ ~ Bern( ). Intervallet (7) illustrerar därför osäerheten hos R som estimator av det ända värdet + D, inte som estimator av E( R) = = t. 3. ppsattning av antal svensa arbetspendlare till Norge Snölilja (2010) studerar egensaper hos personer som arbetspendlar till Norge från svensa gränsommuner i västra Svealand och nord-västra Götaland. Redovisning av inomststatistien problematiseras av att uppgifter om inomster från Norge blir tillgängliga efter publicering av den svensa inomststatistien, vilet inför en undersattning av de totala inomsterna i gränsommunerna. I Snölilja (2010) prövas en ansats där en modell för arbetspendling utveclas baserat på data för tidigare inomstår, varefter modellen används för uppsattning av arbetspendling innevarande år. I hennes arbete används inomststatisti från 2006 för utvecling av modell, varefter modell och sattning utvärderas med inomststatisti för 2007. Analsen avgränsas till ommunerna Strömstad, Årjäng och Eda. 4

Baserat på data från 2006 sattas en logistis regressionsmodell för variabeln 1 = 0 om individ har inomst från Norge 2006 i annat fall Den sattade modellen appliceras på data från 2007 och sannoliheter = ( ) Pr =1 beränas enligt den sattade modellen. För 2007 beränas två deterministisa imputationssattningar: t ˆ 1 = + 1( 0.5) D D2 = Beränade sattningar presenteras i Tabell 1. Den första imputeringsestimatorn undersattar antalet pendlare raftigt. Om en mindre andel arbetspendlar an fördelningen av Pr ( =1) = över populationen förväntas vara sev mot små värden. En tröselgräns på 0.5 ger därmed en undersattning av antalet pendlare. I extrema fall an en sådan tröselgräns ge uppsattningar på noll arbetspendlare. Ett alternativ är att säna tröselgränsen från 0.5 till ett mindre tal. Ett annat alternativ är att använda den estimator som föreslås i evation (4). I exemplet har den estimatorn en liten bias, -10%, fastän den modell som används för beräning av imputeringsvärden ˆ = är baserad på en cold dec ansats med data från ett föregående år. I tabell 1 inluderas även en sattning baserad på randomiserad imputering. För denna realisering är bias på -11%. Estimatorns bias är doc densamma som för t ˆD 2 enligt (6). Variansen för estimatorn med randomiserad imputering är V ( ) ( 1 ) = 596. 9 5 ˆ t R =, vilet ger ett litet högre MSE vid randomiserad imputering jämfört med deterministis imputering. I detta exempel domineras MSE av bias. Ett 95% KI enligt (7) ger intervallet 2075 ± 47.9, vilet inluderar t ˆD 2. Däremot inluderas inte populationstotalen t = 2342 i onfidensintervallet.

Tabell 1: Registrerat och sattat antal personer med inomst från Norge 2007. Estimator/Register Sattning/Värde Relativt Bias MSE t 1580-33% 580644 ˆD1 t 2110-10% 53824 ˆD2 a) (2075) a) -10% b) 54421 b) R t 2342 c) --- --- Register ( ) a) En realisering av estimatorn med randomiserad imputering. b) Bias och MSE för estimatorn R. c) Värde enligt SCBs inomst och taxeringsregister. Referenser Björnstad, J.F. (2007). Non-Baesian multiple imputation, Journal of Official Statistics, 23:4, 433-452. Cerroni, F, Migliardo, S. and E. Morganti (2010). Qualit evaluation analsis of the Italian business register on enterprise groups. Paper presented at Q2010, Helsini, 3-6 Ma, 2010. Dempster, A.P, Laird, N.M. and D.B. Rubin (1977). Maximum lielihood from incomplete data via the EM algorithm. Journal of the Roal Statistical Societ B, 39, 1-38. Ilves, M. and T. Laitila (2009). Probabilit-Sampling Approach to Editing, Austrian Journal of Statistics, 38(3), 171-182. Laitila, T. (2010). On imputation of binar variables in registers, Mimeo, Statistics Sweden. Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surves. Wile, New Yor. Snölilja, E. (2010). Inomststatisti och pendling Predition av arbetspendlare till Norge. Kandidatuppsats i statisti, Örebro universitet. Särndal, C.-E., Swensson, B. och J. Wretman (1992). Model Assisted Surve Sampling, Springer, New Yor. Särndal, C.-E. and S. Lundström (2005). Estimation in Surves with Nonresponse, Wile, Chichester, England. Wallgren, A. och B. Wallgren (2007). Register-based Statistics, Wile, Chichester. 6