Proaktiv (övervakad) datainsamling begrepp, teori, exempel. Kurs SU, del 3

Transkript

1 Proaktiv (övervakad) datainsamling begrepp, teori, exempel Kurs SU, del 3 Kurs SU 20/ Peter Lundquist och Carl-Erik Särndal _PL 1

2 Proaktiv (monitored) datainsamling 1. Kontroll av och ingrepp i datainsamlingen Hur administrera kontaktförsöken? Skapa minskad obalans i slutlig svarandemängd Svarsintensitet, definition, dess roll som verktyg Tröskelmetoden, Lika-andel-metoden Samband mellan svarsintensitet och obalans Reducerad obalans: Blir estimatens bias mindre? 2. Experiment med genererade svarsmängder Generera svarsmängder med låg obalans (threshold method) Experimentresultat: Bias och varians för de jämförda estimatorerna 3. Teoretiska resultat om sambandet mellan obalans och bias 4. Experiment med alternativa kontaktstrategier 5. Avslutande kommentarer 2

3 Datainsamling i fler faser Datainsamlingsfas 1, Ursprunglig design Samla in data för nästa fas, Reviderad design Analys av tillgänglig data (Målvariabler, processdata och x-variabler) Revidera designen med hänsyn till bestämda regler Nej Stoppkriteriet uppfyllt? Ja Stopp. Genomför estimationen 3

4 Hur administrera kontaktförsöken? En responsive (adaptiv) design kan variera mycket beroende på vilka prioriteringar man gör i samband med undersökningens datainsamlingsstrategi. Det finns ofta många önskemål att ta hänsyn till i datainsamlingen. Det kan därför blir svårt att optimera datainsamlingsstrategin; viktiga beslut måste fattas. 4

5 Hur administrera kontaktförsöken? Traditionellt tänkande när man vill skräddarsy en undersökning: Man måste ta hänsyn till: kostnader, bias, varians och andra önskemål (som t.ex. hög svarsandel) Olika undersökningar kommer med andra ord att ha olika strategier beroende på vilka faktorer man prioriterar. 5

6 Hur administrera kontaktförsöken? Miska kostnaderna Mindre suburval till bortfallsuppföljningen (Ökad varians) Billigare datainsamlingsmetoder (Blir fel av andra typer än bortfallsfelet större?) Riktar in sig på individer som svarar lättare (Kan öka bortfallsbiasen) Maximera svarsandelen Suburval till bortfallsuppföljningen (Ökad varians) I suburvalet rikta in sig på individer som svarar lättare (Kan öka bortfallsbiasen) 6

7 Hur administrera kontaktförsöken? Minska (risken för) bias Suburval bland bortfallet (Utnyttja dyrare effektivare insamling) Försök få fatt på individer som är underrepresenterade (Kan öka kostnaderna och minska svarsandelen) Minska variansen Försök få tag på individer med hög d k vikt och hög svarsintensitet (Kan förvärra biasen) 7

8 Hur administrera kontaktförsöken? Vi har i vårt arbete framförallt försökt öka balansen för att minska risken för bias. 8

9 Våra metoder och experiment använder begreppet svarsintensitet (eng. response propensity). Den kan beräknas för alla objekten i samplet s och på vilken tidpunkt som helst under datainsamlingen (för vilken svarsmängd r som helst). Tanken bakom: Objekten som har låg svarsintensitet på en given tidpunkt i datainsamlingen (där vi stannar upp och tittar) är de som vi måste koncentrera oss på att få in svar ifrån. De som har hög svarsintensitet har vi redan tillräckligt av. Få in fler av samma sort (även om lättfångade av intervjuarstaben) förbättrar inte balansen. 9

10 Experiment: med hjälp av begreppet svarsintensitet genererar vi experimentella svarsmängder. Svarsintensiteten beräknas relativt en lämpligt vald monitoringvektor (övervakningsvektor) x MV och är baserad på regression (lineär eller logistisk) av I k på x MVk Responsindikator I k = 1 om k svarar, I k = 0 annars. 10

11 Svarsintensiteten PˆMVk definieras här som det predicerade. värdet i lineär regression (över s) av I k på x MVk : Pˆ Iˆ x bx MVk k MVk MV med regressionsvektorn b MVs ( s d k x MVk x MVk ) 1 s d k I k x MVk Eftersom I k är 0/1-variabel kan svarsintensiteten beräknas alternativt med logistisk eller annan ickelinjär regression. Konsekvenserna för våra syften är inte så viktiga. 11

12 Svarsintensiteten för objekt k relativt monitoringvektorn x MV : Pˆ MVk x MVk b MVs b MVs ( s d k x MVk x MVk ) 1 s d k I k x MVk Tolkning: Lineär regression I k på x MVk 12

13 Svarsintensiteten Pˆ MVk x MVk b MVs (beräkningsbar för alla k s) kan visas ha medeltal Pˆ MVs d s k s P ˆ d MVk k r s d d k k P Svarsandelen P = svarsandel uppnådd på den punkten i datainsamlingen 13

14 Svarsintensiteten har (definitionsmässigt) variansen S 1 P 2ˆ d s s k ( PMVk P) 2 d s k ˆ Viktigt resultat: Svarsintensitetens varians = svarsmängdens obalans, som den är på den punkten i datainsamlingen S P 2ˆ s IMB( r, x s) P 2 ( x r x s ) Σ 1 s ( x r x s ) Övning: Kan visas, kom ihåg IMB r, x s = P 2 (x r x s ) 1(x r x s ) s 14

15 Svarsintensitetens varians = obalansen i svarsmängden S P 2ˆ s IMB( r, x s) För praktiken innebär det: Jobba med datainsamlingen på så sätt att variansen i svarsintensiteterna reduceras (dessa kan vi fortlöpande beräkna). Då reduceras obalansen. Vi har använt två metoder för det: Tröskelmetoden och Lika-andelsmetoden (Fler metoder kan konstrueras) 15

16 Tröskelmetoden På i förväg angivna ställen (interventionspunkter) i datainsamlingen, beräkna svarsintensiteteten,, för alla objekt i samplet s och PˆMVk Sätt åt sidan (sluta kontakta) objekt som har svarsintensitet högre än ett tröskelvärde (t.ex. 60%) Datainsamling (kontaktförsök) fortsätter med övriga, ännu inte svarande, för att få upp deras svarsintensitet. 16

17 Tröskelmetoden Vid varje interventionspunkt räknar vi om svarsintensiteten P MVk för alla objekt k s (även de som tidigare satts åt sidan). Ytterligare några kommer då att få P MVk > tröskelvärdet Dessa sätts då också åt sidan. Man fortsätter så genom serien av interventionspunkter. Resultat: Utjämnande av intensiteterna, de får successivt minskande varians, alltså minskad obalans IMB i svarsmängden 17

18 Tröskelvärdet hur sätts det? Ju mindre tröskel, dess mer tvingas intensiteterna bli lika. Och eftersom deras varians är lika med obalansen IMB, så reduceras denna. Vi rekommenderar sätta tröskelvärdet i närheten av den svarsandel man tror sig få i undersökningen. Interventionspunkternas inplacering över datainsamlingsperioden är också en viktig fråga. 18

19 Tröskelmetoden Ju mindre tröskel, dess mer tvingas intensiteterna bli lika. Och eftersom deras varians är lika med obalansen IMB, så reduceras denna under datainsamlingen Som följd därav: Klart att justeringen bör bli mindre och mindre. Vi vill se om samma gäller avvikelsen för CAL justeringen Yˆ Yˆ Nˆ ( x x ) b EXP CAL r s r CAL avvikelsen Y ˆ Y ˆ N ˆ ( b b ) x CAL FUL r s s 19

20 Vi har också räknat på Lika-andelsmetoden En konstant andel sätts åt sidan i varje interventionspunkt. T.ex. om 5 interventionspunkter har fixerats, sätt åt sidan 1/6 av samplet varje gång ; sista sjättedelen fortsätter till slutet. Uppgift : Hitta på fler och smartare metoder för IMB-reducering i datainsamlingen 20

21 Experiment på ULF2009 Monitoringvektorer : x MV 3 (( Educ Owner Origin) Phone Age Civil Gender ) dim = 14; antal värden = 256 x x MV MV 2 (( Educ Owner Origin) Age) dim = 11 ; antal värden = 8x4 = 32 1 ( Educ Owner Origin) dim = 8 = antal värden 21

22 I ett av experimenten : Monitoringvektorn med dimension 14 : x MV 3 (( Educ Owner Origin) Phone Age Civil Gender ) Vi jämför Faktiska svarmängden i ULF2009 med tre utifrån denna genererade svarsmängder, Tröskelmetoden; tröskelvärden: 65%, 55%, 50%; fem i förväg valda interventionspunkter Vi vill se hur IMB, Justeringstermen och CAL-avvikelsen beter sig för tre olika y-variabler 22

23 I ett av experimenten : Monitoringvektorn med dimension 14 : x MV 3 (( Educ Owner Origin) Phone Age Civil Gender ) Vi beräknar IMB (Relativa) Justeringen RADJ (Relativa) CAL-avvikelsen RDEV CAL RDAJ = 100 ( Yˆ Yˆ ) / Yˆ EXP CAL CAL RDEV 100 ( Yˆ Yˆ ) / Yˆ CAL CAL FUL FUL 23

24 Resultat: ULF 2009 Verklig svarsmängd och tre genererade. y-variabel: Sysselsatt (0/1 variabel) När obalansen IMB avtar (som följd av stramare interventioner) så ser vi : Relativa justeringen RADJ : Klar reducering Relativa CAL-avvikelsen RDEV CAL : Reducering, men mindre CAL beräknad på x-vektorn = monitoringvektorn x y = Sysselsatt Svarsmängd 100xIMB RADJ RDEV CAL Faktiska Tröskel 65% Tröskel 55% Tröskel 50% (( Educ Owner Origin) Phone Age Civil Gender ) 24

25 Resultat: ULF 2009 Verklig svarsmängd och tre genererade. y-variabler: Ersättning (0/1) ; Inkomst (kontinuerlig) y = Ersättning y = Inkomst Svarsmängd RADJ RDEV CAL RADJ RDEV CAL Faktiska Tröskel 65% Tröskel 55% Tröskel 50% Då IMB avtar, avtagande tendens både i RADJ och RDEV CAL. CAL-vektor = montoringvektor = x (( Educ Owner Origin) Phone Age Civil Gender ) 25

26 Resultat: ULF 2009 Faktisk svarsmängd och tre genererade. För samtliga tre y-variabler har vi sett: Att Relativa justeringen RADJ reduceras när IMB genom interventioner tvingas bli lägre. Det är väntat. Att Relativa CAL-avvikelsen RDEV CAL krymper är «lovande» 26

27 Ett vidare perspektiv: I det faktiska ULF2009 materialet är R-kvadrat = 28% i lineär regression av y = Inkomst på dim(14)-vektorn x (( Educ Owner Origin) Phone Age Civil Gender ) Fråga: Vad är sambandet mellan Förklaringsgrad (R-kvadrat av y på x-vektorn) och IMB-nivå i svarsmängden r? Vi ville veta mer om det och gjorde följande empiriska försök rapporterat i J. Survey Statistics & Methodology (2014) 27

28 Dess storlek påverkas så klart av regressionens styrka : Om CAL-avvikelsen Yˆ Yˆ Nˆ ( b b ) x y x β alla k s, d.v.s. R kvadrat 1 k så är avvikelsen noll. k CAL FUL r s s Om R-kvadrat < 1 men hög, så kan vi vänta att den är liten. Om vi reducerar IMB i datainsamlingen (med t.ex. våra metoder), kan vi då förvänta oss att CAL-avvikelsen avtar? Inte utan vidare klart. Ganska svår matematisk fråga. Empiriskt leds vi att studera samspelet mellan två faktorer : Nivån på R-kvadrat och Nivån på IMB. 28

29 CAL-avvikelsen Yˆ Yˆ Nˆ ( b b ) x CAL FUL r s s I praktiken: IMB-nivån i den slutliga svarsmängden i datainsamlingen, den kan vi manipulera med våra metoder (tröskelmetoden t.ex.) Nivån på R-kvadrat för regr. av y på x-vektorn kan vi inte göra så mycket åt, den är vad den är. Klart vi kan göra den lite högre genom att ta med fler (och bättre ) variabler i x-vektorn.. 29

30 Experiment med data från två SCB-undersökningar ULF2009 och PSU2010 Två faktorer påverkar estimatorerna CAL and EXP : Förklaringsgraden (y på vektor x) och IMB-nivån (hos r-mängden) Hur ändras CAL - FUL (CAL-estimatorns avvikelse) och EXP CAL (justeringens storlek) när de två faktorerna ändras? 30

31 Experiment med data från ULF2009 och PSU2010 Faktorer som påverkar CAL and EXP : Förklaringsgraden (y på vektor x) och IMB-nivån (hos r-mängden) Vi varierade systematiskt de två faktorerna för att se deras effekt på avvikelsen CAL - FUL (primära intresset) på justeringen EXP CAL. 31

32 Två-faktor-experiment IMB-nivån beror på monitoringvektorn och på tröskelvärdet (om vi använder tröskelmetoden). Vi använde tre sådana vektorer ; för var och en, tre olika tröskelvärden. Undersökningsvariabel : y = Inkomst (en registervariabel, känd för hela stickprovet s) 32

33 Två-faktor experiment Vi genererade flera svarsmängder r, med olika IMB, genom interventioner i efterhand i den faktiskt registrerade svarsmängden i ULF2009 Vi genererade också flera y-variabler med olika förklaringsgrad R 2 för regr. av y på x, genom transformationer av den verkliga variabeln y = Inkomst tillgänglig i ULF2009-filen) Hur reagerar RDEV CAL och RADJ på dessa systematiska ändringar i de två faktorerna? 33

34 Vi visar resultat för Monitoringvektorn x MV = Kalibreringsvektorn x CAL = xmv 3 xcal (( Educ Owner Origin) Phone Age Civil Gender) Dimension = 14 ; med antal möjliga värden =

35 Vi får en tablå av följande typ Kolumner : förklaringsgrad = F 2 = 1%, 49%, 81% Rader : IMB-nivåer, Verkliga, och 3 genererade F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ Faktisk % % % 0.43 IMB avtar, som väntat, fast inte här till nära noll Vad blir effekten på RDEV CAL och RADJ? xmv 3 xcal (( Educ Owner Origin) Phone Age Civil Gender) 35

36 Rel. avvikelsen RDEV CAL för y = Income Kolumner (förklaringsgrad): F 2 = 0.01, 0.49, 0.81 Rader (IMB-nivå): Faktisk; 3 genererade. trösklar 65, 55, 50% F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RDEVcal RDEVcal RDEVcal Actual % % % Kolumneffekt : Minskad IMB ger klar, fast ganska blygsam, reduktion av RDEVcal Radeffekt: Högre förklaringsgrad ger (ganska väntat) stor minskning I RDEVcal 36

37 Justeringen RADJ för y = Income Kolumner (förklaringsgrad): F 2 = 0.01, 0.49, 0.81 Rader(IMB-nivå): Faktisk, 3 genererade, trösklar 65, 55, 50% F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RADJ RADJ RADJ Faktisk % % % Kolumneffekt: RADJ sjunker klart för F = 0.7 ; än mer för F = 0.9 OBS: negativ RADJ for F = 0.1 (inte helt oväntat) Radeffekt: (Väntade) ökningen i RADJ mest påfallande för Faktisk 37

38 Kommentar om bortfallsjusteringen RADJ : Vi vet att RADJ = 0 när IMB = 0 (ingen justering av inträffar ; EXP och CAL identiska) Här i experimentet kommer vi inte ner till IMB = 0, så i sista raden är RADJ inte nära noll F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RADJ RADJ RADJ Actual % % %

39 Sammanfattning RDEVcal and RADJ y = Income med tre nivåer på förklaringsgrad F 2 Response; Faktisk, och 3 genererede med trösklar, thresholds 65, 55, 50 % F = 0.1 F = 0.7 F = 0.9 svar RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ Actual % % % x-vektor för CAL-estimatorn är xcal (( Educ Owner Origin) Phone Age Civil Gender) 39

40 Teoretiska resultat om CAL-avvikelsen Yˆ Yˆ Nˆ CAL FUL r där Δ ( b b ) x r r s s är inte så lätta att ta fram, för problemet har ganska komplex inramning. Många faktorer inverkar. 40

41 Teoretiska resultat om CAL-avvikelsen Yˆ Yˆ Nˆ CAL FUL r där Δ ( b b ) x r r s s Egenskaper (medelvärde och varians) hos r för given IMB-nivå för det enkla fallet OSU, n från N ; x är gruppvektor ; andel svar p = m/n : mean( r xr, m, s ) 0 S 2 2 var( x y, gr r r, m, s ) S IMB (1 p ) 2 m p Särndal, Lumiste och Traat (2014) ett samarbete med Univ. i Tartu, Estland 41

42 Teoretiska resultat om CAL-avvikelsen Yˆ Yˆ Nˆ CAL FUL r där Δ ( b b ) x r r s s S S 2 S ygr 1 1 m m n 2 2 ygr p m IMB (1 ) 2 p 2 (1 p) ( ) Sygr varians vid slumpmässigt bortfall S 2 ygr m IMB ytterligare varians när obalans IMB 0 2 p 42

43 Relativa varianstillägget för CAL-estimatorns avvikelse på grund av obalans :. IMB / (1 p) 2 p Till exempel, obalans IMB = 0,04; p = 50% svar : ger relativa varianstillägget = 32% 43

44 Experiment på ULF I samband med att studier görs för att förbättra kvaliteten i datainsamlingen behöver man bestämma vilken typ av mått som är centralt för att kunna tala om att den nya datainsamlingsstrategin (metoden) ger en förbättring. Nedan redovisas experiment på ULF genomförda 2011 och Syfte: Att försöka förbättra balansen i svarsmängden; att få en bättra kontroll av kostnader och intervjuresurser. Centrala mått att studera: Indikatorer 44

45 Experimentet 2011: I CATI-gruppen testades en ny kontaktstrategi på höstens delurval i ULF. (Läs mer i R&D rapporten 2013) Experimentet 2012: Genomfördes bland fältintervjuarna under höstens delurval i ULF. Ett test av möjligheten att prioritera de kvarvarande urvalsobjekten i bortfallsuppföljningen. (Lundquist 2013) Tanken var att båda stegen skulle genomföras under 2011 års undersökning, men p.g.a. dålig svarsandel i det ordinarie urvalet 2011 valde vi att skjuta den senare delen ett år. Redovisningen ska ses som ett försök att arbeta med en adaptiv design i ULF som man med fördel kan arbeta vidare med. 45

46 Experiment 2011: Ny kontaktstrategi Grupper Kontroll Experiment Hög risk för övertäckning [2%] Alla åldrar, född utrikes utan fastighet [14%] Svarsandel Kontaktförsök mv Svarsandel Kontaktförsök mv 65+ år med fastighet [21%] Svarsandel Kontaktförsök mv Upp till 64 år, född inrikes med fastighet [23%] Upp till 64 år, kvarvarande blandad grupp [39%] Totalt Svarsandel Kontaktförsök mv Svarsandel Kontaktförsök mv Svarsandel Kontaktförsök mv 33% % % % % % % % % % % % 8.2 Urvalsstorlek: n Kontroll =1055 och n Experiment =1053 individer 46

47 Experiment 2011: Vägd svarsandel och Indikatorer Fas i datainsamlingen Svar BI dist EXP urvalet Ordinarie datainsamling 50.3% Efter bortfallsuppföljning 61.4% Kontroll urvalet Ordinarie datainsamling 42.7% Efter bortfallsuppföljning 54.5% Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön 47

48 Experiment 2011: Resultat Den nya kontaktstrategin Gav högre andel svar (vägt), 61.4% vs. 54.5% Producerade inte bättre balans eller lägre distans i svarsmängden (inga signifikanta skillnader) Är inte praktiskt realiserbar som den genomfördes. Den påminner om hur fältintervjuarna genomför sitt arbete Det visade sig att tidpunkten för första kontakt var en förklarade faktor för skillnaden i svar mellan experiment och kontrollgrupp 48

49 Experiment 2012: Stopprocedur Definiera för k s svarsintensiteten vid den aktuella tidpunkten i undersökningen: Pˆ k ( 1 d s kikxk ) ( d s kxkxk ) xk (regression av I k på x k ) Efter den ordinarie datainsamlingen beräkna Pˆk för alla objekt k; stoppa de med en svarsintensitet högre än ett i förväg bestämt värde. Alternativt kan logistisk regression användas för att ta fram svarsintensiteterna. 49

50 Experiment 2012: Stopprocedur testad på Exp Sample 2011 Stoppregel 1: 60% svarsintensitet Fältarbete 100 P BI dist r nr Antal kontaktförsök Reduktion i % Ordinarie datainsamling Intervention: Slutligt resultat Stoppregel 2: 48.67% [median] svarsintensitet Fältarbete 100 P BI dist r nr Antal kontaktförsök Reduktion i % Ordinarie datainsamling Intervention: Slutligt resultat Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön Notera: Data från experimenturvalet 2011 används för att designa stopproceduren i ULF 2012 experimentet 50

51 Experiment 2012: Realisering För EXP stickprovet beräknades svarsintensiteterna med hjälp av följande monitoringvektor (ej samma som i experimentet 2011) : Ålder, Kön, Gift, Hög utbildning, Anställd, Storstad Objekten i stickprovet med de högsta svarsintensiteterna uteslöts, de n/4 största Pˆk. Omgång # borttagna Gränsvärde för svarsintensiteten C09 47 C10 38 C11 32 ˆ P k ˆ P k ˆ P k 117 individer ej avslutade objekt uteslöts ur bortfallsuppföljningen med denna stopprocedur, p.g.a. en hög svarsintensitet för gruppen. 51

52 Experiment 2012: Vägd svarsandel och indikatorer Urval 100 P BI dist R-ind LB-R UB-R mv Kf Kontroll (n=2,304) Ordinarie datainsamling Efter bortfallsuppföljning Experiment (n=1,648) Ordinarie datainsamling Efter bortfallsuppföljning Hjälpvektor: Ålder + Kön + Gift + Hög utbildning + Anställd + Storstad Inga signifikanta skillnader på 5%-sign. nivå 52

53 Experiment 2012: Resultat Stopproceduren visade att Det är tekniskt möjligt att styra datainsamlingen till grupper med låg svarsintensitet, Den vägda svarsandelen minskar endast marginellt, balansen, distansen går i rätt riktning och antalet kontaktförsök minskar (ej signifikant), Besparingen, det minskade antalet kontaktförsök, kan användas för att sätta in åtgärder i andra grupper såsom yngre personer och invandrare. 53

54 Avslutande kommentarer Vi har nu beskrivit mått som gör att man fortlöpande kan mäta kvaliteten i datainsamlingen och analysarbetet genom nya indikatorer Avstånd, Balans, R-indikator och RDEV. Detta har medfört förbättrad struktur och metodik i studiet av bortfallet och dess effekter. Idag används dessa och andra indikatorer av minst ett 20-tal statistiska institut (både akademi och statistikproducenter). 54

55 Avslutande kommentarer Vi har sett att en viss förbättring av CAL-estimatorns tillförlitlighet (reducering av dess avvikelse från unbiased skattning) kan förväntas genom att reducera obalansen (IMB) i svarsmängden. Det finns andra skäl till att använda IMB eller liknande mått i datainsamlingen. De tjänar till att kontinuerligt följa gången i datainsamlingen, att undvika duplikat av typer av enheter som redan finns väl representerade i svarsmängden och som även om svar erhölls skulle ha negligerbar inverkan på skattningarna. 55

56 Referenser Bethlehem, J., F. Cobben, and B. Schouten (2011). Handbook of Nonresponse in Households Surveys, New York: Wiley. Groves, R. (2006), Research Synthesis: Nonresponse Rates and Nonresponse Error in Household Surveys, Public Opinion Quarterly, 70, Groves, R. M., and S. G. Heeringa (2006). Responsive Design for household surveys: Tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169, Little, R.J.A. and Rubin, D.B. (2002). Statistical analysis with missing data, 2 nd ed, New York: Wiley Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design for the Swedish Living Conditions Survey. R&D report 2012:1, Statistics Sweden, Lundquist, P. and Särndal, C.E. (2013). Responsive design, Phase II Indicators and measures. R&D report 2013:1, Statistics Sweden, Lundquist, P. (2013). Building a final survey response set. [Experiment på ULF presenterat vid ESRA konferensen i Ljubljana, Slovenien.] Lundquist, P., and C. E. Särndal (2013), Aspects of Responsive Design With Applications to the Swedish Living Conditions Survey, Journal of Official Statistics, 29,

57 Schouten, B., F. Cobben, and J. Bethlehem (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, Särndal, C.E. and Lundström, S. (2005). Estimations in Surveys with Nonresponse. New York: Wiley. Särndal, C. E., and S. Lundström (2010), Design for Estimation: Identifying Auxiliary Vectors to Reduce Nonresponse Bias, Survey Methodology, 36, Särndal, C. E. (2011). Dealing with survey nonresponse in data collection, in Estimation. Journal of Official Statistics, 27, Särndal, C.E., and P. Lundquist (2014). Accuracy in estimation with nonresponse: A function of degree of imbalance and degree of explanation. Journal of Survey Statistics and Methodology, 2, Särndal, C.E. and Lundquist, P. (2014). Balancing the response and adjusting estimates for nonresponse bias: Complementary activities. Journal de la Société Française de Statistique, 155(4), Särndal, C.E., K. Lumiste and I. Traat. (2014). Reducing the response imbalance: Is the accuracy of the estimates improved? Submitted for publication. 57