Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet

Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015 Peter Lundquist och Carl-Erik Särndal SCB och Stockholms universitet Version 2015-04-18 PL 1

Disposition: Kurs 1. Surveybakgrund Allmänt om bortfall, hjälpvariabler och deras roll 2. Datainsamling och Estimation Datainsamling som tidsberoende process, begreppet obalans, estimationsfasen 3. Proaktiv (monitored) datainsamling Kontroll och ingrepp i datainsamlingen, experiment, empiriska och teoretiska resultat 4. Avslutande kommentarer 2

Surveybakgrund 1. Allmänt om bortfall i survey undersökningar 2. Hjälpvariablerna och deras roll 3. Exempel 3

Debatt nyligen om bortfall, med början i DN 2015-01-18 Några inslag: SCB slår larm om bortfall : Rubrik in DN 2015-01-18 Privata surveyinstitut (Inizio, Novus) medverkar; DN 2015-01-28 Projektledaren för SCB:s bortfallsprojekt intervjuad, Sveriges Radio c:a 2015-02-15; målet: Komma tillbaks till 70- o 80-talens bortfallsnivåer SCB:s metodexperter förklarar hur SCB gör SvD 2015-03-03 4

Debatten nyligen om bortfall, med början i DN 2015-01-18 5

Bakgrund till vår kurs Höga krav på svarsandelen från kunder/användare Det är kostsamt för SCB att öka svarsandelen. (Effektivisering och bättre kontroll av datainsamlingen behövs; Responsive design.) Viktigt att öka kunskapen om och inse nyttan av indikatorer som bättre beskriver resultatet av datainsamlingen än bara (vägd eller ovägd) svarsandel. (Risk för bias i skattningarna av målvariablerna.) Studier på AKU, HEK och ULF väcker frågor kring dagens datainsamlingsstrategier. (Indikatorer har signalerat att vi behöver förbättra rutinerna för datainsamlingen) 6

Typ av undersökning Individundersökningar Metodiken som vi ska beskriva är tillämpad främst på individundersökningar, men går även att använda på andra typer (företag, organisationer, skolor osv.) Vi fokuserar på individundersökningar; det är för sådana vi har gjort våra studier. Bortfallet är i regel betydligt högre därmed ett mer akut problem i individundersökningar 7

Partiellt- eller objektsbortfall Register variabler Målvariabler Urvalsenhet 1 2 1 2 3 4 1 X X X X X X 2 X X X X X O partiellt 3 X X X X O X 4 X X X O O X 5 X X X X X X 6 X X O O O O objekt X=observerade data, O=saknade data 8

Med bortfall menar vi här objektsbortfall Objektsbortfall Urvalsenheten (individen) svarar inte på undersökningen. Partiellt bortfall Formuläret eller enkäten är ofullständigt besvarad, dvs. svar saknas på en eller flera frågor. I denna kurs: Bortfall = objektsbortfall. Bortfall = data saknas eller kan inte hittas 9

Ett historiskt perspektiv Klassiskt exempel på felprognos Landon mot Roosevelt i USA:s presidentval 1936 Literary Digest hade korrekt förutsett vinnaren i de fem senaste valen, men här blev det fel 10M enkäter utskickade, 2.3M kom in Literary Digest läsare Register av bilägare och telefonabonnenter 10

Hansen-Hurwitz planen 1946 I första fasen används en billigare datainsamlingsmetod (t.ex. postenkät). Bland icke-svarande dras sedan ett suburval, oftast med en dyrare datainsamlingsmetod (intervjuarledd insamling). Om det hela görs rätt och man lyckas få in svar av alla i andra fasen kan en väntevärdesriktig estimator konstrueras. (Svagheten givetvis: Att alla i andra fasen svarar.) Denna metod har inspirerat mycket av det som görs idag. Den används i mixed-mode undersökningar och i responsive design. 11

% Bortfallets utveckling över tiden 30 Bortfallsandelar i AKU 1963-2013 25 20 2005 15 1988 10 1977 1984 5 1970 0 1963 1970 1977 1984 1991 1998 2005 2012 År Totalt Ej anträffad Avböjd medverkan Övrigt 12

Orsaker till bortfall Några vanliga skäl: Man misslyckas med att hitta/identifiera urvalspersonen Man misslyckas med att få kontakt med urvalspersonen Urvalspersonen vägrar att svara Urvalspersonen är förhindrad att medverka (sjuk, bortrest etc.) Språkproblem Frågeformuläret går förlorat Kan ni komma på något mer? 13

Beräkningar av svarsandelen Svensk standard för bortfallsberäkningar * Sedan 2005 finns en svensk standard för bortfallsberäkningar. Den har tagits fram av Svenska statistikersamfundets surveysektion i samarbete med representanter från statistikansvariga myndigheter, olika opinions- och marknadsundersökningsföretag samt från universitetssektorn. AAPOR: http://www.aapor.org/uploads/standard_definitions_07_08_final.pdf *Bortfallssnurran: http://www.statistikframjandet.se 14

Komponenter i bortfallsberäkning n Urvalet Datainsamling n S Svar (S) n B Bortfall (B) n O Okänd status (O) n Ø Övertäckning (Ø) n F Fullständiga svar (F) n P Partiella svar (P) 15

Bortfallsfaktorer enligt SCB Samhälle Management/ planering Internt/ externt varumärke Metodik / design IT / infrastruktur Denna grafik från ett projekt på SCB redovisar projektgruppens syn; ska betraktas som ett exempel på hur man kan systematisera synen på bortfall i den egna organisationen. 16

Vårt arbete en del i tårtan Vårt arbete är inriktat på metodik/design, främst för att få en bra svarsmängd SCB har projekt (inom ramen för Bortfallsprojektet) som riktar in sig på andra faktorer än de som vi tar upp i den här kursen. (Andra tårtbitar) 17

Varför bortfall är skadligt Varje objekt i urvalet har en känd urvalssannolikhet Grunden för statistisk inferens är uppfylld Bortfall förstör detta! Sannolikheten för ett objekt att ingå i den slutliga svarsmängden är produkten av urvalssannolikheten och sannolikheten att svara (som är okänd, om den existerar). Stickprovet är troligen inte längre representativt eller balanserat; följden blir bias 18

Effekter av bortfall Sämre precision Skattningens precision blir sämre än planerat eftersom färre observationer kommer in. Förebyggs genom att ta till större urval från början. Systematiskt fel (bortfallsbias) Värre är att bortfallet kommer att ge en skev (biased) skattning av undersökningsvariabeln om egenskapen att svara är korrelerad med undersökningsvariabeln. Vanligtvis många undersökningsvariabler, och bland dem troligen både sådana som påverkas och sådana som inte påverkas av bortfallet (se Groves 2006). 19

Meta-Analys av bortfallsstudier Groves (2006) : Nonresponse Rates and Nonreponse Bias Ca 30 studier, några med flera olika skattningar Alla har y-data för hela stickprovet s Absolutvärdet av det skattade borfallsfelet (i procent) är 100 yr y y s s (r är svarsmängden från urvalet s ) 20

Percentage Absolute Relative Bias of Respondent Mean 70 60 50 40 30 20 10 0 0.0 20.0 40.0 60.0 80.0 Nonresponse Rate Groves (2006) Nonresponse Rates and Nonreponse Bias 21

Groves slutsatser Bortfallsfel (bortfallsbias) förekommer! Svarsprocenten i sig är ingen bra indikator på bortfallsfelet Utan studier av bortfallsfelet är det svårt att veta om bortfallet är ett problem i en undersökning Vi återkommer till dessa punkter under dagen. Groves (2006) Nonresponse Rates and Nonreponse Bias 22

Bortfall deterministisk syn Bortfall N NR objekt Population N objekt Svarande N R objekt Populationen består av de som alltid svarar och de som aldrig svarar. En deterministisk syn som var vanlig när bortfallet var litet 23

Bortfallsfel - deterministisk y U N N R y R N N NR y NR N NR Avvikelse( yr ) ( yr ynr ) N Bortfallsfelet är alltså en funktion av bortfallsandelen och skillnaden mellan de som alltid svarar och de som aldrig svarar. Notera: Populationsandelar 24

Bortfallsfel - deterministisk EXEMPEL Antag att 72% alltid svarar: N R N 0,72 Den genomsnittliga inkomsten för de som alltid svarar: y R 202000 SEK Den genomsnittliga inkomsten för de som aldrig svarar: y NR 172000 SEK Avvikelse( ) (1 0,72) (202000 172000) y R 8400 Vi överskattar alltså inkomsten. Frågan är om 8400 SEK är mycket? 25

Bortfall som kvantifierad variabel För varje individ i stickprovet inträffar (och noteras) antingen svar eller icke-svar (bortfall); för den förra kategorin kan målvariabel-värdet y k också noteras. För varje individ är det vanligen i förväg okänt om svar eller icke-svar ska bli fallet. Vi kvantifierar en svarsindikatorvariabel så här: I k 1 0 om individ om individ k k svarar inte svarar 26

Informationen vi har att jobba med i bortfallssituationen Svarsindikatorn I k : För varje individ i stickprovet Målvariabeln y k : För varje svarande individ. Hjälpinformationen x k : För varje individ i stickprovet (ev. i hela populationen) 27

Bortfallsmekanism En del bidrag till litteraturen baserar sig på en stokastisk bortfallsmekanism, en som kan innehålla bl.a. en tänkt bortfallssannolikhet för varje individ i populationen, eller för varje individ i stickprovet (då kanske beroende på stickprovet som hade råkat realiseras). Vi använder inte bortfallsmekanismer eller bortfallssannolikheter i denna kurs. De behövs inte för vår framställning här. 28

Hantering av bortfall (1) Minska risken: försöka designa undersökningen så att bortfallet är lågt (kan vara dyrt och svårt), eller i varje fall agera så att svarsmängden blir väl balanserad (2) Använd modeller för att justera vikterna i estimationen. (3) Ignorera bortfallet (Låtsas som om det vore slumpmässigt: Förkastligt beteende) Vi fokuserar på (1) och är medvetna om att det finns massor av saker som kan behandlas i en kurs om bortfall, saker som görs inom bortfallsområdet men som vi inte tar upp. Som vi ska se finns en naturlig koppling i vårt arbete mellan (1) och (2). 29

Bortfallsreducerande åtgärder Belöningar Fler kontaktförsök Kortare intervju Byte av insamlingsmetod Byte av intervjuare Smartare utnyttjande av process- och registerdata Kontaktstrategier... OBS: Vi vet inte om en högre svarsandel är bättre ur synpunkten reducerat bortfallsfel. 30

Återkontakter (intervjuarledda) Alla bra undersökningar genomför mer än ett kontaktförsök för att få svar från hittills ej anträffade urvalspersoner. Analys av återkontakter kan ge information om bortfallsfelet bland de kvarvarande individerna I bortfallet. En hel del arbete inom det här området har genomförts på ESS (European Social Survey) *. *Se t.ex. Stoop, Billiet, Koch, and Fitzgerald (2010) 31

Adaptiv/Responsive design Två begrepp: responsive design är ett specialfall av adaptiv design (Schouten, Bethlehem & Cobben). Vilken av designerna man använder bestäms av valen i samband med planeringen av datainsamlingen. I båda fallen ges urvalsenheterna olika behandling för att maximera svarskvaliteten till en given kostnad. Metoderna är begränsade till behandlingar som är kontrollerbara och använder observerbara data. 32

Adaptiv/Responsive design Synsättet bygger på att populationen (individerna, företagen etc.) är heterogen i sitt svarsmönster och att kostnaderna att få en intervju varierar mellan objekten i populationen. Objekten föredrar också olika kommunikationssätt med datainsamlingsavdelningen. En adaptiv design tar hänsyn till detta genom att tillåta olika kontaktstrategier för olika delgrupper i populationen. Genom att använda hjälpinformation (register och processdata) under datainsamlingen kan delgrupperna ges olika behandlingar. 33

Adaptiv/Responsive design Detta betyder också att en adaptiv design använder hjälpinformation för att justera dels svarsmängden under insamlingsfasen, dels estimaten i den efterföljande estimationsfasen. Notera att adaptiv design tar inte bort behovet av omsorgsfull estimation efter avslutad datainsamling; den är fortfarande nödvändig! En viktig designfaktor är datainsamlingsmetoden. Idag, med ökande bortfall och stigande kostnader, är en mixed-mode design tänkbar för surveyorganisationen. Denna typ av design är i regel att betrakta som adaptiv. 34

Adaptiv/Responsive design Adaptiv design (medicin, Thompson & Seber) Behandlingarna är bestämda i förväg men kan också uppdateras under datainsamlingen En statisk adaptiv design utnyttjar objektens egenskaper (från RTB, IoF etc.) för att bestämma behandlingarna innan datainsamlingen En dynamisk adaptiv design använder processdata (och ev. register) för bestämma behandlingarna Har (i förväg) bestämda faser under datainsamlingen När en fas har uppnått det bestämda målet är fasen klar och man byter till nästa fas eller avslutar insamlingen 35

Adaptiv/Responsive design Responsive design (Groves & Heeringa 2006) Delar in datainsamlingen i minst två faser Identifierar lämpliga behandlingar under datainsamlingens första fas (processdata utnyttjas) När en fas har uppnått ett bestämt mål är fasen klar, och man byter till nästa fas eller avslutar insamlingen Responsive design används då inte mycket är känt i förväg om stickprovet eller behandlingarna. Efter första fasen liknar detta upplägg en adaptiv design. 36

1.2 Bortfallssituationen, de tillgängliga data, speciellt hjälpvariablerna 37

Det här är vår situation : U s r population urval svarsmängd Population (U) Svarsmängd (r) Urval (s) 38

Viktiga termer och begrepp i det som följer Målpopulationen U = {1,, k,, N} består av N individer (objekt) indexerade k = 1, 2,, N. Ett sannolikhetsurval s dras från U så att individ k har den kända inklusionssannolikheten π k = P k s > 0. Om variabeln y är vår målvariabel så vill vi skatta populationstotalen Y = U y k. Vi skriver Σ A för summan Σ k A där A är en mängd individer A U. 39

Exempel Sannolikhetsurval med lika urvalssannolikheter (som t.ex. OSU = obundet slumpmässigt urval) N = storleken på populationen, U n = storleken på stickprovet s designvikt d k = N/n för alla objekt k ϵ s m = storleken på svarsmängden r svarsandelen P s dk Ik / dk m / s n 40

Viktiga termer och begrepp Balanserad svarsmängd (definition) Svarsmängdens obalans (mätbar storhet) Representativitet hos svarsmängden (mätbar) Svarsintensitet (mätbart instrument för att övervaka datainsamlingen) Alla bygger på en hjälpvektor x kolumnvektorn: [Jx1] känd för hela urvalet 41

Bortfall försvårar teoretiska framsteg därför att Vi inte vet hur r genererades ifrån s Svarssannolikheter är okända (om sådana överhuvudtaget anses existera) Väntevärdesriktig estimation omöjliggörs Vi inte kan anta att r är en slumpmässig delmängd från s inte ens givet en x-vektor; det som kallas MAR (Missing At Random) Situationen är alltid det som kallas NMAR (Not Missing At Random) För MAR och NMAR se t.ex. Little och Rubin (2002) 42

Variabler vi har till förfogande : Målvariabel (en av flera): y k observerad för k r Hjälpvektor: x k känd alla k s (ev. alla k U) Svarsindikator: I k observerad för k s Svarsandel: P d I / d d / s k k s k r k s d k = sticksprovsmedeltalet för I k Låt oss ta några exempel på hjälpvektorer. Hjälpvariablerna är kontinuerliga eller kategoriska; det senare är ofta fallet 43

Exempel 1: x-vektor med fullständigt korsade grupper Utbildning (hög/låg; 2 grupper) äger fastighet (ja eller nej; 2 grupper) födelseland (Sverige eller annat; 2 grupper) Då blir x-vektorns dimension J = 2 2 2 = 8 Och x-vektorn har precis 8 möjliga värden, för den enda ettan i vektorn kan finnas på 8 möjliga ställen x k = (0, 0,, 1,, 0, 0) 44

Exempel 2: x-vektor med fullständigt korsade grupper ålder (4 grupper) kön (2 grupper) region (5 grupper) Då blir x-vektorns dimension J = 4 2 5 = 40 Och x-vektorn har precis 40 möjliga värden, för den enda ettan i vektorn kan finnas på 40 möjliga ställen x k = (0, 0,, 1,, 0, 0) 45

Exempel 3: Lite krångligare med icke-korsade egenskaper i x-vektorn Educ (2) x Owner (2) x Origin (2) (dessa tre korsade) Phone (2) ; Age (4) ; Civil (2) ; Gender (2) x = ( Educ Owner Origin + Phone + Age + Civil + Gender) Age kodas med någon av (1,0,0), (0,1,0), (0,0,1), (0,0,0) Denna x-vektor har bara dimension 14 J = (2 2 2) + 1 + 3 + 1 + 1 = 14 men den har 256 möjliga värden: 2 2 2 2 4 2 2 = 256 fast alla kanske inte finns representerade i ett datamaterial. Det gör egentligen inget, bara matrisen (som vi kommer till) kan inverteras. 46

Olika typer av hjälpvektorer (vanligen kallade x-vektorer) Monitoringvektorn övervakningsvektorn x-variablerna utvalda för balansering av datainsamlingen Kalibreringsvektorn x-variablerna utvalda för användande i estimationen Hur vektorerna ser ut bestäms av valda strategier för datainsamling och efterföljande estimation. Man kan använda samma vektor i båda, men justeringar av vektorn med hänsyn till datainsamlingen kan behövas. 47

Kalibrering Se vidare Lundström och Särndal (2005) Kalibrerad viktning är numera att betrakta som standard i viktiga SCB-undersökningar. Tack vare att under de senaste två decennierna vidareutvecklades den gamla metodkunskapen, med namn som poststratifiering och raking ratio, enkla specialfall kända sedan 1940-talet. 48

Hur väljer man en effektiv hjälpvektor? Riktlinjer främst för estimationen men även för datainsamlingen (beroende på vilken datainsamlingsstrategi man väljer) Hjälpvektorn ska : 1. Förklara benägenheten att svara. 2. Förklara centrala målvariabler. 3. Identifiera de viktigaste redovisningsgrupperna. Från Lundström och Särndal (2005) 49

Exempel: logit-modell för variabeln svar Parameter Parameterskattning Pr > ChiSq. Intercept 0.22 0.0604 Ålder 24 0.86 <.0001 Ålder 35-64 -0.03 0.6812 Ålder 65-74 0.36 0.0025 Ålder 75 0.31 0.0172 Född i Sverige 0.25 0.0010 Kvinna 0.28 <.0001 Anställd 0.20 0.0113 Gift 0.34 <.0001 Storstad -0.31 <.0001 Ersättning (soc/stöd) -0.42 0.0060 Fastighet 0.22 0.0005 Hög utbildning 0.38 <.0001 ULF 2009 50

För estimationen : Stegvis selektion med indikator Ett verktyg för val av hjälpvariabler för kalibreringsvektorn i estimationen : där Indikatorn H 3 beror inte på y (ofta en fördel) Vi återkommer i nästa avsnitt till kalibreringsestimatorn. Se t.ex. Särndal and Lundström (2010) 2 1/ ; ; 2 1/ 3 1 1 d r d s r k r k k s k s k k m m d m d d m d H k r k k k s k k k d d m x x x x 1 ) ( ) ( 51

Stegvis selektion, indikatorn H 3 Steg Inkluderad variabel H 3 10 3 0 (trivial) 0 1 TELEPHONE (2) 211 2 COUNTRY OF BIRTH (2) 227 3 SOCIAL ALLOWANCE (2) 240 4 EDUCATION LEVEL (2) 251 5 AGE CLASS (6) 260 6 INCOME CLASS (5) 266 7 CIVIL STATUS (2) 271 8 PROPERTY OWNERSHIP (2) 273 9 IMMIGRATION AFTER 2000 (2) 275 10 SEX (2) 278 11 GEOGRAPHICAL REGION (3) 279 ULF 2009 52

Vad uppnås med viktjusteringen? Vi vill justera skattningarna genom kalibrerad viktning, för att minska bortfallets snedvridande inverkan. Kan vi det? Ja, det går och är effektivt, i de flesta fallen Om hjälpvektorn har samband med målvariabeln (från tämligen svagt till starkt), då minskas bortfallets snedvridande effekt. Det kan vara med stora belopp, om sambandet starkt. Men om hjälpinformationen har mycket svagt samband så kan felet öka (fast inte mycket). Vi ska se empiriska exempel på det. I Skandinavien har vi massor av hjälpvariabler att ta till, så problemet med ökande fel uppstår knappast. 53

SLUT PÅ DEL 1 54