Kandidatuppsats. Nr 2014:1. Prediktorer i imputeringsmodellen. Statistiska institutionen. Anna-Karin Oscarsson och Anni Jonsson Juho

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2014:1 Prediktorer i imputeringsmodellen Predictors in the imputation model Anna-Karin Oscarsson och Anni Jonsson Juho Självständigt arbete 15 högskolepoäng inom Statistik III, VT2014 Handledare: Nicklas Pettersson

2

3 Sammanfattning Denna uppsats belyser betydelsen av olika typer av prediktorer och deras samband. Detta görs med utgångspunkt i verkliga data för att försöka fånga in realism, istället för att simulera såsom gjorts i tidigare studier. Uppsatsens syfte är att undersöka konsekvenserna av att utelämna vissa prediktorer i modellen för multipel imputering vid skattning av ett medelvärde. De valda prediktorerna representerar varierande korrelationer. Dels undersöker vi korrelationen till bortfallet dels korrelationen till studievariabeln. Dessutom beaktas prediktorer som ingår i analysmodellen. En bra imputeringsmodell bör inkludera prediktorer med hänsyn till samtliga aspekter ovan. Fallet som undersöks är imputering av kategoriska variabler. Imputeringsmetoden som används är monoton logistisk regression som finns tillgänglig i SAS 9.3. Som referensmetod avvänder vi analys av kompletta fall. Resultatet följer teorin. Prediktorerna påverkar bias och varians enligt teorin, men effekten är i vissa fall liten. Troligen till följd av att prediktorerna fångar upp brus i form av andra korrelationer som vi inte kunnat kontrollera. En sådan situation bör vara vanlig även i verklig kontext och slutsatsen blir därför att det är mycket viktigt att välja prediktorer på så vis att dessa representerar korrelationer med samtliga aspekter ovan. Den önskade minskningen av bias och varians kan annars utebli vid imputeringen. Nyckelord: Multipel imputering, prediktorer, imputering av kategoriska variabler. Förord Vi vill tacka två personer som betytt mycket för uppsatsens färdigställande. Först och främst vill vi tacka vår handledare Nicklas Pettersson för det fina engagemanget och en lärorik handledning. Vi vill också rikta ett stort tack till Jari Juho som arbetar med SASprogrammering på SCB, och som på sin fritid hjälpt oss när vi skrivit macron till vår kod. När det gäller arbetsfördelningen har båda författarna arbetat med SAS-koden i samma utsträckning. Anna-Karin har varit något mer involverad i analyserna med Excel medan Anni har varit något mer involverad i att skriva texten. Detta är en indikation på huvudansvarsområden och inte menat att uppfattas som en arbetsfördelning. Författarna har satt sig in i det arbete medförfattaren utfört och gett förbättringsförslag till den andres arbetsinsatser. Båda författarna står således bakom hela innehållet i uppsatsen. Det slutliga resultatet är att betrakta som ett gemensamt resultat och författarna bör bedömmas på samma grunder.

4 Innehållsförteckning 1 INTRODUKTION Inledning Syfte Metod Avgränsningar Disposition TEORETISK REFERENSRAM Bortfall Betydelsen av bortfallsmekanismen Imputering Multipel imputering MI med hjälp av SAS Valet av prediktorer Konklusion av litteraturstudien EMPIRI Introduktion Material och metoder Data Så skapade vi ett facit ur grunddata Så skapade vi bortfall Val av studievariabel Valet av prediktorer Beräkning av egenskaper hos våra estimatorer Resultat Steg 1 inkludering av en prediktor Steg 2 inkludering av två prediktorer Steg 3 inkludering av tre prediktorer Konklusion SLUTDISKUSSION Referenser Bilaga A: Rubins regler för MI A.1 Att kombinera resultat från multipelt imputerade dataset Bilaga B: Logistisk regression, LR B.1 Några ord om logistisk regression Bilaga C: Prediktorernas associationer C.1 Associationer med responsindikatorn (R) C.2 Associationer med studievariabeln (Y) Bilaga D: SAS-KOD D.1 Kod till macro, simuleringar av bortfall D.2 Kod till macro, andelar för R i tabell

5 Figurförteckning Figur 1: De olika bortfallsmekanismerna Figur 2: Multipel imputering illustrerad Figur 3: Objektsbortfall i Trafiksäkerhetsenkäten över tid Tabell 1: Prediktorernas inverkan på bias och varians givet olika korrelationer Tabell 2: Fördelningen av Y för kvinnor respektive män i facit Tabell 3: Variabler i imputeringsmodellerna Tabell 4: Förväntade effekter av valda prediktorer Tabell 5: Associationer mellan prediktorer Tabell 6: Andelar nej-svar för Y och förväntad andel bortfall Tabell 7: Resultat av simulering, andelen totalt som inte kände till nollvisionen Tabell 8: Resultat av simulering, andelen kvinnor som inte kände till nollvisionen Tabell 9: Resultat av simulering, andelen män som inte kände till nollvisionen

6 Förkortningar CCA LR MAR MCAR MI ML MNAR SI Complete Case Analysis Logistisk Regression Missing at random Missing completely at random Multipel imputering Maximum Likelihood Missing not at random Simpel imputering

7 1 INTRODUKTION 1.1 Inledning Svarsfrekvensen i urvalsundersökningar blir allt lägre (de Leeuw & de Heer 2002). Detta är problematiskt på flera sätt. För det första kräver de statistiska standardmetoderna kompletta data, för det andra blir de statistiska skattningarna mindre precisa till följd av förlorad information, och för det tredje kan resultaten bli missvisande om bortfallet inte är slumpmässigt. Bortfallsproblematiken kan hanteras förebyggande genom ansträngningar att reducera bortfallsfrekvensen samt korrigerande genom att hantera återstående bortfall (Japec et al. 2000). Även om stora ansträngningar görs i designstadiet för att underlätta en insamling av ett så komplett data som möjligt så kommer visst bortfall alltid att kvarstå (Särndal & Lundström 2005, s. 29). Imputering är en metod som möjliggör användande av standardmetoder genom att fylla i de saknade värdena (Schafer & Olsen 1998; Schafer 1999). För att hitta rimliga värden att fylla igen bortfallet med är så kallade hjälpvariabler viktiga. Dessa bör vara goda prediktorer. Hur väl en imputeringsmetod fungerar för ett dataset med bortfall är avhängigt bland annat av sambandet mellan de variabler som används för att prediktera svarsbenägenheten samt variablerna med bortfall. Ett generellt råd har varit att inkludera så många prediktorer som möjligt i modellen för imputering (Schafer 1999), men med många potentiella prediktorer har van Buuren, Boshuizen & Knook (1999) istället föreslagit en strukturerad approach där korrelationer mellan prediktorer och analysmodell, prediktorer och svarsbenägenhet, samt prediktorer och studievariabeln är vägledande i valet av några få nyckelvariabler. 1.2 Syfte Syftet med denna uppsats är att undersöka betydelsen av olika prediktorer vid multipel imputering av kategoriska variabler. Närmare bestämt ska vi belysa konsekvenserna av att låta bli att inkludera olika typer av prediktorer i imputeringsmodellen. Detta relaterar till den strukturerade approach som föreslås av van Buuren et al. (1999) där vikt läggs vid att prediktorerna ska korrelera med studievariabeln och bortfallsmekanismen, samt ingå i analysmodellen. 1.3 Metod För att uppnå uppsatsens syfte har vi genomfört en litteraturstudie samt en empirisk undersökning. Vi valde att fokusera på bortfall avseende en kategorisk utfallsvariabel då denna typ av variabler är vanliga i surveyundersökningar. För att kunna generalisera våra slutsatser gjorde vi en Monte Carlo simulering. Imputeringarna skedde enligt monoton logistisk regression som finns tillgänglig i SAS 9.3. Denna metod valdes eftersom den lämpar sig för kategoriska variabler. Strategin för att testa våra imputeringsmetoder var att först skapa ett facit med utgångspunkt i verklig surveydata, sedan modellera en bortfallsmekanism med verklig data som förebild, och därefter skapa ett bortfall i vår population genom att applicera denna bortfallsmekanism på facit. På så vis har vi 7

8 kunnat jämföra hur pass nära det sanna värdet olika strategier för val av prediktorer leder, och förhoppningsvis fångat in realism i imputeringen. Som referensmetod använder vi Complete Case Analysis (CCA) som innebär att en analys utförs på de svar man har fått in, utan några justeringar. I datahanteringen använde vi oss av SAS 9.3 samt Excel. 1.4 Avgränsningar Vi avgränsar oss till imputering av saknade värden på en kategorisk variabel. 1.5 Disposition Upplägget för resterande uppsats ser ut enligt följande: I kapitel 2 presenterar vi resultatet från litteraturstudien. Vi ger en kort teoretisk bakgrund till multipel imputering och diskuterar imputering med tonvikt på multipel imputering. I kapitel 3 redogör vi för den empiriska undersökningen och diskuterar resultatet. Kapitel 4 är det sista kapitlet som innehåller slutdiskussion, slutsatser och förslag på områden för vidare forskning. Då flera termer inom forskningen på bortfallsområdet inte har någon etablerad svensk översättning till kommer vi att använda vissa engelska uttryck i uppsatsen. 8

9 2 TEORETISK REFERENSRAM Bortfall har studerats från många olika infallsvinklar sedan 1940-talet och forskningsvolymen är mycket stor. I denna uppsats presenterar vi en kortfattad teoretisk bakgrund för MI, sedan diskuterar vi metoder för imputering med tonvikt på multipel imputering. 2.1 Bortfall Bortfall uppstår då vi misslyckas med att samla in komplett data, vilket är mycket vanligt. Olika typer av bortfall ger upphov till olika typer av bortfallsmönster. I surveysammanhang innebär unit nonresponse, objektsbortfall, att en respondent inte gått att anträffa (Schafer & Graham 2002, s.149). Item nonrespons, eller så kallat partiellt bortfall, innebär att data är ofullständigt till exempel som följd av att respondenter har hopppat över enstaka frågor i ett frågeformulär (Little & An 2004). I en survey där endast en variabel är av intresse är objektsbortfall detsamma som partiellt bortfall (Rubin 1983, s. 141) vilket är fallet vi diskuterar i uppsatsen. En möjlig konsekvens av bortfall är bias. Bias är en produkt av storleken på bortfallet och existerande skillnader mellan respondenter och icke-respondenter, med avseende på variabeln med bortfall. Det klassiska sättet att uttrycka bias för en skattning av medelvärdet är Bias(y r ) = E m s n s (Y r Y m ) (1) där Bias(y r ) representerar bortfallsfelet, m s n s är svarsfrekvensen och (Y r Y m ) är skillnaden mellan medelvärden för respondenter och icke-respondenter (Groves 1989 i Peytchev 2013). Bortfall påverkar även variansen eftersom antalet observationer inte blir lika stort som planerat. Varians och bias utgör tillsammans medelkvadratfelet MSE = bias 2 + varians. (2) En så låg MSE som möjligt eftersträvas. Vid bortfall är risken större för en hög bias än att variansen blir hög (Biemer & Lyberg 2003, s. 59). 2.2 Betydelsen av bortfallsmekanismen För att kunna hantera bortfall på ett lämpligt sätt är det viktigt att förstå den så kallade bortfallsmekanismen som Rubin definierar i sin banbrytande artikel från Bortfallsmekanismen har att göra med varför data fattas (Little & An, 2004). Rubin beskriver, enkelt uttryckt, under vilka omständigheter det är i sin ordning att ignorera orsaken till bortfall ( the weakest simple conditions on the process that causes missing data such that it is always appropriate to ignore this process when making inference, ibid. s. 582). De tre bortfallsmekanismerna är (Little & Rubin 1987): 1) MAR, missing at random 2) MCAR, missing completely at random 3) MNAR, missing not at random. 9

10 Dessa bortfallsmekanismer kan beskrivas som relationen mellan studievariabeln och variabler som förklarar bortfallet, och dikterar hur väl olika metoder för bortfallshantering kan fungera (Baraldi & Enders 2010). Enligt Rubin (1976) själv är dessa intuitiva, men typologin som utvecklats beskrivs av andra som förvirrande (Enders 2010, s. 5; Collins et al. 2001) samt beskrivs som vida citerad men mindre vida förstådd (Schafer & Graham 2002, s. 151, egen översättning). Vi gör i det följande vårt bästa för att leverera en begriplig presentation av konceptet. Den underliggande statistiska teorin bakom MI är Bayes teorem. Till skillnad från det frekventistiska synsättet betraktas parametrar som stokastiska variabler inom det bayesianska paradigmet (Enders 2010, s. 185). Rubins idé utgår ifrån att bortfall (missingness) är en variabel med sannolikhetsfördelning, och att ett komplett dataset existerar åtminstone hypotetiskt sett (ibid., s. 9). Denna kompletta datamängd skrivs Y com, och Y com = Y obs + Y mis, där Y obs representerar observerad data och Y mis representerar bortfall. Missingness beskrivs av den binära indikatorvariabeln R som antar värdet (R = 1) om Y observeras, det vill säga vid respons, och värdet (R = 0) vid bortfall (Schafer & Graham 2002). Schafer och Graham (2002) reflekterar kring att en möjlig källa till förvirring angående bortfallsmekanismen är att R kallas just bortfallsmekanism (eller svarsmekanism) vilket kan ge felaktiga associationer till kausalitet när det som beskrivs av R är sannolikheten för bortfall och inte ett orsakssammanhang. I nedan beskrivning av bortfallsmekanismerna kommer det bli tydligt hur även namngivningen av mekanismerna kan ha bidragit till att skapa förvirring (Enders 2010), s.6). Nedan redogör vi för de tre bortfallsmekanismerna MAR, MCAR och MNAR. (Observera att vi använder M istället för R eftersom vi senare använder R = 1 för bortfall.) Bortfallsmekanismen missing at random (MAR) är trots sitt namn inte slumpmässig utan avser en situation då ett systematiskt samband existerar mellan en eller flera undersökningsvariabler och sannolikheten för bortfall (Enders 2010, s. 6). Data är MAR om sannolikheten att ett värde fattas beror enbart på Y obs och inte på Y mis (Little & Rubin, 1987), det vill säga P(M Y com ) = P(M Y obs ). (2) Detta innebär att orsaken till bortfall är av betydelse, vilket vi tydliggör med exempel längre fram. I de fall bortfallet inte är planerat som en del i surveydesignen är MAR endast ett antagande, eftersom det inte går att testa om data är MAR (Schafer & Graham 2002). Missing completely at random (MCAR) är ett specialfall av MAR som beskriver situationen när sannolikhetsfördelningen för bortfallet på Y är oberoende av värdet på Y själv eller andra variabler i datamängden och skrivs P(M Y com ) = P(M). (3) När detta antagande är uppfyllt för alla variabler, kan uppsättningen av individer med kompletta uppgifter betraktas som ett obundet slumpmässigt delurval från den ursprungliga uppsättningen observationer (Allison 2002). Detta är ett starkt antagande som, om 10

11 det uppfylls, möjliggör enklare typer av bortfallshantering vid skattning av medelvärde som att helt enkelt radera ofullständiga objekt. Missing not at random, (MNAR) uppstår när antaganden om MAR, och följaktligen MCAR som är ett specialfall av MAR, inte håller. Det vill säga när sannolikheten att det uppstår bortfall beror på själva värdet på icke-observerade värden av de undersökta variablerna P(M Y com ) = P(M Y obs, Y mis ). (4) I situationen ovan krävs en gemensam modell för både Y och M för att kunna göra giltiga slutledningar. Bortfallsmekanismerna kan beskrivas grafiskt på följande sätt: X Z X Z X Z Y M Y M Y M (a) MCAR (b) MAR (c) MNAR Figur 1: De olika bortfallsmekanismerna Grafisk representation av (a) missing completely at random (b) missing at random och (c) missing not at random i ett univariat bortfallsmönster. X är variabler som är fullständigt observerade, Y är en variabel som delvis fattas, Z representerar den komponent av missingness som är orelaterad till X och Y, och M är missingness. Källa: Schafer & Graham 2002, s. 152, egen bearbetning. Ovanstående figur kan konkretiseras med ett exempel lånat från Buhi et al. (2008). Låt säga att en persons vikt (Y) ska modelleras som en funktion av kön (X) och att data samlas in med hjälp av en enkät. Antag vidare att det uppstår bortfall på Y vissa respondenter har valt att inte angett sin vikt. De tre bortfallsmekanismerna, det vill säga orsakerna till bortfallet, kan se ut på följande vis: (a) Det finns ingen speciell orsak till att vissa har angett sin vikt och andra inte. Sannolikheten att Y inte anges är helt orelaterad till både respondentens vikt och respondentens könstillhörighet. Data är MCAR. (b) Sannolikheten att fylla i sin vikt beror på variabeln kön, låt säga att sannolikheten är lägre att en kvinna uppger sin vikt. Om sannolikheten för bortfall enbart har att göra med om respondenter är kvinna eller man är data MAR. (c) Överviktiga personer är mindre benägna att ange sin vikt. Sannolikheten att det uppstår bortfall på Y har alltså att göra med det icke-observerade värdet på Y. Data är MNAR. Rubins (1976) teori involverar ocksåtvå olika grupper av parametrar: de parametrar som skulle ha estimerats om inga bortfall existerat, samt de parametrar som beskriver sannolikheten för bortfall (Enders 2010, s. 13). Dessa behövs för att beskriva när data är ignorable. Ignorable består av två antaganden; 1) att data är MAR (MCAR inkluderat) 11

12 2) att parametrarna i analysmodellen och parametrarna i bortfallsmodellen är oberoende (Allison 2002). Om de underliggande antagandena inte uppfylls uppstår risk för bias. Eftersom ett värde som fattas för en variabel per definition är okänt, finns ingen möjlighet att testa om det existerar systematiska skillnader mellan observerade och icke-observerade värden för variabeln i fråga (ibid.); ett klassiskt fall av moment 22 som de Leeuw et al. (2003) konstaterar. 2.3 Imputering Imputering går ut på att fylla i existerande bortfall i ett datamaterial. Dessa värden fås fram antingen enligt någon statistisk regel eller genom värden som observerats för andra enheter som liknar icke-respondenter (Lundström & Särndal, 2001). Den första kategorin innebär ofta regressionsimputering, och den senare att en donatorpool nyttjas. När saknade värden fyllts i kan statistiska standardmetoder tillämpas på materialet (Schafer 1999). När det gäller imputering finns flertalet metoder. Enklare metoder, såsom simpel imputering (SI), kan ge unbiased skattning av medelvärdet men ger för låg variansskattning. Detta betyder att konfidensintervallen blir snävare än i verkligheten (ibid.) Detta kan kompenseras för genom att använda multipel imputering. Viktigt i valet av imputeringsmetod är att beakta om variablerna som ska imputeras, samt prediktorerna, är kategoriska eller kontinuerliga. Detta eftersom olika slags data kräver olika imputeringsmodeller. Imputering är inte den enda metoden för justering av bortfall, goda skattningar kan i vissa fall erhållas genom viktning (Schafer 1999) Multipel imputering Multipel imputering (MI) (Rubin 1987) är en Monte Carlo -teknik som går ut på att upprepade gånger simulera fram värden att fylla i bortfallet med, idén är att värdena genom simuleringen blir approximativt riktiga. MI innebär med andra ord att bortfallet representeras med ett slumpmässigt urval av saknade värden. Detta betyder att standarfel, p-värden och så vidare som erhållits genom MI generellt sett är giltiga, eftersom de införlivar den osäkerhet som uppstår på grund av bortfallet (Schafer & Olsen 1998; Schafer 1999; Yuan 2011). När imputering sker enligt MI kan därför även variansskattningen bli unbiased, men även MI kan göras rätt eller fel så det finns inga garantier för att variansskattningen blir rätt. Multipel imputering består av följande steg (Yuan 2011; Schafer 1999): 1. Saknade värden imputeras m > 1 gånger för att generera m fullständiga dataset. 2. De m kompletta datamängderna analyseras med hjälp av statistiska standardmetoder. 3. Resultaten från de m kompletta dataseten kombineras för slutledning (se Bilaga A, Rubins regler). 12

13 Steg 1 ovan kan tydliggöras med följande bild: Datamängd med bortfall? Imputeringar 1 2 m??? Figur 2: Multipel imputering illustrerad. Figuren visar en multivariat datamatris med bortfall samt associerad multipel imputering. Källa: Schafer och Olsen 1998, s. 547 och Schafer och Graham 2002, s Figur 2 illustrerar hur det för varje bortfall ges ett förslag på m stycken lämpliga värden att fylla igen bortfallet med. Ett fåtal imputeringar krävs, 3-5 är tillräckligt enligt Rubin (1996) samt Schafer och Olsen (1998), men med dagens datorer är det i regel inga problem att öka antalet imputeringar. Eftersom MI handlar om att approximera är fler imputeringar bättre än färre. En viktig aspekt av MI är att hanteringen av bortfallet och analysen av data kan delas in i två skilda faser (Schafer 1999). Bortfallshanteringen kan därför överlämnas till dem som sköter imputeringen, medan användarna av data kan koncentrera sig på själva analysen (Meng 1994). Denna flexibilitet är en av fördelarna med MI (Zhang 2003). Men som Meng (1994) påpekar är denna flexibilitet inte helt oproblematiskt eftersom den som sköter imputeringen måste förutse vilka analyser som kommer göras i framtiden MI med hjälp av SAS De flesta procedurer i SAS exkluderar observationer med saknade variabelvärden från analysen (Yuan 2011). Detta innebär att information går förlorad, dessutom kan det som tidigare diskuterats finnas systematiska skillnaden mellan fullständiga fall och bortfall som gör att analysens slutsatser inte gäller för populationen. MI strävar efter att lösa det problemet. SAS -procedurerna MI och MIANALYZE är utvecklade för att hantera imputering i multivariat data och för att analysera data från multipelt imputerade dataset. Multipel imputering i SAS bygger på antagandet att bortfallet är ignorerbart enligt Rubins (1987) definition. Det vill säga bortfallsmekanismen antas vara MAR (Berglund 2010; Yuan 2011) och modellens parametrar antas inte kunna ge information om parametern med bortfall och vise versa (Yuan 2011). Flera imputeringsmetoder är tillgängliga i SAS 9.3, både för kontinuerlig och kategorisk data och för olika typer av bortfallsmönster. Eftersom uppsatsen behandlar imputering med hjälp av monoton logistisk regression presenterar vi logistisk regression närmare i Bilaga B. 13

14 2.4 Valet av prediktorer Oavsett vilken imputeringsmetod som tillämpas är så kallade prediktorer viktiga, det vill säga variablerna som inkluderas i imputeringsmodellen. Dessa prediktorer kan t ex finnas som svarsvariabler i enkäten eller komma i form av hjälpvariabler. Hjälpvariabler är typiskt sett registerdata som finns tillgänglig för samtliga i urvalet, det vill säga svaret är känt även för icke-respondenter. Genom att utnyttja dessa är det möjligt att bilda sig en uppfattning om individerna i bortfallet ser ut att skilja sig från respondenterna på ett systematiskt sätt. Ett realistiskt mål är att välja hjälpvariabler på så vis att bias reduceras; att helt bli av med bias är orealistiskt (Särndal 2011). Enligt Rubin (1996) samt Collins et al. (2001) är det en fördel att inkludera så många prediktorer som möjligt, även sådana med blygsam korrelation. Van Buuren et al. (1999) förordar dock att det sällan behövs mer än variabler för att täcka det viktigaste. Little och An (2004) förklarar hur den reducering av bias och varians som prediktorer kan åstadkomma ser olika ut beroende på hur associationerna mellan responsindikatorvariabel, prediktor och bortfall ser ut vid skattning av medelvärde. Låt Y 1 vara en prediktor, Y 2 en studievariabel med bortfall, R responsindikatorvariabeln (som Little och An kallar M). 2 representerar samvariationen mellan Y 1 och R, ρ 2 representerar samvariationen mellan Y 1 och Y 2 : 2, samvariation mellan prediktorn och responsindikatorn Låg Hög ρ 2, samvariation mellan prediktorn och studievariabeln Låg biasförändring: 0 variansförändring: 0 biasförändring: 0 variansförändring: Hög biasförändring: 0 variansförändring: biasförändring: variansförändring: Tabell 1: Prediktorernas inverkan på bias och varians givet olika korrelationer. Källa: Baserat på Little & An 2004, s Som synes i Tabell 1 ovan riskerar vi att i värsta fall öka variansen genom att introdusera en olämplig prediktor, detta sker då associationen mellan studievariabeln och prediktorn är hög samtidigt som associationen mellan prediktorn och responsindikatorn är låg. Bias påverkas inte även om prediktorn skulle vara felvald. Det är först då både 2 och ρ 2 är höga som en substantiell effekt uppnås. (Se Little och An 2004 för en matematisk förklaring av dessa samband). Med andra ord bör prediktorn korrelera både med svarsbenägenheten samt studievariabeln, det vill säga variabeln med bortfall. Van Buuren et al. (1999) har föreslagit en strategi för val av lämpliga prediktorer. Författarna diskuterar fallet då det finns många variabler att välja mellan, men angreppssättet kan ses som en utgångspunkt för variabelselektion så som vi gör i uppsatsen: 14

15 1. Inkludera alla variabler som ska vara med i analysmodellen. Om någon variabel som ska ingå i analysmodellen utesluts finns risk för bias; analysen kan ge snedvridna resultat. 2. Inkludera variabler som påverkar bortfallet. Andra variabler av intresse är de för vilka fördelning skiljer mellan respondenter och icke-respondenter. Ett sätt att hitta variablerna är att titta på korrelationer mellan studievariabeln och responsindikatorn. Om storleken på denna korrelation överstiger en viss nivå, då bör variabeln ingå. 3. Inkludera variabler som förklarar betydande del av variansen gällande målvariabeln, vilket bidra till att minska osäkerheten i imputeringarna. De kan identifieras med hjälp av att de korrelerar med målvariabeln. 4. Ta bort från de variabler som valts i steg 2 och 3 som har för stort bortfall. Övervägandena ovan kan sammanfattas i tre aspekter att ta hänsyn till: a) Variabler i analysmodellen för Y. b) Variabler som korrelerar med R. c) Variabler som korrelerar med Y. Vi åskådliggör med hjälp av viktexemplet som vi lånade av Buhi (2008) tidigare. Gällande a) variabler för analysmodellen för Y gäller att om kön ingår i analysmodellen och kön antas korrelera med vikt och kvinnor svarar i lägre omfattning så blir imputeringen sämre om inte kön finns med i imputeringsmodellen. När det gäller b) variabler som korrelerar med R gäller det att inkludera variabler som korrelerar med sannolikheten att respondenten inte svarar. I viktexemplet skulle det kunna vara vikten självt (men då har vi problem med MNAR). Avseende c) variabler som korrelerar med Y skulle längd kunna vara en variabel som korrelerar med vikt. Frågor om längd kan antas var mindre känsliga och därför mer troligt att få svar på än frågor om vikt. Val av prediktorer är betydande för imputeringsmodellen och har implikationer på hur data med bortfall som reparerats genom imputering kan analyseras i ett senare skede. Schafer (1998) diskuterar hur MI förutsätter att den modell som används för att analysera imputerad data (analysmodellen) ska överensstämma med den modell som används för att imputera bortfallen (imputeringsmodellen) och förklarar hur imputeringar som skapades under det felaktiga antagandet kan leda till att analysmodellens skattningar blir skeva. Se Schafer (1998) för en mer ingående beskrivning Schafer rekommenderar därför att så många variabler som möjligt inkluderas i imputeringsmodellen. Detta rekommenderar även Collin et al. (2001) som genomfört en simuleringsstudie där de kunde påvisa att en inkluderande strategi är att föredra; viss precision går förlorad när ovidkommande prediktorer tas med i modellen, men slutsatserna blir giltiga. Schafer och Olsen (1998, s. 551) skriver In general, any association that may prove important in subsequent analyses should be present in the imputation model. 15

16 2.5 Konklusion av litteraturstudien När det gäller valet av prediktorer som väljs till imputeringsmodellen bör dessa ha starka korrelationer med responsindikatorn samt studievariabeln (Little och An 2004). För att uppnå optimal reduktion av bias och varians bör också de prediktorer som inkluderas i imputeringsmodellen väljas med avseende på korrelation med R och korrelation med Y, samt ingå i analysmodellen för Y (van Buuren 1999). Det vi intresserar oss för i den empiriska delen är att undersöka hur utfallet blir om man inte tar hänsyn till dessa överväganden. I mer generalla ordalag blir det tydligt i litteraturgenomgången att det finns många olika nivåer där olika hänsyn bör beaktas när det gäller imputering. Dels har vi nivån med grunddata, det vill säga surveyundersökningen där det uppstått bortfall, på denna nivå har vi en bortfallsmekanism som styr vilka metoder för imputering som kan användas på materialet. Den mjukvara som används för att utföra MI gör vissa antaganden, varför det bör finnas förståelse för vilken bortfallsmekanism som kan ha orsakat bortfallet. SAS gör exempelvis ett antagande om MAR (Berglund 2010; Yuan 2011). Dels har vi nivån där en imputeringsmodell modelleras, på denna nivå avgör variabelvalen vilka analyser som senare blir lämpliga att utföra på materialet. Val av variabler till imputeringsmodellen beror på vilka analyser som ska genomföras med det imputerade data setet (Meng 1994). Dels har vi nivån med analysmodell, där de imputerade värdena analyseras. Om det uppstått ett glapp mellan analysmodell och imputeringsmodell så att dessa inte är kompatibla kan slutsatserna leda fel. Det är därför viktigt att den som utför analysen har kunskap om vilka antaganden som gjorts i imputeringsfasen. 16

17 3 EMPIRI I detta avsnitt redovisar vi den empiriska undersökningen och våra resultat. I det följande använder vi R = 1 för bortfall, vi kallar även R för responsindikator. 3.1 Introduktion Vi har använt grunddata från Trafiksäkerhetsenkäten 2012 som utgångspunkt för våra analyser. Många av variablerna var kategoriska med fler än två svarsalternativ, dessa har vi omkodat till dummyvariabler. I vissa fall då svarsalternativen har bestått av olika graderingar av ja eller nej har vi valt att slå samman till en dikotom variabel. Ja, mycket samt Ja, delvis har exempelvis slagits samman till ett enkelt Ja. På detta vis går tyvärr viss del information förlorad, men analyserna blir lättare att tolka vilket vi ansåg vara en klar fördel. Som nämnts tidigare har vi använt SAS 9.3, närmare bestämt PROC MI, för att utföra imputeringar och PROC MIANALYZE för att analysera imputerade dataset. För att kunna uttala oss mer generellt om våra resultat har vi valt att använda Monte Carlo -simulering där vi loopar våra imputeringsmodeller tusen gånger. Detta möjliggör att undersöka egenskaperna hos våra medelvärdesestimatorer eftersom vi skapat bortfallet ur en komplett matris. Tack vare det kan vi uttala oss om hur strategierna för val av prediktorer har fungerat mer generellt; utan simulering vet vi bara hur strategierna fungerat för vårt aktuella dataset. I stora drag har vi gjort följande: Valt ut en neutral studievariabel för att rimliggöra att verkliga data är MAR. Skapat komplett data som får representera vår population, ett facit. Modellerat en bortfallsmekanism med inspiration av den bortfallsmekanism vi kunde se i grunddata. Genererat 1000 datamatriser med olika bortfall med hjälp av vår bortfallsmekanism samt en slumpvariabel. Skapat sju olika modeller för imputering enligt varierande strategier för val av prediktorer. Utfört imputeringar med våra sju modeller i de 1000 olika bortfallen. Jämfört facit och resultaten av de sex olika modellerna och referensmetoden CCA. Tanken var att även göra fler urval men på grund av en miss drogs bara ett urval. Responsmodellen (våra bortfall) simulerades dock olika i dataseten och eftersom vårt program var ganska trögkört valde vi att nöja oss med varierande bortfallsmekanismer. Detta innebär att vi skapade tusen olika bortfall i ett enda draget urval som vi sedan testat våra sju imputeringsmodeller på. Vi utförde 25 imputeringar per modell. 3.2 Material och metoder Data Skälet till att vi valde Trafiksäkerhetsenkäten 2012 (SND ) för vårt ändamål att testa olika metoder för bortfallshantering är flera. För det första var grunddata tillgäng- 17

18 ligt genom beställning från Svensk Nationell Dataservice (SND) (vårt första val av data en upphandlad enkätundersökning med telefonuppföljning visade sig bli otillgänglig på grund av juridiska orsaker). För det andra valdes enkäten för året 2012 eftersom fler variabler från registerdata användes detta år jämfört med föregående enkäter. Detta var en fördel eftersom dessa kan användas som prediktorer. Trafiksäkerhetsenkäten är en årligen återkommande undersökning om trafiksäkerhet. År 2012 utfördes undersökningen av Statistiska Centralbyrån på uppdrag av Trafikverket. Urvalsförfarandet är stratifierat OSU. Urvalet är stratifierat efter ålder, kön och region och målpopulationen är Sveriges befolkning i åldersspannet år. Svarsfrekvensen för det studerade året var 52 procent och urvalet bestod av 8423 slumpmässigt utvalda personer. Bilden av det ökande bortfall som ges i forskningen (de Leeuw & de Heer 2002) återspeglas i Trafiksäkerhetsenkäten: Bortfall, procent Årtal Figur 3: Objektsbortfall i Trafiksäkerhetsenkäten över tid. Enkäten genomfördes ej Uppgift om bortfall saknas för åren 1983, 1989 och Källa: SND, egen bearbetning. Grafen ovan illustrerar hur bortfallet ökat från omkring 20 procent 1981 till 54 procent år Så skapade vi ett facit ur grunddata För att kunna utvärdera egenskaperna hos medelvärdesestimator baserat på våra imputeringsmodeller hade vi behov av ett facit att jämföra våra resultat emot, vi behövde därför skapa en komplett datamatris ur vårt material. Grunddatat, som bestod av 4364 observationer och 106 variabler, hade bortfall på flertalet variabler. Vi valde ut en av variablerna med bortfall Känner du till nollvisionen? för imputering. (Orsakerna till valet av just denna studievariabel ges i stycke 3.2.2). Vi skapade vårt facit genom att avlägsna alla de variabler som inte behövdes för våra analyser. Därefter avlägsnades övriga observationer med bortfall så att vi hade en komplett matris om 4046 observationer. Ur denna matris gjordes ett slumpmässigt stratifierat urval utan återläggning om 1000 kvinnor och 1000 män, detta är vårt facit. Fördelningen kvinnor respektive mäns kännedom om nollvisionen såg ut på följande sätt i vårt facit: 18

19 Känner du till nollvisionen? (%) Kvinnor Män Nej 24,8 15,5 Ja 75,2 84,5 Tabell 2: Fördelningen av Y för kvinnor respektive män i facit. Som nämndes i introduktionen var vår tanke att använda flera olika urval, men på grund av beräkningsproblem i SAS valde vi att begränsa oss till ett enda urval för att begränsa slumpvariationen. Om mer slump hade förts in genom det tänkt urvalsdragningen hade vi också behövt fler körningar för att få lika stabila resultat Så skapade vi bortfall När det gäller modellingen av bortfallsmekanismen har vi att göra med en dikotom kategorisk variabel som responsvariabel (bortfall/ej bortfall) varför logistisk regression är en lämplig metod att använda. De möjliga förklaringsvariablerna är både kontinuerliga och kategoriska vilket lämpar sig väl för logistisk regression. Även imputeringsmodellerna, där vi har responsvariabeln ja, känner till nollvisionen / nej, känner inte till nollvisionen kräver en logistisk regression i imputeringen. (För en kortare redogörelse av logistisk regression, se Bilaga B.) Vi utförde stepwise selection med bortfallet för variabeln Känner du till nollvisionen? som responsvariabel på våra grunddata med SAS 9.3 för att finna ut vilka variabler som hade god prediktionsförmåga för det faktiska bortfallet. Syftet var att efter bästa förmåga efterlikna den verkliga bortfallsmekanismen i grunddatat. Tre variabler med p- värden under 0.05 som föreslogs genom stepwise selection (högsta p-värdet var ) inkluderades i vår bortfallsmekanism. Dessa var dummyvariablerna hemmavarande barn, ålderskategori år och utbildningsnivå 3. Vi utförde en logistisk regression med bortfall som responsvariabel och dessa variabler som förklaringsvariabler och fick då vår bortfallsmekanism. Den första bortfallsmekanismen vi provade genererade ett bortfall på endast omkring 5 procent. När bortfallet är lågt kan ofta en enkel metod som listwise deletion fungera väl (Schafer 1999), därför manipulerade vi vår bortfallsmekanism för att uppnå ett större bortfall. Vi uppnådde ett bortfall på omkring 37 procent genom att justera nivån på effekten de inkluderade variablerna gav. Ursprungligen hade vi barn ar utb3. Modellen som vi slutligen använde för att generera bortfall på studievariabeln kan skrivas Logit (P(Bortfall = 1)) = barn ar utb3 (5) vilket ger p = exp( barn ar utb3) 1+exp( barn ar4. (6) 0.02 utb3) Vi genererade 1000 bortfall i vårt urval om 2000 observationer. Detta gjordes genom att för varje observation jämföra skattade p mot värdet från en uniform slumpvariabel u, 19

20 vilken kunde anta värden inom intervallet 0 till 1. Då p > u raderades observationen på studievariabeln Val av studievariabel Flera av frågorna i enkäten kan betecknas som känsliga, exempelvis frågor om respondenten kört bil onykter. Ursprungligen valde vi en fråga av känsligare karaktär, men bytte under resans gång till den mer neutrala frågan Känner du till Nollvisionen? Det gjorde vi på grund av att vi inte ville blanda in en variabel där bortfallet på frågan kan misstänkas bero på själva svaret. Variabeln Känner du till nollvisionen var kategorisk med de tre svarsalternativen (1) ja, mycket (2) ja, delvis (3) nej, men vi valde att koda om den till binär genom att samla alla jakande alternativ i en kategori som tidigare beskrivet. Frågan ställs tidigt i enkäten vilket kan höja svarsnivån jämfört med om den hade legat senare. Den valda frågan lämnades obesvarad av närmare 5 procent av urvalet, detta är jämförbar med storleken på det bortfall som vår ursprungliga bortfallsmekanism gav. För att hantera en justering av bortfallet optimalt behöver vi förstå om individer i urvalet valt att inte svara på grund av själva värdet på variabeln (Little & Rubin, 1987). Vi gjorde bedömningen att svaret på frågan troligen inte är av så känslig karaktär att respondenter väljer att inte svara, varför vi valde att göra ett antagande om MAR. Med andra ord bedömer vi att det finns en chans att vi hittat en realistisk bortfallsmekanism Valet av prediktorer Till skillnad från van Buuren et al. (1999) använder vi några få variabler som representerar effekterna vi vill visa. De tillgängliga prediktorerna var kön, urbaniseringsgrad, bostadsregion, ålder, civilstatus, utbildningsnivå, yrke, körkortsinnehav och barn i hushållet. Dessa fanns tillgängliga i grunddata i form av registervariabler samt som svar i enkäten. Inkluderingen av prediktorer till imputeringsmodellerna skedde enligt hur dessa korrelerade med Y (Känner du till nollvisionen?) och med R (missingness). Eftersom våra variabler var kategoriska använde vi frekvenstabeller för test av association mellan variablerna. Vi använde Pearson chi2-test som ges av PROC FREQ. Detta gav oss p-värden som visade om associationerna var signifikanta, samt Cramer s V som visade styrkan på associationerna. Cramer s V är härledd ur Pearsons Chi-2 test och antar värden i spannet 1 V 1 för 2 x 2 tabeller (SAS Institute 2011, s. 2336). Värdet noll innebär att ingen association finns. Cramer s V anses vara svag vid V < 0.1. Enligt SAS Institute är V omkring 0.5 en indikation på en relativt stark association (SAS Institute 2012, s. 5-27). Variabler med de starkaste associationerna valdes som prediktorer, utom för X R där den näst starkaste valdes. (Detta förklasas närmare i stycke 3.6). Vi valde designvariabeln kön som analysvariabel, eftersom vår analysmodell skulle beskriva andelen kvinnors respektive mäns kännedom om nollvisionen. Följande variabler valdes som prediktorer: 20

21 Inkluderade prediktorer Notation Association Variabel X R association med R ålderskategori år X Y association med Y körkort X A variabel i analysmodell kön X R,Y association med Roch Y ålderskategori år, körkort X R,A association med Roch analysmodell ålderskategori år, kön X Y,A associationer med Y och analysmodell körkort, kön X R,Y,A variabel i analysmodell + association med Y och R kön, ålderskategori år, körkort Tabell 3: Variabler i imputeringsmodellerna. De förväntade effekterna av att inkludera de valda prediktorerna i imuteringsmodellen: Förväntade effekter av valda prediktorer X R Minskad bias X Y Minskad varians X A Minskad bias X R,A Minskad bias X R,Y Minskad bias och varians X Y,A Minskad bias och varians Minskad bias och varians X R,Y,A Tabell 4: Förväntade effekter av valda prediktorer. Den förväntade effekten som redovisas i tabell 4 påverkas av styrkan i associationerna mellan variablerna. Vi har följande relationer, uttryckt i Cramer s V (Se Bilaga C för samtliga signifikanta associationer): Relationer mellan variablerna X A X R X Y Y * * R * Tabell 5: Associationer mellan prediktorer. Måttenheten är Cramer s V. Prediktorerna är valda med hänsyn till de korrelationer som markeras med (*). Som synes i Tabell 5 är variabeln som ingår i analysmodellen svagt korrelerad med studievariabeln. Eftersom samvariationen är ganska låg mellan X A och Y kan vi förvänta oss ganska liten påverkan av X A på både varians och bias om vi beaktar Little och An (2004), se Figur 3. Vi har dock förhållandevis stark association mellan X Y och Y vilket bör sänka variansen då denna variabel inkluderas i modellen. Prediktorn X Y bör dock inte ensam kunna påverka biasen. Prediktorn X R som korrelerar med R bör minska biasen men inte påverka variansen. I våra data hade vi endast två möjliga prediktorer med signifikant korrelation med R, varav den valda prediktorn gav det bättre resultatet. Orsaken är att denna är förstärkt i bortfallsmekanismen. Kombinationen prediktorer som föreslås av van Buuren et al. (1999), X R,Y,A, förväntas kunna minska både biasen och variansen. I Tabell 6 redovisas de valda prediktorerna och deras fördelning med avseende på studievariabeln och det associerade förväntade bortfallet: 21

22 (%) X R X R X Y X Y (tillhör år) (tillhör ej år) (har körkort) (har ej körkort) Total X A Kvinna Man Kvinna Man Kvinna Man Kvinna Man Kvinna Man Y=nej 12,5* 6,2 26,5 17,1 10,9 6,2 53,4 45,4 24,8 15,5 R=1 54,1** 61,7 33,8 33,6 37,1 38,7 34,6 34,4 36,3 37,7 * Andel kvinnor som inte känner till nollvisionen i vårt facit. ** Förväntad bortfallsandel bland kvinnor 25-54, baserat på 1000 simuleringar. R=0 innebär ej respons, d.v.s. bortfall Tabell 6: Andelar nej-svar för Y och förväntad andel bortfall. Andelen nej-svar på frågan Känner du till nollvisionen respektive förväntad andel bortfall fördelat på kvinnor och män. Vi kan se att prediktorerna för R har en förhållandevis hög förväntad andel bortfall, vilket är önskvärt eftersom vi skruvade upp denna i vår bortfallsmekanism. När det gäller studievariabeln Y är det förväntade bortfallet mer jämt fördelat vilket indikerar att det är mindre risk för bias vid bortfall på denna variabel. Vidare är det exempelvis 10,9 procent av kvinnorna i vårt facit som har körkort som svarat att de inte känner till nollvisionen. Det medför att 89,1 procent av kvinnorna som har körkort har svarat ja på frågan. Denna fördelning skiljer sig från hur fördelningen ser ut i gällande kvinnor som ej har körkort. Fördelningen skiljer sig också i jämförelse med totala andelen kvinnor som svarat nej. Att inneha körkort är med andra ord relaterat till respondentens kännedom om Y. Nämnas bör att Cramer s V som Tabell 5 redovisar utgår från ett av de tusen simulerade bortfallen, medan den förväntade bortfallsandelen i Tabell 6 baseras på 1000 körningar vilket medför att resultatet i Tabell 6 kan betraktas som säkrare Beräkning av egenskaper hos våra estimatorer Medelkvadratfelet beräknade vi enligt formeln MSE = (θ g θ) 2 g=1 (7) där 1000 θ g = θ b,g g=1 (8) är det skattade medelvärdet för θ b,g. I ord uttryckt har vi medelvärdet av medelvärdet för de skattade andelana, det vill säga medelvärdet från de tusen simuleringarna. I uppsatsen använder vi RMSE = MSE. Biasen gavs av BIAS = (θ g θ) g=1 (9) 22

23 vilket i ord uttryckt är de skattade andelarna från simulationen minus den faktiska andelen i vårt facit summerade och sedan dividerat med antalet körningar. Variansen beräknades enligt VAR = (θ g θ f g=1 f=1 som i ord är det summerade skattade medelvärdet för andelarna minus medelvärdet av medelvärdet för de skattade andelarna från våra simuleringar upphöjt till två, samt dividerat med antalet körningar. 3.3 Resultat Tabell 2 visar andelen kvinnor respektive mäns kännedom om nollvisionen, så som fördelningen såg ut i vårt facit. Nedan redovisas resultaten av de tusen simuleringarna för de skattade andelarna som inte kände till nollvisionen. Andelen totalt som inte känner till nollvisionen Prediktorer Modell Skattad andel Bias Var RMSE CCA 20,83 0,68 0,65 0,94 1a X R Modell 1 20,35 0,20 0,64 0,67 1b X Y Modell 2 20,42 0,27 0,56 0,62 1c X A Modell 3 20,75 0,60 0,64 0,88 X R,Y Modell 4 20,45 0,30 0,56 0,63 X R,A Modell 5 20,38 0,23 0,63 0,66 X Y,A Modell 6 20,43 0,28 0,56 0,63 X R,Y,A Modell 7 20,44 0,29 0,56 0,63 Tabell 7: Resultat av simulering, andelen totalt som inte kände till nollvisionen. ) 2 (10) Andelen kvinnor som inte känner till nollvisionen Skattad Prediktorer Modell andel Bias Var RMSE CCA 25,47 0,67 0,96 1,17 X R Modell 1 23,40-1,40 0,81 1,62 X Y Modell 2 24,04-0,76 0,73 1,06 1c X A Modell 3 25,35 0,55 0,97 1,11 X R,Y Modell 4 24,07-0,73 0,72 1,03 2a X R,A Modell 5 25,04 0,24 0,95 0,98 2b X Y,A Modell 6 25,08 0,28 0,86 0,90 3 X R,Y,A Modell 7 25,06 0,26 0,86 0,89 Tabell 8: Resultat av simulering, andelen kvinnor som inte kände till nollvisionen. 23

24 Andelen män som inte känner till nollvisionen Skattad Prediktorer Modell Bias Var RMSE andel CCA 16,20 0,70 0,82 1,08 X R Modell 1 17,30 1,80 0,70 1,93 X Y Modell 2 16,80 1,30 0,59 1,43 1c X A Modell 3 16,15 0,65 0,81 1,04 X R,Y Modell 4 16,84 1,34 0,60 1,47 2a X R,A Modell 5 15,72 0,22 0,78 0,81 2b X Y,A Modell 6 15,79 0,29 0,71 0,76 3 X R,Y,A Modell 7 15,83 0,33 0,71 0,78 Tabell 9: Resultat av simulering, andelen män som inte kände till nollvisionen. Noteringarna 1a, 1b, 1c, 2a, 2b och 3 till vänster om Tabell 7-9 indikerar olika steg i analysen. Vi börjar analysen i steg 1 i tabell 7 som gäller på total nivå. I steg 2 flyttas fokus till Tabell 8 och 9 och uppdelningen i grupperna kvinnor och män. Vilka effekter prediktorerna förväntas ge visas i Tabell 4 tidigare i uppsatsen Steg 1 inkludering av en prediktor Vi utgår från CCA som referensmodell. I steg 1 imputerar vi med en prediktor. I Tabell 7 där resultatet beskrivs totalt sett ser vi att samtliga modeller i steg 1 presterar bättre än CCA. Steg 1a: Prediktorn som tar hänsyn till korrelationen med responsindikatorn (X R ) ger lägst bias. Steg 1b: Prediktorn (X Y ) ger bäst effekt på variansen och på RMSE. Steg 1c: Prediktorn som ingår i analysmodellen ger sämre resultat än prediktorer som tar hänsyn till korrelationen med Y och prediktorn som tar hänsyn till korrelation med R. Detta är som väntat (se Tabell 4). (X R ) och (X A ) ska båda påverka bias, och eftersom prediktorn (X R ) i steg 1a har den starkare korrelationen med bortfallsindikatorn av de två prediktorerna så ger den en större effekt på bias. Det är endast (X Y ) av de tre prediktorerna som förväntas påverkar variansen, detta återspeglas i steg 1b. Steg 1c då endast analysmodellens variabel inkluderas i imputeringsmodellen ger ett sämre resultat än de två föregående prediktorerna. Dock ses att bias reduceras i båda tabell 8 och 9, vilka är uppdelade just efter kön, i förhållande till CCA. Även reduktionen här är dock måttlig. Detta avspeglar att det är viktigt att ta hänsyn till korrelationerna vilket teorin säger Steg 2 inkludering av två prediktorer I steg 1c provade vi att imputera endast med prediktorn som inkluderades i analysmodellen, det vill säga kön. Från detta steg lägger vi nu till en prediktor som valts med hänseende till korrelationen med antingen R eller Y. När detta sker ser vi att både varians och bias förbättras, så som förväntat. 24

25 Steg 2a: Vi har variabeln i analysmodellen samt lägger till en prediktor som korrelerar med bortfallsindikatorn. Vi ser att biasen sänks avsevärt. För kvinnor sänks biasen från 0,55 med endast X A inkluderad till 0,24 i steg 2a (se Tabell 8). För männen är reduceringen av bias ännu större, från 0,65 till 0,22. Detta beror troligtvis på att vi har ett större förväntat bortfall på män än på kvinnor som tillhör ålderskategorin år (X R )(se Tabell 6). Då prediktorn korrelerar med R ser vi att imputeringen ger störst effekt i den kategori som har det största förväntade bortfallet. Gällande variansen är reduceringen liten för både gruppen kvinnor och gruppen män. Minskingen av RMSE som kan observeras i detta steg kan alltså främst relateras till den minskade biasen. Prediktorn som korrelerar med bortfallet ger en större effekt på bias än prediktorn som korrelerar med studievariabeln. Bortfall kan inverka negativt på bias varför en imputering med hänsyn till bortfallsindikatorn ger den bättre effekten. Steg 2b: Vi ser att biasen reduceras även här för både kvinnor och män, men inte riktigt lika mycket som i föregående steg. Effekten på variansen är större; för gruppen kvinnor minskar variansen från 0,97 till 0,86 och för gruppen män från 0,81 till 0,71. Detta är väntat då prediktorerna i Modell 6 (X Y,A ) korrelerar med studievariabeln samt inkluderar variabeln i analysmodellen. Det är studievariabeln som relaterar till variansen, varför det är naturligt att prediktorn som korrelerar med studievariabeln ger bäst effekt på variansen. Den minskning av RMSE som ses i steg 2b beror därför främst på reduceringen av variansen Steg 3 inkludering av tre prediktorer I steg 3 inkluderas alla tre prediktorer, såsom van Buuren et al. (1999) rekommenderar (Modell 7). I våra simuleringar är Modell 7 bäst och näst bäst. Resultatet följer de förväntade egenskaperna på så vis att bias, MSE och varians blir lägre jämfört med CCA. För gruppen kvinnor är variansen nu lägre jämfört med steg 2a då bara korrelationen med studievariabeln tillsammans med variabeln i analysmodellen beaktades. Variansen har minskat från 0,95 till 0,86. Biasen försämras dock jämfört med 2a medan den förbättras jämfört med 2b. För gruppen kvinnor ser vi en liten förbättring med avseende på en lägre RMSE. Eftersom vi har få simuleringar kan siffrorna vara lite osäkra vid små skillnader. För gruppen män är RMSE förbättrad bara jämfört med steg 2a. Biasen är större jämfört med både steg 2a och steg 2b. Variansen har förbättras jämfört med 2a men är oförändrad jämfört med 2b Konklusion Som väntat fungerar CCA sämst och ger störst bias, MSE, och varians totalt sett. Enligt Little och An (2004) bör samvariationen mellan prediktorerna och R respektive Y vara starka för att se både minskad varians och minskad bias. Trots att inga av associationerna mellan våra variabler var särskilt stark (samtliga hade Cramer s V < 0.5 ) så uppstår den effekt som van Buuren et al. (1999) talar om. Tittar vi i Tabell 6 med fördelningar ser sambanden dock inte så svagt ut. Gränserna för vad som anses starkt gällande Cramer s V kan skilja sig åt, i vår undersökning kanske gränsen som nämns av Sas Institute inte är träffande. Väntat var att X R,Y,A skulle leda till lägre bias, MSE och varians jäm- 25

Visa mer