MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se
Översikt 1. Introduktion till problemet 2. Enkla metoder att hantera missing data 3. Multipel imputation 4. Fördelar, nackdelar, tips och exempel 2011 01 27 2
1. Introduktion till problemet 2011 01 27 3
Bekant situation? Hur hanterar DU detta problem vid modellering? 2011 01 27 4
Complete case analysis Default i de flesta programpaket Ineffektivt utnyttjande av data Bias? 2011 01 27
Varför saknas data? 2011 01 27 6
Orsaker Samlades aldrig in avsiktligt (design) eller oavsiktligt Förlorades Prov togs med inget analyssvar Tappade provrör Felaktig mätning Tinade prov (dålig DNA kvalitet) Dåligt kalibrerat mätinstrument 2011 01 27 7
2011 01 27 Spelar det någon roll varför data saknas?
Missing data mekanismer Missing completely at random (MCAR) Missing at random (MAR) Missing not at random (MNAR) 2011 01 27 9
Missing completely at random (MCAR) M = P(data missing) beror varken på observerade eller saknade data. Observerade data M Missing data Ex: Blodprov som tappats i golvet 2011 01 27 10
Missing at random (MAR) M = P(data missing) beror på observerade data men INTE på de okända saknade mätvärdena Observerade data M Missing data Ex: Högre sannolikhet att blodtrycket mäts på äldre individer. Ålder mäts. 2011 01 27 11
Missing not at random (MNAR) M = P(data missing) beror på både observerade data och de okända saknade mätvärdena Observerade data M Missing data Ex: Individer med högt blodtryck har högre sannolikhet att komma med i stickprovet än andra individer av samma ålder 2011 01 27 12
Hur skiljer man på MCAR, MAR och MNAR? Förslag? Att beskriva data räcker inte Kännedom om datainsamlingsprocessen nödvändig MCAR vs MAR Undersök mönster i missing data Kan vissa variabler prediktera missingness MAR vs MNAR Mätning av fler förklarande variabler (från MNAR mot MAR) 2011 01 27 13
2011 01 27 Enkla imputationsmetoder
3 Mean Imputation Mean Imputation Y 2 1 0-1 -2-2 -1 0 1 2 x Observed Imputed Ersätt alla saknade värden för Y med medelvärdet för Y Variansen i Y underskattas Associationer kan förvrängas Bias i parameterskattningar (speciellt under MNAR) 2011 01 27
3 Regression Imputation 2 Regression 1 Y Imputation 0-1 -2-2 -1 0 1 2 x Observed Imputed Anpassa en regressionsmodell till fullständigt observerade data Använd denna för att prediktera saknade värden Bättre Associationer mellan variabler bibehålls Korrelationer överskattas 2011 01 27
3 Stochastic Imputation Stokastisk imputation Y 2 1 0-1 -2-2 -1 0 1 2 x Observed Imputed Addera ett slumpmässigt normalfördelat fel till det predikterade värdet Ännu lite bättre 2011 01 27
Multipel Imputation 2011 01 27 2011 01 21 18
Idé Utnyttja korrelationsstrukturen i data Använd stokastisk imputation för att skapa m fullständiga imputerade dataset Analysera varje dataset separat Kombinera resultaten (Rubins regler) 2011 01 27
MICE 2011 01 27 2011 01 21 20
Multiple Imputation by Chained Equations Van Buuren et al. 1999 Implementerat i Stata av Patrick Royston (uvis/ice) Univariat: X 1 har missing values (förutsätts vara MAR) X 2,, X k fullständigt observerade Anpassa regression av X 1 på X 2,, X k (fullständiga data) Imputera de saknade X 1 -värdena genom slumpmässig dragning från fördelningen för oobserverade data givet observerade data Normalfördelade slumpfel förutsätts Proper imputation Beaktar både estimations- och prediktionsfel 2011 01 27
MICE Multivariat Missing values för mer än en variabel 1. Fyll i alla hål helt slumpmässigt (initialisera) 2. Univariat Stok. Imp. Regression av X 1 på X 2,, X k Univariat Stok. Imp. Regression av X 2 på övriga Univariat Stok. Imp. Regression av X k på övriga 3. Upprepa cykeln i steg 2 cirka 10 gånger. Detta ger ett imputerat dataset 4. Upprepa steg 1 3 m gånger 2011 01 27
Regressionsmodeller i MICE Kontinuerliga variabler imputeras med Linjär Regression Variabeltransformation kan vara nödvändig Binära variabler Logistisk regression Kategoriska data > 2 klasser Multinomial logistisk regression Ordnade kategoriska data Ordnad logistisk regression 2011 01 27
Några kommentarer Imputationsmetoder som bygger på antaganden om multivariata normalfördelningar vanligast i statistikprogrampaket (Ex: mi sviten i Stata) Predictive Mean Matching (PMM) finns implementerat i Stata. 2011 01 27 Idé: Hitta individer som i någon listig mening är lika och ersätt saknade kovariatvärden med närmsta grannens värden. Fördel Aldrig orimliga prediktiktioner Fungerar ofta bra vid skeva fördelningar
Bör utfallsvariabeln Y betraktas som en variabel i mängden vid imputation av kovariatvärden? 2011 01 27 25
Svaret är ja! Om utfallsvariabeln Y ej med i imputationsmodellen så underskattas associationen mellan kovariaterna och utfallsvariabeln Ingen association alls mellan Y och kovariaterna i den del av data som imputerats om Y inte beaktas vid imputation Associationen späds alltså ut vid felaktig imputation Kan leda till bias i parameterskattningar Moons et al. 2006 bra exempel 2011 01 27
4 Observerade data: X MAR 2 Y 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Observationer för vilka X saknas Sann regression 2011 01 27
4 Y ej i imputationsmodellen 2 Y 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Imp. utan hänsyn till Y Sann regression Biased regression 2011 01 27 28
4 Y i imputationsmodellen 2 Y 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Imp. med hänsyn till Y Sann regression Unbiased regression 2011 01 27 29
Hur imputerar man överlevnadsdata? 2011 01 27 2011 01 21 30
Congenialitet Imputationsmodellen bör matcha analysmodellen Om data skall analyseras med Cox regression bör man ta med Nelson Aalen skattningen av den kumulativa hazarden och censureringsindikatorn i imputationsmodellen Idé imputera en gång per projekt 2011 01 27 31
Ett exempel 2011 01 27 2011 01 21 32
på hur illa det kan gå om man använder MI okritiskt Antal individer i studien: 1,280,000 + 610,000 i en valideringskohort Huvudresultat: Högt kolesterol ingen riskfaktor för kardiovaskulär sjukdom 2011 01 27 2011 01 21 33
Vad gick snett? Kolesterolvariabeln (en kvot, total/hdl) var extremt skevfördelad. Täljare och nämnare imputerades separat NA skattning ej med i imputationsmodellen 70% missing för den primära variabeln Problemen hade upptäckts om fördelningarna för imputerade och fullständiga data hade jämförts HR = 1.001; 95% CI: 0.999 1.002 i felaktig analys HR = 1.17; 95% CI: 1.14 1.20 i korrigerad analys 2011 01 27 34
Några tumregler Lär känna dina data Studera mönster i missing data Jämför imputerade och observerade värden Jämför MI analys med complete case analys Alla variabler i analysmodellen skall vara med i imputationsmodellen 2011 01 27 35
Mer info om MI 2011 01 27 36
Tack till: MRC, Cambridge Linn - för foton Er - för visat intresse 2011 01 27 2011 01 21 37