MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data



Relevanta dokument
MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Ekonomisk statistik 2 Economic statistics 2. Imputering

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Hur skriver man statistikavsnittet i en ansökan?

F19, (Multipel linjär regression forts) och F20, Chi-två test.

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

F13 Regression och problemlösning

Analytisk statistik. Tony Pansell, optiker Universitetslektor

InStat Exempel 4 Korrelation och Regression

Tentamen i Matematisk statistik Kurskod S0001M

Parade och oparade test

Tentamen i matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Kandidatuppsats. Nr 2014:1. Prediktorer i imputeringsmodellen. Statistiska institutionen. Anna-Karin Oscarsson och Anni Jonsson Juho

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F3

Lektionsanteckningar 11-12: Normalfördelningen

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Datakvalitet. Hva duger data til? Jonas Ranstam

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

F9 Konfidensintervall

Statistik B Regressions- och tidsserieanalys Föreläsning 1

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Föreläsning 12: Regression

10.1 Enkel linjär regression

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Föreläsning G60 Statistiska metoder

Medicinsk statistik II

Tentamen i Matematisk statistik Kurskod S0001M

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Bortfallsproblematik ur ett metodperspektiv

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Exempel 1 på multipelregression

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

OBS! Vi har nya rutiner.

F9 SAMPLINGFÖRDELNINGAR (NCT

Metod och teori. Statistik för naturvetare Umeå universitet

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Matematisk statistik för D, I, Π och Fysiker

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Laboration 2: Styrkefunktion samt Regression

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Examinationsuppgifter del 2

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Stokastiska processer med diskret tid

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Regressions- och Tidsserieanalys - F7

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Bayesiansk statistik, 732g43, 7.5 hp

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Industriell matematik och statistik, LMA /14

Statistik 1 för biologer, logopeder och psykologer

Tentamen MVE301 Sannolikhet, statistik och risk

Regressions- och Tidsserieanalys - F4

ÖVNINGSUPPGIFTER KAPITEL 2

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Läs noggrant informationen nedan innan du börjar skriva tentamen

7.3.3 Nonparametric Mann-Whitney test

Multivariabel statistik

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Patrik Pavlov & Nils-Henrik Jansson

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Höftledsdysplasi hos dansk-svensk gårdshund

Transkript:

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se

Översikt Introduktion till problemet Enkla metoder att hantera missing data Multipel imputation Exempel och jämförelse med andra metoder 2

Introduktion till problemet 3

Antal fullständiga observationer Missing data Ansats 1 Complete case analysis 1000 Informationsförlust då enbart kompletta fall analyseras 10 variabler och 1000 observationer 900 800 700 600 0% 1% 2% 3% 4% 5% Genomsnittlig andel missing Default i de flesta programpaket Ineffektivt utnyttjande av data Kan leda till bias i skattningar och SE 4

Varför saknas data? 5

Ex: Saknade blodtrycksvärden Sköterskan glömde att ta blodtrycket Nedtecknat blodtryck oläsbart Blodtryck tas på alla äldre men bara på ett urval av de yngre Mätning endast om vissa symptom Mätning underkänd Dåligt kalibrerat mätinstrument 6

Spelar det någon roll varför data saknas? 7

Missing data-mekanismer Missing completely at random (MCAR) Missing at random (MAR) Missing not at random (MNAR) 8

Missing completely at random (MCAR) M = P(data missing) beror varken på observerade eller saknade data. Observerade data M Missing data Ex: Blodprov som tappats i golvet 9

Missing at random (MAR) M = P(data missing) beror på observerade data men INTE på det okända saknade mätvärdet Observerade data M Missing data Ex: Högre sannolikhet att blodtrycket mäts på äldre individer. Ålder mäts. 10

Missing not at random (MNAR) M = P(data missing) beror på både observerade data och det okända saknade mätvärdet Observerade data M Missing data Ex: Individer med högt blodtryck har högre sannolikhet att komma med i stickprovet än andra individer av samma ålder 11

Hur skiljer man på MCAR, MAR och MNAR? Att beskriva data räcker inte Kännedom om datainsamlingsprocessen nödvändig MCAR vs MAR Undersök mönster i missing data Kan vissa variabler prediktera missingness MAR vs MNAR Mätning av fler förklarande variabler (från MNAR mot MAR) 12

Enkla imputationsmetoder 13

Y Mean Imputation 3 2 1 0 Mean Imputation -1-2 -2-1 0 1 2 x Observed Imputed Ersätt alla saknade värden för Y med medelvärdet för Y Variansen i Y underskattas Associationer kan förvrängas Bias i parameterskattningar och SE (speciellt under MNAR) 14

Y 3 Regression Imputation Regression Imputation 2 1 0-1 -2-2 -1 0 1 2 x Observed Imputed Anpassa en regressionsmodell till fullständigt observerade data Använd denna för att prediktera saknade värden Bättre Associationer mellan variabler bibehålls Korrelationer överskattas 15

Y Stokastisk imputation 3 2 1 0 Stochastic Imputation -1-2 -2-1 0 1 2 x Observed Imputed Addera ett slumpmässigt normalfördelat fel till det predikterade värdet Ännu lite bättre 16

Multipel Imputation 17

Idé Utnyttja korrelationsstrukturen i data Använd stokastisk imputation för att skapa m fullständiga imputerade dataset Analysera varje dataset separat Kombinera resultaten (Rubins regler) 18

MICE 19

Multiple Imputation by Chained Equations Van Buuren et al. 1999 Implementerat i Stata av Patrick Royston (uvis/ice) Univariat: X 1 har missing values (förutsätts vara MAR) X 2,, X k fullständigt observerade Anpassa regression av X 1 på X 2,, X k (fullständiga data) Imputera de saknade X 1 -värdena genom slumpmässig dragning från fördelningen för icke observerade data givet observerade data Normalfördelade slumpfel förutsätts Proper imputation Beaktar både estimations- och prediktionsfel 20

MICE - Multivariat Missing values för mer än en variabel 1. Fyll i alla hål helt slumpmässigt (initialisera) 2. Univariat Stok. Imp. Regression av X 1 på X 2,, X k Univariat Stok. Imp. Regression av X 2 på övriga Univariat Stok. Imp. Regression av X k på övriga 3. Upprepa cykeln i steg 2 cirka 10 gånger. Detta ger ett imputerat dataset 4. Upprepa steg 1-3 m gånger (m = 3-50) 21

Regressionsmodeller i MICE Kontinuerliga variabler imputeras med Linjär Regression Variabeltransformation kan vara nödvändig Binära variabler Logistisk regression Kategoriska data > 2 klasser Multinomial logistisk regression Ordnade kategoriska data Ordinal logistisk regression mi impute chained i Stata 12 22

Några kommentarer Antagande om multivariat normalfördelning mi impute mvn i Stata 12 Fungerar sämre än MICE för kategoriska data Predictive Mean Matching (PMM) mi impute pmm i Stata 12 Semiparametrisk metod Prediktera missing value med regressionsmodell Vilka verkliga observationer ligger närmast denna prediktion (knn)? Välj slumpmässigt en av dessa Fördel: Aldrig orimliga prediktioner Fungerar ofta bra vid skeva fördelningar 23

Bör utfallsvariabeln Y betraktas som en variabel i mängden vid imputation av kovariatvärden? 24

Svaret är ja! Om utfallsvariabeln Y ej med i imputationsmodellen så underskattas associationen mellan kovariaterna och utfallsvariabeln Ingen association alls mellan Y och kovariaterna i den del av data som imputerats om Y inte beaktas vid imputation Associationen späds alltså ut vid felaktig imputation Kan leda till bias i parameterskattningar Moons et al. 2006 bra exempel 25

Y 4 Observerade data: X MAR 2 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Observationer för vilka X saknas Sann regression 26

Y 4 Y ej i imputationsmodellen 2 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Imp. utan hänsyn till Y Sann regression Biased regression 27

Y 4 Y i imputationsmodellen 2 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Imp. med hänsyn till Y Sann regression Unbiased regression 28

Hur bör överlevnadsdata imputeras? 29

Congenialitet Imputationsmodellen bör matcha analysmodellen Om data skall analyseras med Cox-regression bör man ta med Nelson-Aalen-skattningen av den kumulativa hazarden och händelseindikatorn i imputationsmodellen Idé: imputera en gång per projekt 30

Ett exempel 31

Bröstcancer tid till fjärrspridning N=1314 303 har fått fjärrmetastas Prognosfaktorer Antal positiva lymfkörtlar Diagnosålder (år) Tumörstolek (mm) Histologisk grad (1-3) Östrogenreceptorstatus (+ vs -) 32

Resultat av Cox-regression Faktor HR 95% CI P Antal positiva körtlar 1.065 1.049-1.082 <0.001 Ålder 0.979 0.969-0.988 <0.001 Storlek 1.018 1.010-1.026 <0.001 Grad 1.899 1.543-2.338 <0.001 ER-status + vs - 0.833 0.647-1.073 0.16 Nu simulerar jag olika bortfallsmönster för ER beroende på grad 33

MCR 5% bortfall för ER i grad 1-2 och 20% i grad 3 Grad kan prediktera ER-missingness Complete case analysis Före bortfall (n=1314) Faktor HR 95% CI P Antal positiva körtlar 1.018 1.010-1.026 <0.001 Ålder 0.979 0.969-0.988 <0.001 Storlek 1.018 1.010-1.026 <0.001 Grad 1.899 1.543-2.338 <0.001 ER-status + vs - 0.833 0.647-1.073 0.16 Efter bortfall (n=1092) HR 95% CI P 1.061 1.043-1.079 <0.001 0.976 0.965-0.988 <0.001 1.026 1.016-1.037 <0.001 1.752 1.384-2.219 <0.001 0.858 0.634-1.162 0.32 34

Justera för missingness i analysen? Inför missing som en tredje ER-kategori Parametrisera ER-effekten som 2 dummyvariabler ER+ vs ER- respektive ER-missing vs ER- Därmed kan vi få med alla obs i analysen Före bortfall Faktor HR 95% CI P Antal positiva körtlar 1.018 1.010-1.026 <0.001 Ålder 0.979 0.969-0.988 <0.001 Storlek 1.018 1.010-1.026 <0.001 Grad 1.899 1.543-2.338 <0.001 ER-status + vs - 0.833 0.647-1.073 0.16 Efter justering för bortfall HR 95% CI P 1.066 1.049-1.083 <0.001 0.979 0.969-0.988 <0.001 1.017 1.010-1.025 <0.001 1.927 1.546-2.401 <0.001 0.890 0.660-1.200 0.44 35

MICE 20 imputerade dataset Imputation med logistisk regressionsmodell Nelson-Aalen skattningen och händelseindikatorn med i modellen Före bortfall Faktor HR 95% CI P Antal positiva körtlar 1.018 1.010-1.026 <0.001 Ålder 0.979 0.969-0.988 <0.001 Storlek 1.018 1.010-1.026 <0.001 Grad 1.899 1.543-2.338 <0.001 ER-status + vs - 0.833 0.647-1.073 0.16 Skattningar efter MI HR 95% CI P 1.065 1.049-1.082 <0.001 0.979 0.969-0.988 <0.001 1.017 1.010-1.026 <0.001 1.905 1.542-2.354 <0.001 0.837 0.627-1.118 0.23 36

Sammanfattning Lär känna dina data Studera mönster i missing data Imputera inte slentrianmässigt Väl genomtänkt congenial imputation Jämför imputerade och observerade värden Jämför MI-analys med complete case-analys Alla variabler i analysmodellen skall vara med i imputationsmodellen även den beroende 37

Mer info om MI 38

Tack till: MRC, Cambridge Linn - för foton Er - för visat intresse 39