MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Relevanta dokument
MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Ekonomisk statistik 2 Economic statistics 2. Imputering

InStat Exempel 4 Korrelation och Regression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Hur skriver man statistikavsnittet i en ansökan?

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Bortfallsproblematik ur ett metodperspektiv

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Medicinsk statistik II

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning 12: Regression

Statistik 1 för biologer, logopeder och psykologer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

F9 Konfidensintervall

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Kandidatuppsats. Nr 2014:1. Prediktorer i imputeringsmodellen. Statistiska institutionen. Anna-Karin Oscarsson och Anni Jonsson Juho

Datakvalitet. Hva duger data til? Jonas Ranstam

Parade och oparade test

F13 Regression och problemlösning

Matematisk statistik för D, I, Π och Fysiker

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Medicinsk statistik II

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistik 1 för biologer, logopeder och psykologer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Matematisk statistik för B, K, N, BME och Kemister

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

LABORATION 1. Syfte: Syftet med laborationen är att

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

10.1 Enkel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Studietyper, inferens och konfidensintervall

Föreläsning G60 Statistiska metoder

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Tentamen MVE301 Sannolikhet, statistik och risk

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

2.1 Minitab-introduktion

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 4: Konfidensintervall (forts.)

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Stokastiska processer med diskret tid

Laboration 2: Styrkefunktion samt Regression

Tentamen MVE301 Sannolikhet, statistik och risk

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Examinationsuppgifter del 2

Metod och teori. Statistik för naturvetare Umeå universitet

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Introduktion till kausala effekter

Statistisk analys av komplexa data

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Regressions- och Tidsserieanalys - F4

7.3.3 Nonparametric Mann-Whitney test

Tentamen i Matematisk statistik Kurskod S0001M

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Svensk Dialysdatabas. Blodtryck och blodtrycksbehandling PD. Klinikdata hösten 2005 Översikt åren

Bayesiansk statistik, 732g43, 7.5 hp

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

7.5 Experiment with a single factor having more than two levels

Statistik 1 för biologer, logopeder och psykologer

Transkript:

MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se

Översikt 1. Introduktion till problemet 2. Enkla metoder att hantera missing data 3. Multipel imputation 4. Fördelar, nackdelar, tips och exempel 2011 01 27 2

1. Introduktion till problemet 2011 01 27 3

Bekant situation? Hur hanterar DU detta problem vid modellering? 2011 01 27 4

Complete case analysis Default i de flesta programpaket Ineffektivt utnyttjande av data Bias? 2011 01 27

Varför saknas data? 2011 01 27 6

Orsaker Samlades aldrig in avsiktligt (design) eller oavsiktligt Förlorades Prov togs med inget analyssvar Tappade provrör Felaktig mätning Tinade prov (dålig DNA kvalitet) Dåligt kalibrerat mätinstrument 2011 01 27 7

2011 01 27 Spelar det någon roll varför data saknas?

Missing data mekanismer Missing completely at random (MCAR) Missing at random (MAR) Missing not at random (MNAR) 2011 01 27 9

Missing completely at random (MCAR) M = P(data missing) beror varken på observerade eller saknade data. Observerade data M Missing data Ex: Blodprov som tappats i golvet 2011 01 27 10

Missing at random (MAR) M = P(data missing) beror på observerade data men INTE på de okända saknade mätvärdena Observerade data M Missing data Ex: Högre sannolikhet att blodtrycket mäts på äldre individer. Ålder mäts. 2011 01 27 11

Missing not at random (MNAR) M = P(data missing) beror på både observerade data och de okända saknade mätvärdena Observerade data M Missing data Ex: Individer med högt blodtryck har högre sannolikhet att komma med i stickprovet än andra individer av samma ålder 2011 01 27 12

Hur skiljer man på MCAR, MAR och MNAR? Förslag? Att beskriva data räcker inte Kännedom om datainsamlingsprocessen nödvändig MCAR vs MAR Undersök mönster i missing data Kan vissa variabler prediktera missingness MAR vs MNAR Mätning av fler förklarande variabler (från MNAR mot MAR) 2011 01 27 13

2011 01 27 Enkla imputationsmetoder

3 Mean Imputation Mean Imputation Y 2 1 0-1 -2-2 -1 0 1 2 x Observed Imputed Ersätt alla saknade värden för Y med medelvärdet för Y Variansen i Y underskattas Associationer kan förvrängas Bias i parameterskattningar (speciellt under MNAR) 2011 01 27

3 Regression Imputation 2 Regression 1 Y Imputation 0-1 -2-2 -1 0 1 2 x Observed Imputed Anpassa en regressionsmodell till fullständigt observerade data Använd denna för att prediktera saknade värden Bättre Associationer mellan variabler bibehålls Korrelationer överskattas 2011 01 27

3 Stochastic Imputation Stokastisk imputation Y 2 1 0-1 -2-2 -1 0 1 2 x Observed Imputed Addera ett slumpmässigt normalfördelat fel till det predikterade värdet Ännu lite bättre 2011 01 27

Multipel Imputation 2011 01 27 2011 01 21 18

Idé Utnyttja korrelationsstrukturen i data Använd stokastisk imputation för att skapa m fullständiga imputerade dataset Analysera varje dataset separat Kombinera resultaten (Rubins regler) 2011 01 27

MICE 2011 01 27 2011 01 21 20

Multiple Imputation by Chained Equations Van Buuren et al. 1999 Implementerat i Stata av Patrick Royston (uvis/ice) Univariat: X 1 har missing values (förutsätts vara MAR) X 2,, X k fullständigt observerade Anpassa regression av X 1 på X 2,, X k (fullständiga data) Imputera de saknade X 1 -värdena genom slumpmässig dragning från fördelningen för oobserverade data givet observerade data Normalfördelade slumpfel förutsätts Proper imputation Beaktar både estimations- och prediktionsfel 2011 01 27

MICE Multivariat Missing values för mer än en variabel 1. Fyll i alla hål helt slumpmässigt (initialisera) 2. Univariat Stok. Imp. Regression av X 1 på X 2,, X k Univariat Stok. Imp. Regression av X 2 på övriga Univariat Stok. Imp. Regression av X k på övriga 3. Upprepa cykeln i steg 2 cirka 10 gånger. Detta ger ett imputerat dataset 4. Upprepa steg 1 3 m gånger 2011 01 27

Regressionsmodeller i MICE Kontinuerliga variabler imputeras med Linjär Regression Variabeltransformation kan vara nödvändig Binära variabler Logistisk regression Kategoriska data > 2 klasser Multinomial logistisk regression Ordnade kategoriska data Ordnad logistisk regression 2011 01 27

Några kommentarer Imputationsmetoder som bygger på antaganden om multivariata normalfördelningar vanligast i statistikprogrampaket (Ex: mi sviten i Stata) Predictive Mean Matching (PMM) finns implementerat i Stata. 2011 01 27 Idé: Hitta individer som i någon listig mening är lika och ersätt saknade kovariatvärden med närmsta grannens värden. Fördel Aldrig orimliga prediktiktioner Fungerar ofta bra vid skeva fördelningar

Bör utfallsvariabeln Y betraktas som en variabel i mängden vid imputation av kovariatvärden? 2011 01 27 25

Svaret är ja! Om utfallsvariabeln Y ej med i imputationsmodellen så underskattas associationen mellan kovariaterna och utfallsvariabeln Ingen association alls mellan Y och kovariaterna i den del av data som imputerats om Y inte beaktas vid imputation Associationen späds alltså ut vid felaktig imputation Kan leda till bias i parameterskattningar Moons et al. 2006 bra exempel 2011 01 27

4 Observerade data: X MAR 2 Y 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Observationer för vilka X saknas Sann regression 2011 01 27

4 Y ej i imputationsmodellen 2 Y 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Imp. utan hänsyn till Y Sann regression Biased regression 2011 01 27 28

4 Y i imputationsmodellen 2 Y 0-2 -4 Missing 1 2 3 4 5 6 X Observerade data Imp. med hänsyn till Y Sann regression Unbiased regression 2011 01 27 29

Hur imputerar man överlevnadsdata? 2011 01 27 2011 01 21 30

Congenialitet Imputationsmodellen bör matcha analysmodellen Om data skall analyseras med Cox regression bör man ta med Nelson Aalen skattningen av den kumulativa hazarden och censureringsindikatorn i imputationsmodellen Idé imputera en gång per projekt 2011 01 27 31

Ett exempel 2011 01 27 2011 01 21 32

på hur illa det kan gå om man använder MI okritiskt Antal individer i studien: 1,280,000 + 610,000 i en valideringskohort Huvudresultat: Högt kolesterol ingen riskfaktor för kardiovaskulär sjukdom 2011 01 27 2011 01 21 33

Vad gick snett? Kolesterolvariabeln (en kvot, total/hdl) var extremt skevfördelad. Täljare och nämnare imputerades separat NA skattning ej med i imputationsmodellen 70% missing för den primära variabeln Problemen hade upptäckts om fördelningarna för imputerade och fullständiga data hade jämförts HR = 1.001; 95% CI: 0.999 1.002 i felaktig analys HR = 1.17; 95% CI: 1.14 1.20 i korrigerad analys 2011 01 27 34

Några tumregler Lär känna dina data Studera mönster i missing data Jämför imputerade och observerade värden Jämför MI analys med complete case analys Alla variabler i analysmodellen skall vara med i imputationsmodellen 2011 01 27 35

Mer info om MI 2011 01 27 36

Tack till: MRC, Cambridge Linn - för foton Er - för visat intresse 2011 01 27 2011 01 21 37