Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21

Relevanta dokument

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Kvantitativa metoder och datainsamling

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Ekonomisk statistik 2 Economic statistics 2. Imputering

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Bortfallsproblematik ur ett metodperspektiv

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 11: Mer om jämförelser och inferens

Multivariabel statistik

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning G60 Statistiska metoder

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Medicinsk statistik II

Datakvalitet. Hva duger data til? Jonas Ranstam

Kandidatuppsats. Nr 2014:1. Prediktorer i imputeringsmodellen. Statistiska institutionen. Anna-Karin Oscarsson och Anni Jonsson Juho

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Hur skriver man statistikavsnittet i en ansökan?

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Introduktion till kausala effekter

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden!

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

InStat Exempel 4 Korrelation och Regression

Att välja statistisk metod

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Statistisk försöksplanering

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Föreläsning 12: Regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

MVE051/MSG Föreläsning 14

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Hur hanterar man avvikande patienter? Estimander och analysmetoder i kliniska prövningar

Introduktion till statistik för statsvetare

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Statistik och epidemiologi T5

HSB BRF HAMNEN, ÅSIKTEN ETAPP TVÅ

ST-fredag epidemiologi och biostatistik 2017

HI1024 Programmering, grundkurs TEN

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Parade och oparade test

Binomialfördelning, två stickprov

Studietyper, inferens och konfidensintervall

Statistik och epidemiologi T5

Epidemiologi T5. Kursmål epidemiologi. Kursmål epidemiologi. Kunna förklara och använda grundläggande epidemiologiska begrepp

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Resultatet läggs in i ladok senast 13 juni 2014.

Demonstration av laboration 2, SF1901

F23 forts Logistisk regression + Envägs-ANOVA

Uppgift 1. f(x) = 2x om 0 x 1

Laboration 3: Urval och skattningar

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Statistiska metoder för säkerhetsanalys

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Bootstrapping i fall-/kontrollstudier av genetiska markörer

HYPOTESPRÖVNING sysselsättning

Finansiell statistik

Vad beror skillnaden på? Systematiska och slumpmässiga fel

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

DATORÖVNING 2: STATISTISK INFERENS.

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

Fel och fel. slumpmässiga och systema4ska fel i epidemiologiska studier Katja Fall Vetenskapligt förhållningssä>

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Grupp/Center-statistik. Terminologi/ordlista...2 Urval...3 Analystyper...4

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Svensk Dialysdatabas. Blodtryck och blodtrycksbehandling PD. Klinikdata hösten 2005 Översikt åren

Patrik Pavlov & Nils-Henrik Jansson

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Obligatorisk uppgift, del 1

10.1 Enkel linjär regression

Statistik 1 för biologer, logopeder och psykologer

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Kausalitet Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i:

Transkript:

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21

Inledning Saknat data finns alltid, åtminstone i stora registerstudier. Ett problem som måste hanteras på något sätt. Om man gör tokigt, kan två saker hända: Bias (gentemot ett tänkt, fullständigt dataset). Fel precision (för hög eller för låg).

Lär känna ditt data Börja med att försöka förstå varför data saknas! Vilka variabler brukar saknas samtidigt? Jämför individer med och utan missing m.a.p. t.ex. utfall. Tabeller eller logistisk regression med missing som utfall. Ha inte för bråttom!

Rubins terminologi Vad för sorts mekanism har gett upphov till missing? Exempelstudie: Är lågt blodtryck (BP) en riskfaktor för äldre? BP inte alltid uppmätt.

Rubin: MCAR, MAR Missing completely at random (MCAR): Att ett värde saknas beror på något helt externt. Ex: BP mättes inte för att apparaten var trasig. Missing at random (MAR): MCAR inom strata av observerat data. Ex: BP mättes mer sällan på gamla. Men bland dessa mättes det lika ofta på dem med lågt som med högt BP. MAR MCAR!

Rubin: MNAR Missing not at random (MNAR, informativ missing): Sannolikhet för missing beror på själva värdet. Ex: BP mättes mindre ofta på patienter med lågt BP, även bland de gamla. Svårt att hantera. Kräver externa antaganden eller sensitivitetsanalys. Kan inte skilja MAR från MNAR genom att titta på data. Kräver sakkunskap/antaganden.

MAR MCAR Vad göra? 1. Försök hitta igen det saknade datat. 2. Stryk variabler med mycket missing från analysen. 3. Complete case-analys (CCA): Kasta bort individer med missing. 4. Enkel imputation: Gissa ett värde. 5. Multipel imputation (MI): Gissa flera värden.

En simulering Låtsas studera effekt av hjärtsvikt på mortalitet med rökning som confounder: Rökning Hjärtsvikt OR 5 Död Prob Rökning saknas = 40% om hjärtsvikt och död 5% annars Simulera 5000 patienter. 516 saknar information om rökning (10.3%).

Hjärtsvikt Död Rökning Complete case-analys Stryk alla individer med någon missing. Fördelar: Enkelt att göra och förstå. Ingen bias om MCAR. Nackdelar: Bias om inte MCAR. Dålig precision om mycket data slängs. Kastar bort

Simulering: CCA Stryk de 516 patienterna utan data på rökning. Rökare Hjärtsvikt Död. Nej Nej Nej Ja Nej Nej Ja Ja. Nej Ja Resultat av logistisk regression: Variabel OR 95% CI Hjärtsvikt 3.03 2.58 3.57 Rökning 1.55 1.32 1.82 Kraftig bias för hjärtsvikt.

Hjärtsvikt Död Rökning Enkel imputation Gissa ett värde för saknat data. T.ex. Median/typvärde. Via prediktionsmodell. Last observation carried forward. Använder Använder! Fördelar: Ganska enkelt. Nackdelar: Hittar på data! Kan bli för smala (eller breda!) konfidensintervall. Kan ge bias om man gör det för enkelt.

Simulering: Enkel imputation Fyll i typvärde ( Nej) på rökning. Rökare Hjärtsvikt Död Nej Nej Nej Nej Ja Nej Nej Ja Ja Nej Nej Ja Resultat av logistisk regression: Variabel OR 95% CI Hjärtsvikt 4.97 4.29 5.75 Rökning 1.33 1.13 1.58 Mycket bättre. Viss bias för rökning.

Multipel imputation Gissa flera värden för saknat data. Skapa flera alternativa dataset utan missing. Oftast: Slumpa från prediktionsmodell. Hittar inte på data, utan bara fördelningar för saknat data (modellering). Variationen mellan dataseten speglar okunskapen om det sanna värdet.

Hjärtsvikt Död Rökning Multipel imputation Använder Skattar OR Saknat data något som skattas, inte något som ligger till grund för en skattning.

Multipel imputation Fördelar: Tar bort bias om MAR och korrekt imputationsmodell. Ger lagom precision (använder bara det data man faktiskt har). Nackdelar: Komplicerat, tar tid (programmering och CPU).

MI: Analys och poolning De imputerade dataseten analyseras var för sig. Det finns alltså aldrig ett poolat dataset. Sen poolar man resultaten. Hänsyn tas då till: Standardfel för varje imputation. Variation mellan imputationer. Hittar inte på data!

Sim: MI 1. Imputera Rökare Hjärtsvikt Död 2. Analysera Ursprungligt dataset Ja Nej Nej Nej Ja Nej Nej Ja Ja Nej Nej Ja Variabel OR 95% CI Hjärtsvikt 4.78 4.13 5.54 Rökning 1.57 1.35 1.83 Rökare Hjärtsvikt Död. Nej Nej Nej Ja Nej Nej Ja Ja. Nej Ja Rökare Hjärtsvikt Död Nej Nej Nej Nej Ja Nej Nej Ja Ja Nej Nej Ja Variabel OR 95% CI Hjärtsvikt 4.83 4.18 5.60 Rökning 1.58 1.35 1.84 3. Poola Variabel OR 95% CI Hjärtsvikt 4.81 4.11 5.61 Rökning 1.58 1.32 1.87 Biasen borta CI lite bredare Rökare Hjärtsvikt Död Nej Nej Nej Nej Ja Nej Nej Ja Ja Variabel OR 95% CI Hjärtsvikt 4.81 4.15 5.57 Rökning 1.59 1.36 1.85

MI: Val av prediktorer Vilka variabler ska man stoppa in i prediktionsmodellen? Åtminstone alla variabler som ska vara med i den kommande analysen, inklusive y. Gärna ytterligare variabler med prediktivt värde.

MI: Hur många imputationer? 5 imputationer duger nog gott i många sammanhang. Vissa experter: Lika många imputationer som man har procent individer med någon missing. Kanske lite konservativt?

När behöver man imputera? Harrells tumregler, baserat på andel individer med missing: 5%: Spelar inte så stor roll hur man gör. Duger nog med CCA eller enkel imputation. 5 15%: Enkel imputation nog OK, men multipel är bättre. 15%: Använd multipel imputation.

Vad kan man imputera? Tre sorters variabler: z: Confounder x: Huvudexponering y: Utfall z x y Alla dessa går att imputera. Man avstår dock ofta från att imputera y.

Vågar jag imputera? Kan kännas läskigt: Har vi verkligen MAR? Kan vi specificera en korrekt imputationsmodell? Men alternativet att kasta bort individer bygger på ännu starkare antaganden (MCAR).

Missing-kategori Alternativ idé: Inför en särskild kategori för saknat data. Ex: Rökning Nej, Ja, Okänt. Rekommenderas inte! Om rökning saknas för att patienten är död, så får Rökning = Okänt en stor prediktiv kraft, på bekostnad av andra variabler.

Missing-kategori Rökare Hjärtsvikt Död Okänt Nej Nej Nej Ja Nej Nej Ja Ja Okänt Nej Ja Variabel OR 95% CI Hjärtsvikt 4.01 3.45 4.68 Rökning Ja 1.53 1.30 1.80 Rökning Okänt 2.92 2.36 3.61 Viss bias för hjärtsvikt. Rökning Okänt ser farligt ut...

Sammanfattning Saknat data finns nästan alltid. Måste hanteras på något sätt. Multipel imputation är nog bäst. Tänkbara förenklingar (approximationer): Variabler med missing inte så viktiga: Enkel imputation. Inte så mycket missing: Complete case. Får man hitta på data? Nej, men man får imputera.