Datakvalitet. Hva duger data til? Jonas Ranstam jonas.ranstam@med.lu.se

Hva duger data til? Jonas Ranstam jonas.ranstam@med.lu.se Registercentrum Syd, Skånes Universitetssjukhus och Inst. f. kliniska vetenskaper, Lunds Universitet, Klinikgatan 22, 22185 Lund, Sverige 15 Jan 2015

Big data

Big data There are a lot of small data problems that occur in big data. They don t disappear because you ve got lots of the stuff. They get worse. David Spiegelhalter

Big data Statistics have never been cooler; it s never been more useful. It just seems to me te be a wonderful time to be a statistician. Brian Tarran

Detta föredrag Disposition Studiedesign, datainsamling och statistisk analys hänger samman. Här kommer fokus att ligga på data, främst datakvalitet. Vad är datakvalitet? Vad har bristande datakvalitet för konsekvenser? Hur kontrollerar jag datakvaliteten i mitt register? Diskussion

Vad är datakvalitet? Absolut definition Relevanta, fullständiga, korrekta och konsistenta data.

Vad är datakvalitet? Relativ definition Tillräckligt bra för att uppfylla användarens behov.

Vad är datakvalitet? Relativ definition Tillräckligt bra för att uppfylla användarens behov. Vad är tillräckligt bra?

Vad är datakvalitet? Relativ definition Tillräckligt bra för att uppfylla användarens behov. Vad är tillräckligt bra? Det beror på vad data ska användas till.

Bortfall Vad är konsekvensen av bortfall?

Två exempel: Vissa höftprotesreoperationer oregistrerade

Exempel 1. Skattning av 2-årig reoperationsrisk.

Exempel 1. Skattning av 2-årig reoperationsrisk Förutsättning: totalt i höftregistret under 2006 53 962 primäroperationer 819 reoperationer 819 Skattad reoperationsrisk: 53962 = 0.015 (95%Ki: 0.014-0.016) Antag att en oberoende underrsökning visar att 5% av genomförda reoperationer inte registreras.

Exempel 1. Skattning av 2-årig reoperationsrisk Skattad reoperationsrisk 819 53962 = 0.015 (95%Ki: 0.014-0.016) Bortfallskorrektion 5% bortfall ger en korrektionsfaktor på 1 1 0.05 Korrigerad skattad reoperationsrisk 819 53962 1.0526 = 0.016 (95%Ki: 0.015-0.017) dvs. 1.0526

Exempel 1. Skattning av 2-årig reoperationsrisk

Exempel 2. Rangordning av reoperationsrisker

Exempel 2. Rangordning av reoperationsrisker Beräkningar Monte-Carlo simulering för att bedöma möjliga konsekvenser (för rangordningen) av att 43 reoperationer genomförts men inte registrerats.

Exempel 2. Rangordning av reoperationsrisker

Registreringsfel Vad är konsekvensen av registreringsfel?

Registreringsfel Misclassification bias Systematiskt felaktiga forskningsfynd som uppstår vid bristande sensitivitet/specificitet i fastställning av exponering och/eller effekt. Felklassificeringen kan vara Non-differential Differential

Registreringsfel Non-differential misclassification bias Felklassificeringen är densamma i olika grupper. Exponering kan, t.ex. vara lika felklassificerad bland fall som kontroller. För binära variabler leder sådana fel till att skillnader underskattas.

Registreringsfel i binär variabel

Registreringsfel i binär variabel Differential misclassification bias I en fall-kontrollstudie kan den rapporterade exponeringen t.ex. skilja sig mellan fall och kontroller (t.ex. recall bias). Fenomenet kan både innebära att skillnader över- och underskattas.

Registreringsfel i binär variabel

Registreringsfel i kontinuerlig variabel Regression dilution bias Slumpmässiga mät-(och/eller registrerings-) fel i en kontinuerlig variabel manifesterar sig olika beroende på om felen finns i exponerings- eller utfallsvariabeln.

Registreringsfel i kontinuerlig variabel Fel i en utfallsvariabel Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig utfallsvariabel (t.ex. systoliskt blodtryck) ökar osäkerheten i parameterskattningar (bredare konfidensintervall). Ökad stickprovsstorlek kan kompensera förlusten av statistisk precision.

Registreringsfel i kontinuerlig variabel Fel i en exponeringsvariabel Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig exponeringsvariabel innebär underskattade parametrar (effektmått). Ökad stickprovsstorlek ger visserligen ökad precision, men minskar inte bias.

Registreringsfel Korrektionsmetoder För kategoriska variabler estimated misclassification probabilities markov models För kontinuerliga exponeringsvariabler regression calibration multiple imputation moment reconstruction simulation extrapolation

Misclassification and missing

Misclassification and imputation

Validering Hur kontrollerar jag datakvaliteten i mitt register?

Validering Tillvägagångssätt Kontroll av variablers fördelning (orimliga värden) Utvärdering av intern konsistens Adjudicering, eftergranskning, o.d. Jämförelser med källdata

Validering Validering Validering av alla data, som i en klinisk läkemedelsprövning, är ofta praktiskt omöjliga i ett register. Stickprovsundersökningar kan vara ett gott alternativ.

Stickprov och population

Stickprov och population Grunder I en valideringsundersökning av ett helt register kan man teoretiskt sett, om man bortser från konsekvenser av praktiska misstag, beräkna andelen korrekta värden för en viss variabel, π, direkt. I en urvalsvalidering får man istället skatta π, och skattningar, ˆπ i, är osäkera. Individuella variationer ger nämligen olika skattningar i olika urval. ˆπ i = π + ɛ i (1)

Obundet slumpmässigt urval Under vissa förutsättningar, som att varje element i populationen haft samma sannolikhet att ingå i urvalet, kan osäkerheten dock beräknas. E( ˆπ i ) = π (2) σ 2ˆπ i = ˆπ i(1 ˆπ i ) n i (3) z N(0, 1) (4) P( ˆπ i z α/2 σ ˆπi < π < ˆπ i + z α/2 σ ˆπi ) = 1 α (5)

Obundet slumpmässigt urval Om α = 0.05 är således urvalsfelet, ɛ i, med 95% sannolikhet mindre än 1.96 ˆπi (1 ˆπ i ) Osäkerheten beror alltså på ˆπ i, den skattade datakvaliteten n i, antal observationer n i

Obundet slumpmässigt urval Stickprovsstorlek Lämplig urvalsstorlek beror på hur stor osäkerhet man kan acceptera och vilken datakvalitet man skattar. Mindre urval ger alltid större osäkerhet.

Stickprovsstorlek Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt urval skatta prevalensen felregistrerade data. Halvt 95% konfidensintervall Prevalens 0,01 0,05 0,10 0,15 0,20 0,25 0,01 380 0,05 1825 73 0,10 3457 138 35 0,15 4898 196 49 22 0,20 6146 246 61 27 15 0,25 7203 288 72 32 18 12 0,30 8067 323 81 36 20 13 0,35 8739 350 87 39 22 14 0,40 9220 369 92 41 23 15 0,45 9508 380 95 42 24 15 0,50 9604 384 96 43 24 15

Komplikation 1. Ett register är en finit population Finitpopulation Ett stort urval (> 5%) från en finit population leder till överskattning av variansen och osäkerheten. En finitpopulationskorrektion, fpc, av variansen behövs då. fpc = N ni N 1 (6) Där n i är antalet observationer i urvalet och N antalet element i populationen. Med korrektion kan medelfelet av π i skrivas: ˆπ i (1 ˆπ i ) N ni σ ˆπi = (7) n i N 1

Komplikation 2. Begränsning av deltagande sjukhus Tvåstegsurval I praktiken innebär valideringsarbete ofta resor till olika kliniker för att på plats kunna jämföra registerade data med källdokument, t.ex. journalhandlingar. För att underlätta arbetet och begränsa reskostnader kan det vara fördelaktigt att begränsa antalet deltagande sjukhus. Man kan då t.ex. först göra ett (obundet slumpmässigt) urval av kliniker och därefter, inom varje klinik, ett andra (obundet slumpmässigt) urval av patienter. Även ett sådant tvåstegsförfarande påverkar emellertid variansskattningen.

Designeffekt Denna designeffekt på variansskattningen, def, kan skrivas: def = 1 + ρ(m 1) (8) Där m är medelantalet patienter per klinik och ρ klinikernas intraklasskorrelation (ICC). ρ = σ 2 b σ 2 b + σ2 w (9) Här är σ 2 b variansen mellan och σ2 w inom klinikerna.

Designeffekt Designeffekten kan användas för att beräkna hur mycket större ett tvåstegsurval måste vara för att ge samma statistiska precision som ett ettstegsurval. För beräkningen krävs, m, som beror på studiens design och intraklasskorrelationskoefficienten, ρ, som beror på hur klinikerna varierar i datakvalitet.

Hur hög är ICC?

Exempel 3. Obundet slumpmässigt urval av patienter från 97 sjukhus Andel felregistrerade = 5% Osäkerhet = ±5% Antal observationer =?

Hur många registreringar måste kontrolleras? Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt skatta prevalensen felregistrerade data. Konfidensintervall, halv bredd Prevalens 0,01 0,05 0,10 0,15 0,20 0,25 0,01 380 0,05 1825 73 0,10 3457 138 35 0,15 4898 196 49 22 0,20 6146 246 61 27 15 0,25 7203 288 72 32 18 12 0,30 8067 323 81 36 20 13 0,35 8739 350 87 39 22 14 0,40 9220 369 92 41 23 15 0,45 9508 380 95 42 24 15 0,50 9604 384 96 43 24 15

Exempel 3. Obundet slumpmässigt urval av patienter från 97 sjukhus Andel felregistrerade = 5% Osäkerhet = ±5% Antal observationer = 73 Ganska många sjukhus måste uppsökas.

Exempel 4. Samma undersökning med tvåstegsurval Obundet slumpmässigt urval = 73 Medelantal patienter per sjukhus = 50 Intraklasskorrelation = 0,10 Designeffekt =?

Hur stor är designeffekten Tabell: 2. Designeffekt vid tvåstegsurval Observationer Intraklasskorrelationskoefficient per 1:a urval 0 0,1 0,2 0,3 0,4 0,5 10 1,0 1,9 2,8 3,7 4,6 5,5 20 1,0 2,9 4,8 6,7 8,6 10,5 30 1,0 3,9 6,8 9,7 12,6 15,5 40 1,0 4,9 8,8 12,7 16,6 20,5 50 1,0 5,9 10,8 15,7 20,6 25,5 75 1,0 8,4 15,8 23,2 30,6 38,5 100 1,0 10,9 20,8 30,7 40,6 50,5 200 1,0 20,9 40,8 60,7 80,6 100,5 300 1,0 30,9 60,8 90,7 120,6 150,5 400 1,0 40,9 80,8 120,7 160,6 200,5 500 1,0 50,9 100,8 150,7 200,6 250,5

Exempel 4. Samma undersökning med tvåstegsurval Obundet slumpmässigt urval = 73 Medelantal patienter per sjukhus = 50 Intraklasskorrelation = 0,10 Designeffekt = 5,9 Totalt antal patienter: 5, 9 73 431, Antal sjukhus: 431/50 9.

http://www.r-project.org

Beräkning med program R, epicalc och n.for.survey Kommando n.for.survey(p=0.05, delta=0.05, deff=5.9) Sample size for survey. Assumptions: Proportion = 0.05 Confidence limit = 95% Delta = 0.05 from the estimate. Design effect = 5.9 Sample size = 431

Sammanfattning

Slut Tack för uppmärksamheten!

Diskussion Frågor att diskutera i mån av tid.

Diskussionspunkt 1 Förutsättningar Ett register samlar information om biverkningar av olika läkemedel mot högt blodtryck. Tyvärr stämmer inte alltid den registrerade informationen. Vilka konsekvenser får detta: om läkemedel felregistreras? om komplikationer felregistreras? om vissa komplikationer särskilt felregistreras för ett visst läkemedel? Tips: differential och non-differential misclassification.

Diskussionspunkt 2 Förutsättningar Samma registret samlar också information om uppnått blodtryck för de olika blodtryckssänkande läkemedlena. Tyvärr även denna registrering bristfällig. Vad blir konsekvenserna: om läkemedel ibland slumpmässigt felregistreras? om fel blodtryck ibland slumpmässigt registreras? om noggrannheten i blodtrycksregistreringen beror på läkemedlet? Tips: regression dilution bias.

Diskussionspunkt 3 Förutsättningar För att undersöka ett registers datakvalitet startas en validitetesstudie. Registrerade data jämförs med journaluppgifter i ett tvåstegsurval. Först väljs kliniker ut och sedan patienter inom varje klinik. Vilka påstående är sanna? Designeffekten anger hur mycket större ett tvåstegsurval måste vara för att ge samma precision som ett obundet slumpmässigt urval. När bara en patient väljs per klinik finns finns ingen designeffekt. När intraklasskorrelationen är 0 finns ingen designeffekt.

Diskussionspunkt 4 Vilka påstående är sanna? Varför? Ett kvalitetsregister är alltid ett stickprov. Ett systematiskt bortfall är ett större problem än ett slumpmässigt bortfall. Felregistrerade data ger alltid utspädningseffekter på analysresultat.

Diskussionspunkt 5 Vilka påståenden är sanna och varför? Adjudicering är en form av validering. Vissa former av validering kan göras maskinellt. Validerade data ska aldrig rättas.

Exemplen på misclassification bias hämtades från