Datakvalitet. Hva duger data til? Jonas Ranstam jonas.ranstam@med.lu.se

Relevanta dokument
STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Hur skriver man statistikavsnittet i en ansökan?

Vad beror skillnaden på? Systematiska och slumpmässiga fel

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Studietyper, inferens och konfidensintervall

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Lektionsanteckningar 11-12: Normalfördelningen

Användarmöte. Jönköping

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Erica Schytt. Barnmorska Föreståndare för Centrum för klinisk forskning Dalarna Docent Karolinska Institutet Professor Høgskulen på Vestlandet

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

Validering av kvalitetsregister på INCA Version 1.0

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Preliminär rapport om populationsutveckling och storlek av brunbjörn i Sverige, 2004

Epidemiologi (II) Läkarprogrammet Termin 5, VT Lars Rylander. Avdelningen för arbets- och miljömedicin, Lund

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Dataanalys kopplat till undersökningar

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Medicinsk statistik I

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Problem med analyser av EQ-5D data. Philippe Wagner Tomasz Czuba Jonas Ranstam

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

VALIDERINGSHANDBOK. Handboken har tagits fram på uppdrag av beslutsgruppen för Nationella Kvalitetsregister.

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Tentamen MVE301 Sannolikhet, statistik och risk

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

Björnstammens storlek i Sverige 2008 länsvisa uppskattningar och trender Rapport från det Skandinaviska björnprojektet

Kalibreringsrapport. Utländska doktorander

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Teknisk beskrivning av undersökning av deltagare i Jobb- och utvecklingsgarantins Fas3. Maj-juni 2011.

Statistik och epidemiologi T5

Medicinsk statistik II

Medicinsk statistik II

Björnstammens storlek i Västerbotten 2014

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Registerstudier vad kan man behöva tänka på?

Föreläsning 11: Mer om jämförelser och inferens

Statistik Lars Valter

Grundläggande matematisk statistik

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Studiedesign och effektmått

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden!

Introduktion till statistik för statsvetare

F9 Konfidensintervall

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 1: Introduktion. Vad är statistik?

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

, s a. , s b. personer från Alingsås och n b

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 3: Urval och skattningar

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Checklista för systematiska litteraturstudier*

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Kvantitativa metoder och datainsamling

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

F19, (Multipel linjär regression forts) och F20, Chi-två test.

InStat Exempel 4 Korrelation och Regression

Matematisk statistik för B, K, N, BME och Kemister

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning G60 Statistiska metoder

Tidigare exempel. Några beteckningar. Stratifierat urval

Konfidensintervall i populationsbaserade studier varför behövs de? Therese Andersson Sandra Eloranta

Urvalsmetoder: Stratifierat urval (kap 9.5)

Checklista för systematiska litteraturstudier 3

Grunderna i epidemiologi Felkällor.

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

Tentamen Metod C vid Uppsala universitet, , kl

Statistik och epidemiologi T5

Medicinsk statistik III Läkarprogrammet, Termin 5 VT 2016

Ytterligare urvalsmetoder och skattningsmetoder

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Hyror i bostadslägenheter (HiB)

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Transkript:

Hva duger data til? Jonas Ranstam jonas.ranstam@med.lu.se Registercentrum Syd, Skånes Universitetssjukhus och Inst. f. kliniska vetenskaper, Lunds Universitet, Klinikgatan 22, 22185 Lund, Sverige 15 Jan 2015

Big data

Big data

Big data

Big data There are a lot of small data problems that occur in big data. They don t disappear because you ve got lots of the stuff. They get worse. David Spiegelhalter

Big data Statistics have never been cooler; it s never been more useful. It just seems to me te be a wonderful time to be a statistician. Brian Tarran

Detta föredrag Disposition Studiedesign, datainsamling och statistisk analys hänger samman. Här kommer fokus att ligga på data, främst datakvalitet. Vad är datakvalitet? Vad har bristande datakvalitet för konsekvenser? Hur kontrollerar jag datakvaliteten i mitt register? Diskussion

Vad är datakvalitet? Absolut definition Relevanta, fullständiga, korrekta och konsistenta data.

Vad är datakvalitet? Relativ definition Tillräckligt bra för att uppfylla användarens behov.

Vad är datakvalitet? Relativ definition Tillräckligt bra för att uppfylla användarens behov. Vad är tillräckligt bra?

Vad är datakvalitet? Relativ definition Tillräckligt bra för att uppfylla användarens behov. Vad är tillräckligt bra? Det beror på vad data ska användas till.

Bortfall Vad är konsekvensen av bortfall?

Två exempel: Vissa höftprotesreoperationer oregistrerade

Exempel 1. Skattning av 2-årig reoperationsrisk.

Exempel 1. Skattning av 2-årig reoperationsrisk Förutsättning: totalt i höftregistret under 2006 53 962 primäroperationer 819 reoperationer 819 Skattad reoperationsrisk: 53962 = 0.015 (95%Ki: 0.014-0.016) Antag att en oberoende underrsökning visar att 5% av genomförda reoperationer inte registreras.

Exempel 1. Skattning av 2-årig reoperationsrisk Skattad reoperationsrisk 819 53962 = 0.015 (95%Ki: 0.014-0.016) Bortfallskorrektion 5% bortfall ger en korrektionsfaktor på 1 1 0.05 Korrigerad skattad reoperationsrisk 819 53962 1.0526 = 0.016 (95%Ki: 0.015-0.017) dvs. 1.0526

Exempel 1. Skattning av 2-årig reoperationsrisk

Exempel 2. Rangordning av reoperationsrisker

Exempel 2. Rangordning av reoperationsrisker Beräkningar Monte-Carlo simulering för att bedöma möjliga konsekvenser (för rangordningen) av att 43 reoperationer genomförts men inte registrerats.

Exempel 2. Rangordning av reoperationsrisker

Exempel 2. Rangordning av reoperationsrisker

Exempel 2. Rangordning av reoperationsrisker

Registreringsfel Vad är konsekvensen av registreringsfel?

Registreringsfel Misclassification bias Systematiskt felaktiga forskningsfynd som uppstår vid bristande sensitivitet/specificitet i fastställning av exponering och/eller effekt. Felklassificeringen kan vara Non-differential Differential

Registreringsfel Non-differential misclassification bias Felklassificeringen är densamma i olika grupper. Exponering kan, t.ex. vara lika felklassificerad bland fall som kontroller. För binära variabler leder sådana fel till att skillnader underskattas.

Registreringsfel i binär variabel

Registreringsfel i binär variabel

Registreringsfel i binär variabel Differential misclassification bias I en fall-kontrollstudie kan den rapporterade exponeringen t.ex. skilja sig mellan fall och kontroller (t.ex. recall bias). Fenomenet kan både innebära att skillnader över- och underskattas.

Registreringsfel i binär variabel

Registreringsfel i binär variabel

Registreringsfel i kontinuerlig variabel Regression dilution bias Slumpmässiga mät-(och/eller registrerings-) fel i en kontinuerlig variabel manifesterar sig olika beroende på om felen finns i exponerings- eller utfallsvariabeln.

Registreringsfel i kontinuerlig variabel Fel i en utfallsvariabel Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig utfallsvariabel (t.ex. systoliskt blodtryck) ökar osäkerheten i parameterskattningar (bredare konfidensintervall). Ökad stickprovsstorlek kan kompensera förlusten av statistisk precision.

Registreringsfel i kontinuerlig variabel Fel i en exponeringsvariabel Slumpmässiga mät- (eller registrerings-) fel i en kontinuerlig exponeringsvariabel innebär underskattade parametrar (effektmått). Ökad stickprovsstorlek ger visserligen ökad precision, men minskar inte bias.

Registreringsfel Korrektionsmetoder För kategoriska variabler estimated misclassification probabilities markov models För kontinuerliga exponeringsvariabler regression calibration multiple imputation moment reconstruction simulation extrapolation

Misclassification and missing

Misclassification and imputation

Validering Hur kontrollerar jag datakvaliteten i mitt register?

Validering Tillvägagångssätt Kontroll av variablers fördelning (orimliga värden) Utvärdering av intern konsistens Adjudicering, eftergranskning, o.d. Jämförelser med källdata

Validering Validering Validering av alla data, som i en klinisk läkemedelsprövning, är ofta praktiskt omöjliga i ett register. Stickprovsundersökningar kan vara ett gott alternativ.

Stickprov och population

Stickprov och population

Stickprov och population Grunder I en valideringsundersökning av ett helt register kan man teoretiskt sett, om man bortser från konsekvenser av praktiska misstag, beräkna andelen korrekta värden för en viss variabel, π, direkt. I en urvalsvalidering får man istället skatta π, och skattningar, ˆπ i, är osäkera. Individuella variationer ger nämligen olika skattningar i olika urval. ˆπ i = π + ɛ i (1)

Obundet slumpmässigt urval Under vissa förutsättningar, som att varje element i populationen haft samma sannolikhet att ingå i urvalet, kan osäkerheten dock beräknas. E( ˆπ i ) = π (2) σ 2ˆπ i = ˆπ i(1 ˆπ i ) n i (3) z N(0, 1) (4) P( ˆπ i z α/2 σ ˆπi < π < ˆπ i + z α/2 σ ˆπi ) = 1 α (5)

Obundet slumpmässigt urval Om α = 0.05 är således urvalsfelet, ɛ i, med 95% sannolikhet mindre än 1.96 ˆπi (1 ˆπ i ) Osäkerheten beror alltså på ˆπ i, den skattade datakvaliteten n i, antal observationer n i

Obundet slumpmässigt urval Stickprovsstorlek Lämplig urvalsstorlek beror på hur stor osäkerhet man kan acceptera och vilken datakvalitet man skattar. Mindre urval ger alltid större osäkerhet.

Stickprovsstorlek Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt urval skatta prevalensen felregistrerade data. Halvt 95% konfidensintervall Prevalens 0,01 0,05 0,10 0,15 0,20 0,25 0,01 380 0,05 1825 73 0,10 3457 138 35 0,15 4898 196 49 22 0,20 6146 246 61 27 15 0,25 7203 288 72 32 18 12 0,30 8067 323 81 36 20 13 0,35 8739 350 87 39 22 14 0,40 9220 369 92 41 23 15 0,45 9508 380 95 42 24 15 0,50 9604 384 96 43 24 15

Komplikation 1. Ett register är en finit population Finitpopulation Ett stort urval (> 5%) från en finit population leder till överskattning av variansen och osäkerheten. En finitpopulationskorrektion, fpc, av variansen behövs då. fpc = N ni N 1 (6) Där n i är antalet observationer i urvalet och N antalet element i populationen. Med korrektion kan medelfelet av π i skrivas: ˆπ i (1 ˆπ i ) N ni σ ˆπi = (7) n i N 1

Komplikation 2. Begränsning av deltagande sjukhus Tvåstegsurval I praktiken innebär valideringsarbete ofta resor till olika kliniker för att på plats kunna jämföra registerade data med källdokument, t.ex. journalhandlingar. För att underlätta arbetet och begränsa reskostnader kan det vara fördelaktigt att begränsa antalet deltagande sjukhus. Man kan då t.ex. först göra ett (obundet slumpmässigt) urval av kliniker och därefter, inom varje klinik, ett andra (obundet slumpmässigt) urval av patienter. Även ett sådant tvåstegsförfarande påverkar emellertid variansskattningen.

Designeffekt Denna designeffekt på variansskattningen, def, kan skrivas: def = 1 + ρ(m 1) (8) Där m är medelantalet patienter per klinik och ρ klinikernas intraklasskorrelation (ICC). ρ = σ 2 b σ 2 b + σ2 w (9) Här är σ 2 b variansen mellan och σ2 w inom klinikerna.

Designeffekt Designeffekten kan användas för att beräkna hur mycket större ett tvåstegsurval måste vara för att ge samma statistiska precision som ett ettstegsurval. För beräkningen krävs, m, som beror på studiens design och intraklasskorrelationskoefficienten, ρ, som beror på hur klinikerna varierar i datakvalitet.

Hur hög är ICC?

Exempel 3. Obundet slumpmässigt urval av patienter från 97 sjukhus Andel felregistrerade = 5% Osäkerhet = ±5% Antal observationer =?

Hur många registreringar måste kontrolleras? Tabell: 1. Urvalsstorlek för att med ett obundet slumpmässigt skatta prevalensen felregistrerade data. Konfidensintervall, halv bredd Prevalens 0,01 0,05 0,10 0,15 0,20 0,25 0,01 380 0,05 1825 73 0,10 3457 138 35 0,15 4898 196 49 22 0,20 6146 246 61 27 15 0,25 7203 288 72 32 18 12 0,30 8067 323 81 36 20 13 0,35 8739 350 87 39 22 14 0,40 9220 369 92 41 23 15 0,45 9508 380 95 42 24 15 0,50 9604 384 96 43 24 15

Exempel 3. Obundet slumpmässigt urval av patienter från 97 sjukhus Andel felregistrerade = 5% Osäkerhet = ±5% Antal observationer = 73 Ganska många sjukhus måste uppsökas.

Exempel 4. Samma undersökning med tvåstegsurval Obundet slumpmässigt urval = 73 Medelantal patienter per sjukhus = 50 Intraklasskorrelation = 0,10 Designeffekt =?

Hur stor är designeffekten Tabell: 2. Designeffekt vid tvåstegsurval Observationer Intraklasskorrelationskoefficient per 1:a urval 0 0,1 0,2 0,3 0,4 0,5 10 1,0 1,9 2,8 3,7 4,6 5,5 20 1,0 2,9 4,8 6,7 8,6 10,5 30 1,0 3,9 6,8 9,7 12,6 15,5 40 1,0 4,9 8,8 12,7 16,6 20,5 50 1,0 5,9 10,8 15,7 20,6 25,5 75 1,0 8,4 15,8 23,2 30,6 38,5 100 1,0 10,9 20,8 30,7 40,6 50,5 200 1,0 20,9 40,8 60,7 80,6 100,5 300 1,0 30,9 60,8 90,7 120,6 150,5 400 1,0 40,9 80,8 120,7 160,6 200,5 500 1,0 50,9 100,8 150,7 200,6 250,5

Exempel 4. Samma undersökning med tvåstegsurval Obundet slumpmässigt urval = 73 Medelantal patienter per sjukhus = 50 Intraklasskorrelation = 0,10 Designeffekt = 5,9 Totalt antal patienter: 5, 9 73 431, Antal sjukhus: 431/50 9.

http://www.r-project.org

Beräkning med program R, epicalc och n.for.survey Kommando n.for.survey(p=0.05, delta=0.05, deff=5.9) Sample size for survey. Assumptions: Proportion = 0.05 Confidence limit = 95% Delta = 0.05 from the estimate. Design effect = 5.9 Sample size = 431

Sammanfattning

Slut Tack för uppmärksamheten!

Diskussion Frågor att diskutera i mån av tid.

Diskussionspunkt 1 Förutsättningar Ett register samlar information om biverkningar av olika läkemedel mot högt blodtryck. Tyvärr stämmer inte alltid den registrerade informationen. Vilka konsekvenser får detta: om läkemedel felregistreras? om komplikationer felregistreras? om vissa komplikationer särskilt felregistreras för ett visst läkemedel? Tips: differential och non-differential misclassification.

Diskussionspunkt 2 Förutsättningar Samma registret samlar också information om uppnått blodtryck för de olika blodtryckssänkande läkemedlena. Tyvärr även denna registrering bristfällig. Vad blir konsekvenserna: om läkemedel ibland slumpmässigt felregistreras? om fel blodtryck ibland slumpmässigt registreras? om noggrannheten i blodtrycksregistreringen beror på läkemedlet? Tips: regression dilution bias.

Diskussionspunkt 3 Förutsättningar För att undersöka ett registers datakvalitet startas en validitetesstudie. Registrerade data jämförs med journaluppgifter i ett tvåstegsurval. Först väljs kliniker ut och sedan patienter inom varje klinik. Vilka påstående är sanna? Designeffekten anger hur mycket större ett tvåstegsurval måste vara för att ge samma precision som ett obundet slumpmässigt urval. När bara en patient väljs per klinik finns finns ingen designeffekt. När intraklasskorrelationen är 0 finns ingen designeffekt.

Diskussionspunkt 4 Vilka påstående är sanna? Varför? Ett kvalitetsregister är alltid ett stickprov. Ett systematiskt bortfall är ett större problem än ett slumpmässigt bortfall. Felregistrerade data ger alltid utspädningseffekter på analysresultat.

Diskussionspunkt 5 Vilka påståenden är sanna och varför? Adjudicering är en form av validering. Vissa former av validering kan göras maskinellt. Validerade data ska aldrig rättas.

Exemplen på misclassification bias hämtades från