Diagnostik och GRADE. Ingegerd Mejàre Malmö

Diagnostik och GRADE Ingegerd Mejàre Malmö 2014-10-01 1

SBU:s vision: oberoende utvärderingar för bättre hälsa Hur ställer man diagnos på bästa sätt? Vilken behandling är bäst? Hur ska resurserna användas för att göra bäst nytta? 2

Principiella skillnader mellan behandlingsstudier och diagnostiska studier studiedesign effektmått bedömning av studiekvalitet - QUADAS styrkan i det vetenskapliga underlaget - GRADE Hur mäta nyttan för patienten? 3

Studiedesign för en behandlingsstudie. Oftast RCT (Randomized Clinical Trial). Behandling A Effektmått Behandling B Utfall av behandling: t.ex. tillfrisknande, överlevnad 4

Studiedesign för en diagnostisk studie. Oftast tvärsnittsstudier. Diagnostiskt test Referenstest (gold standard) Effektmått: Testets tillförlitlighet (accuracy). 5

Principiella skillnader Studier om behandlingseffekt: Oftast randomiserad studiedesign Ett utfallsmått: effekt Studier om diagnostisk tillförlitlighet: Oftast inte randomiserad studiedesign Förutsätter dikotomisering Två utfallsmått som är beroende av varandra (sensitivitet, specificitet) Man behöver en sanning att jämföra med, en metod som är perfekt Den laboratoriemässiga delen av ett test, den analytiska processen, förutsätts oftast vara oproblematisk. 6

Studiedesign för diagnostiska studier Kan vara: Tvärsnittsstudie fall-kontrollstudie kohortstudie retrospektiv, prospektiv RCT observationsstudie 7

Effektmått för diagnostiska studier Sensitivitet, specificitet, positivt och negativt prediktionsvärde Likelihood ratio Diagnostic odds ratio (DOR) Relativ risk Korrelation Procentuell andel som avviker från det sanna median- eller medelvärdet (t.ex. P30) Medel- eller medianskillnaden mellan indexmetod och referensmetod (Bias). 8

Definitioner och formler för sensitivitet och specificitet. Sensitivitet = Sannolikheten för positivt testresultat när man har sjukdomen Specificitet = Sannolikheten för negativt testresultat när man är frisk Sensitivitet = sjuka klassificerade som sjuka/alla sjuka = a/a+c Specificitet = friska klassificerade som friska/alla friska = d/b+d 9

Processen Inkluderade studier granskas och värderas Fråga ställs Litteraturen dammsugs Slutsatser från tillräckligt välgjorda studier Systematisk översikt 10

Kvalitetsbedömning av diagnostiska studier Studiedesign Kohort, prospektiv Tvärsnittsstudie Fall-kontrollstudie Fall-kontrollstudie med korrelationer Population, referensstandard (RF), Index test (IT) Konsekutivt insamlande, adekvat patientspektrum (med misstänkt sjukdom), adekvat RF, oberoende och blindad bedömning av RF and IT. RF applicerad på alla. Population med sjuka och friska kontroller. RF inte applicerat på alla. Ej oberoende eller blindad bedömning. Sensitiviter och specificitet eller annat relevant utfallsmått beräknat. Endast korrelationer beräknade. RISK FÖR BIAS 11

Risk of Bias and Applicability Judgements in QUADAS 2 Domain Description Signaling questions (yes, no, unclear) Risk of bias (high, low or unclear) Patient selection Describe methods of patients selection Describe included patients Was a consecutive or random sample of patients enrolled? Was a case-controldesign avoided? Did the study avoid inappropriate exclusions? Could the selection of patients have introduced bias? Index test Describe the index test and how it was conducted and interpreted Were the index test results interpreted without knowledge of the results of the reference standard? Could the conduct or interpretation of the index test have introduced bias? Reference standard Describe the reference standard and how it was conducted and interpreted Is the reference standard likely to correctly classify the target condition? Could the reference standard, its conduct, or its interpretation have introduced bias? Flow and timing Describe any patients who did not receive the index test or reference standard Describe the interval between index test and reference standard Was there an appropriate interval between index tests and reference standard? Could the patient flow have introduced bias? Concerns about applicability (high, low or unclear) Are there concerns that the included patients do not match the review question? Are there concerns that the index test, its conduct, or its interpretation differ from the review question? Are there concerns that the target condition as defined by the reference standard does not match the review question? 12

Orsaker till heterogenitet hos diagnostiska studier Tröskelvärden för positivt (eller negativt svar) varierar mellan studierna Variationer i den undersökta populationen (allvarlighetsgrad hos sjukdom, samsjuklighet) Partiell verifikationsbias (alla patienter genomgick inte referenstestet) Referensstandarden skiljer sig Indextestet utfört på olika sätt Potentiella bias i enskilda studier (t.ex. blindning) Slump 14

Syntes av resultat för att bedöma hur starkt det vetenskapliga underlaget är. Kvalitetsbedömning av individuella studier The Grading of Recommendations Assessment, Development and Evaluation (www.gradeworkinggroup.org) 15

GRADE en metod för att på ett transparent sätt bedöma hur mycket man litar på en viss evidens. Kvaliteten på evidensen bedöms separat för varje utfall: En fyrgradig skala används : Stor tillit till resultatet ( ) Måttligt stor tillit till resultatet ( ) Begränsad tillit till resultatet ( ) Liten tillit till resultaten ( ) Avdrag kan göras för: Bristande studiekvalitet i enskilda studier Brist på generaliserbarhet Små studier med vida konfidensintervall Motsägande resultat 16

GRADE - behandlingsstudie Summary of findings and quality of evidence of the effect of varying length of antibiotic treatment for early Lyme borreliosis. Population characteristics Early Lyme borreliosis Solitary or multiple EM lesions Sample Intervention size/ number of studies 343/3 Penicillin V or doxycycline 10 14 vs. 20 days Risk of failure after 12 months follow-up 10 14 day group: 17/165 20 day group: 20/178 Relative risk of failure (RR, 95% CI) RR: 0.92 (0.5; 1.7) Quality of evidence OOO Study quality -1 Indirectness -1 Precision -1 17

Exempel på hur GRADE kan användas för studier om diagnostik. 18

GRADE för pulpans inflammationsstatus: (reaktion på värme, kyla, perkussion hos tänder med djup karies) Quality of evidence of the diagnostic accuracy of abnormal reaction to heat, cold, percussion test for determining the status of vital dental pulp (no/minimal versus moderate/severe inflammation) in teeth with deep caries. Data from Hasler & Mitchell 1970. Rating according to Study design/quality, Indirectness, Consistency, Precision and Publication bias. Outcome measure Sample size (no of studies) Sensitivity (95 % CI) Specificity (95 % CI) Quality of evidence Rating items Heat 47 (1) 54 (29;77) 21 (10;37) ooo (insufficient) Cold 47 (1) 85 (58;96) 12 (5;27) ooo (insufficient) Percussion 47 (1) 77 (50;92) 21 (10;37) ooo (insufficient) Study design/quality -1. Precision -1. One study -1. Study design/quality -1. Precision -1. One study -1. Study design/quality -1. Precision -1. One study -1. 19

GRADE - mammografiscreening: (enkelgranskning + CAD versus dubbelgranskning) Effektmått Effektmått Cancerdetektionsfrekvens Återkallningsfrekvens Antal patienter (antal studier) Sanna positiva: Enkelgranskning + CAD (95% KI) 28 204 (1) 0,702% (0,6 0,8) Antal patienter (antal studier) Andel återkallade: Enkelgranskning + CAD (95% KI) Sanna positiva: Dubbelgranskning (95% KI) Absolut skillnad (95% KI) 0,706% (0,6 0,8) 0,004% (NS*) Andel återkallade: Dubbelgranskning (95% KI) Absolut skillnad (95% KI) 28 204 (1) 3,9% (3,7 4,1) 3,4% (3,2 3,6) 0,5% (0,3 0,8) Vetenskapligt underlag Kommentar** XOOO Brister i studiekvalitet 1 Begränsad överförbarhet 1 Oprecisa data 1. Vetenskapli gt underlag Kommentar XOOO Brister i studiekvalitet 1 Begränsad överförbarhet, endast en studie 2. *NS = Ingen statistiskt säkerställd skillnad ** Brister i studiekvalitet = risk för bias (sensitivitet troligtvis övervärderad (pga ofullständig uppföljning av kvinnor med negativt testresultat) Begränsad överförbarhet = endast bröstradiologer med lång klinisk erfarenhet ingick i studien Oprecisa data = vida konfidensintervall för skillnaden i sensitivitet mellan dubbelgranskning och enkelgranskning + CAD 20

21 Diagnostic test accuracy kan ses som ett surrogatmått Samhället Patienten Val av behandling Diagnossättning Diagnostisk tillförlitlighet ( accuracy ) Tekniska parametrar Fryback & Thornbury, diagnostikens arkitektur 21

Det diagnostiska testets nytta för patient och samhälle Kan som regel bara bedömas med prospektiva studier, helst RCT 22

1. Relevanta för patienten! Mortalitet Livskvalitet Sjuklighet Lidande Förlust av funktioner 2. Surrogatmått Effektmått Vad patienten/personen känner eller tänker om saken Mätbara faktorer som i någon mån kan vara relaterade till de effektmått som är viktiga för patienten Blodtryck Bentäthet Kreatininnivå i plasma Kariesupptäckt Pulpans inflammationsstatus hos tänder med djup karies

Studiedesign för att undersöka nyttan för patienten 24

Litteratur 1. SBU:s metodbok (finns på SBU:s hemsida) 2. Cochrane Handbook for Systematic Reviews of Diagnostic Test accuracy (www.cochrane.org) 3. Systematic Reviews in Health Care. Meta-analysis in context. Egger M, Smith GD, Altman DG (eds). BMJ Publishing Group 2009. 4. Clinical epidemiology. The Essentials. Fletcher RH, Fletcher SW (eds). Lippincott Williams &Wilkins, 4th edition 2005. Baltimore, USA. 5. The STARD steering group. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative BMJ 2003;326:41 4. 25

Litteratur 1. Guyatt H, Oxman AD et.al. GRADE: emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008; 336:924-26. 2. Schünemann AJ, Oxman AD et. al. GRADE: grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ 2008;336:1106-10. 3. Whiting PF, Rutjes AWS et. al. QUADAS-2: A revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155:529-36. 26

Slut 27