Kvalitetsgranskning av vetenskapliga originalartiklar om behandling För att värdera en artikel måste man först och främst begripa vad författarna avsåg att göra. Ibland kan det vara svårt att få en klar bild av detta. Leta då efter aim -meningen, som ofta finns i abstractet, och dessutom någonstans i slutet av det första stycket (som brukar kallas Introduction eller Background ). Aim-meningen brukar börja med formuleringar som We aimed to, eller Our objective was to, eller This study was conceived to. eller något liknande. Försök att besvara: 1. Vad är det för population av individer/patienter som studien gäller? 2. Vad är exponeringen (behandlingen eller interventionen) som man vill utvärdera? 3. Vad vill man jämföra med för alternativ? 4. Vad är utfallet; vad är huvudutfallet, och finns det andra alternativa utfall som man också vill studera? Om svaren på ovanstående inte genast framgår i abstractet eller i aim-meningen måste man gå till det stycke som följer efter Introduction eller motsvarande, nämligen Methods (ibland heter det Material and Methods eller Subjects and Methods, men det brukar inte råda någon tveksamhet om vad som är Methods). I några av de riktigt stora drakarna som Science och Nature ligger Methods sist i artikeln, som ett bihang. Det kan kännas lite jobbigt och tekniskt att läsa Methods, inte sällan är det finstilt, men det är väl använd tid. Det är i den texten som man bäst får ett intryck av om artikeln är av tillräckligt hög kvalitet för att beaktas när man väger samman resultaten av de studier som adresserat den vetenskapliga fråga som i detalj definierats under punkterna 1-4 ovan. Nästa steg är att förstå vad det är för STUDIE-DESIGN. Även denna upplysning går oftast att få i abstractet, men inte alltid. Då är det Methods som gäller. Om vi tills vidare bortser från systematiska översikter kan studiedesignerna grovt indelas i 4 kategorier, från bäst till sämst. Man brukar tala om en DESIGNHIERARKI. 1. Randomiserade kontrollerade prövningar Experimentella 2. Observationella kohortstudier 3. Fall-kontrollstudier Observationella 4. Fallserier, fallrapporter Det går en viktig vattendelare mellan nivå 3 och 4 i och med att det i de tre första kategorierna alltid finns en JÄMFÖRELSEBETINGELSE. Det gör att man kan dra slutsatser om samband (eller om man är någorlunda säker på att sambanden är orsakssamband om effekter ). I kategori 4 går det inte att dra sådana slutsatser. Men den vikigaste vattendelaren går mellan nivå 1 och 2, nämligen mellan "experimentella" och "observationella" ansatser. Om undersökaren kan allokera deltagare till den aktuella interventionen respektive kontrollbetingelsen och detta sker strikt slumpvis så fördelas potentiellt viktiga olikheter mellan olika patienter (t.ex. individuell känslighet, komplicerande comorbiditet [annan sjuklighet], kroppsvikt, rökning mm mm) lika mellan interventionsgrupp och kontrollgrupp. Om grupperna är tillräckligt stora blir fördelningarna av dessa viktiga variabler nästan exakt lika i interventionsgruppen och kontrollgruppen, UTOM när det gäller just interventionen. Då har man eliminerat tillblandning (confounding) av effekter från dessa störande variabler. I observationella studier kan man inte garantera att grupperna blir lika eftersom det inte är slumpen 1
som avgjort om en patient blivit föremål för en viss behandling. Det finns nästan alltid ett gott skäl varför en patient får en viss behandling skäl som väldigt ofta är kopplade till sannolikheten för ett gynnsamt (eller ogynnsamt) hälsoutfall. I sådana studier försöker man istället identifiera och MÄTA alla sådan viktiga "confoundingfaktorer" och med statistiska metoder justera för eventuella olikheter mellan grupperna. Om en randomiserad kontrollerad prövning (Randomized Controlled Trial RCT) är slarvigt genomförd (t.ex. randomiseringsutfallet har kunnat förutses och manipuleras, det har varit stort bortfall under uppföljningen, eller mätningen av utfallet kan ha påverkats av att undersökarna kände till vilken behandlingsgrupp de utvärderade patienterna tillhörde) kan den halka ned i rangordningen och till och med rankas lägre än en rigoröst genomförd observationell kohortstudie med noggrann mätning av och strikt kontroll för alla tänkbara confoundingfaktorer. Därför är det viktigt att kritiskt läsa igenom de artiklar som man bedömer som potentiellt betydelsefulla. I den här mallen behandlas randomiserade kontrollerade prövningar (RCTs) 1. Bedömning av extern validitet När man bedömer hoten mot en studies validitet (giltighet dvs. om studien verkligen mäter det den utger sig för att mäta) brukar man skilja mellan Intern validitet och Extern validitet. Extern validitet handlar om huruvida studiens resultat kan generaliseras till andra än dem som ingick i studien. För att besvara detta behöver man besvara följande frågor, som har att göra med rekryteringen av prövningsdeltagare. Frågan är om de är representativa för sådana patienter som du själv ser, och som du skulle vilja generalisera resultaten till. Därtill frågar man sig om utfallet är rimligt och relevant för den kliniska frågeställningen: Personer som uppfyller inklusionskriterierna benämns här "valbara". a) Är inklusionskriterierna tydliga och acceptabla (kan man utläsa vilket medicinskt tillstånd deltagarna egentligen har, och är definitionen förenlig med gällande kunskapsläge)? Ja ( = 2) b) Är valbara personer representativa för den målgrupp till vilken författarna vill generalisera sina resultat? Ja, troligen (rekryteringsvägarna är väl beskrivna och förenliga med den kliniska verkligheten vanligen uppnås detta genom att konsekutiva* nya patienter tillfrågas. Vid interventionsstudier bland icke-patienter urvalet är hyggligt representativt för målgruppen) (= 2) Går inte att säga (rekryteringsvägarna oklart beskrivna) (= 0) Troligen inte (rekryteringsvägarna är beskrivna, men situationen är artificiell t.ex. handplockade redan kända patienter [prevalenta fall], eller patienter rekryterade via annonser) (= 0) *) Med konsekutiva menas att alla nya valbara patienter som kommer till kliniken/mottagningen tillfrågas och tas in i studien i den ordning som de kommit. 2
c) Redovisas hela flödet från inbjudan (enrollment) till randomisering, med alla exklusioner och orsaker därtill, enligt CONSORT (se www.consort-statement.org och bilaga)? Nej, men motsvarande information finns i texten (= 2) Nej, och motsvarande information ges ej (= 0) d) Är icke-deltagande av så stor magnitud och sådan karaktär att det finns anledning att tro att generaliserbarheten påverkas? Nej (= 2) Går inte att säga därför att icke-deltagande inte redovisas (= 0) Ja (= 0) e) Är exklusionskriterierna tydliga och acceptabla? f) Har antal och orsaker angivits för exkluderade personer (alltså FÖRE randomisering och återigen bäst beskrivet i ett flödesdiagram)? g) Finns en acceptabel definition av utfallsmåttet? Ja (= 3) h) Är utfallsmåttet kliniskt relevant? Relevansen diskutabel (= 0) Relevans obefintlig undersökningen bedöms sakna informationsvärde. Om det finns åtminstone någon relevans i utfallsmåttet och den sammanlagda poängen är 14 eller högre är den externa validiteten hög, om poängen är 10-13 är den externa validiteten måttlig, är poängen 7-9 är den externa validiteten tveksam, och om poängen är under 7 kan den externa validiteten inte bedömas. 2. Bedömning av intern validitet Den interna validiteten handlar om i vilken utsträckning de observerade effekterna är verkliga eller beror på (eller påverkats av) olika typer av systematiska fel (bias). 3
2.1 Tilldelning av intervention eller behandling a) Är randomiseringsproceduren beskriven? Ja, i detalj (= 3) Ja, delvis (= 1) Om du inte svarat Nej besvara även fråga b och c, hoppa annars till fråga d. b) Kan det ha varit möjligt att manipulera randomiseringen? Nej (t ex ogenomskinliga kuvert, datorgenererad sekvens som finns hos någon annan än prövningspersonalen) (= 1) Ja (t ex om metoden är slantsingling eller tärningskast, eller öppen randomiseringslista som gör det möjligt att veta vilken betingelse som närmast i tur) (= 0) c) Medförde randomiseringen en oförutsägbar helt slumpmässig allokering (dvs fördelning av deltagarna) mellan prövningsgrupperna? d) Exkluderades patienter efter randomisering men före intervention? Nej, inte alls (= 3) Ja, men så få att det rimligen inte kunnat påverka resultaten (= 1) Ja, så många att resultaten potentiellt skulle kunna påverkas (= 0) 2.2 Gruppernas jämförbarhet a) Finns en redogörelse för jämförbarheten mellan grupperna med avseende på kända faktorer som kan tänkas inverka på resultatet (vanligtvis utgör detta Tabell 1 i en RCT)? b) Förelåg några väsentliga brister i jämförbarheten, dvs. gruppskillnader (obalanser) i baslinjedata? Nej (= 1) Ja (= 0) 2.3 Blindning (maskering) Kommentar: Observera att randomiseringen inte utesluter informationsbias (detection eller ascertainment bias) avseende utfallet, dvs. att utfallet bedöms eller registreras systematiskt olika bland dem som lottats till den studerade nya behandlingen och bland dem som lottats till kontrollbetingelsen. Bästa sättet att undvika sådan bias är att göra den som bedömer utfallet blindad avseende vilken behandling som deltagande patienter fått, dvs. bedömaren är omedveten om huruvida patienten ingår i den aktiva behandlingsgruppen eller kontrollgruppen. 4
a) Gjordes försök till blindning, dvs. att maskera i vilken grupp försöksdeltagarna hamnade? Nej (= öppen prövning) (= 0) Enkelblind de observatörer som utvärderade utfallet var blindade (= 2) Dubbelblind både deltagarna och observatörerna var blindade (= 3) Trippelblind (dubbelblind + all resultatbearbetning utfördes innan prövningskoden bröts) (=4) 2.4 Följsamhet med given behandling (compliance) a) Finns någon redogörelse för följsamhetens omfattning? Gå vidare till fråga 2.5 b) Var andelen med fullständig behandling acceptabelt* stor? *Acceptabelt kan t ex vara att >80% av deltagarna fick >80% av den föreskrivna totaldosen. Kommentar: Följsamhet kan bedömas exempelvis genom uppgift om hur många deltagare som enligt ett angivet kriterium fick fullständig behandling. Kontroll av följsamheten är särskilt viktig då man inte ser en signifikant effektskillnad mellan interventionsgrupp och kontrollgrupp. En bristande följsamhet minskar oftast såväl interventionens effekter som bieffekter. 2.5 Bortfall (antalet deltagare som inte har följts upp enligt studieprotokollet) a) Finns en redogörelse för bortfallet samt uppgifter om orsakerna till detta? Ja (= 3) Gå vidare till fråga 2.6 b) Hur stor är risken att bortfallet kan ha snedvridit resultaten? Liten (exempelvis bortfall <10 %) (= 3) Medel (exempelvis bortfall 10-19 %) (= 2) Stor (exempelvis bortfall 20-29 %) (= 0) Mycket stor (exempelvis bortfall 30 %) undersökningen bedöms ofta sakna informationsvärde vilket kan innebära exklusion från evidensbedömning Kommentar: Generellt ökar stora bortfall risken för att resultaten kan vara påverkade av systematiska fel. Det kan dock finnas tillfällen då man bedömer att även ett större bortfall sannolikt är slumpmässigt. Procentsiffrorna får därför ses som indikativa på om risken är stor eller liten. Bortfallet varierar också mellan olika tidpunkter i en studie och kan dessutom variera mellan olika utfallsmått. Bortfallet är ofta större ju längre tid som gått och därmed kan kanske data för de sista besöken vara av tveksam validitet, medan resultaten för de första besöken kan vara giltiga. Se också kommentaren i anslutning till fråga 2.7 e. 2.6 Bedömning av biverkningar a) Vidtogs acceptabla åtgärder för att samla in och registrera information om biverkningar? Ja, systematisk insamling och rapportering (= 2) Ja, begränsad beskrivning av inträffade biverkningar (= 1) 5
Kommentar: Denna fråga har olika vikt beroende på om man enbart är ute efter behandlingseffekt eller om man vill belysa nettoeffekten av behandlingseffekt och biverkningar. I en metaanalys av behandlingseffekten kan väl en annars välgjord studie ingå utan poängavdrag även om det inte finns biverkningsdata, medan den förstås blir i det närmaste oinformativ om man är ute efter nettoeffekten. 2.7 Analys av resultat a) Var det huvudsakliga (primära) utfallsmåttet (resultatvariabel och mätmetod) definierat i artikeln? b) Var konklusionen angående studiens resultat baserad på detta utfallsmått (enligt a ovan)? c) Fanns en angiven förhandshypotes? (Varför skulle just denna behandling vara effektiv?) d) Var sekundära utfallsmått definierade i artikeln? Kommentar: Frågorna 2.7 a-d belyser vikten av att studerade utfallsmått har definierats i studieprotokollet som primära eller sekundära. Den statistiska analysen går ut på att bedöma hur stor sannolikheten är att om nollhypotesen är sann och det faktiskt inte finns någon effekt av ren slump ändå få ett falskt positivt resultat som är lika extremt som, eller mer extremt än, det som erhållits. Det är det som P-värdet anger. Man vill ju ge slumpen så liten betydelse som möjligt, så P-värdet bör vara lågt. Någonstans måste man sätta en gräns där man anser att slumpen är utesluten som förklaring till det erhållna resultatet. Av konvention brukar man sätta den gränsen till 0,05 eller 5%. Det betyder att om man skulle upprepa exakt samma studie 100 gånger (och det faktiskt inte finns någon effekt) kommer man att få ett falskt positivt resultat ( statistiskt signifikant p<0,05) bara på grund av slumpen vid endast fem av dessa upprepningar. Alla som är bekanta med sannolikhetslära vet dock att ju fler försök man gör, desto större blir chansen att få ett /falskt positivt/ statistiskt signifikant resultat; det är som att kasta en tärning om du bara får hålla på att kasta din tärning tillräckligt många gånger så får du till slut upp en sexa. På samma sätt är det om man har en lång rad med olika varianter av utfallsmåttet och genomför multipla signifikans-test: till slut får man ett signifikant resultat. Därför är det viktigt att man bestämt sig för ETT utfallsmått, som utgör det primära utfallsmåttet. Det är mot detta utfall och BARA mot detta utfall som signifikansprövningen ska göras. Observera att det kan förekomma att data publiceras för utfallsmåttmått som ej är pre-definierade i protokollet. Om man inte tydligt anger att det faktiskt rör sig om sekundära utfallsmått så bedrar man kollegorna som ska ta ställning till resultatet. Sekundära utfallsmått (om man tydligt markerar att de är just sekundära) kan vara värdefulla för att explorera resultaten så att man kan formulera nya hypoteser, som sedan får prövas i en NY studie. Men att låtsas som de var primära utfallsmått är på gränsen till forskningsfusk. För nyare studier finns studieprotokoll eller synopsis tillgängligt på publika webbsidor (exempelvis ClinicalTrials.gov eller Controlled-trials.com). En kontroll av angiven primär utfallsvariabel på dessa webbsidor anbefalls varmt som en rutinåtgärd. Man bör också iaktta viss försiktighet vid användande av kombinerade utfallsmått eftersom möjligheterna till olika kombinationer kan vara nästintill oändliga. 6
e) Inkluderades data från alla randomiserade deltagare i analysen, och behölls de då i den behandlingsgrupp som de från början allokerats till (intention-to-treat-analys, ITT)? Ja (= 4) Nej, man redovisar bara en per protocol -analys eller motsvarande (= 0) Kommentar: Som nämnts inledningsvis är randomisering det enda sättet som finns för att eliminera all tänkbar confounding, även sådan confounding som man inte känner till eller ens misstänker. Det beror på att eftersom det enda som avgör om en person ska få den studerade behandlingen eller ej är slumpen så kan det inte uppstå några samband mellan behandlingen och faktorer som påverkar utfallsmåttet (och som annars skulle kunna vara potentiella confoundingfaktorer). Men denna fullständiga elimination av confounding kan bara ske om randomiseringen gått rätt till, och om randomiseringsresultatet lämnats intakt. Om man efter randomiseringen börjar exkludera deltagare, eller om deltagare själva lämnar studien så kan det plötsligt uppstå positiva eller negativa samband mellan behandlingen och faktorer som påverkar sannolikheten för utfallet, och plötsligt kan man ha fått problem med confounding. Tänk dig att du genomför en RCT av en aktiv behandling mot lunginflammation (med placebo som jämförelse), men att den aktiva behandlingen har en biverkan som främst gör sig påmind hos rökare, så att många rökare i behandlingsgruppen hoppar av studien. Tänk dig också att rökning inverkar negativt på läkningen av lunginflammationer. Om oproportionerligt många rökare hoppar av just från den aktiva behandlingsarmen, och man bara analyserar dem som genomfört hela studien enligt protokollet (s.k. per protocol -analys) kommer den aktiva behandlingsarmen då att innehålla en mindre andel rökare än kontroll-armen. Det kan leda till att resultaten vad gäller andelen som tillfrisknat blir bättre i den aktiva behandlingsarmen, inte bara på grund av läkemedelseffekten, utan på grund av selektionsbias på grund av bortfallet. Det har alltså uppstått ett inverst samband mellan den aktiva behandlingen och andelen rökare, och man har plötsligt fått s.k. negativ confounding från rökning (effekten av den aktiva behandlingen blandas med effekten av att ha färre rökare i behandlingsarmen). Därför är man överens om att huvud-analysen ska inkludera ALLA som randomiserats, även dem som senare exkluderats eller fallit bort. En sådan analys kallas Intention-to-treat -analys eller ITT-analys. Det är BARA om randomiseringsutfallet lämnats intakt som man kan vara säker på att det inte finns någon selektionsbias eller confounding. Det anses vara en svår brist om inte ITT-data presenteras som huvudresultat. Vid en ITT-analys måste man emellertid ofta göra antaganden om hur det gått för dem som fallit bort, och för att vara konservativ brukar man anta att alla dessa INTE blivit förbättrade ( worst-case scenario ). Bäst är förstås att minimera bortfallet. Max-poängen för intern validitet är 33. Om den sammanlagda poängen för intern validitet är över 28 måste studien anses ha utmärkt intern validitet. Om poängen är 25-28 kan den interna validiteten sägas vara god. Om poängen är 20-24 kan den interna validiteten sägas vara något tveksam. Om poängen är 15-19 är den interna validiteten bristfällig. Om poängen är under 15 är den interna validiteten sannolikt undermålig och man bör överväga om man överhuvudtaget ska beakta dess resultat. 3. Bedömning av statistiskt underlag / precision 3.1 Minsta kliniskt relevanta effekt a) Var den minsta kliniskt relevanta effekten förhandsdefinierad? 7
b) Är den valda minsta kliniska relevanta effekten av rimlig storlek? Nej (eller ej angiven) (= 0) Kommentar: För att överhuvudtaget kunna ta ställning till om studien haft tillräcklig precision måste man bestämma sig för vad som är så viktig effekt att den inte får missas. När man väl har bestämt sig för detta, liksom vilken risk man är villig att ta för att felaktigt acceptera ett falskt positivt resultat (dvs. ett statistiskt signifikant resultat när behandlingen i själva verket är overksam vanligen brukar den risken sättas till 5%) och vilken risk man är beredd att ta för att felaktigt acceptera ett falskt negativt resultat (dvs. få ett statistiskt icke-signifikant resultat när behandlingen i själva verket är verksam alltså missa effekten en risk som vanligtvis sätts till 20%, eller mer ovanligt 10%) kan man beräkna hur stor studien behöver vara (urvalsstorlek). 3.2 Undersökningens statistiska styrka a) Är överväganden och beräkningar till grund för val av urvalsstorlek ( sample size ) tydligt beskrivna? b) Hur stor var studiens power (styrka) att påvisa den minsta kliniskt relevanta effekten? Power-beräkning är irrelevant eftersom det fanns en statistiskt signifikant effekt (=3) Power >90% (= 3) Power 80-89% (= 2) Power 70-79% (= 1) Power <70% (= 0) Power ej angiven trots icke-signifikant resultat (= 0) Kommentar: Power är ett indirekt mått på risken för falskt negativa resultat, dvs. att man missar en effekt som faktiskt finns. Falskt negativa resultat kallas typ-ii-fel eller beta-fel. Power är 1 (risken för typ-ii-fel). Risken för typ-2-fel bestäms av den minsta kliniskt relevanta effekt som man vill säkerställa och urvalsstorleken. Ju mindre effektstorlek som man vill säkerställa, och ju mindre studie, desto större är risken för att man missar effekten (typ-ii-fel). Om risken för typ-ii-fel har beräknats till 30% är power 1 0,30=0,70 eller 70%. Att öka power från 80% till 90% kräver ofta en kraftig utökning av urvalsstorleken. Totalpoäng >4: Adekvat statistiskt underlag; 2-4 tveksamt statistiskt underlag; 0-1 otillräckligt statistiskt underlag. 8