Utvärdering av tester

Relevanta dokument
Differentiell psykologi

Handledarsida. Två remisser till arbetsprov

Kvalitetssäkring och Validering Molekylära Metoder. Susanna Falklind Jerkérus Sektionen för Molekylär Diagnostik Karolinska Universitetslaboratoriet

Differentiell psykologi

Diagnostiska metoder. Några reflektioner. Christina Lindh Odontologiska fakulteten Malmö högskola

Medicinsk statistik III Läkarprogrammet, Termin 5 VT 2016

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Vetenskaplig metod och statistik

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Vad är kännetecknande för en kvalitativ respektive kvantitativ forskningsansats? Para ihop rätt siffra med rätt ansats (17p)

Statistisk styrka Dimensioneringsberäkningar

Hur skriver man statistikavsnittet i en ansökan?

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Statistik 1 för biologer, logopeder och psykologer

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Tentamen Metod C vid Uppsala universitet, , kl

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Uppgift 1. Produktmomentkorrelationskoefficienten

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Kriterier och riktlinjer för evidensbaserad bedömning av mätinstrument

Vetenskaplig metod och Statistik

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Vetenskaplig Metod och Statistik. Maja Llena Garde Fysikum, SU Vetenskapens Hus

Inlämningsuppgift-VT lösningar

EXAMINATION KVANTITATIV METOD vt-11 (110319)

I PRIMÄRVÅRDENS BRUS Vad ska vi göra? Vad ska vi hitta? Vad är sjukdom? Om tester och andra hjälpmedel i den kliniska vardagen.

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

F3 Introduktion Stickprov

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Manual för granskning av artiklar som bedömer en mätmetods egenskaper

Vetenskaplig metod och statistik

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning G70 Statistik A

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

EXAMINATION KVANTITATIV METOD

OBS! Vi har nya rutiner.

2 Dataanalys och beskrivande statistik

OmniStat-OmniRisk. Ett par enkla datorprogram för att lära sig grunderna i att. 1. utvärdera diagnostiska metoders prestanda och testresultat

HYPOTESPRÖVNING sysselsättning

Torbjörn Kjerstadius Klinisk mikrobiologi Karolinska universitetslaboratoriet, Solna

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3

Kvantitativa metoder och datainsamling

Differentiell psykologi

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

Provmoment: Tentamen 3 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

, s a. , s b. personer från Alingsås och n b

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

GHQ-12 General Health Questionnaire-12

Kursnamn: Vetenskapsteori och grundläggande forskningsmetod

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Anvisningar till rapporter i psykologi på B-nivå

Introduktion till statistik för statsvetare

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Repetitionsföreläsning

Börja med resultatet om du vill designa en lyckad klinisk studie

1 Mätdata och statistik

Blodtryckskontroll hos diabetiker typ 1 vid medicinkliniken, Piteå sjukhus varför når vi inte målet?

Användbara indikatorer

Gamla tentor (forts) ( x. x ) ) 2 x1

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Medicinsk statistik II

OBS! Vi har nya rutiner.

TENTAMEN KVANTITATIV METOD (100205)

Stokastiska signaler. Mediesignaler

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Namn: Pers.nr: G: Minst 65 % Kod: T5V16 -

Statistik 1 för biologer, logopeder och psykologer

OBS! Vi har nya rutiner.

Resultatet läggs in i ladok senast 13 juni 2014.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

OBS! Vi har nya rutiner.

3.1 Utvärdering av diagnostiska metoder

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Föreläsning 1: Introduktion

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Kvantitativ strategi viktiga begrepp 3. Wieland Wermke

733G02: Statsvetenskaplig Metod Therése Olofsson Metod-PM - Gymnasiereformens påverkan på utbildningen

ÖVNINGSUPPGIFTER KAPITEL 8

Bilaga 6 till rapport 1 (5)

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Statistik och epidemiologi T5

2.1 Minitab-introduktion

Bilaga 10. Statistiska begrepp i medicinska utvärderingar

Forskningsprocessens olika faser

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Internationella erfarenheter: Publicerade resultat kring cut off- värden för jordnöt

Transkript:

Sida 1 av 10 Utvärdering av tester Inom kvantitativ forskning kallar vi ibland våra datainsamlingstekniker för tester. I forskningsprojekt som använder tester är det alltid bra att kunna klargöra hur bra testet är i den använda situationen. En del forskningsprojekt har som direkt mål att ta fram bättre beskrivning av validitet och reliabilitet för ett test. När vi vill utvärdera ett test brukar vi ofta jämföra utfallet av vårt test (vi kan kalla det test A) med en gold standard (ett slags "facit"). Ett test kan vara en analys av Hb-värdet i blodet, mätning av systoliskt blodtryck, en bakterieodling från svalget, en strukturerad enkät eller en strukturerad intervju. Vilka typer av tester finns det? Inom kvantitativ metodik finns fyra huvudtyper av tester: 1. Tester som ger ett exakt mätvärde, till exempel Hb-värde. Värdet kan i princip anta vilket värde som helst, givetvis inom rimliga gränser. Mätdata är kontinuerliga eller diskreta, d.v.s. skalstegen är ekvidistanta och mäts enligt intervallskalan eller kvotskalan (för information om olika variabler och mätskalor se sidan om variabler). 2. Tester som ger svar med kvalitativa mätdata med mer än två tänkbara utfall där de tänkbara utfallen är ordnade, till exempel en enkät med svarsalternativen "instämmer helt"-"instämmer delvis"-"tveksam"-"instämmer inte alls". VAS (Visuell Analog Skala) räknas också hit. Mätdata mäts efter ordinalskalan. 3. Tester som ger svar med kvalitativa mätdata med mer än två tänkbara utfall där de tänkbara utfallen är oordnade, exempelvis blodgruppstillhörighet. Mätdata mäts efter nominalskalan. 4. Tester som ger ett ja-nej-svar (dikotomt svar), exempelvis närvaro eller frånvaro av streptokockbakterier i halsen. Mätdata mäts efter nominalskalan. Utvärdering av tester Svaret mäts enligt intervall / kvotskalan För tester av typen 1 enligt ovan vill man undersöka hur utfallet av testet stämmer överens med resultatet av vårt facit (=gold standard). Detta kan lämpligen göras genom att för varje individ räkna ut skillnaden mellan vårt nya test och vårt facit. Vi räknar sedan fram medelvärde och standardavvikelse (ett mått på den genomsnittliga avvikelsen från medelvärdet) för alla våra skillnader. Vi kan sedan bilda ett 95%-konfidensintervall för skillnaderna. Om detta intervall skulle bli ±12g/l kan vi säga att det nya testet med 95% säkerhet inte kommer att skilja sig från det gamla testet med mer än 12g/l (om det nu var en ny metod för att mäta Hb som vi ville testa). Om materialet från någon av testerna är snedfördelat bör man transformera data (vanligtvis logaritmera). Läs mer om detta på vår sida om att utvärdera graden av överensstämmelse (limits of agreement).

Sida 2 av 10 Svaret mäts enligt ordinalskalan Om antalet möjliga utfall är rimligt stort (<10-15) passar kappakoefficient som ett mått på hur väl det nya testet stämmer överens med det gamla etablerade. Svaret mäts enligt nominalskalan och kan ha fler än två olika utfall För tester av typ 3 kan man ange hur väl testet stämmer överens om man låter två olika personer utföra testet (inter-rater reliability" = inter-rater agreement) eller om man låter samma person utföra testet vid två olika tillfällen (test-retest reliability). Detta gör man genom att räkna ut kappakoefficient. I situationen med en enkät bestående av flera delar kan man ange hur väl de olika delar stämmer överens genom att ange Chronbach's alpha (="internal consistency reliability"). Svaret mäts enligt nominalskalan och kan ha två olika utfall För tester av typ 4 kan man även här ange kappakoefficient. Det är dock mycket vanligare att man värderar testet utifrån egenskaper som känsligheten hos metoden (sensitivitet), chansen för att få falskt positiva svar (specificitet), om testet egentligen tillförde någon ny kunskap (likelihood ratio) samt användbarheten i det enskilda fallet (prediktivt värde). Dikotomisering av testutfallet Tester av typen 1 och 2 enligt ovan omvandlas ofta till tester av typen ja/nej (typ 4 enligt ovan) genom att man ställer upp en gräns. Om testresultatet hamnar ovan gränsen anses detta vara ett ja-svar, om värdet hamnar under anses testet ha gett ett nej-svar. Felaktiga metoder vid jämförelse av olika tester Det anses olämpligt att använda korrelationsanalys för att jämföra utfallet av tester av typ 1 eller 2 med en gold standard. Orsaken är att korrelationsanalysen ger mer utslag för de individuella skillnaderna än för skillnader i testutfall mellan det nya testet och gold standard. Även när testen stämmer dåligt överens kan man i en korrelationsanalys se en hög korrelation eftersom sambandet mest beror på att man mäter något där den individuella variationen slår igenom. Exempel på detta kan vara olika metoder att mäta BMI (Body Mass Index). Här kan två olika metoder stämma dåligt överens men skillnaderna i BMI mellan de olika individerna betyder mycket mer än skillnaderna i utfall av de olika testen. Intra Class Correlation är en metod som har blivit populär på senare år. Den liknar korrelationsanalysen men ger inte riktigt samma stora fel som denna. Ibland ser man att man med t-test jämför medelvärdet av resultaten mätta med det nya testet med medelvärdet för resultaten framtagna med vår gold standard Man hävdar då att ingen signifikant skillnad innebär att det nya testet är lika bra som vår gold standard. Det anses i den statistiska litteraturen att detta är ett olämpligt förfarande.

Sida 3 av 10 Sensitivitet och specificitet För att kunna ta fram egenskapen sensitivitet och specificitet hos ett test måste vi ha ett facit att jämföra med. Detta facit kallas "gold standard" (se längre ner) och är den metod som anses bäst återge sanningen. Sensitiviteten är den andel sant positiva som testet korrekt identifierar som positiva och specificiteten är den andel sant negativa som testet korrekt anger som negativa (Tabell 1). Tabell 1 - Sensitivitet och specificitet Gold standard är......positiv...negativ Positivt test a b a+b Negativt test c d c+d Sensitivitet=a/a+c Specificitet=d/b+d Ett test är alltid en avvägning mellan sensitivitet och specificitet. Man kan designa ett test som alltid ger positivt utfall. Ett sådant test skulle ha en strålande bra sensitivitet (100%) men urusel specificitet (0%). Om man vill vara säker på att inte överdiagnostisera kan man designa ett test som alltid ger negativt utfall. Man får då den utmärkta specificiteten 100% men tyvärr en sensitivitet på 0%. Sådana här extrema test är naturligtvis helt värdelösa. I praktiken gör man en avvägning så att man får bästa möjliga kompromiss. För testet svalgodling (letar efter streptokockbakterier i svalget) är sensitiviteten c:a 90% och specificiteten c:a 97%. Egenskaperna sensitivitet och specificitet kan variera beroende på vilken metod man använder. De som tillverkar tester kan i förväg påverka vilka testegenskaper ett test skall ha genom att ändra på tillverkningsproceduren. Dessa variationer i sensitivitet och specificitet kan ritas upp grafiskt (Diagram 1). Den grafiska linjen kallas ROC-kurva som står för "Reciever/Response Operating Characteristiccurve".

Sida 4 av 10 Diagram 1 - ROC-kurva (De två olika diagrammen representerar två alternativa sätt att ange x- och y-skalorna) (De två olika kurvorna representerar två olika tester. Testet motsvarande den heldragna linjen kan anses vara något bättre än testet motsvarande den streckade linjen. Olika tillverkningsprocedurer eller olika sätt att hantera testet varierar testegenskaperna och man kan således höja sensitiviteten hos ett test till priset av lägre specificitet och tvärtom. Ju bättre testet är desto mer närmar sig kurvan diagrammets övre vänstra hörn. Ett riktigt bra test ligger så nära detta hörn att det har samma höga sensitivitet och specificitet oavsett hur man (inom rimliga gränser) manipulerar med tillverkningsprocedurer eller olika sätt att hantera testet. Företag som tillverkar tester lägger ofta ner stor möda på att ge testet en rätt avvägning mellan sensitivitet och specificitet. Man kan tycka att egenskaperna sensitivitet och specificitet borde vara konstanta för ett test om man tillverkar det på samma sätt och handhar testet på samma sätt. I verkligheten påverkas dock dessa testegenskaper lite grand även av fenomenets prevalens. Tänk dig att en person sitter och granskar odlingsplattor för att upptäcka halsflussbakterier. Om personen visste att ungefär varannan platta innehöll halsflussbakterier skulle sannolikt varje platta bli noggrant granskad. Då blir sensitiviteten hög. Om det istället vore så att endast var 1000:e platta innehöll halsflussbakterier skulle varje platta sannolikt inte bli lika noggrant granskad. Sannolikheten att missa denna 1000:e skulle då öka något, med andra ord skulle sensitiviteten sjunka och specificiteten öka. Prevalensen påverkar alltså sensitiviteten och specificiteten. Likelihood ratio (=Odds ratio) Vitsen med att göra ett test är att vi skall veta mer efteråt. Testet skall alltså tillföra information. Sannolikheten för att individen har egenskapen (t. ex. sjukdomen) skall vara högre efter ett positivt test jämfört med före testet. Om sannolikheten inte ökar har testet inte tillfört något nytt. Hur många gånger sannolikheten ökar kallas likelihood ratio (LR) av ett positivt test. Man kan räkna ut LR av ett positivt

Sida 5 av 10 testutfall, PLR (Formel 1, Formel 2), och av ett negativt testutfall, NLR (Formel 3, Formel 4). Vanligen brukar man bara räkna ut LR vid positivt testutfall. Formel 1 - Likelihood ratio för ett positivt test, principinnehåll Formel 2 - Likelihood ratio för ett positivt test Formel 3 - Likelihood ratio för ett negativt test, principinnehåll Formel 4 - Likelihood ratio för ett negativt test Ett högt PLR gör att testet kommer att tillföra ny information. Omvänt gäller vid NLR, d.v.s. ett lågt värde är bra. LR beror på sensitiviteten och specificiteten men inte direkt på prevalensen. Enligt resonemanget ovan kan sensitivitet och specificitet ändras om prevalensen ändras. I regel påverkas LR mindre av ändringar i prevalensen än sensitivitet och specificitet. Likelihood ratio är mycket användbart om man vet prevalensen för det fenomen man vill undersöka (Formel 5).

Sida 6 av 10 Formel 5 - Exempel på användningen av likelihood ratio för ett positivt test (Vi antar i detta exempel att sannolikheten före test att ha sjukdomen är 25% och att PLR är 2,4) Kunskap före genomfört test x PLR = Kunskap efter genomfört test Odds för att individen har fenomenet: 1:3 = 0,33 x 2,4 = 2,4:3 = 0,8 Sannolikhet att individen har fenomenet: 1/3+1 = 0,25 = 25% (="pretest probability" ="prior probability" =sjukdomens prevalens) 2,4/3+2,4 = 0,44 = 44% (="posttest probability" ="posterior probability" =positivt predikivt värde) Vet man prevalensen före test är likelihood ratio ett utmärkt sätt att räkna fram sannolikheten att individen efter testet har den egenskap man letar efter (=positivt prediktivt värde). Speciellt användbart blir detta när man utgår från en känd prevalens och sedan gör flera sinsemellan oberoende test i en serie. Oddset efter första testet blir förtest-oddset för nästa test, och så vidare. Viktigt att komma ihåg är att om man inte känner till prevalensen före test, då är likelihood ratio inte så mycket mer användbart än sensitivitet och specificitet. Ett högt positivt likelihood ratio kan visa att det i och för sig är ett bra test men det innebär inte att ett positivt test med hög sannolikhet indikerar närvaro av sjukdom (om det nu är sjukdom testet letar efter). Prediktivt värde (Predictive value) Sensitivitet och specificitet löser i regel fel problem. De berättar hur testet fungerar men inte hur patienten mår. Prediktivt värde (=förutsägande värde) talar om sannolikheten att den enskilda patienten har det som testet avser att hitta. När vi använder ett test vet vi inte vem som har eller saknar t. ex. sjukdomen. Vi kan använda sensitivitet, specificitet och den sökta egenskapens (sjukdomens?) förekomst (=prevalens) för att räkna ut prediktivt värde. Av dessa tre är det oftast prevalensen som påverkar prediktivt värde mest. Positivt prediktivt värde (PPV) är chansen att egenskapen (sjukdomen?) verkligen finns hos den testade individen om testet är positivt. Följdaktligen är negativt prediktivt värde (NPV) chansen att egenskapen (sjukdomen?) saknas hos den testade individen om testet är negativt. Om prevalensen av egenskapen (sjukdomen?) minskar så minskar det positiva prediktiva värdet medan det negativa prediktiva värdet ökar. Slutsatsen är att om prevalensen ändras så kan sensitivitet och specificitet kanske ändras men det prediktiva värdet kommer ovillkorligen att ändras. Man bör komma ihåg att prediktivt värde är ett statistiskt begrepp och inte ett medicinskt. Inom statistiken räknar man prediktivt värde på många olika fenomen, exempelvis sannolikheten att det idag blir en medelvind över 10m/sekund. Tänk dig att vi vill ta reda på om en person har betahemolyserande streptokockbakterier i halsen. Vi gör testet svalgodling som har sensitiviteten c:a 90% och specificiteten c:a 97%. Det låter ju som ett bra test. Anta att vi testar 1000 individer som redan är väl utredda med något annat slags test (Tabell 2). Just därför

Sida 7 av 10 vet vi att exakt 10% av dessa 1000 individerna har streptokocker i halsen. Vi ser då att om vårt test är positivt innebär det 77% chans att individen har streptokocker i halsen. Tabell 2 - Exempel för att räkna ut prediktivt värde (PPV=Positivt prediktivt värde, NPV=Negativt prediktivt värde) Har bakterier Saknar bakterier Positivt test 90 27 117 Negativt test 10 873 883 Totalt antal: 100 900 1 000 Sensitivitet = 90/100=90% Specificitet = 873/900=97% PPV = 90/117 = 77% NPV = 873/883 = 99% I vårt exempel ser vi att för en enskild patient med negativ svalgodling så är det 99% chans att personen verkligen inte har streptokockbakterier i svalget. Det vore alltså dumt att ge antibiotika i det läget. Ett positivt test säger för den enskilde patienten att det är 77% chans att det finns streptokockbakterier i svalget. Ju lägre prevalens av fenomenet/sjukdomen man letar efter desto mindre användbart är PPV medan svaret på NPV blir mer värdefullt. Vid stigande prevalens gäller det omvända. Generellt gäller att ju högre värden på prediktivt värde desto mer användbart är det (mer om detta längre fram). Om vi tänker oss att leta efter individer med en viss sjukdom där vi vet att prevalensen är 0,001%. Med andra ord en mycket ovanlig sjukdom. Om vi bara tar en person slumpmässigt vald är alltså chansen att den individen har sjukdomen 0,001%. Låt oss nu göra ett test med egenskapen 90% sensitivitet och 97% specificitet (samma testegenskaper som en svalgodling). För räkneexemplets skull tänker vi oss att 1 miljon individer undersöks (Tabell 3). Här ser vi att sannolikheten för att individen har sjukdomen ökar från 0,001% före testet till 0,03% efter ett positivt test. Blir vi klokare av det?!

Sida 8 av 10 Tabell 3 - Exempel på prediktivt värde vid låg prevalens (PPV=Positivt prediktivt värde, NPV=Negativt prediktivt värde) Har sjukdom Saknar sjukdom Positivt test 9 30 000 30 009 Negativt test 1 969 990 969 991 Totalt antal: 10 999 990 1 000 000 Sensitivitet = 9/10=90% Specificitet = 969990/999990=97% PPV = 9/30009 = 0,03% NPV = 969990/969991 = 100% Av detta (något extrema) exempel lär vi oss att prevalensen har en mycket stor inverkan på hur högt, och därmed användbart, det prediktiva värdet skall bli. Ju högre prediktivt värde desto större klinisk användbarhet av testet. Hur högt måste det vara för att testet skall kunna anses vara användbart? Det beror på situationen. Letar vi efter en farlig sjukdom som lätt kan botas med en biverkningsfri behandling så nöjer vi oss med ett lägre positivt prediktivt värde (PPV). Omvänt gäller att letar vi efter mindre farliga sjukdomar där behandlingen har tveksam effekt eller biverkningarna är märkbara så kräver vi ett högre PPV (mer om detta längre fram). Man ser ibland skrivet att singla slant innebär att PPV och NPV båda är 50%. Detta är fel! Om man använder det beprövade testet slantsingling är sensitivitet och specificitet 50%. Det prediktiva värdet blir helt beroende av prevalensen. I exemplet med streptokockbakterier (Tabell 2) skulle testet slantsingling ha PPV 10% och NPV 90%. Detta innebär att om rätt sida av slanten kom upp (den som vi definierat som negativt test) skulle slantsingling vara tillräckligt bra för att vara jämförbart med en del av de tester som vi läkare använder i vår vardag. Gold standard Gold standard är en allmänt accepterad referensmetod eller den bästa metoden som finns för att fastställa närvaro eller frånvaro av det man letar efter. Förhoppningsvis är den allmänt accepterade referensmetoden också den bästa metoden. Alla ovanstående mått på värdet av ett test fås fram genom att jämföra vårt test med en gold standard. Det är viktigt och komma ihåg att "sanningen" och gold standard inte alltid är samma sak. Om de skiljer sig åt måste vi komma ihåg att vår testutvärdering inte är optimal. Ju större skillnad mellan "sanningen" och vår gold standard desto större risk att vårt nya test som utvärderas får bättre eller sämre testvärden än det egentligen har. (Falskt bättre testvärden om gold standard och det nya testet har samma systematiska fel, falskt sämre testvärden om enbart vår gold standard har ett systematiskt fel eller ett stort slumpmässigt fel) När man säger prediktivt värde är det inte självklart att det är sannolikheten för sjukdom man förutsäger. Det kan i medicinska sammanhang ofta vara närvaro av

Sida 9 av 10 något annat än sjukdom, exempelvis en streptokockbakterie i halsen. Om närvaro av bakterien i halsen innebär att man alltid är sjuk av dem så är det ingen skillnad mellan att förutsäga närvaro av en bakterie eller en sjukdom, exempelvis halsfluss orsakad av streptokockbakterier. Om det finns friska bärare av samma bakterie som inte skall behandlas, då blir det genast en stor skillnad. Ett positivt test kan då innebära att individen är en bärare av streptokockbakterier som är sjuk av virus. Här är det viktigt att ha klart för sig vad det är som förutsägs och relevansen av det. Vad är det egentligen vår gold standard förutsäger? Mer information om detta finns i vår sektion om etiologiskt prediktivt värde (denna del är på engelska och lite mer avancerad). Att bedöma testets kliniska användbarhet Vilket mått på tester skall vi använda? Förenklat kan man säga att: Sensitivitet, specificitet och likelihood ratio svarar på frågan: Hur mår testet? Prediktivt värde svarar på frågan: Hur mår patienten? Om vi vill bedöma användbarheten av ett test i praktiskt kliniskt bruk är sensitivitet och specificitet ganska ointressanta. Prediktivt värde är det överlägset bästa sättet att bedöma den kliniska användbarheten. Likelihood ratio är en alternativ väg för att ta fram prediktivt värde. Den vägen är speciellt användbar när man vill bedöma värdet av att ta flera olika tester i följd. Om vi känner till både egenskaperna prediktivt värde och likelihood ratio (sistnämnda kan räknas fram från sensitivitet och specificitet) kan vi försöka skatta testets kliniska användbarhet (Tabell 4).

Sida 10 av 10 Tabell 4 - Det kliniska värdet av ett test Prediktivt värde Likelihood ratio Positivt (PPV) Negativt (NPV) Positivt (PLR) Negativt (NLR) Högt Högt Testet kommer att ge dig användbar information. Högt Lågt Lågt Högt Redan innan testet görs vet du att patienten sannolikt har sjukdomen. Testet tillför inte så mycket ny information. Testet ger dig ny information som dock är av tveksamt kliniskt värde. Lågt Lågt Testet är oanvändbart i denna situation. Högt Högt Redan innan testet görs vet du att patienten sannolikt inte har sjukdomen. Testet tillför inte så mycket ny information. Högt Lågt Testet kommer att ge dig användbar information. Lågt Högt Testet är oanvändbart i denna situation. Lågt Lågt Testet ger dig ny information som dock är av tveksamt kliniskt värde. Vad är högt respektive lågt? Det är svårt att ge ett exakt svar eftersom det beror på det man letar efter och konsekvenserna om man missar det. Som en grov utgångspunkt för diskussionen skulle jag vilja föreslå PLR >1,5, NLR<0,67, PPV>60 och NPV>90. Dessa värden kan vara en hjälp för att förstå tabell 4. I en faktisk utvärdering av den kliniska användbarheten av ett test måste man dock väga in de aspekter som det innebär att missa det testet letar efter (klassificera sjuka som friska), respektive konsekvensen av att klassificera friska som sjuka. Handlar det om en potentiellt dödlig sjukdom som lätt kan botas med en ofarlig behandling är det viktigt att inte missa någon individ. Här kanske man kan anse ett PPV efter test på mer än 5-10% vara tillräckligt för behandling. Om man å andra sidan utvärderar ett test för att hitta en sjukdom som endast sällan ger allvarliga komplikationer är det rimligt att kräva ett högre värde på PPV innan man ger behandling. Vid exempelvis halsfluss anser en del författare att sannolikheten för att individen har streptokocker (PPV av ett test för påvisande av streptokockbakterier) bör överstiga 60% innan man ger behandling. Handlar det om en sjukdom som endast sällan ger allvarliga komplikationer och där behandlingen medför risker för patienten kanske det är rimligt att kräva ett PPV på mer än 95-100% innan man ger behandling.