Manual för granskning av artiklar som bedömer en mätmetods egenskaper

Manual för granskning av artiklar som bedömer en mätmetods egenskaper Denna manual är tänkt att användas tillsammans med Mall för granskning av vetenskapliga artiklar om mätmetoder. Syftet med manualen är att förtydliga och ge en djupare förståelse för olika relevanta vetenskapliga begrepp och statistiska analysmetoder. Syftet är vidare att underlätta viktningen av de i mallen ingående frågorna om den granskade mätmetoden och slutligen underlätta bedömningen av mätmetodens relevans i kliniken. Datanivå* och ICF nivåer* De egenskaper en viss typ av data har avgör vilken så kallad datanivå* dessa ligger på. Nominalskala (nominal scale) tillämpas då data är kategoriserade, dvs indelade i grupper utan rangordning mellan grupperna, t.ex. kön och blodgrupp. Ordinalskala (ordinal scale) tillämpas då mätvärdena medför en rangordning. Man kan dock inte säga någonting om skillnadernas storlek t.ex. vid bedömning av hälsotillstånd. Intervallskala (interval scale) innebär både rangordning av mätvärden och att avståndet är lika stort mellan olika mätvärden t.ex. temperatur enligt Celsius. Kvotskala (ratio scale) är den högsta datanivån. Kvotskalan har intervallskalans alla egenskaper och dessutom en absolut nollpunkt, dvs alla räknesätten kan användas vid beräkningar. Ex: ålder, längd, vikt. ICF (Internationell klassifikation av funktionstillstånd, funktionshinder och hälsa enligt WHO) är en modell som klassificerar funktionstillstånd och funktionshinder, som relaterar till hälsoförhållanden. Begreppet funktionstillstånd utgör en paraplyterm för ICF nivåerna* kroppsfunktion, kroppsstruktur, aktivitet och delaktighet. På motsvarande sätt är funktionshinder en paraplyterm för funktionsnedsättningar, strukturavvikelser, aktivitetsbegränsningar och delaktighetsinskränkningar. ICF förtecknar även omgivningsfaktorer, som interagerar med alla dessa aspekter av människans funktion, samt personliga faktorer. Reliabilitet* Reliabilitet anger den noggrannhet, säkerhet och exakthet man kan uppnå med det mätinstrument man använder. Ett instrument är reliabelt om det mäter liknande värde (exakthet) i samma kvantiteter eller kvaliteter vid upprepad mätning. Precisionen i upprepade mätningar är viktig att ange både INOM individen (absolut reliabilitet) och med hänsyn tagen till variationen MELLAN individer (relativ reliabilitet). Man vill också veta i vilken utsträckning instrumentet överensstämmer med sig självt, hur beständigt det är (konsistent). Ett instrument måste vara reliabelt för att också kunna uppnå validitet. Intrabedömar-reliabilitet*: (intrarater reliability) I vilken grad kan en bedömare upprepa sin mätning av en variabel och erhålla liknande resultat? 1

Interbedömar-reliabilitet*: (interrater reliability) Samstämmighet/överensstämmelse mellan olika bedömare. I vilken grad överensstämmer flera bedömares mätningar av samma variabel? Ett sätt att öka interbedömar-reliabiliteten är att bedömarna gemensamt tränar innan undersökningen startar. Test-retest stabilitet*: (test-retest method) I vilken grad är mätresultaten stabila över tid? Intern överensstämmelse*: (internal consistency, dvs instrumentets homogenitet). I vilken grad bidrar enskilda frågor till instrumentets totalsumma? Frågor i ett frågeformulär ska hänga samman och ingen enskild fråga ska sticka ut. Statistisk analys ICC (Intraclass Correlation Coefficient) är den parametriska statistiska analysmetod som lämpligen används för bedömning av intra- respektive interbedömar-reliabilitet, samt test-retest, då data finns på intervall- eller kvotskalenivå. Den används dock ofta även för data på ordinalnivå. ICC baseras på en en-faktor variansanalys, ANOVA, för upprepade mätningar. Man jämför medelvärdet mellan flera mättillfällen (Atkinson and Nevill). I ANOVA utnyttjar man variationen i materialet för bedömning av skillnader mellan medelvärdena, därav namnet varians analys (se fig 1). Utgångspunkten för variansanalys är beräkningen av materialets samlade varians. Ett F-värde (motsvarar t-värdet) och p-värde presenteras som resultat av en ANOVA. A B C 10 10 10 0 Gr1 Gr2 0 Gr1 Gr2 0 Gr1 Gr2 Fig 1. (modifierad; efter tillåtelse av Bjorndal och Hofoss: Statistik för hälso och sjukvårdspersonal. 1998. Universitetsförlaget, Oslo) A: Två olika gruppmedelvärden. B: Samma medelvärden med observationerna utspridda. Skillnaden mellan medelvärdena är inte statistiskt signifikant. C: Samma medelvärden med observationerna tätare in mot medelvärdena. Skillnaden mellan medelvärdena är statistiskt signifikant. Kappa statistik är en icke-parametrisk analysmetod, då data finns på nominal- och ordinalskalenivå. Denna metod kan användas för att analysera överensstämmelse mellan två/flera personer (interbedömar-reliabilitet) och två/flera mättillfällen (intrabedömar-reliabiliet och test- retest). 2

Det finns i litteraturen olika riktlinjer för tolkning av kappakoefficienten. Nedan följer ett exempel (Bring och Taube). < eller lika med 0.20 = Dålig 0.21 0.40 = Svag 0.41 0.60 = Måttlig 0.61 0.80 = Bra 0.81 1.00 = Mycket bra Beroende t-test kan också användas vid upprepad mätning (intrabedömar-reliabilitet och test-retest). Om resultatet av denna metod visar en icke signifikant skillnad över tid innebär detta bra korrelation mellan mätningarna. Det finns dock risk för missvisande resultat då ingen indikation om slumpmässig variation mellan testen ges. Metoden kan ändå rekommenderas för test-retest på grund av att den kan upptäcka en stor systematisk felkälla. Man bör dock titta på data på individnivå för att se om det finns många slumpmässiga fel. ANOVA kan också användas vid upprepad mätning (test-retest). Man har dock samma problem som vid beroende t-test. Pearson s korrelations koefficient (r): Denna metod är mindre bra att använda då den inte kan upptäcka systematiska felkällor och då den är mycket beroende av variation i värdena i urvalet. Exempelvis kan jämförelsen mellan två skattningar med olika medelvärden ge samma r-värde med Pearson s, som en jämförelse mellan två skattningar med likartade medelvärden, se nedan. r1= 0.84 mellan två skattningar där M1= 3.39, sd1=2.39 och M2=6.39, sd2=2.29. r2= 0.84 mellan två skattningar där M1= 3.39, sd1=2.39 och M2=3.48, sd2=2.29. (M= medelvärde, sd= standardavvikelse, dvs variation). Pearson s korrelationskoefficient används ofta i litteraturen för att bedöma överensstämmelse fast den bara mäter samband. Det kan finnas ett starkt samband mellan två variabler samtidigt som överensstämmelsen är svag. I allmänhet bör man alltså inte använda sig av Pearson s korrelationsanalys för reliabilitetsberäkningar (eller Spearman s r (r s ) som är motsvarigheten i ickeparametrisk analys). Cronbach s alpha koefficient är resultatet av en sambandsanalys och används ofta för att ange intern överensstämmelse inom ett mätinstrument. Storleksmässigt tolkas denna som alla andra reliabilitets- koefficienter. Koefficienter Koefficienterna kan variera mellan 1 och +1. Total samband r = 1, inget samband r = 0. Resultatet bör oftast inte understiga r/ alpha/ Kappa/ ICC = 0.8, vilket innebär 80% sann variation i värdena, dvs sanna skillnader mellan observationerna. Då är 20% slumpmässig felvariation. Ju mindre slumpmässig felvariation desto bättre. Vid test-retest betraktas r = 0.70 som tillfredsställande (Polit and Beck s. 418, 421). Validitet* Validitet avseende mätinstrument anger hur väl ett instrument mäter den variabel som man avser att mäta. Ett instruments validitet är svårare att etablera än dess reliabilitet och det finns inga självklara statistiska metoder för att beräkna validitet. Liksom reliabilitet finns även olika typer av validitet. 3

Face validity* (ytvaliditet): Detta är den lägsta graden av validitet och baseras på en subjektiv bedömning. Tycker bedömaren vid genomgång av instrumentet att det verkar mäta de variabler som är av intresse? För att ytterligare stärka detta kan hjälp tas av personer som är insatta i problemet eller som arbetar inom samma område. Här används sunt förnuft och inga statistiska metoder. Innehållsvaliditet* (content validity) Täcker instrumentets variabler alla aspekter av det som man avser att mäta? Täcker mätningen ett representativt urval av de funktioner man vill mäta? Består t.ex. ett balansinstrument av uppgifter som både mäter statisk och dynamisk balans? Kriterierelaterad validitet* (criterion-related validity): Berör sambandet mellan instrumentet och ett annat yttre kriterium. Föreligger det ett samband mellan poäng uppnådda på ett förflyttningstest och ADL-förmåga? Ofta saknas dock en golden standard att jämföra med. Det finns ett par undergrupper under denna rubrik. Prediktions validitet* innebär med vilken säkerhet ett instrument kan förutsäga skillnad i personers utförande i framtiden. Kan t ex poäng erhållna mha ett motoriskt test vid insjuknandet förutsäga hur väl personen kommer att kunna förflytta sig efter tre månader. Samtidig validitet* (concurrent validity), berör mätmetodens förmåga att särskilja individer med olika grad av den egenskap, som ska bedömas. Har personer med sämre förflyttningsförmåga lägre motoriska poäng än de som förflyttar sig utan större problem? Begreppsvaliditet* (construct validity): Detta är den svåraste formen av validitet att etablera. Ju mer abstrakt ett begrepp är desto svårare är det att bestämma dess begreppsvaliditet. I vilken grad speglar instrumentet underliggande teoretiska begrepp? Begreppsvaliditet kan skattas på många sätt, men innebär alltid en logisk analys av de bakomliggande teoretiska fundamenten och även en empirisk bevisföring med hjälp av statistiska metoder. Ett sätt är att använda known-group technique. Om man vet att olika grupper skiljer sig åt i den egenskap man vill mäta bör detta framgå när dessa personer fyller i instrumentet. Om jag vill mäta depression och har konstruerat en depressionsskala bör personer som inte är deprimerade ha annan poäng än de som är deprimerade. Två begrepp är enligt Polit och Beck fundamentala vid bedömning av begreppsvaliditet. Det ena är konvergerande validitet* (convergent validity), som innebär att olika sätt att mäta samma begrepp ger likartat resultat. Det andra är diskriminerande validitet* (diskriminant validity), som innebär instrumentets förmåga att särskilja det specifika begreppet från andra begrepp. Statistisk analys För att etablera innehållsvaliditet kan hjälp tas av en expertpanel och/eller baseras på en noggrann litteraturgenomgång. För att beräkna graden av innehållsvaliditet kan t.ex. ett Content Validity Index (CVI) beräknas. Detta är baserat på experters skattning av de ingående frågornas vikt för det som avses att mätas på en skala från 1-4. CVI för hela instrumentet är proportionen av frågor som skattats som 3 eller 4. CVI skall vara 0.80 eller mer för att anses god. En mer komplicerad statistisk metod att beräkna innehållsvaliditet kan vara att göra en faktoranalys. (Polit and Beck) 4

Kriterierelaterad validitet Om lämpligt kriterium finns beräknas sambandet enklast med någon form av sambandsmått. Dessa ligger i allmänhet mellan 0 och 1. För att anses vara någorlunda god validitet bör koefficienten ligga över 0.80. Begreppsvaliditet kan testas med faktoranalys. Distribution* A) Avser mätmetodens eventuella golv- respektive takeffekter, dvs att många observationer grupperas högt eller lågt på skalan. Det är önskvärt att resultatet är normalfördelat över skalan, med flest observationer i dess mittersta del. Om mer än 20% av skattningarna ligger vid max. respektive min. av skalan tyder detta på att skalan inte är optimal för den uppmätta variabeln. B) Skalans uppbyggnad. Är det fel/rätt att man får full poäng respektive inga poäng? Viktning De olika kriterier som används för att granska och bedöma en studies kvalitet ska viktas i förhållande till varandra, de då har olika stor betydelse för den samlade bedömningen. De kriterier som återfinns under rubriken Granskning av resultat avseende mätmetodens egenskaper i mallen Mall för granskning av vetenskapliga artiklar om mätmetoder är att betrakta som betydelsefulla i de fall de är relevanta för den typ av reliabilitet eller validitet som granskats. Detta gäller således punkt 15-22. Punkterna 11 och 12 under Granskning av studiens design och som avser de statistiska metoderna är också viktiga, då den statistiska bearbetningen har betydelse för den interna validiteten i resultatet. Kliniskt relevant förändring* Vilken förändring i utfallsmåttet/-måtten representerar en för patienten upplevbar skillnad vad gäller funktion i dagliga livet? Beskrivs detta i artikeln? Klinisk praktisk användbarhet i din vardag /slutgiltig bedömning Vad är det för typ av mätmetod? Inom vilket område mäter metoden/instrumentet? Är mätmetoden meningsfull från patientperspektiv och från ett professionellt perspektiv? Hur lång tid tar det att genomföra mätningen? Vilken utrustning behövs? Finns det en manual tillgänglig? Verkar metoden hanterbar för kliniker och patienter i den kliniska vardagen? Vilka kostnader medför mätningen? Referenser Atkinson, Nevill. Statistical methods for assessing Measurement error (reliability) in variables relevant to sports medicine. Sports Medicine 1998; Oct 26(4): 217-238. Bring J, Taube A. Introduktion till medicinsk statistik. Studentlitteratur; 2006. Bjorndal A, Hofoss D. Statistik för hälso och sjukvårdspersonal. Oslo: Universitetsförlaget; 1998. Polit DF, Beck CT. Nursing Research. Principles and Methods. 1999. 7th Edition. Philadelphia: Lippincott Williams & Wilkins; 2004. Åberg AC. General motor function assessment and perceptions of life satisfaction during and after geriatric rehabilitation. Thesis. Uppsala university, 2003, sid. 25-30. 5