Manual för granskning av artiklar som bedömer en mätmetods egenskaper



Relevanta dokument
Mall för granskning av vetenskapliga artiklar om mätmetoder

Mall och manual för granskning av interventionsstudier

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

GMF- Generell Motorisk Funktionsbedömning

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Tentamen vetenskaplig teori och metod, Namn/Kod Vetenskaplig teori och metod Provmoment: Tentamen 1

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

Repetitionsföreläsning

Föreläsning G70 Statistik A

Tillförlitlighetsaspekter på bedömningsinstrument Sammanfattning från workshop den 22 april 2002

KVANTITATIV FORSKNING

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Kriterier och riktlinjer för evidensbaserad bedömning av mätinstrument

Statistik Termin 10, Läkarprogrammet, HT16

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

OBS! Vi har nya rutiner.

Kvantitativa metoder och datainsamling

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Differentiell psykologi

Att välja statistisk metod

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Medicinsk statistik II

ARBETSMATERIAL Kurs: VETENSKAPSMETODIK 1,5 hp Termin 1

Differentiell psykologi

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Physiotherapeutic perspectives on balance control after stroke: exercises, experiences and measures

Sjukdomsspecifika PROM i kvalitetsregister

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning G60 Statistiska metoder

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Statistik 1 för biologer, logopeder och psykologer

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. Deskripitiv statistik. Lön

Statistik och epidemiologi T5

InStat Exempel 4 Korrelation och Regression

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

GRANSKNINGSUNDERLAG. Te knis k de l. Kriterier för kva litets vä rderin g a v s ta n da rdis era de bedöm n in gs m etoder in om s ocia lt a rbete

Statistik och epidemiologi T5

Differentiell psykologi

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Hur skriver man statistikavsnittet i en ansökan?

BUS Becks ungdomsskalor

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Statsvetenskapliga metoder, Statsvetenskap 2 Metoduppgift 4

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Differentiell psykologi

Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Metodikuppgifter (C), Svarsblankett C

36 poäng. Lägsta poäng för Godkänd 70 % av totalpoängen vilket motsvarar 25 poäng. Varje fråga är värd 2 poäng inga halva poäng delas ut.

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

OBS! Vi har nya rutiner.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Kunskap = sann, berättigad tro (Platon) Om en person P s har en bit kunskap K så måste alltså: Lite kunskaps- och vetenskapsteori

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

GHQ-12 General Health Questionnaire-12

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Idro%spsykologiska mätmetoder & IPS

ANOVA Mellangruppsdesign

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Vetenskaplig metodik 4,5 högskolepoäng

Differentiell psykologi

Smärtbedömning hos personer som har nedsatt förmåga att självrapportera

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

2.1 Minitab-introduktion

Parade och oparade test

Gamla tentor (forts) ( x. x ) ) 2 x1

Statistik 1 för biologer, logopeder och psykologer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Studietyper, inferens och konfidensintervall

PHQ-9 Patient Health Questionnaire-9

Inferensstatistik. Hypostesprövning - Signifikanstest

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen Metod C vid Uppsala universitet, , kl

Föreläsning 1: Introduktion. Vad är statistik?

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Mata in data i Excel och bearbeta i SPSS

F9 SAMPLINGFÖRDELNINGAR (NCT

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

kodnr: 2) OO (5p) Klassindelningar

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

TENTAMEN. SAMHÄLLSVETENSKAPLIG FORSKNINGSMETODIK Kurs 7 PC1307. Forskningsmetodik 10 poäng (ECTS) Måndag den 13 oktober, 2008

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Transkript:

Manual för granskning av artiklar som bedömer en mätmetods egenskaper Denna manual är tänkt att användas tillsammans med Mall för granskning av vetenskapliga artiklar om mätmetoder. Syftet med manualen är att förtydliga och ge en djupare förståelse för olika relevanta vetenskapliga begrepp och statistiska analysmetoder. Syftet är vidare att underlätta viktningen av de i mallen ingående frågorna om den granskade mätmetoden och slutligen underlätta bedömningen av mätmetodens relevans i kliniken. Datanivå* och ICF nivåer* De egenskaper en viss typ av data har avgör vilken så kallad datanivå* dessa ligger på. Nominalskala (nominal scale) tillämpas då data är kategoriserade, dvs indelade i grupper utan rangordning mellan grupperna, t.ex. kön och blodgrupp. Ordinalskala (ordinal scale) tillämpas då mätvärdena medför en rangordning. Man kan dock inte säga någonting om skillnadernas storlek t.ex. vid bedömning av hälsotillstånd. Intervallskala (interval scale) innebär både rangordning av mätvärden och att avståndet är lika stort mellan olika mätvärden t.ex. temperatur enligt Celsius. Kvotskala (ratio scale) är den högsta datanivån. Kvotskalan har intervallskalans alla egenskaper och dessutom en absolut nollpunkt, dvs alla räknesätten kan användas vid beräkningar. Ex: ålder, längd, vikt. ICF (Internationell klassifikation av funktionstillstånd, funktionshinder och hälsa enligt WHO) är en modell som klassificerar funktionstillstånd och funktionshinder, som relaterar till hälsoförhållanden. Begreppet funktionstillstånd utgör en paraplyterm för ICF nivåerna* kroppsfunktion, kroppsstruktur, aktivitet och delaktighet. På motsvarande sätt är funktionshinder en paraplyterm för funktionsnedsättningar, strukturavvikelser, aktivitetsbegränsningar och delaktighetsinskränkningar. ICF förtecknar även omgivningsfaktorer, som interagerar med alla dessa aspekter av människans funktion, samt personliga faktorer. Reliabilitet* Reliabilitet anger den noggrannhet, säkerhet och exakthet man kan uppnå med det mätinstrument man använder. Ett instrument är reliabelt om det mäter liknande värde (exakthet) i samma kvantiteter eller kvaliteter vid upprepad mätning. Precisionen i upprepade mätningar är viktig att ange både INOM individen (absolut reliabilitet) och med hänsyn tagen till variationen MELLAN individer (relativ reliabilitet). Man vill också veta i vilken utsträckning instrumentet överensstämmer med sig självt, hur beständigt det är (konsistent). Ett instrument måste vara reliabelt för att också kunna uppnå validitet. Intrabedömar-reliabilitet*: (intrarater reliability) I vilken grad kan en bedömare upprepa sin mätning av en variabel och erhålla liknande resultat? 1

Interbedömar-reliabilitet*: (interrater reliability) Samstämmighet/överensstämmelse mellan olika bedömare. I vilken grad överensstämmer flera bedömares mätningar av samma variabel? Ett sätt att öka interbedömar-reliabiliteten är att bedömarna gemensamt tränar innan undersökningen startar. Test-retest stabilitet*: (test-retest method) I vilken grad är mätresultaten stabila över tid? Intern överensstämmelse*: (internal consistency, dvs instrumentets homogenitet). I vilken grad bidrar enskilda frågor till instrumentets totalsumma? Frågor i ett frågeformulär ska hänga samman och ingen enskild fråga ska sticka ut. Statistisk analys ICC (Intraclass Correlation Coefficient) är den parametriska statistiska analysmetod som lämpligen används för bedömning av intra- respektive interbedömar-reliabilitet, samt test-retest, då data finns på intervall- eller kvotskalenivå. Den används dock ofta även för data på ordinalnivå. ICC baseras på en en-faktor variansanalys, ANOVA, för upprepade mätningar. Man jämför medelvärdet mellan flera mättillfällen (Atkinson and Nevill). I ANOVA utnyttjar man variationen i materialet för bedömning av skillnader mellan medelvärdena, därav namnet varians analys (se fig 1). Utgångspunkten för variansanalys är beräkningen av materialets samlade varians. Ett F-värde (motsvarar t-värdet) och p-värde presenteras som resultat av en ANOVA. A B C 10 10 10 0 Gr1 Gr2 0 Gr1 Gr2 0 Gr1 Gr2 Fig 1. (modifierad; efter tillåtelse av Bjorndal och Hofoss: Statistik för hälso och sjukvårdspersonal. 1998. Universitetsförlaget, Oslo) A: Två olika gruppmedelvärden. B: Samma medelvärden med observationerna utspridda. Skillnaden mellan medelvärdena är inte statistiskt signifikant. C: Samma medelvärden med observationerna tätare in mot medelvärdena. Skillnaden mellan medelvärdena är statistiskt signifikant. Kappa statistik är en icke-parametrisk analysmetod, då data finns på nominal- och ordinalskalenivå. Denna metod kan användas för att analysera överensstämmelse mellan två/flera personer (interbedömar-reliabilitet) och två/flera mättillfällen (intrabedömar-reliabiliet och test- retest). 2

Det finns i litteraturen olika riktlinjer för tolkning av kappakoefficienten. Nedan följer ett exempel (Bring och Taube). < eller lika med 0.20 = Dålig 0.21 0.40 = Svag 0.41 0.60 = Måttlig 0.61 0.80 = Bra 0.81 1.00 = Mycket bra Beroende t-test kan också användas vid upprepad mätning (intrabedömar-reliabilitet och test-retest). Om resultatet av denna metod visar en icke signifikant skillnad över tid innebär detta bra korrelation mellan mätningarna. Det finns dock risk för missvisande resultat då ingen indikation om slumpmässig variation mellan testen ges. Metoden kan ändå rekommenderas för test-retest på grund av att den kan upptäcka en stor systematisk felkälla. Man bör dock titta på data på individnivå för att se om det finns många slumpmässiga fel. ANOVA kan också användas vid upprepad mätning (test-retest). Man har dock samma problem som vid beroende t-test. Pearson s korrelations koefficient (r): Denna metod är mindre bra att använda då den inte kan upptäcka systematiska felkällor och då den är mycket beroende av variation i värdena i urvalet. Exempelvis kan jämförelsen mellan två skattningar med olika medelvärden ge samma r-värde med Pearson s, som en jämförelse mellan två skattningar med likartade medelvärden, se nedan. r1= 0.84 mellan två skattningar där M1= 3.39, sd1=2.39 och M2=6.39, sd2=2.29. r2= 0.84 mellan två skattningar där M1= 3.39, sd1=2.39 och M2=3.48, sd2=2.29. (M= medelvärde, sd= standardavvikelse, dvs variation). Pearson s korrelationskoefficient används ofta i litteraturen för att bedöma överensstämmelse fast den bara mäter samband. Det kan finnas ett starkt samband mellan två variabler samtidigt som överensstämmelsen är svag. I allmänhet bör man alltså inte använda sig av Pearson s korrelationsanalys för reliabilitetsberäkningar (eller Spearman s r (r s ) som är motsvarigheten i ickeparametrisk analys). Cronbach s alpha koefficient är resultatet av en sambandsanalys och används ofta för att ange intern överensstämmelse inom ett mätinstrument. Storleksmässigt tolkas denna som alla andra reliabilitets- koefficienter. Koefficienter Koefficienterna kan variera mellan 1 och +1. Total samband r = 1, inget samband r = 0. Resultatet bör oftast inte understiga r/ alpha/ Kappa/ ICC = 0.8, vilket innebär 80% sann variation i värdena, dvs sanna skillnader mellan observationerna. Då är 20% slumpmässig felvariation. Ju mindre slumpmässig felvariation desto bättre. Vid test-retest betraktas r = 0.70 som tillfredsställande (Polit and Beck s. 418, 421). Validitet* Validitet avseende mätinstrument anger hur väl ett instrument mäter den variabel som man avser att mäta. Ett instruments validitet är svårare att etablera än dess reliabilitet och det finns inga självklara statistiska metoder för att beräkna validitet. Liksom reliabilitet finns även olika typer av validitet. 3

Face validity* (ytvaliditet): Detta är den lägsta graden av validitet och baseras på en subjektiv bedömning. Tycker bedömaren vid genomgång av instrumentet att det verkar mäta de variabler som är av intresse? För att ytterligare stärka detta kan hjälp tas av personer som är insatta i problemet eller som arbetar inom samma område. Här används sunt förnuft och inga statistiska metoder. Innehållsvaliditet* (content validity) Täcker instrumentets variabler alla aspekter av det som man avser att mäta? Täcker mätningen ett representativt urval av de funktioner man vill mäta? Består t.ex. ett balansinstrument av uppgifter som både mäter statisk och dynamisk balans? Kriterierelaterad validitet* (criterion-related validity): Berör sambandet mellan instrumentet och ett annat yttre kriterium. Föreligger det ett samband mellan poäng uppnådda på ett förflyttningstest och ADL-förmåga? Ofta saknas dock en golden standard att jämföra med. Det finns ett par undergrupper under denna rubrik. Prediktions validitet* innebär med vilken säkerhet ett instrument kan förutsäga skillnad i personers utförande i framtiden. Kan t ex poäng erhållna mha ett motoriskt test vid insjuknandet förutsäga hur väl personen kommer att kunna förflytta sig efter tre månader. Samtidig validitet* (concurrent validity), berör mätmetodens förmåga att särskilja individer med olika grad av den egenskap, som ska bedömas. Har personer med sämre förflyttningsförmåga lägre motoriska poäng än de som förflyttar sig utan större problem? Begreppsvaliditet* (construct validity): Detta är den svåraste formen av validitet att etablera. Ju mer abstrakt ett begrepp är desto svårare är det att bestämma dess begreppsvaliditet. I vilken grad speglar instrumentet underliggande teoretiska begrepp? Begreppsvaliditet kan skattas på många sätt, men innebär alltid en logisk analys av de bakomliggande teoretiska fundamenten och även en empirisk bevisföring med hjälp av statistiska metoder. Ett sätt är att använda known-group technique. Om man vet att olika grupper skiljer sig åt i den egenskap man vill mäta bör detta framgå när dessa personer fyller i instrumentet. Om jag vill mäta depression och har konstruerat en depressionsskala bör personer som inte är deprimerade ha annan poäng än de som är deprimerade. Två begrepp är enligt Polit och Beck fundamentala vid bedömning av begreppsvaliditet. Det ena är konvergerande validitet* (convergent validity), som innebär att olika sätt att mäta samma begrepp ger likartat resultat. Det andra är diskriminerande validitet* (diskriminant validity), som innebär instrumentets förmåga att särskilja det specifika begreppet från andra begrepp. Statistisk analys För att etablera innehållsvaliditet kan hjälp tas av en expertpanel och/eller baseras på en noggrann litteraturgenomgång. För att beräkna graden av innehållsvaliditet kan t.ex. ett Content Validity Index (CVI) beräknas. Detta är baserat på experters skattning av de ingående frågornas vikt för det som avses att mätas på en skala från 1-4. CVI för hela instrumentet är proportionen av frågor som skattats som 3 eller 4. CVI skall vara 0.80 eller mer för att anses god. En mer komplicerad statistisk metod att beräkna innehållsvaliditet kan vara att göra en faktoranalys. (Polit and Beck) 4

Kriterierelaterad validitet Om lämpligt kriterium finns beräknas sambandet enklast med någon form av sambandsmått. Dessa ligger i allmänhet mellan 0 och 1. För att anses vara någorlunda god validitet bör koefficienten ligga över 0.80. Begreppsvaliditet kan testas med faktoranalys. Distribution* A) Avser mätmetodens eventuella golv- respektive takeffekter, dvs att många observationer grupperas högt eller lågt på skalan. Det är önskvärt att resultatet är normalfördelat över skalan, med flest observationer i dess mittersta del. Om mer än 20% av skattningarna ligger vid max. respektive min. av skalan tyder detta på att skalan inte är optimal för den uppmätta variabeln. B) Skalans uppbyggnad. Är det fel/rätt att man får full poäng respektive inga poäng? Viktning De olika kriterier som används för att granska och bedöma en studies kvalitet ska viktas i förhållande till varandra, de då har olika stor betydelse för den samlade bedömningen. De kriterier som återfinns under rubriken Granskning av resultat avseende mätmetodens egenskaper i mallen Mall för granskning av vetenskapliga artiklar om mätmetoder är att betrakta som betydelsefulla i de fall de är relevanta för den typ av reliabilitet eller validitet som granskats. Detta gäller således punkt 15-22. Punkterna 11 och 12 under Granskning av studiens design och som avser de statistiska metoderna är också viktiga, då den statistiska bearbetningen har betydelse för den interna validiteten i resultatet. Kliniskt relevant förändring* Vilken förändring i utfallsmåttet/-måtten representerar en för patienten upplevbar skillnad vad gäller funktion i dagliga livet? Beskrivs detta i artikeln? Klinisk praktisk användbarhet i din vardag /slutgiltig bedömning Vad är det för typ av mätmetod? Inom vilket område mäter metoden/instrumentet? Är mätmetoden meningsfull från patientperspektiv och från ett professionellt perspektiv? Hur lång tid tar det att genomföra mätningen? Vilken utrustning behövs? Finns det en manual tillgänglig? Verkar metoden hanterbar för kliniker och patienter i den kliniska vardagen? Vilka kostnader medför mätningen? Referenser Atkinson, Nevill. Statistical methods for assessing Measurement error (reliability) in variables relevant to sports medicine. Sports Medicine 1998; Oct 26(4): 217-238. Bring J, Taube A. Introduktion till medicinsk statistik. Studentlitteratur; 2006. Bjorndal A, Hofoss D. Statistik för hälso och sjukvårdspersonal. Oslo: Universitetsförlaget; 1998. Polit DF, Beck CT. Nursing Research. Principles and Methods. 1999. 7th Edition. Philadelphia: Lippincott Williams & Wilkins; 2004. Åberg AC. General motor function assessment and perceptions of life satisfaction during and after geriatric rehabilitation. Thesis. Uppsala university, 2003, sid. 25-30. 5