Instrument för att mäta generell hälsorelaterad livskvalitet (HRQoL) Två viktiga generiska (generella) HRQoL-instrument som ofta används i Sverige idag är SF-36 (Short Form-36) och EQ-5D (fd EuroQoL). SF-36, som är utvecklat i USA, är troligen det internationellt sett mest använda generiska HRQoL-instrumentet, och är översatt till ett stort antal språk. Det bygger på erfarenheter från RAND Corporation (en amerikansk non-profit forskningsorganisation) Medical Outcomes Study, MOS, som innehöll över hundra frågor, menade att spegla WHO:s hälsodefinition av hälsa som fysiskt, psykiskt och socialt välbefinnande, och inte enbart frånvaro av sjukdom. Intentionen att skapa ett kortare och mer användarvänligt instrument resulterade slutligen i 36 frågor fördelade på åtta skalor (dimensioner), utvalda bla för sin starka korrelation till sjukdom. De ändå relativt många frågorna i SF-36 ansågs nödvändiga för att kunna få med alla viktiga aspekter i varje skala. Läs mer på http://www.rand.org/health/surveys_tools/mos.html EQ-5D (5 Dimensions), som förut hette EuroQoL (vilket också är namnet på den europeiska forskningssamarbetsgrupp som skapat instrumentet), är tänkt att istället, utifrån fem olika hälsodimensioner, skapa ett summamått på en individs HRQoL, för att ge möjlighet till hälsoekonomiska utvärderingar. Grundtanken var att EQ-5D skulle vara ett komplement till andra, mer utförliga HRQoL-instrument, såsom tex SF-36. De båda instrumentens användningsområden har emellertid på senare tid allt mer närmat sig varandra. EQ-5D har börjat stå på egna ben och används nu ofta som enda HRQoL-instrument i både utvärderings- och monitoreringssyfte, och utifrån SF-36 har SF-6D (6 Dimensions) utvecklats för att, precis som EQ-5D, kunna användas för hälsoekonomiska beräkningar. En SF-6D algoritm kan även appliceras på redan existerande SF-36-dataset, dvs man behöver inte använda själva instrumentet SF-6D för att få fram ett SF-6D indexvärde. EQ-5D är ett så kallat preferensbaserat mått, som innehåller två delar. I den första får respondenten ange sin funktionsförmåga för dagen inom var och en av följande fem hälsodimensioner: rörlighet hygien huvudsakliga aktiviteter smärtor/besvär oro/nedstämdhet
Varje dimension innehåller tre påståenden, som indikerar om man har inga, måttliga eller svåra problem inom just den dimensionen. Man väljer ett av dessa alternativ för var och en av de fem dimensionerna, vilket medför totalt 3 5 = 243 olika svarskombinationsmöjligheter för instrumentet. Till varje kombination har kopplats en sk livskvalitetsvikt, vilket innebär att varje svarskombination har värderats i förhållande till full hälsa (med hjälp av den sk Time Trade-Off metoden). De vikter vi oftast använder i Sverige idag har tagits fram i England, men det finns även andra viktsystem (tex från Danmark). Ett sammanfattande index mellan 0 och 1 räknas sedan fram, som kan användas för hälsoekonomiska beräkningar. Egentligen kan indexet även ge negativa värden, men dessa sammanförs oftast till värdet 0. För att få fram ett index krävs egentligen att det finns ett svar för var och en av de fem dimensionerna, vilket gör instrumentet känsligt för svarsbortfall. EQ-5D har dock oftast endast ett litet internt bortfall. Förutom genom indexvärdet kan EQ-5D också redovisas i sina fem dimensioner, vilket ger möjlighet att avgöra inom vilka dimensioner problemen föreligger, något som indexvärdet inte ger svar på. Dimensionerna presenteras på individnivå genom den femsiffriga kombinationen av svarspoängen 1, 2 eller 3 för varje dimension (ex 11112), och på gruppnivå genom den procentuella fördelningen av problem inom varje dimension. Det saknas officiella svenska normvärden för EQ-5D index, men i en svensk befolkningsenkät från Stockholms län 2001 (3069 män och kvinnor, 20-88 år) har man redovisat ett indexvärde på 0,84 [1], och i en befolkningsenkät från Östergötlands och Kalmars län 2002 (9131 män och kvinnor, 20-74 år) har man funnit precis samma siffra [2]. I båda dessa studier kan man dessutom finna populationssiffror för den procentuella fördelningen av problem inom varje dimension. Mest problem rapporteras inom dimensionen smärtor/besvär och minst inom hygien (se Figur 1). I den andra delen av instrumentet får respondenten skatta sin allmänna hälsa för dagen på en 20 cm vertikal skala från 1-100 kallad VAS (Visual Analogue Scale), även om det egentligen inte är en äkta VAS (=en skala utan synlig gradering förutom ändvärdena) utan snarare liknar en NRS (Numeric Rating Scale, en numeriskt graderad skala). Skalan har liknats vid en termometer och kallas följaktligen också ofta för EQ-5D termometern. EQ-5D har uppvisat god validitet (att ett instrument verkligen klarar av att mäta precis det begrepp, ex hälsorelaterad livskvalitet, som det utger sig för att kunna mäta). Reliabiliteten (att instrumentet är tillräckligt noggrant vid mätningarna, så att resultatet blir så fritt som möjligt från slumpmässiga variationer) har prövats med den sk test-retestmetoden, vilken har visat på god stabilitet för instrumentet. Observera att EuroQol-gruppen menar att man alltid ska använda båda delarna av instrumentet tillsammans.
Sedan 2009 finns EQ-5D-5L, en utvidgad version där varje dimension (som dessutom döps om något) nu innehåller fem påståenden, som indikerar om man har inga, lätta, måttliga, svåra eller extrema (eller tom saknar förmåga helt) problem inom just den dimensionen. Denna förändring har gjorts för att förbättra responsitiviteten (se vidare nedan) och har gjort att den ursprungliga versionen nu kallas EQ-5D-3L. Termometern är också något ändrad, man ska nu inte som i 3L dra ett streck från en svart ruta i mitten av pappret till en viss poäng på termometern, utan istället ska man sätta ett kryss i termometern, men också skriva själva siffran i en tom ruta mitt på pappret. Det finns dessutom numera en barnversion, EQ-5D-Y, för barn mellan 7 och 12 år. En nyhet för EQ-5D är användningen av sk dimension extensions (eller boltons). Detta innebär att man till EQ-5D kopplar på ett antal frågor av relevans för olika patientgrupper. Överlag så ökar idag användningen av olika sorters kombinationer av sjukdomsrelaterade och generiska HRQoL-instrument. Vill man använda EQ-5D så införskaffar man licensen via EQ-5D:s webbplats (http://www.euroqol.org). Licenskostnaden beror på hur man tänker använda instrumentet och bestäms från fall till fall. Uppfattningen att EQ-5D är helt kostnadsfri är allmänt utbredd i Sverige, men kostnadsfriheten gäller inte i alla situationer, så var noga med att anmäla din användning till webbplatsen ovan och få ditt instrument via EuroQol-gruppen. Börja inte mäta med ett exemplar du fått av någon kollega eller bekant! Om Sverige nationellt skulle avtala något annat med EuroQol-gruppen kommer detta att meddelas bla via PROMcenters webbplats (fliken Vad är PROM?). SF-36 är ett så kallat profilbaserat mått. Respondenten svarar på 36 frågor om sitt hälsotillstånd de senaste fyra veckorna ( standardversionen ) eller den senaste veckan ( akutversionen ), varav 35 sedan, med hjälp av en speciell beräkningsalgoritm, förs samman i åtta olika skalor: PF fysisk funktion (fråga 3a-j) RP rollfunktion-fysisk (fråga 4a-d) BP kroppslig smärta (fråga 7, 8) GH allmän hälsoupplevelse (fråga 1, 11a-d) VT vitalitet (fråga 9a, e, g, i) SF social funktion (fråga 6, 10) RE rollfunktion-emotionell (fråga 5a-c) MH psykiskt välbefinnande (fråga 9b, c, d, f, h) Förkortningarna för skalorna härrör från de engelska beteckningarna. Fråga nr 2, den tidsjämförande frågan, utelämnas från beräkningarna, men redovisas ofta separat. De olika skalorna åskådliggörs sedan som en profil, och det finns olika presentationsmodeller. Den, åtminstone hittills, vanligaste innebär en
transformering av svarspoäng från de olika frågorna till en svarsskala från 0 (sämst tänkbara) till 100 (bäst tänkbara), för var och en av de åtta skalorna, som sedan redovisas i linje- eller stapeldiagram. Man brukar placera skalorna i den redovisade ordningen ovan, med den mest fysiskt orienterade skalan (PF) till vänster och den mest psykosociala/ psykologiska (MH) till höger. I mitten återfinns GH och VT, som är de två skalor som har ungefär lika stora både fysiska och psykiska aspekter. Man brukar ändå räkna GH till de fysiskt orienterade skalorna och VT till de psykosociala. Varje skala omfattar olika många frågor, med olika antal svarsalternativ, och vissa skalor är bipolära (GH, VT och MH), vilket gör att man inte direkt kan jämföra de olika skalorna med varandra. Med bipolär menas att det finns ett neutralt mellanläge, med avsaknad av negativa aspekter men utan att man känner sig på topp, vilket skulle ha medfört full poäng på skalan. Detta medför lägre medelvärden på dessa skalor än på de skalor där det räcker att ha avsaknad av negativa aspekter för att få full poäng (se Figur 2). Det finns även två summamått (framtagna med hjälp av faktoranalys) för SF-36, PCS (Physical Component Scale: PF, RP, BP & GH) och MCS (Mental Component Scale: VT, SF, RE & MH). Norm-Based Scoring (NBS), däremot, är en presentationsmodell som innebär att man ger alla skalor normvärdet 50 med standarddeviationen 10. Detta medför att man snabbt och enkelt kan avgöra om ett mätvärde skiljer sig från normvärdet, och dessutom kan alla skalor jämföras direkt med varandra. Man måste dock hålla i minnet att variationsvidden (skillnaden mellan högsta och lägsta värde) för skalorna med NBS-metoden inte längre är 0-100, utan istället nu varierar något från skala till skala. Minsta värde når aldrig så lågt som 0 och högsta värde överstiger inte 70 för någon skala (se Figur 3). Svenska normvärden finns i den svenska manualen för SF-36 (8930 män och kvinnor, 15-74 år) från början av 90-talet, och kan beställas av HRQL-gruppen (http://www.hrql.se/content/hrql) i Göteborg som tidigare distribuerade den svenska versionen av SF-36 i Sverige. Idag distribueras SF-36 enbart genom det amerikanska företaget QualityMetric (http://www.qualitymetric.com), som även nås via SF-36:s webbplats (se nedan). För NBS-presentationsmodellen finns idag enbart amerikanska normvärden tillgängliga för allmän användning. Till skillnad från EQ-5D har SF-36 en algoritm för att hantera svarsbortfall, vilket gör instrumentet mindre känsligt för enstaka saknade värden. Enligt manualen brukar det interna bortfallet inte överstiga 2%. Precis som EQ-5D har SF-36 uppvisat god validitet. Eftersom SF-36 har en annan uppbyggnad än EQ-5D kan man när det gäller reliabilitet utöver att använda test-retestmetoden också mäta instrumentets sk interna konsistens (internal consistency; tex Cronbach α). För SF-36 har man funnit att α>0,7 för alla skalor, vilket brukar vara kravet för att anse mätningarna tillförlitliga på gruppnivå. Flera skalor har
dessutom α-värden upp mot (och ett par även över) 0,9, vilket brukar anses vara nödvändigt för säkra analyser även på individnivå. SF-36 tillhör en familj av instrument, som förutom SF-36 även består av SF-12, SF-8 och SF-6D. SF-36 är det av instrumenten som fra rekommenderas för användning på individnivå och ifall man endast har ett mindre antal respondenter. Har man ett större antal respondenter kan man fundera över att välja de kortare SF-12 eller SF-8 istället, det senare framförallt i befolkningsstudier. Frågorna i SF-12 är direkt hämtade från SF-36, medan enbart en av frågorna i SF-8 återfinns i SF-36 (övriga sju är dock mycket snarlikt formulerade). Varje fråga i SF-8 motsvarar en av de åtta domänerna (skalorna) i SF-36. Gällande summaskalorna PCS och MCS så producerar SF-36 och SF-12 mycket likartade resultat. På QualityMetrics och SF-36:s webbplatser kan man läsa att SF-12 är ett lämpligt val om generella förändringar i HRQoL kan förväntas och/eller om, av något skäl, ett kortare instrument är nödvändigt. SF-12 är lämpligt att använda om man vill kombinera med andra HRQoLinstrument, tex ett sjukdomsspecifikt. Som nämnts ovan är SF-6D ett preferens-baserat instrument, uppbyggt på samma sätt som EQ-5D. Dessutom finns en omräkningsalgoritm för att överföra sina SF-36 data till SF-6D, dvs man kan få fram ett SF-6D indexvärde även om man använt SF-36. Ett flertal jämförelsestudier mellan EQ-5D och SF- 6D finns, och man ska vara medveten om att de inte ger helt lika resultat [3]. SF-36 finns även som en förbättrad version 2, där tex fler skalor når ett Cronbach α runt 0,90 (dvs ännu säkrare för mätning på individnivå) och responsitiviteten är klart förbättrad (se vidare nedan). Tyvärr görs svenska normdata för version 2 av olika skäl inte tillgängliga för närvarande, utan man får använda de amerikanska normvärdena. Utan normdata kan man förstås inte välja presentationsmodellen NBS. Även av SF-12 finns en förbättrad version 2. I detta sammanhang bör nämnas att RAND Corp. (se ovan) fortfarande har egna versioner av SF-36, 12 och 6D (finns motsvarande både version 1 och 2), även om de för närvarande ej finns på svenska. Användningen är helt fri och gratis. Hitta version 1 via RAND enligt webbadress ovan och version 2, som numera heter VR-36 etc, via US Dept. of Veterans Affairs (http://www.herc.research.va.gov/resources/faq_a07.asp). Frågorna är (i princip) identiska, men beräkningsalgoritmen skiljer något varför man inte till 100% kan jämföra resultatet från RAND-versionerna med QualityMetrics versioner, speciellt inte avseende summaskalorna. Skillnaderna är dock inte jättestora och vilka versioner som är bäst finns det olika åsikter om. Om RANDs fria versioner skulle bli tillgängliga även på svenska kommer information om detta bla att meddelas via PROMcenters webbplats (fliken Vad är PROM?).
Vill man använda SF-36 mfl så införskaffar man licenser via SF-36:s webbplats (http://www.sf-36.org). Licenskostnaden beror på hur man tänker använda instrumentet och bestäms från fall till fall. Uppfattningen att SF-36 version 1 är kostnadsfri är allmänt utbredd i Sverige, men så är inte fallet, så var noga med att anmäla din användning via webbplatsen ovan och få ditt instrument och betala din licens via företaget QualityMetric. Börja inte mäta med ett exemplar du fått av någon kollega eller bekant! Om Sverige nationellt skulle avtala något annat med QM kommer detta bla att meddelas via PROMcenters webbplats (fliken Vad är PROM?). Kända för- och nackdelar med EQ-5D och SF-36 SF-36 anses ibland vara för långt och krångligt att fylla i. Däremot upplevs frågorna som relevanta även för relativt friska personer att svara på, medan EQ-5D däremot kan upplevas som irrelevant för andra än (mycket) sjuka personer. Förutom validitet och reliabilitet är ett instruments responsitivitet (känslighet för att mäta förändringar) mycket viktigt för dess användbarhet som utfallsmått. Det faktum att EQ-5D-3L bara har fem hälsodimensioner, och endast tre svarsnivåer inom varje, minskar dess möjlighet att vara känsligt även för små förändringar, tex pga kraftiga tak och golveffekter (= många hamnar på bästa respektive sämsta värde). Eftersom man bara kan välja mellan inga, måttliga eller svåra problem, så kan man mycket väl ha blivit bättre efter en behandling, men inte så pass bra att man kan byta från svåra till måttliga eller från måttliga till inga besvär. Detta problem kan man överkomma genom att använda EQ-5D-5L istället för 3L. Dock har antalet möjliga svarskombinationer ökat i 5L, vilket medför andra svårigheter (viktningsproceduren). Även SF-36 har i sin version 2 förbättrat responsitiviteten jämfört med version 1 gällande RP- och RE-skalorna, som fått fem olika svarsalternativ istället för två (ja-nej). En stor del av resultatet för EQ-5D index beror på en enda dimension, smärtor/besvär. Det kan vara en svaghet att en enda dimension på detta sätt mäter i princip alla typer av ohälsa, men å andra sidan så inrymmer just den dimensionen sjukdomar och besvär som ej täcks av övriga dimensioner (och inte ens alltid av frågorna i SF-36), vilket gör att det faktiskt också skulle kunna ses som en fördel. EQ-5D-index har vidare kritiserats för att värderingen (viktningen) utförs av personer ur normalpopulationen istället för av patienter. Det är allmänt känt att friska personer tenderar att skatta livskvalitet vid olika tänkta sjukdomstillstånd lägre än de patienter gör, som de facto befinner sig i tillstånden, pga ett fenomen som kallas response shift (anpassning till sin situation, coping; gör att man ändrar sina interna referensramar). Dock bör man i denna debatt komma ihåg att EQ-5D skapades för att möjliggöra hälsoekonomiska beräkningar och att dylika är menade att bygga på värderingar gjorda av en skattebetalande allmänhet och presumtiva hälso- och sjukvårds-
konsumenter. För användning som utfallsmått inom hälso- och sjukvården skulle dock eventuellt patientbaserade vikter att föredra De två summamåtten för SF-36 (och SF-12), PCS och MCS används ofta, men det kan vara bra att känna till att principen bakom deras uträkningsalgoritm har utsatts för en del kritik [4]. Algoritmen har byggts så att högst värde för PCS fås när man ligger högt på de mer fysiska skalorna och samtidigt lågt på de mer psykosociala. Detta leder till att vid mycket låga värden för de psykosociala skalorna kan ett högt värde för PCS snarare komma att avspegla den dåliga psykiska hälsan än en sann god fysisk hälsa. Det omvända gäller för MCS. Ska man ändå använda dem är det alltså viktigt att använda och tolka dem tillsammans med de åtta originalskalorna, och inte fristående, och då förlorar de, enligt vår mening, en aning i betydelse. Detta gäller ej för RAND-versionen, som använder andra algoritmer för summaskalorna. I manualerna till båda instrumenten kan man läsa rekommendationen att de ska placeras först om man tänker inkludera dem i ett större enkäthäfte. Inkluderar man båda får man alltså göra ett eget val i denna fråga. Andra generella HRQoL-instrument än SF-36 och EQ-5D SF-36 och EQ-5D är båda från 1990-talet. Tidigare generiska HRQoL-instrument inkluderar tex Quality of Well-Being Index (QWB) och Sickness Impact profile (SIP) från 1970-talet samt Nottingham Health Profile (NHP) och Quality of Life Index (QLI) från 1980-talet. Användningen av dessa har dock minskat med åren, till förmån för nyare instrument såsom SF-36 och EQ-5D. En databas över olika generiska HRqoL-instrument finns på tex http://www.proqolid.org/proqolid/search 1/generic Referenser 1. Burström K, Johannesson M, Diderichsen F. Swedish population health-related quality of life results using the EQ-5D. Qual Life Res (2001) 10: 621-35 2. Eriksson E, Nordlund A. Hälsa och hälsorelaterad livskvalitet mätt med EQ-5D och SF-36 i Östergötlands och Kalmar län: Resultat från befolkningsenkäterna. Folkhälsovetenskapligt Centrum i Östergötland rapport 2002:1 (2002) 3. Whitehurst DG, Bryan S. Another Study Showing that Two Preference-Based Measures of Health-Related Quality of Life (EQ-5D and SF-6D) are not Interchangeable. But why Should we Expect Them to be? Value Health. 2011 Feb 9. [Epub ahead of print] 4. Taft C, Karlsson J, Sullivan M. Do SF-36 summary component scores accurately summarize subscale scores? Qual Life Res (2001) 10: 395-404 April 2011, Evalill Nilsson, koordinator PROMcenter: www.promcenter.se
Figur 1. EQ-5D-3L före och efter intervention EQ-5D Andel som anger måttliga eller svåra problem (%) 100 90 80 70 60 50 40 30 20 10 0 rörlighet hygien huvudsakliga aktiviteter smärta/besvär oro/nedstämdhet Denna figur visar en patientgrupp mätt med EQ-5D före och efter intervention. Detta är inte indexvärdet utan visar andel som anger måttliga eller svåra problem inom varje dimension i EQ-5D, dvs optimalt är så låg andel som möjligt. Här syns en förbättring efter intervention (streckad ljusblå linje med tomma cirklar) för de flesta av dimensionerna jämfört med före intervention (heldragen mörkblå linje med fyllda cirklar). Dimensionen hygien hade låg andel problem redan från början. Dock når endast några dimensioner befolkningsgenomsnittet (heldragen röd linje med fyllda fyrkanter).
Figur 2. SF-36 v1 före och efter intervention. 100 90 80 SF-36 medelvärden 70 60 50 40 30 20 10 0 PF RP BP GH VT SF RE MH Denna figur visar samma patientgrupp som Figur 1, men mätt med SF-36. Profilen visar en förbättring efter intervention (streckad ljusblå linje med tomma cirklar) för flera skalor jämfört med före intervention (heldragen mörkblå linje med fyllda cirklar), speciellt markant för RP-skalan. Dock når endast några skalor upp till befolkningsgenomsnittet (heldragen röd linje med fyllda fyrkanter). 100 är bästa värde och 0 sämsta värde. PF fysisk funktion, RP rollfunktion-fysisk, BP kroppslig smärta, GH allmän hälsoupplevelse, VT vitalitet, SF social funktion, RE rollfunktion-emotionell, MH psykiskt välbefinnande
Figur 3 SF-36 NBS presentationsmodell 70 60 50 40 30 20 10 0 PF RP BP GH VT SF RE MH Detta är en bild för att illustrera presentationsmodellen NBS (norm based scoring). Populationsnormen är satt till 50 för alla skalor, vilket gör att man snabbt kan avgöra om en skala ligger över eller under normvärdet. I exemplet ovan ligger tre skalor över normen, VT, SF och MH. Dessutom medger den beräkningsform direkta jämförelser mellan skalorna, dvs VT är högst och PF är lägst i exemplet ovan, och GH är högre än tex BP. PF fysisk funktion, RP rollfunktion-fysisk, BP kroppslig smärta, GH allmän hälsoupplevelse, VT vitalitet, SF social funktion, RE rollfunktion-emotionell, MH psykiskt välbefinnande