Problem med analyser av EQ-5D data Philippe Wagner Tomasz Czuba Jonas Ranstam
Tänkte prata om Vad är EQ-5D? Hur analyseras EQ-5D data? Kort repetition av t-testet T-testet och EQ-5D data Kort repetition av Mann-Whitney rangsummetest Mann-Whitney och EQ-5D data Rekommendationer
Vad är EQ-5D? European Quality of life 5ive dimensions
Vad är EQ-5D? EQ-5D är ett standardiserat instrument för att mäta hälsa som tagits fram av EuroQol Group, en internationell forskargrupp etablerad redan 1987. Instrumentet mäter livskvalitet med ett specifikt värde baserat på en sammanvägning av svaren på fem frågor. EQ-5D är därför snabbt att använda och lätt att administrera. Ej sjukdomsspecifikt - kan användas vid olika sjukdomar och en lång rad hälsotillstånd och behandlingar. Instrumentet används ofta för att beräkna kvalitetsjusterade levnadsår i analyser av kostnad effektivitet och kostnad nytta.
Vad är EQ-5D? Sedan konstrueras en form av ett vägt medelvärde med en viktning (tariff). Vikterna skattas genom Time Trade Off-metoden (TTO). Kort: Befolkningen tillfrågas ex. Givet 10 år i ett hälsotillstånd, t.ex. (11232), hur många år färre kan du tänka dig att leva givet att du istället får göra det i full hälsa? EuroQol gruppen har sedan modellerat dessa data för att utifrån svaren på de 5 frågorna. Prediktionen utgör det vägda medelvärdet.
Vad är EQ-5D? Det vägda medelvärdet för EQ-5D motsvarar 1 för en helt frisk person och 0 för en död. Vissa negativa värden, motsvarande tillstånd värre än döden, kan förekomma. Viktningen kan variera mellan olika geografiska områden. Viktningen för USA är t ex inte densamma som för Storbritannien. Det har inte utarbetats någon tariff för Sverige utan här används den brittiska tariffen.
Vad är EQ-5D? Det vägda medelvärdet för EQ-5D motsvarar 1 för en helt frisk person och 0 för en död. Vissa negativa värden, motsvarande tillstånd värre än döden, kan förekomma. Viktningen kan variera mellan olika geografiska områden. Viktningen för USA är t ex inte densamma som för Storbritannien. Det har inte utarbetats någon tariff för Sverige utan här används den brittiska tariffen. Värt att notera: Alla slutsatser från studier av svenska populationer kommer att bero av brittiska befolkningens syn på diverse hälsotillstånd.
Vad hur används EQ-5D? EQ-5D-värden används också vid direkt utvärdering av behandlingsresultat vid kliniska studier. De öppna jämförelser av hälso- och sjukvårdens kvalitet som görs med hjälp av information från nationella kvalitetsregister inkluderar i vissa fall också EQ- 5D-jämförelser mellan län och kliniker. I Stockholms läns landsting används EQ-5D-värden systematiskt som ett hälsomått i uppföljningen av hälso- och sjukvården. I förslaget till gemensam satsning på kvalitetsregister rekommenderas en omfattande registrering av EQ-5D.
Hur används EQ-5D? Söker man på pubmed på EQ-5D får man strax under 2000 träffar. Stort inom hälsoekonomi verkar komma mer och mer inom klinisk forskning. Många analyserar skillnader i EQ-5D med standardmetoder så som t-test, lineär regression och Mann-Whitney U/Wilcoxon rangsummetest. Det finns även andra metoder, men de har verkar ha fått begränsat genomslag.
T-testet lite kort.. William Gosset Guinness Brewery, Dublin Ireland
Kort repetition av T-testet T-testet används vanligtvis då man testar om skillnad föreligger mellan två normalfördelningar med lika men okänd varians.
Kort repetition av T-testet Pga. Centrala gränsvärdes satsen (CGS) så kan man för stora stickprov även använda T-testet för att avgöra om väntevärden är lika för icke-normalfördelade populationer.
5 10 50 100
5 10 50 100
T-testet och EQ-5D? Vad hade William Gosset Guinness Brewery, sagt?
T-testet och EQ-5D data EQ-5D data kan t.ex. se ut så här
T-testet och EQ-5D data Ej normal. Vid applicering av T-testet befinner vi oss alltså i scenario II.
T-testet och EQ-5D data Ej normal. Vid applicering av T-testet befinner vi oss alltså i scenario II. För bekvämlighetens skull vid simulering så antar vi att detta är två normala komponenter samt en punktfördelning i 1. Vi avrundar data för att få diskreta steg. 10% dåliga, 63% mellan, 27% friska.
3 10 30 50
3 10 30 50
Hur påverkas T-testet? När det finns en skillnad Typ-II fel När det inte finns skillnad Typ-I fel
T-test typ-i felet Ej normal. Vid applicering av T-testet befinner vi oss alltså i scenario II. Two sample test. Balanserade grupper
T-test typ-i felet Typ-I felet ändras med fördelningens utseende. Komponenten med sämsta patienterna 63%, 10% mellan och 27% friska.
T-test typ-i felet Anti-konservativt. Obalanserade grupper. 200 patienter i största gruppen.
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% I sämsta gruppen, 90% I mellan och 10% friska. Den andra med 10% I sämsta gruppen, 20% I mellan och 25% friska.
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% I sämsta gruppen, 90% I mellan och 10% friska. Den andra med 10% I sämsta gruppen, 20% I mellan och 55% friska.
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% I sämsta gruppen, 90% I mellan och 10% friska. Den andra med 10% I sämsta gruppen, 20% I mellan och 55% friska.
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% i sämsta gruppen, 90% i mellan och 10% friska. Den andra med 10% i sämsta gruppen, 20% i mellan och 55% friska.
T-test typ-ii felet Finns obegränsat med exempel...
T-test typ-ii felet Finns obegränsat med exempel...
T-test typ-ii felet Finns obegränsat med exempel...
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Den andra med 10% I sämsta gruppen, 63% I mellan och 27% friska.
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Den andra med 10% i sämsta gruppen, 63% i mellan och 27% friska.
T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Den andra med 10% I sämsta gruppen, 63% I mellan och 27% friska.
T-test - typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Skillnad = 0.31 skalpoäng Den andra med 10% I sämsta gruppen, 63% I mellan och 27% friska.
T-testet och EQ-5D Ytterligare en observation
Student's vs Satterthwaite Formeln σ 2 = p(μ 1 2 +σ 1 2 )+(1 p)(μ 2 2 +σ 2 2 ) ( pμ 1 +(1 p)μ 2 ) 2 visar på behovet av att använda Satterthwaite's t-test. Olika väntevärden - olika varians. Detta bör även orsaka problem vid vanlig regressions analys..
T-testet och EQ-5D Sammanfattning
Sammanfattning T-testet kan bara användas för stora studiepopulationer storleksordningen 50-100 per grupp. Power beror av de ingående fördelningarnas utseende även för stora populationer. - Varierar från 5% - Även för stora populationer finns det relevanta skillnader som man potentiellt missar. Variansen ändras med väntvärdet man bör använda Satterthwaite's t-test. Vanlig lineär regression ej aktuell variansfunktion?
Mann-Whitney U test lite kort.. eller Wilcoxons rangsummetest för den delen.
Mann-Whitney U-test Det vanligaste syftet med att använda MWU är att testa huruvida medianen skiljer sig mellan två fördelningar.
Mann-Whitney U-test Det vanligaste syftet med att använda MWU är att testa huruvida medianen skiljer sig mellan två fördelningar. Detta kräver dock att fördelningarna är lika med avseende på form och skala ( shape och scale ) och endast skiljer sig m.a.p. läge ( location ). (Pure shift model)
Mann-Whitney U och EQ-5D
Mann-Whitney U-test Det vanligaste syftet med att använda MWU är att testa huruvida medianen skiljer sig mellan två fördelningar. Detta kräver dock att fördelningarna är lika med avseende på form och skala ( shape och scale ) och endast skiljer sig m.a.p. läge ( location ). (Pure shift model)
Mann-Whitney U-test Eftersom EQ-5D index skalan har en början och ett slut kan man inte i allmänhet se en skillnad i fördelning som en läges-skift (shift in location).
Mann-Whitney U-test Ta t.ex. Två fördelningar. En med 40% i sämsta gruppen, 10% i mellan och 50% friska. Den andra med 10% i sämsta gruppen, 40% i mellan och 50% friska.
Mann-Whitney typ-i felet? Lika medianer. Ändå växer den statistiska styrkan med patientantalet.
Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU.
Mann-Whitney U-test Dessutom är medianen i detta fall inte entydigt definierad.
Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU.
Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU. Vi har inte längre någon parameter som beskriver skillnaden mellan fördelningarna och vi vet inte om det vi detekterar är en väsentlig förändring.
Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU. Vi har inte längre någon parameter som beskriver skillnaden mellan fördelningarna och vi vet inte om det vi detekterar är en väsentlig förändring. Vi kan hamna i att vi detekterar skillnader i fördelning som är oväsentliga. Särskilt då vi tittar på stora patientmaterial såsom i kvalitetsregistersammanhang.
Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka).
Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka). Två fördelningar. En med 6% i sämsta gruppen, 89% i mellan och 5% friska. Den andra med 30% i sämsta gruppen, 10% i mellan och 60% friska.
Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka). Detta innebär att om man skulle planera en randomiserad prövning med EQ-5D index som primärt utfall, så skulle patientantalet möjligen blivit onödigt stort.
Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka). Detta innebär att om man skulle planera en randomiserad studie med EQ-5D index som primärt utfall, så skulle patientantalet möjligen blivit onödigt stort. I observationella studier kan man få onödigt låg power.
Mann-Whitney U fler problem.. som om det inte var nog.
MWU och EQ-5D mer problem Det har länge varit känt att MWU i sin originalform inte kan hantera observationer som har samma rangtal. Detta åtgärdas genom en korrigerad version av testet.
MWU och EQ-5D mer problem Det har länge varit känt att MWU i sin originalform inte kan hantera observationer som har samma rangtal. Detta åtgärdas genom en korrigerad version av testet. För bara några år sedan använde inte alla statistikmjukvaror detta som standard. R Bergmann, J Ludbrook, W P. J. M. Spooren Different Outcomes of the Wilcoxon-Mann-Whitney Test from Different Statistics Packages The American Statistician, Vol. 54, No. 1 (Feb., 2000), pp. 72-77 Man bör vara medveten om hur beräkningarna görs i detta fall.
MWU och EQ-5D mer problem Det har länge varit känt att MWU i sin originalform inte kan hantera observationer som har samma rangtal. Detta åtgärdas genom en korrigerad version av testet. För bara några år sedan använde inte alla statistikmjukvaror detta som standard. R Bergmann, J Ludbrook, W P. J. M. Spooren Different Outcomes of the Wilcoxon-Mann-Whitney Test from Different Statistics Packages The American Statistician, Vol. 54, No. 1 (Feb., 2000), pp. 72-77 Man bör vara medveten om hur beräkningarna görs i detta fall. En stor mängd lika observation reducerar även testets statistiska styrka. Fagerland MW, Sandvik L.The Wilcoxon-Mann-Whitney test under scrutiny. Stat Med. 2009 May 1;28(10):1487-97.
MWU och EQ-5D mer problem Lika observation bör vara vanligt då man studerar EQ-5D data.
MWU och EQ-5D mer problem Lika observation bör vara vanligt då man studerar EQ-5D data. Särkilt om friska individer ingår i materialet.
MWU och EQ-5D mer problem Lika observation bör vara vanligt då man studerar EQ-5D data. Särkilt om friska individer ingår i materialet. Två fördelningar. En med 50% i sämsta gruppen, 38% i mellan och 12% friska. Den andra med 64% i sämsta gruppen, 9% i mellan och 27% friska.
MWU och EQ-5D mer problem Vi tappar statistisk styrka. Två fördelningar. En med 50% i sämsta gruppen, 38% i mellan och 12% friska. Den andra med 64% i sämsta gruppen, 9% i mellan och 27% friska.
Mann-Whitney och EQ-5D Sammanfattning
Sammanfattning MWU testar inte en skillnad i medianer på EQ-5D data. Det är ett problem att man inte längre har en parameter att gå efter för att avgöra klinisk relevans. Stora studiepopulationer signifikanta resultat relevanta? Om man skall testa en skillnad i fördelning finns bättre test. Lika observationer (ties) orsakar problem för MWU, inte minst för den statistiska styrkan (power). Dessa förekommer i stor utsträckning i EQ-5D data.
Slutsats Analysera inte EQ-5D med standardmetoder. Andra metoder finns men oklart om de löser problemen. Möjligen bättre att välja andra mått; EQ-5D VAS, SF-36 etc.
Tack för uppmärksamheten!.. Några lösningar?