Problem med analyser av EQ-5D data. Philippe Wagner Tomasz Czuba Jonas Ranstam

Relevanta dokument
Studiedesign. Crash-course i hälso-ekonomi. Bakgrund och begrepp QALY EQ-5D Kostnadseffekt-analys Markov-modeller

Hypotestestning och repetition

Studiedesign. Crash-course i hälso-ekonomi. Bakgrund och begrepp QALY EQ-5D Kostnadsnytto-analys Markov-modeller

Hur skriver man statistikavsnittet i en ansökan?

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Parade och oparade test

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hälsan sämre för kvinnor och arbetare JOSÉ FERRAZ NUNES

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

SF1901 Sannolikhetsteori och statistik I

VIDARKLINIKEN VIDARKLINIKEN Hälsorelaterad livskvalitet och självskattad hälsa (EQ-5D) Järna, april 2011 Tobias Sundberg

7.3.3 Nonparametric Mann-Whitney test

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

2. Test av hypotes rörande medianen i en population.

F9 Konfidensintervall

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F22, Icke-parametriska metoder.

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

, s a. , s b. personer från Alingsås och n b

Samplingfördelningar 1

F10 Problemlösning och mer om konfidensintervall

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Medicinsk statistik II

MVE051/MSG Föreläsning 7

F3 Introduktion Stickprov

Föreläsning 11: Mer om jämförelser och inferens

Studietyper, inferens och konfidensintervall

Statistisk försöksplanering

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsning 12: Regression

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

QALY som effektmått tillämpning, konsekvenser samt möjliga alternativ

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Statistisk försöksplanering

Lektionsanteckningar 11-12: Normalfördelningen

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

a) Facit till räkneseminarium 3

Tentan består av 10 frågor, totalt 28 poäng. Det krävs 18 poäng för att få godkänt på tentan, varav 50 % inom respektive moment.

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Statistik och epidemiologi T5

Lärmål Sannolikhet, statistik och risk 2015

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Jämförelse av två populationer

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Bilaga 6 till rapport 1 (5)

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen MVE301 Sannolikhet, statistik och risk

TMS136. Föreläsning 7

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Medicinsk statistik II

OBS! Vi har nya rutiner.

Rehabiliteringsgarantin, MMR2 Före- och eftermätningar utifrån EQ5-D Självskattningsformulär

Skriv tydligt. Besvara inte frågor med lösryckta ord, utan sammanhängande och tydligt. Visa även dina beräkningar.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Föreläsning 5. Kapitel 6, sid Inferens om en population

Rehabiliteringsgarantin, MMR2 Före- och eftermätningar utifrån EQ5-D Självskattningsformulär

Diskussionsproblem för Statistik för ingenjörer

Statistik 1 för biologer, logopeder och psykologer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Mer om konfidensintervall + repetition

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Skriv tydligt. Besvara inte frågor med lösryckta ord, utan sammanhängande och tydligt. Visa även dina beräkningar.

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Repetitionsföreläsning

TMS136. Föreläsning 10

7.5 Experiment with a single factor having more than two levels

Föreläsning 7: Punktskattningar

Introduktion till statistik för statsvetare

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 7. Statistikens grunder.

Tentamen MVE301 Sannolikhet, statistik och risk

Differentiell psykologi

SOPA62 - Kunskapsproduktion i socialt arbete

8 Inferens om väntevärdet (och variansen) av en fördelning

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

- med fokus på hälsoekonomiska utvärderingar

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen MVE302 Sannolikhet och statistik

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE301 Sannolikhet, statistik och risk

Statistik för teknologer, 5 poäng Skrivtid:

Hur man tolkar statistiska resultat

Laboration 2 Inferens S0005M VT16

Grundläggande matematisk statistik

just kostnader för sjukdom. Man jämför inte olika alternativ utan man tittar på sjukdomskostnaden och jag kommer snart att visa ett sådant exempel.

Konfidensintervall, Hypotestest

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Transkript:

Problem med analyser av EQ-5D data Philippe Wagner Tomasz Czuba Jonas Ranstam

Tänkte prata om Vad är EQ-5D? Hur analyseras EQ-5D data? Kort repetition av t-testet T-testet och EQ-5D data Kort repetition av Mann-Whitney rangsummetest Mann-Whitney och EQ-5D data Rekommendationer

Vad är EQ-5D? European Quality of life 5ive dimensions

Vad är EQ-5D? EQ-5D är ett standardiserat instrument för att mäta hälsa som tagits fram av EuroQol Group, en internationell forskargrupp etablerad redan 1987. Instrumentet mäter livskvalitet med ett specifikt värde baserat på en sammanvägning av svaren på fem frågor. EQ-5D är därför snabbt att använda och lätt att administrera. Ej sjukdomsspecifikt - kan användas vid olika sjukdomar och en lång rad hälsotillstånd och behandlingar. Instrumentet används ofta för att beräkna kvalitetsjusterade levnadsår i analyser av kostnad effektivitet och kostnad nytta.

Vad är EQ-5D? Sedan konstrueras en form av ett vägt medelvärde med en viktning (tariff). Vikterna skattas genom Time Trade Off-metoden (TTO). Kort: Befolkningen tillfrågas ex. Givet 10 år i ett hälsotillstånd, t.ex. (11232), hur många år färre kan du tänka dig att leva givet att du istället får göra det i full hälsa? EuroQol gruppen har sedan modellerat dessa data för att utifrån svaren på de 5 frågorna. Prediktionen utgör det vägda medelvärdet.

Vad är EQ-5D? Det vägda medelvärdet för EQ-5D motsvarar 1 för en helt frisk person och 0 för en död. Vissa negativa värden, motsvarande tillstånd värre än döden, kan förekomma. Viktningen kan variera mellan olika geografiska områden. Viktningen för USA är t ex inte densamma som för Storbritannien. Det har inte utarbetats någon tariff för Sverige utan här används den brittiska tariffen.

Vad är EQ-5D? Det vägda medelvärdet för EQ-5D motsvarar 1 för en helt frisk person och 0 för en död. Vissa negativa värden, motsvarande tillstånd värre än döden, kan förekomma. Viktningen kan variera mellan olika geografiska områden. Viktningen för USA är t ex inte densamma som för Storbritannien. Det har inte utarbetats någon tariff för Sverige utan här används den brittiska tariffen. Värt att notera: Alla slutsatser från studier av svenska populationer kommer att bero av brittiska befolkningens syn på diverse hälsotillstånd.

Vad hur används EQ-5D? EQ-5D-värden används också vid direkt utvärdering av behandlingsresultat vid kliniska studier. De öppna jämförelser av hälso- och sjukvårdens kvalitet som görs med hjälp av information från nationella kvalitetsregister inkluderar i vissa fall också EQ- 5D-jämförelser mellan län och kliniker. I Stockholms läns landsting används EQ-5D-värden systematiskt som ett hälsomått i uppföljningen av hälso- och sjukvården. I förslaget till gemensam satsning på kvalitetsregister rekommenderas en omfattande registrering av EQ-5D.

Hur används EQ-5D? Söker man på pubmed på EQ-5D får man strax under 2000 träffar. Stort inom hälsoekonomi verkar komma mer och mer inom klinisk forskning. Många analyserar skillnader i EQ-5D med standardmetoder så som t-test, lineär regression och Mann-Whitney U/Wilcoxon rangsummetest. Det finns även andra metoder, men de har verkar ha fått begränsat genomslag.

T-testet lite kort.. William Gosset Guinness Brewery, Dublin Ireland

Kort repetition av T-testet T-testet används vanligtvis då man testar om skillnad föreligger mellan två normalfördelningar med lika men okänd varians.

Kort repetition av T-testet Pga. Centrala gränsvärdes satsen (CGS) så kan man för stora stickprov även använda T-testet för att avgöra om väntevärden är lika för icke-normalfördelade populationer.

5 10 50 100

5 10 50 100

T-testet och EQ-5D? Vad hade William Gosset Guinness Brewery, sagt?

T-testet och EQ-5D data EQ-5D data kan t.ex. se ut så här

T-testet och EQ-5D data Ej normal. Vid applicering av T-testet befinner vi oss alltså i scenario II.

T-testet och EQ-5D data Ej normal. Vid applicering av T-testet befinner vi oss alltså i scenario II. För bekvämlighetens skull vid simulering så antar vi att detta är två normala komponenter samt en punktfördelning i 1. Vi avrundar data för att få diskreta steg. 10% dåliga, 63% mellan, 27% friska.

3 10 30 50

3 10 30 50

Hur påverkas T-testet? När det finns en skillnad Typ-II fel När det inte finns skillnad Typ-I fel

T-test typ-i felet Ej normal. Vid applicering av T-testet befinner vi oss alltså i scenario II. Two sample test. Balanserade grupper

T-test typ-i felet Typ-I felet ändras med fördelningens utseende. Komponenten med sämsta patienterna 63%, 10% mellan och 27% friska.

T-test typ-i felet Anti-konservativt. Obalanserade grupper. 200 patienter i största gruppen.

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% I sämsta gruppen, 90% I mellan och 10% friska. Den andra med 10% I sämsta gruppen, 20% I mellan och 25% friska.

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% I sämsta gruppen, 90% I mellan och 10% friska. Den andra med 10% I sämsta gruppen, 20% I mellan och 55% friska.

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% I sämsta gruppen, 90% I mellan och 10% friska. Den andra med 10% I sämsta gruppen, 20% I mellan och 55% friska.

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 0% i sämsta gruppen, 90% i mellan och 10% friska. Den andra med 10% i sämsta gruppen, 20% i mellan och 55% friska.

T-test typ-ii felet Finns obegränsat med exempel...

T-test typ-ii felet Finns obegränsat med exempel...

T-test typ-ii felet Finns obegränsat med exempel...

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Den andra med 10% I sämsta gruppen, 63% I mellan och 27% friska.

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Den andra med 10% i sämsta gruppen, 63% i mellan och 27% friska.

T-test typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Den andra med 10% I sämsta gruppen, 63% I mellan och 27% friska.

T-test - typ-ii felet Typ-II felet ändras också med fördelningens utseende. Två fördelningar. En med 63% i sämsta gruppen, 10% i mellan och 27% friska. Skillnad = 0.31 skalpoäng Den andra med 10% I sämsta gruppen, 63% I mellan och 27% friska.

T-testet och EQ-5D Ytterligare en observation

Student's vs Satterthwaite Formeln σ 2 = p(μ 1 2 +σ 1 2 )+(1 p)(μ 2 2 +σ 2 2 ) ( pμ 1 +(1 p)μ 2 ) 2 visar på behovet av att använda Satterthwaite's t-test. Olika väntevärden - olika varians. Detta bör även orsaka problem vid vanlig regressions analys..

T-testet och EQ-5D Sammanfattning

Sammanfattning T-testet kan bara användas för stora studiepopulationer storleksordningen 50-100 per grupp. Power beror av de ingående fördelningarnas utseende även för stora populationer. - Varierar från 5% - Även för stora populationer finns det relevanta skillnader som man potentiellt missar. Variansen ändras med väntvärdet man bör använda Satterthwaite's t-test. Vanlig lineär regression ej aktuell variansfunktion?

Mann-Whitney U test lite kort.. eller Wilcoxons rangsummetest för den delen.

Mann-Whitney U-test Det vanligaste syftet med att använda MWU är att testa huruvida medianen skiljer sig mellan två fördelningar.

Mann-Whitney U-test Det vanligaste syftet med att använda MWU är att testa huruvida medianen skiljer sig mellan två fördelningar. Detta kräver dock att fördelningarna är lika med avseende på form och skala ( shape och scale ) och endast skiljer sig m.a.p. läge ( location ). (Pure shift model)

Mann-Whitney U och EQ-5D

Mann-Whitney U-test Det vanligaste syftet med att använda MWU är att testa huruvida medianen skiljer sig mellan två fördelningar. Detta kräver dock att fördelningarna är lika med avseende på form och skala ( shape och scale ) och endast skiljer sig m.a.p. läge ( location ). (Pure shift model)

Mann-Whitney U-test Eftersom EQ-5D index skalan har en början och ett slut kan man inte i allmänhet se en skillnad i fördelning som en läges-skift (shift in location).

Mann-Whitney U-test Ta t.ex. Två fördelningar. En med 40% i sämsta gruppen, 10% i mellan och 50% friska. Den andra med 10% i sämsta gruppen, 40% i mellan och 50% friska.

Mann-Whitney typ-i felet? Lika medianer. Ändå växer den statistiska styrkan med patientantalet.

Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU.

Mann-Whitney U-test Dessutom är medianen i detta fall inte entydigt definierad.

Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU.

Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU. Vi har inte längre någon parameter som beskriver skillnaden mellan fördelningarna och vi vet inte om det vi detekterar är en väsentlig förändring.

Mann-Whitney U-test Det är alltså inte en skillnad i medianen vi detekterar med MWU. Vi har inte längre någon parameter som beskriver skillnaden mellan fördelningarna och vi vet inte om det vi detekterar är en väsentlig förändring. Vi kan hamna i att vi detekterar skillnader i fördelning som är oväsentliga. Särskilt då vi tittar på stora patientmaterial såsom i kvalitetsregistersammanhang.

Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka).

Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka). Två fördelningar. En med 6% i sämsta gruppen, 89% i mellan och 5% friska. Den andra med 30% i sämsta gruppen, 10% i mellan och 60% friska.

Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka). Detta innebär att om man skulle planera en randomiserad prövning med EQ-5D index som primärt utfall, så skulle patientantalet möjligen blivit onödigt stort.

Mann-Whitney U-test Vidare om man skall använda MWU för att detektera skillnader i fördelning, så finns det ofta bättre alternativ (bättre statistik styrka). Detta innebär att om man skulle planera en randomiserad studie med EQ-5D index som primärt utfall, så skulle patientantalet möjligen blivit onödigt stort. I observationella studier kan man få onödigt låg power.

Mann-Whitney U fler problem.. som om det inte var nog.

MWU och EQ-5D mer problem Det har länge varit känt att MWU i sin originalform inte kan hantera observationer som har samma rangtal. Detta åtgärdas genom en korrigerad version av testet.

MWU och EQ-5D mer problem Det har länge varit känt att MWU i sin originalform inte kan hantera observationer som har samma rangtal. Detta åtgärdas genom en korrigerad version av testet. För bara några år sedan använde inte alla statistikmjukvaror detta som standard. R Bergmann, J Ludbrook, W P. J. M. Spooren Different Outcomes of the Wilcoxon-Mann-Whitney Test from Different Statistics Packages The American Statistician, Vol. 54, No. 1 (Feb., 2000), pp. 72-77 Man bör vara medveten om hur beräkningarna görs i detta fall.

MWU och EQ-5D mer problem Det har länge varit känt att MWU i sin originalform inte kan hantera observationer som har samma rangtal. Detta åtgärdas genom en korrigerad version av testet. För bara några år sedan använde inte alla statistikmjukvaror detta som standard. R Bergmann, J Ludbrook, W P. J. M. Spooren Different Outcomes of the Wilcoxon-Mann-Whitney Test from Different Statistics Packages The American Statistician, Vol. 54, No. 1 (Feb., 2000), pp. 72-77 Man bör vara medveten om hur beräkningarna görs i detta fall. En stor mängd lika observation reducerar även testets statistiska styrka. Fagerland MW, Sandvik L.The Wilcoxon-Mann-Whitney test under scrutiny. Stat Med. 2009 May 1;28(10):1487-97.

MWU och EQ-5D mer problem Lika observation bör vara vanligt då man studerar EQ-5D data.

MWU och EQ-5D mer problem Lika observation bör vara vanligt då man studerar EQ-5D data. Särkilt om friska individer ingår i materialet.

MWU och EQ-5D mer problem Lika observation bör vara vanligt då man studerar EQ-5D data. Särkilt om friska individer ingår i materialet. Två fördelningar. En med 50% i sämsta gruppen, 38% i mellan och 12% friska. Den andra med 64% i sämsta gruppen, 9% i mellan och 27% friska.

MWU och EQ-5D mer problem Vi tappar statistisk styrka. Två fördelningar. En med 50% i sämsta gruppen, 38% i mellan och 12% friska. Den andra med 64% i sämsta gruppen, 9% i mellan och 27% friska.

Mann-Whitney och EQ-5D Sammanfattning

Sammanfattning MWU testar inte en skillnad i medianer på EQ-5D data. Det är ett problem att man inte längre har en parameter att gå efter för att avgöra klinisk relevans. Stora studiepopulationer signifikanta resultat relevanta? Om man skall testa en skillnad i fördelning finns bättre test. Lika observationer (ties) orsakar problem för MWU, inte minst för den statistiska styrkan (power). Dessa förekommer i stor utsträckning i EQ-5D data.

Slutsats Analysera inte EQ-5D med standardmetoder. Andra metoder finns men oklart om de löser problemen. Möjligen bättre att välja andra mått; EQ-5D VAS, SF-36 etc.

Tack för uppmärksamheten!.. Några lösningar?