Statistisk styrka Dimensioneringsberäkningar Jonas Björk Arbets- och miljömedicin vid Lunds universitet och FoU-centrum Skåne E-post: jonas.bjork@skane.se Tel: 046 17 79 30
FoU-Centrum Skåne (verksamhetschef: Ulf Malmqvist) Enheten för medicinsk statistik och epidemiologi (Jonas Björk) Enheten för kliniska prövningar (Solveig Wennerholm) Klinisk prövningsenhet (Johanna Mercke-Odeberg) Rådgivning Stöd Utbildning
Statistisk styrka Dimensioneringsberäkningar 1. Statistisk hypotesprövning Likheter med diagnostiska test 2. Studiestorlek Etiska aspekter Ekonomiska aspekter Designaspekter 3. Beräkningsexempel Gruppjämförelser Dimensionering utifrån krav på precision 4. Programvara 5. Statistisk styrka och resultattolkning Läs också avsnitt 6.4, 8.4, 9.2 och 10.4
1. Hypotesprövning Statistisk hypotesprövning Statistiskt test Nollhypotes (H 0 ) Ingen skillnad mellan behandlingarna prövas mot Alternativhypotes (H 1 ) Behandlingarna skiljer sig åt Nyckelord: statistisk styrka Statistiskt test H 0 förkastas Signifikant resultat H 0 förkastas ej Ej signifikant signifikansgräns
1. Hypotesprövning Statistiska vs. Diagnostiska test Stora likheter Sant positiva Statistisk styrka = Sensitivitet Sannolikheten att en verklig skillnad mellan behandlingarna kommer att upptäckas i det statistiska testet Minst 80% statistisk styrka för primär frågeställning är ett vanligt krav Falskt positiva Signifikansgräns = 1 Specificitet Risken för ett falskt positivt fynd 5% signifikansgräns (95% specificitet) är ett vanligt krav, men kan behöva skärpas om flera jämförelser görs
2. Studiestorlek Hur många patienter behövs? Vi ska jämföra två olika behandlingar, tror du att 20 patienter i varje grupp räcker? Jag har ingen aning om hur stor skillnaden mellan grupperna är, det är därför vi vill göra studien
2. Studiestorlek Två extrema exempel 1. Fyra patienter per grupp räcker Om vi tror att alla får återfall med den gamla behandlingen, medan ingen får återfall med den nya, krävs 4 patienter per grupp för att med 80% sannolikhet kunna påvisa skillnaden i behandlingseffekt 2. 1 100 patienter totalt krävs Om en biomarkör, som finns bland 10% av alla patienter, ökar risken för återfall från 10% till 20% krävs 1 100 patienter för att med 80% sannolikhet kunna påvisa skillnaden i återfallsrisk
2. Studiestorlek Studiestorlek Etiska aspekter Att planera en alltför liten studie är oetiskt...liksom att planera en alltför stor Att granska studiestorleken är därför en viktig del av etikprövningen
2. Studiestorlek Studiestorlek Ekonomiska aspekter Att planera en alltför stor studie är onödigt kostsamt...men en alltför liten studie kan i ett större perspektiv bli ännu dyrare Glöm inte att ta med kostnader för datainsamling i budgeten!
2. Studiestorlek STROBE Att förklara studiens storlek tillhör god rapporteringssed Strengthening the Reporting of Observational Studies in Epidemiology www.strobe-statement.org
2. Studiestorlek Vad avgör studiens storlek? Studieupplägg Strängare krav på studier som innebär ny datainsamling Designaspekter Frågeställning Visa skillnad att en ny behandling är överlägsen standardbehandlingen Visa likhet att en ny behandling inte är sämre än standardbehandling
2. Studiestorlek Designaspekter Önskvärt med homogenitet inom grupperna, stora kontraster mellan grupperna Matchning Skapa likheter med avseende på andra faktorer som påverkar utfallet Upprepade mätningar Vid samma tillfälle, vid upprepade tillfällen Tillräcklig exponering? Tillräckligt hög risk? Ta hänsyn till förväntad deltagandefrekvens I en överlevnadsanalys är det antal händelser (events) som avgör. Avvägning: Uppföljningstid - Antal patienter
2. Studiestorlek Visa skillnad Exempel Randomiserad studie av tamoxifen, strålbehandling och återfall av bröstcancer Viktigt att motivera studiens storlek. Så här skrev författarna i metoddelen: (Overgaard et al. 1999)
2. Studiestorlek Visa likhet - Exempel (SvD, 3 maj 2013) Viktigt att studien är tillräckligt stor för att kunna upptäcka väsentliga försämringar i skydd
2. Studiestorlek Andra faktorer som bör styra hur stor studien bör vara (Björk, Praktisk statistik för medicin och hälsa, Liber 2011)
3. Beräkningsexempel Beräkning av studiestorlek Ex. Två oberoende grupper (Björk, Praktisk statistik för medicin och hälsa, Liber 2011)
3. Beräkningsexempel Hur stor ska studien vara? Exempel Exempel: Två smärtstillande läkemedel ska jämföras. Hur många patienter krävs för att vi ska ha god (här 80%) chans att detektera en statistiskt signifikant (p<0.05) skillnad i VAS? Förväntad genomsnittlig skillnad (mm) Standardavvikelse i patientgrupperna s (mm) Effektstorlek / s Antal patienter per grupp 20 20 20 / 20 = 1 17 20 30 20 / 30 0,67 36 10 20 10 / 20 = 0,50 64 10 30 10 / 30 0,33 142
3. Beräkningsexempel Gruppstorlek vs. effektstorlek (Björk, Praktisk statistik för medicin och hälsa, Liber 2011)
3. Beräkningsexempel Dimensioneringsberäkningar - Allmänt Redovisas först och främst för primär frågeställning Minst 80% statistisk styrka är ett vanligt krav om nya data ska samlas in Lägre statistisk styrka kan vara rimligt i subgruppsanalyser och i studier som bygger på befintliga data Känslighetsanalyser Gör beräkningen under olika antaganden om, s Standardiserad effektstorlek = / s avgörande Ibland enklare att uppskatta variationskoefficienten (CV=Coefficient of variation, mätt i % av medelvärdet) än standardavvikelsen Utnyttja tidigare studier inom området!
3. Beräkningsexempel Dimensionering utifrån krav på precision i resultatet
4. Programvara Program för beräkning av studiestorlek PS Power and Sample Size Calculation Enkelt, lätt att använda Kan laddas ned gratis via http://biostat.mc.vanderbilt.edu/twiki/bin/view/main/ PowerSampleSize G*Power 3 Mer avancerat, något svårare att använda Kan laddas ned gratis via http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3
5. Resultattolkning Spelar den statistiska styrkan någon roll när vi tolkar resultatet? Trots att den statistiska styrkan var låg fann vi en signifikant skillnad. Alltså är skillnaden verklig. Om vi hade haft bättre statistisk styrka så hade vi funnit en skillnad
5. Resultattolkning Risken fyndet är falskt positivt FPRP = False Positive Report Probability