Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10 Läsanvisningarna baseras på boken Björk J. Praktisk statistik för medicin och hälsa, Liber Förlag (2011), som är gemensam kursbok för statistikavsnitten på termin 1, 5 och 10. Till boken hör det webbaserade elabbet med bl.a. kunskapsfrågor, problem, statistikfall och arbetsböcker i Microsoft Excel som kan användas för grundläggande statistiska analyser. Inloggningskod till elabbet finns på pärmens insida i kursboken. Att planera ett forskningsprojekt Läs avsnitt 1.2 i boken. En viktig del av planeringen är att avgöra hur stor undersökningen ska vara. Hur många patienter ska inkluderas? Hur många prover behöver analyseras? Hur många journaler ska granskas? Hur stort registerutdrag behövs etc.? I boken beskrivs sådana dimensioneringsberäkningar ("powerberäkningar") i avsnitt 6.4, 8.4 och 10.4. Ett enkelt gratisprogram som kan användas för powerberäkningar är PS Samplesize och kan laddas ned på http://biostat.mc.vanderbilt.edu/wiki/main/powersamplesize Ska du göra en litteraturöversikt? Metaanalyser och systematiska litteraturöversikter beskrivs kortfattat på sid. 30 i boken. Det finns en utmärkt checklista för systematiska litteraturöversikter på http://www.prisma-statement.org. I elabbet som hör till kursboken finns exempel på hur metaanalyser redovisas och tolkas i statistikfall nr 12, Kaffe, te och typ2-diabetes, och nr 20, Rökning och myelodysplastiska syndrom. Statistikfall nr 10, Hudirritationer, ger träning i att dimensioneringsberäkna.
Organisera insamlade data Kapitel 2 beskriver grunderna kring hur data bör struktureras för att sedan kunna analyseras med hjälp av statistikprogram (t.ex. SPSS) eller med de arbetsböcker som finns i elabbet. Principen är att man i datatablån (t.ex. i ett kalkylblad i Excel) lägger upp en rad per individ som ingår i undersökningen och en kolumn per uppgift (variabel) som man samlar in: Flödesschema för deltagande Avsnitt 3.1. Det är viktigt att beskriva bortfallet i alla faser av en undersökning. På sid. 51 i boken finns ett exempel på ett mycket användbart flödesschema som bygger på CONSORT - rekommendationerna www.consort-statement.org. Flödesschemat är avsett för kliniska prövningar men kan efter smärre modifieringar även användas för epidemiologiska undersökningar. En svensk översättning av CONSORT- flödesschemat finns för nedladdning i elabbet (välj menypunkten Flödesscheman ute i vänsterkanten). Beskrivande statistik Avsnitt 3.2-3.3. Såväl bakgrundsvariabler (t.ex. ålder, kön, kliniska karakteristika), behandlingsrelaterade variabler samt utfallsvariabler (resultatvariabler) ska beskrivas. Sammanfatta genomsnitt och spridning med medelvärde och standardavvikelse endast för kvantitativa variabler som är symmetriskt fördelade (figur 3.2 a; sid. 56). För snedfördelade kvantitativa variabler bör istället median och percentiler användas (figur 3.2 b-c sid. 57). Kategoriska variabler sammanfattas med hjälp av relativa frekvenser (avsnitt 3.3).
Det är viktigt att läsaren kan bedöma jämförbarheten i de grupper som studeras. Redovisa bakgrundsvariablerna uppdelade på någon viktig gruppering i din undersökning, t.ex. behandling eller exponering. Tabell 3.7 (sid. 71; klinisk prövning) och tabell 15.6 (kohortundersökning) ger exempel på hur bakgrundsvariabler kan redovisas i tabellform. Utfallsvariabler kan med fördel redovisas med hjälp av figurer, se exempelvis figur 3.3 (sid. 68; lådagram), figur 3.4 (sid. 73; stapeldiagram) eller figur 6.1 (sid. 113; medelvärden med felstaplar som anger 95% konfidensintervall). Däremot är det oftast slöseri med plats i rapporten att redovisa bakgrundsvariabler, t.ex. andelen män eller andelen rökare, i figurer. Tabeller lämpar sig bättre för sådan redovisning. Arbetsboken i Excel som hör till kapitel 3 i elabbet kan användas för att beräkna medelvärde, standardavvikelse, median, kvartiler och percentiler. Konfidensintervall För utfallsvariabler ska den statistiska osäkerheten beskrivas med hjälp av konfidensintervall. Problem 9.1 på sid. 165 ger god träning i att tolka konfidensintervall. Interaktiva diskussioner av bokens problem finns i elabbet. Konfidensintervall kan exempelvis beräknas för medelvärdet i en undersökningsgrupp (kapitel 6) differensen mellan två medelvärden (kapitel 8) medianvärden (kapitel 9) andelar (kapitel 10) incidenstal (avsnitt 15.2) oddskvoter (avsnitt 15.4) Arbetsböckerna i Excel som hör till kapitel 6, 8, 9, 10 och 15 i elabbet kan användas för att beräkna konfidensintervall enligt listan ovan. Statistikfall nr 9, Rotavirus i Latinamerika, ger träning i att beräkna konfidensintervall för binära utfall.
Val av statistiskt test Grundprinciperna i statistisk hypotesprövning beskrivs i kapitel 7. Ett flödesschema som underlättar valet av statistiska test finns i figur 7.1 på sid. 131. Goda råd kring val av statistisk metod i olika studiesituationer finns också i faktaruta 1.7 på sid. 29. Avsnitt 9.1-9.2 diskuterar rapportering och tolkning av p-värden. En interaktiv version av flödesschemat ovan finns i elabbet (välj menypunkten Flödesscheman ute i vänsterkanten). Kunskapsfrågorna som hör till kapitel 10 i elabbet ger god träning i att välja rätt statistiskt test i olika studiesituationer. Är du osäker på hur p-värden och konfidensintervall tolkas? Kunskapsfrågor i kapitel 9 kan avhjälpa detta. Epidemiologisk metodik I kapitel 15 finns exempel på tvärsnittsundersökningar (problem 15.1, sid. 287), kohortundersökningar (problem 15.2, sid 289; exempel 15.4; sid 303) och fallkontrollundersökningar (problem 15.4, sid 304; problem 15.7, sid 316). Interaktiva diskussioner av bokens problem finns i elabbet. I fall-kontrollundersökningar beskrivs effekten av exponeringen med hjälp av oddskvoter, se formel 15.4 på sid. 305 i boken samt faktarutor på nästföljande sidor.
Överlevnadsanalyser används i kohortundersökningar men också i kliniska prövningar (se avsnitt 15.3 i boken). Dessa analysmetoder kan användas även för andra typer av utfall än överlevnad, t.ex. tid till återfall, tid till graviditet, tid till utskrivning från vårdavdelning etc. Man brukar rita s.k. Kaplan-Merierkurvor för att jämföra överlevnaden i olika grupper: Grupper som jämförs i en epidemiologisk undersökning är sällan jämförbara vilket kan snedvrida resultaten (s.k. confounding; se avsnitt 15.5). Statistisk regressionsmodellering kan användas för att justera resultaten för bristande jämförbarhet mellan grupperna. Om utfallsvariabeln är kontinuerlig (t.ex. blodtryck) används linjär regression (problem 11.5, sid 221; exempel 15.7, sid. 312). Är utfallet binärt används istället logistisk regression (problem 15.7; sid. 316). Bland statistikfallen i elabbet finns ett flertal exempel på epidemiologiska undersökningar. Grundläggande epidemiologiska dataanalyser kan göras med hjälp av arbetsboken i Excel som hör till kapitel 15 i elabbet. En mer omfattande Excel-arbetsbok för epidemiologiska dataanalyser är Episheet som kan laddas ned gratis på http://www.epidemiolog.net/studymat/. Ett bildspel visar hur man kan göra en linjär regressionsanalys (finns under Bonus- och fördjupningsmaterial i menyn ute i vänsterkanten). Statistikprogram måste användas för andra typer av regressionsanalys.
Odds Ratio (OR) Oddskvoter (odds ratios) används först och främst i fall-kontrollstudier för att uppskatta den relativa risken, dvs. hur många gånger högre risken att drabbas av sjukdomen är om man utsätts för en viss riskfaktor ("exponerade") jämfört med dem som inte utsatts för riskfaktorn ("oexponerade"). OR är en kvot mellan två odds och uppför sig en aning antiintuitivt när dess storlek inte ligger nära 1 (OR = 0.5 är en lika kraftig effekt av exponeringen som OR = 2). Exempel. Anta att vi i en fall-kontrollstudie jämför förekomsten av en exponering X hos 100 personer som drabbats av en viss sjukdom (fall) med 100 personer som inte drabbats av sjukdom (kontroller, dvs. jämförelsepersoner): Sjukdomsstatus Exponerade Oexponerade Totalt Fall 85 15 100 Kontroller 35 65 100 Bland fallen är 85 av 100 exponerade. Oddset för exponering bland fallen är därför 85/15. Bland kontrollerna är 35 av 100 exponerade. Oddset för exponering bland kontrollerna är därför 35/65. Oddskvot = Oddset för exponering bland fallen / Oddset för exponering bland kontrollerna = 85/15 / (35/65) 10. En oddskvot på 10 innebär att risken att drabbas av sjukdom är 10 gånger högre om man är exponerad jämfört med om man är oexponerad. Lägg märke till att endast relativa risker (Hur många gånger högre är risken om man är exponerad?) och inte absoluta risker (Hur stor är risken om man är exponerad?) kan skattas direkt utifrån fall-kontrolldata. Anledningen till att absoluta risker inte kan skattas är att förhållandet mellan antalet fall och kontroller är godtyckligt valt. I exemplet ovan valde vi att rekrytera lika många kontroller som fall till studien. Om vi istället hade inkluderat dubbelt så många kontroller som fall hade vi fått lägre andelar sjukdomsfall både bland de exponerade och de oexponerade trots att samma underliggande sjukdomsrisker studeras. Oddskvoten påverkas däremot inte av förhållandet mellan antalet fall och antalet kontroller som inkluderats i studien.
Odds Ratio (OR) i genetiska studier I fall-kontrollstudier inom genetisk epidemiologi arbetar man ofta med en multiplikativ riskmodell (kan också benämnas log-additiv eftersom modellen är additiv på logskalan). Denna riskmodell innebär att oddskvoten, dvs. den relativa risken, ökar med en konstant faktor per risk-allel som man har av den genvariant som undersöks. En individ kan ha 0, 1 eller 2 risk-alleler för en given genvariant. En oddskvot på exempelvis 1,5 innebär att man har 1,5 gånger högre risk att drabbas av den studerade sjukdomen om man är bärare av en risk-allel av genvarianten och 1,5 1,5 = 2,25 gånger högre risk om man är bära av två risk-alleler, jämfört med om man inte har någon risk-allel alls av den undersökta genvarianten. Exempel. Anta att vi i en fall-kontrollstudie jämför förekomsten av en genvariant X hos 100 0personer som drabbats av en viss sjukdom (fall) med 1000 personer som inte drabbats av sjukdom (kontroller, dvs. jämförelsepersoner): Antal alleler av genvarianten X Sjukdomsstatus 0 1 2 Totalt Fall 671 293 36 1000 Kontroller 739 243 18 1000 Man kan använda s.k. logistisk regressionsanalys som finns i statistikprogramvara för att räkna ut oddskvoten utifrån en multiplikativ riskmodell tillsammans med 95% konfidensintervall: Oddskvot = 1,375 (95% konfidensintervall 1,16-1,63). Resultatet i exemplet innebär att den uppskattade risken att drabbas av sjukdomen är 1,375 gånger högre (37,5% högre) om man har en allel och 1,375 1,375 1.89 gånger högre (89% högre) om mar två alleler, jämfört om man inte har någon allel alls av genvarianten X. Eftersom konfidensintervallet för oddskvoten i sin helhet är tydligt över ett ger studien starka belägg för att genvarianten ökar sjukdomsrisken. Det är viktigt att vara medveten om att beräkningarna i exemplet ovan bygger på förutsättningen att den valda riskmodellen (multiplikativ riskmodell) är korrekt. Alternativa riskmodeller, ex. dominanta eller recessiva riskmodeller, kan ge andra resultat. Det är därför viktigt att undersöka hur väl den valda riskmodellen stämmer med insamlade data.