ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test? Mikael Eriksson Specialistläkare CIVA Karolinska Universitetssjukhuset, Solna
Grund för hypotestestning 1. Definiera noll- och alternativhypotes, H 0 och H A 2. Bestäm signifikansnivå (vanligen 0.05) 3. Gör ditt urval 4. Välj lämpligt statistiskt test 5. Beräkna test-statistika (Z) och p-värdet 6. Dra slutsatser inom aktuell kontext/problem (statistisk interferens)
Översikt val av analys Goal: Describe one group: Compare one group to a hypothetical value: Measurement (from a normal distribution) Kvot Mean, S One-sample t test Rank, Score, or Measurement (from non-normal distribution) Kvot, ordinal Median, interquartile range Wilcoxon test Compare two unpaired groups: Unpaired t test Mann-Whitney test Compare two paired groups: Compare three or more unmatched groups: Compare three or more matched groups: Quantify association between two variables: Predict value from another measured variable: Predict value from several measured or binomial variables: Dataset: Binomial (e.g. heads or tails), Nominal med två kategorier Proportion Chi-square or Binomial test Fisher's exact test (or chi-square for large samples) Paired t test Wilcoxon test McNemar's test One-way ANOVA Repeatedmeasures ANOVA Pearson correlation Simple regression Multiple regression Kruskal-Wallis test Friedman test Spearman correlation Nonparametric regression Chi-square test Cochrane Q test Contingency coefficients Simple logistic regression Multiple logistic regression Survival Time: Kaplan-Meier survival curve Log-rank test or Mantel-Haenszel Conditional proportional hazards regression Cox proportional hazard regression Conditional proportional hazards regression Cox proportional hazard regression Cox proportional hazard regression
Mätnivå för variabler Kvalitativ Kvantitativ Nominal Kategorisera Ordinal Rangordna Intervall Lika intervall Kvot Absolut nollpunkt
Testa medelvärden i 2 oberoende populationer Är data normalfördelade? Ja Nej Test som jämför medelvärden -parametriskt test Test som jämför medianvärden -icke parametriskt test
Parametriska vs icke parametriska test av kontinuerliga variabler Parametriska à Antar normalfödelat material à Mindre risk för typ 2-fel (starkare power) Icke parametriska à Inget antagande om normalitet à Mindre risk för typ 1-fel
Varians Lika varians Olika varians
Oberoende t-test Exempel: Har unga och gamla olika blodtryck vid ankomst till IVA? Jämför olika patienter kategoriserade efter ålder Unga Gamla
Oberoende t-test (lika varians) Exempel: Skiljer sig blodtrycket mellan åldersgrupperna? H H 0 1 : µ = µ, ingen skillnad i medelvärde mellan grupp1och 2 i populationen 1 : µ µ, skillnad... 1 2 2 Signifikansnivå: α = 0.05 =SE för skillnaden i medelvärde Teststatistika: t = s pool x1 x2 1 n 1 + 1 n 2, α / 2 = 0.025 = (2.5%) H0 förkastas om: t är stort (+) eller litet (-)
Oberoende t-test (olika varians) Exempel: Skiljer sig blodtrycket mellan åldersgrupperna? H H 0 1 : µ = µ, ingen skillnad i medelvärde mellan grupp1och 2 i populationen 1 : µ µ, skillnad... 1 Signifikansnivå: 2 2 α = 0.05 Teststatistika: t = x1 x2 s n 2 1 1 + s n 2 2 2, Ho förkastas om: t är stort (+) eller litet (-))
Wilcoxon rangsummetest Mann-Whitney U test Icke-parametrisk motsvarighet till oberoende t-test Exempel: Finns det en ålderskillnad mellan 2 grupper? H H 0 1 :M : M 1 1 = M M 2 2 (Medianerna är lika i grupp1och 2 i populationen) Teststatistika: T n1 ( n1 + n2 + 1) 1 n1n 2 = R / ( 1 + 2 + 1) 2 2 n n 12 Förkasta H0 om: T är stort eller litet.
Wilcoxon rangsummetest Är det lika troligt att barn i grupp A och B har samma ålder? A B 3 9 5 5 4 10 4 7 9 4 4 8 A 3 4 4 4 5 9 B 4 5 7 8 9 10 Rank A 1 3,5 3,5 3,5 6,5 10,5 Rank B 3,5 6,5 8 9 10,5 12 Rangsumma (R) A: 1+3,5+ +10,5 = 28,5 B: 3,5+6,5+ +12 = 49,5
Wilcoxon rangsummetest i Stata Two-sample Wilcoxon rank-sum (Mann-Whitney) test Grupp obs rank sum expected A 6 28.5 39 B 6 49.5 39 combined 12 78 78 unadjusted variance 39.00 adjustment for ties -1.64 adjusted variance 37.36 Ho: A(Grupp==A) = A(Grupp==B) z = -1.718 Prob > z = 0.0858 T = -1.798 P-värde = 0.086 Slutsats: Förkasta ej H 0 det finns inget stöd för att medianen skiljer sig mellan grupperna.
Jämföra kvalitativa data -Proportioner Nominal eller Ordinaldata Tabellanalys 2 x 2 (eller större) à Pearsons χ 2 -test à (Fishers exact test)
Exempel 2 x 2 - tabell Respirator PFI <26,7 >26,7 Totalt Ja 17 4 21 Nej 19 28 47 Totalt 36 32 68 Kolumntotal Finns det bevis för en association mellan PFI och behov av respiratorbehandling? -Dvs hur skulle tabellen sett ut om det inte fanns någon association?
Exempel 2 x 2 - tabell Respirator PFI <26,7 >26,7 Totalt Ja 17 11,1 4 21 Nej 19 28 47 Totalt 36 32 68 Om ingen association borde 21/68 x 36= 11,1 av patienterna med PFI <26,7 respiratorbehandlas
Exempel 2 x 2 - tabell Respirator PFI <26,7 >26,7 Totalt Ja 17 11,1 4 9,9 21 Nej 19 24,9 28 22,1 47 Totalt 36 32 68 Om ingen association borde 21/68 x 36= 11,1 av patienterna med PFI <26,7 respiratorbehandlas Expected cell count = Row total x Column total Grand total
Är skillnaden mellan observerade och förväntade värden stor? Teststatistika 2 χ (O = E) 2 E (17-11,1) 2 + (4-9.9) 2 + (19-24,9) 2 + (28-22,1) 2 = 9,64 11,1 9,9 24,9 22,1 P-värdet fås från tabell (eller statistikprogram )
χ 2 Regler à Högst 20% av de förväntade värdena får vara mindre än 5 à Inga förväntade värden får vara mindre än 1 à Kategoridata: nominal, ordinal, eller kvotskala med få kategorier à Oberoende data
χ 2 Om reglerna inte är uppfyllda Omkodning + χ 2
χ 2 Om reglerna fortfarande inte är uppfyllda då... Fishers exact test
Logistisk regression Beskriver samband mellan en eller flera oberoende variabler och en beroende variabel Kan användas för à Justering för confounders à Identifiera riskfaktorer à Beräkna sannolikhet (tex Propensity score matching) à Prediktionsmodeller Förutsättningar à Beroende variabel kategorisk (0, 1) à Oberoende variabel binär, kategoriserad, kontinuerlig Vi beräknar sannolikheten att värdet av den beroende variabeln är 1 vid olika nivåer på de oberoende variablerna
Linjär vs. Logistisk regression
Logistisk regression ger Odds & Odds Ratio Exposition Outcome Ja Nej Ja a b a + b Nej c d c + d a + c b + d Totalt Odds = sannolikheten för händelse / sannolikheten för ej händelse à a/c respektive b/d Odds ratio = Odds för exponerade / Odds för ej exponerade à (a/c) (b/d) Risk = P = Odds /(1+Odds) = a/(a+c) resp b/(b+d)
Naturliga logaritmen för oddset är linjärt
Multipel Logistisk Regression Vad betyder siffrorna Vid kategorisk oberoende variabel (rökning ja/nej) à Ger logistisk regression Odds Ratio för att få utfallet (tex cancer) för rökare jämfört med icke rökare vid samma nivå på alla andra variabler Vid kontinuerlig oberoende variabel (ålder i år) à Ger logistisk regression Odds Ratio för att få utfallet vid 1 års ökning i ålder vid samma nivå på alla andra variabler OR har ett 95 % CI och således kan vi få p-värden
Multipel logistisk regression - Exempel
Multipel logistisk regression Att tänka på när man läser artiklar Är den beroende variabeln relevant? Vilka oberoende variabler har inkluderats à Vilka saknas? Hur många variabler har inkluderats? à Tumregel 1 per 10 utfall Hur hanteras kontinuerliga variabler? à Kategoriserade? Baserat på vad? Interaktioner?
Tack!