Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Frida Eek frida.eek@med.lu.se 1 Studiedesign En grupp (jämfört med referensvärde, eller 0)? Två (eller flera) grupper tvärsnittsjämförelse? Oberoende -unpaired (independent) samples/ observations Upprepade mätningar-två (eller flera) mätningar på samma individer? Beroende paired (dependent) samples/ observations Samples size: Stort eller litet urval? Fördelning: Normalfördelat eller snedfördelat? (Symmetriskt eller assymmetriskt) 3 4 Variablernas mät/skalnivå Samples size: Stort eller litet urval? Fördelning: Normalfördelat eller snedfördelat? (Symmetriskt eller assymetriskt) Kategorisk? Binär? Ordinalskala? Metrisk/scale? Kombinationen av oberoende och beroende variabel (exponering och utfall) avgör test! 5 6 1

Dimensioner att beakta Parametriska test: Förutsätter normalfördelning Stora urval/sample Ger både p-värde och effektmått Tex t-test, ANOVA, pearson correlation 7 8 Icke-parametriska test Test-karta Kräver ej normalfördelning Små sample OK Ger p-värden Ex Mann-whitney, spearman correlation 9 10 Situation 1: Några vanliga test grupper av möss: albino och icke-albino Hur många har en specifik genetisk mutation? Vilket är IV resp DV? Vilken typ av variabler (mätnivå) är de? 11 1

Chi -test Två kategoriska variabler (binär, nominal eller ordinal med relativt få kategorier) Icke-parametriskt test Testar om frekvensen (andelen) av utfallet är den samma mellan olika grupper (jämför observerade och förväntade frekvenser) Ger p-värde Talar inte om exakt vilka celler som skiljer sig åt, endast att fördelningen inte är den samma i alla jämförda grupper. Chitvå (Chi ) setting grupper av möss: albino eller icke-albino Hur många har en specifik gen-mutation? IV: DV: Oberoende mätningar 13 14 Chitvå (Chi ) 15 16 Presentera resultat från Chi-två P-värde Deskriptivt: frekvens/andelsfördelning 17 18 3

Situation : grupper: normal diet och restricted caloriesdiet Hur länge lever de? (Hur gamla blir de?) Vilket är IV resp DV? Vilken typ av variabler är de? T-test Parametriskt test Jämför två medelvärden Tvärsnitt (oberoende mätningar) eller upprepade mätningar (före-efter) olika t-test! Independent- eller paired- samples) Ger p-value Ger medelvärdesskillnad och CI Nackdel: går ej att justera för potentiella confounders. Jämför endast två grupper/mättillfällen. 19 0 Independent sample t-test: Två oberoende grupper grupper: normal diet och restricted calories Skillnad i livslängd? IV DV Man kan räkna ut ett konfidensintervall för skillnad i medelvärde SE pooled är ett sammanviktat standardfel KI ( x x ) c SE SE pooled Punktskattningen A s B pooled 1 1 na nb pooled s pooled är en sammanviktad varians pooled (n = antal observationer; x = medelvärde; s = standardavvikelse) s n A 1 s A nb 1 s n 1 n 1 A B B 1 Antaganden bakom t-testet (independent sample t-test) 1. Medelvärdet är ett bra sammanfattande mått Två versioner av t-testet beroende på om man kan anta att standardavvikelsen är lika i båda grupperna. Oberoende observationer (t.ex. ingen patient förekommer mer än en gång) om beroende mätningar/grupper används paired sample t-test! 3. Mätningarna är normalfördelade i båda grupperna eller Levene s test: p-värde ( Sig. ) testar H 0 : Varians i A = Varians i B Båda grupperna är stora 3 4 4

Situation 3: 1 grupp: före och efter anabola steroider Förändring i styrka? (tyngdlyftningstest) Förändring i uthållighet? Paired sample t-test 1 1 grupp pre och post Metric/scale outcome. Normalfördelad (differens)? 5 6 Paired sample t-test : endurance (min in wheel) Presentera resultat från t-test (paired och/eller independent samples) Medelvärdesskillnader med CI P-värde? 7 8 Antaganden bakom parat t-test 1. Parade stickprov, beroende inom paren, inget beroende mellan paren. Medelvärde är ett relevant summerande mått: H 0 : Medelvärdesskillnaden = 0 3. Skillnaderna mellan paren är normalfördelade eller Det finns så många par att det inte gör något att de inte är normalfördelade Situation 4: 3 groups: Normaldiet, restricted cal, LCHF Skillnad i livslängd? DV/IV? Variabeltyper/mätnivå? 9 30 5

ANOVA (ANalysis Of VAriance) Parametriskt test Jämför medelvärden mellan eller flera grupper (egentligen, varians inom/mellan grupperna!) Tvärsnittsjämförelse/oberoende mätningar ( vanlig ANOVA) eller upprepade mätningar (repeated measures ANOVA) Ger p-value Parvisa post hoc test-möjligheter Ger medelvärden med CI Möjligt att inkludera flera olika IV/covariat justera för confounders Möjligt atth testa interaktioner (effect modification) (ANCOVA, MANOVA..) 31 ANOVA: 3 grupper: Normal diet, restricted cal, LCHF Skillnad i livslängd? IV: DV: 3 ANOVA Post-hoc test 33 34 När ska icke-parametriska test användas? Icke-parametriska test används när förutsättningarna för parametriska test inte uppfylls. Vid små urval, eller skeva fördelningar (eller ordinal(?)/nominaldata) Då används icke-parametriska test. De ställer inte samma krav på normalfördelning, mätnivå etc. Icke-parametriska gruppjämförelser T ex Mann-whitney, Wilcoxon, McNemar, Kruskal Wallis, Friedmans ANOVA Modellen anges i SPSS (antal grupper, paired eller independent samples, etc). SPSS kan välja exakt test men det är såklart bra att veta vad som händer! Ger p-värde Jämförelser baseras generellt på rangordning istället för exakta värden 35 36 6

Situation: Mann-Whitneys U test 8 albinoråttor och 8 icke-albinoråttor Skillnad i serum vitamin D? (ng/ml) IV/DV? Små grupper, och/eller assymmetriska data Rangordna alla observationerna från den lägsta till den högsta Beräkna summan av rangerna i grupp A (W A ) respektive grupp B (W B ) Ju större skillnad i medelrang, W A /n A och W B /n B, ju lägre p-värde fås 37 38 Mann-whitney U Presentera resultat från Mann-Whitney U test Deskriptiv statistik för de två grupperna Median Min och Max (eller lämpliga percentiler) P-värde Mediankonfidensintervall finns men används inte så ofta 39 40 Situation: 8 möss, före och efter vitamin D tillskott Förändring i serum vitamin D? IV/DV? Parade data Icke-parametriskt test Wilcoxons teckenrangtest H 0 : Mediandifferenserna mellan metoderna är noll, och positiva och negativa differenser har samma fördelning H 1 : Mediandifferenserna mellan metoderna är inte noll, eller positiva och negativa differenser har inte samma fördelning 41 4 7

Wilcoxon signed rank Fler icke-parametriska gruppjämförelser: Tvärsnittsjämförelse av mer än grupper: Kurskal- Wallis (med post-hoc) Samma logik som för Mann-whitney U Binär/dikotom (yes/no) variabel, upprepade mätningar (t ex andelen av någonting före och efter en intervention): McNemar Vad du primärt får ut: p-värden. 43 44 Situation: Association? 3 möss, olika solljusexponering. Olika nivåer av serum vitamin D Finns det något samband mellan solljusexponering och vitamin D-nivåer? Vilken typ av variabler? 45 46 Korrelation Korrelation Parametrisk (pearson) eller icke-parametrisk (spearman) Beskriver association (linjär samvariation) mellan två metriska variabler Ger p-värde Ger korrelationskoefficient ( r ) (Ger därmed även förklarad varians (r )) Parametrisk (baserad på faktiska värden) eller icke-parametrisk (baserad på rangordning)? 47 48 8

Presentera resultat från korrelation? Linjär regression r, eller rho p-value r? Om man antar att en variabel påverkar den andra, kan sambandet beskrivas genom linjär regression (OBS regressionen kan dock aldrig vare sig testa eller bevisa faktisk kausalitet) Om y alltid är samma som x kan man säga att y = x Om y alltid är dubbelt så mycket som x kan man säga y = x y är beroende variabel x är oberoende variabel 49 50 Linjär regression formel 1 y = bx β är lutningen, the slope Tolkningen av b är: För varje enhet ökning i x, ökar y med b enheter En individ med en enhet högre x, har b enheter högre (predicted) y β (beta) är standardiserad slope: för en sd ökning i x, ökar y med β sd β/b can kan vara negativ = y minskar för varje ökning i x Y=a + bx inkluderar intercept (a) 51 Linear regression Parametriskt test Testar linjärt samband mellan två metriska/scale variabler eller en binär (oberoende/iv) och en metrisk/scale variabel (som beroende/dv) Y= a + bx Ger p-värde Ger regressions coefficient ( b/β ) Ger förklarad varians (r ) Flera prediktorvariabler/iv kan inkluderas (multipel linjär regression), ökar förklarad varians/förbättrar prediktion Tolkas som kausal påverkan från x på y, men bevisar ingen kausalitet! 5 Linjär regression Ex: Marathon och VO Påverkar VO max marathon-tid? Marathontid = dependent/beroende variabel (den som påverkas) = y VOmax= independent /oberoende variabel (den som påverkar) = x 53 54 9

Y=a + bx Linjär regression ger y = 414-4.46x Variation Vad säger interceptet? Vad är y, när x=0 där linjen skär y-axeln Negativ association= nät X ökar, så minskar y! If VOmax increases with 1 ml/kg/min, then marathon finishing time decreases with 4.5 minutes b= -4.46 95% CI:-4,91; -4,0 55 56 Line with best fit Variation goodness of fit Ju bättre modell, desto mindre residualer Den andel av variansen som förklaras av modellen: (R ) Ju fler förklarande variabler(factors) i modellen, desto högre R 57 58 VO max förklarar 45% av variationen I marathontid (obs! Fiktivt exempel) 55% är fortfarande oförklarat! Viss andel av variansen kommer alltid att förbli oförklarad (individuella variationer). Modellen kan dock förbättras genom inkludering av fler prediktiva/förklarande variabler! 59 60 10

Presentera resultat från linjär regression Slope/b/beta-koefficient med CI Förklarad varians (Intercept?) 61 6 Linjär regression villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Variansen ska vara konstant Dessa villkor måste vallideras! AB 011100 63 64 Modellvallidering Sammanfattning Residualerna ska vara normalfördelade oberoende ha konstant varians Detta undersöks med lämpliga figurer Val av test avgörs genom att beakta: Variabeltyper (både beroende och oberoende) Studiedesign Urvalsstorlek Fördelning av (metrisk) data 65 66 11