Biostatistik II - Hypotesprövning i teori och praktik. Frida Eek

Biostatistik II - Hypotesprövig i teori och praktik Frida Eek frida.eek@med.lu.se 1

Viktiga dimesioer vid val av test (och äve val av deskriptiv statistik) Urvalsstorlek Mätivå/skaltyp Fördelig av data Studiedesig 2

Studiedesig E grupp (jämfört med referesvärde, eller 0)? Två (eller flera) grupper tvärsittsjämförelse? Oberoede -upaired (idepedet) samples/ observatios Upprepade mätigar-två (eller flera) mätigar på samma idivider? Beroede paired (depedet) samples/ observatios 3

Samples size: Stort eller litet urval? Fördelig: Normalfördelat eller sedfördelat? (Symmetriskt eller asymmetriskt) 4

Samples size: Stort eller litet urval? Fördelig: Normalfördelat eller sedfördelat? (Symmetriskt eller asymetriskt) 5

Variableras mät/skalivå Kategorisk? Biär? Ordialskala? Metrisk/scale? Kombiatioe av oberoede och beroede variabel (expoerig och utfall) avgör test! 6

Dimesioer att beakta DV (depedet variable)/ Outcome Metric/scale Nomial/Categorical (biary) IV (idepedet variable)/ Exposure Metric/scale Nomial/Categor ical Och upprepade eller oberoede mätigar? Hur måga mätigar/grupper? 7

Parametriska test: Förutsätter ormalfördelig Stora urval/sample Ger både p-värde och effektmått Tex t-test, ANOVA, pearso correlatio 8

Icke-parametriska test Kräver ej ormalfördelig Små sample OK Ger p-värde Ex Ma-whitey, spearma correlatio 9

Exempel på test (det fis måga fler ) Parametric Depedet variable DV/Outcome No-parametric Depedet variable DV/Outcome Metric/ cot Nomial/Cat egorical (biary) Metric/ cot Nomial/ Categorical (biary) Idepedet variable IV/Exposure Metric/cot Nomial/Cat egorical Correlatio (Pearso r) Liear regressio 2 groups: t- test 2+ gr/adj: ANOVA (Liear regressio) Logistic regressio* Chi 2 -test* Logistic regressio* Paired/repeated observatios : 2 groups: paired sample t-test 2+ groups/factorial: repeated ANOVA Idepedet variable IV/ Exposure Metric/ cot Nomial/ Categoric al Correlatio (Spearma) 2 gr: Mawhitey U # 3+ gr: Kruskal - Wallis # Logistic regressio* Chi 2 -test Logistic regressio* #Paired/repeated observatios, 2 groups: Wilcoxo siged rak test (or sig test) (2+ gr: Friedmas ANOVA) Repeated measures, 2 groups, biary outcome: McNemar *Chi2 is ot actually parametric, but what you ca use i this situatio. Parametric/o-parametric refer more to aalyses icludig metric/scale data. LR is ot either a parametric test, but is just as useful ad ca be used whe sample size is ot too small 10

Några valiga test 11

Situatio 1: 2 grupper av möss: albio och icke-albio Hur måga har e specifik geetisk mutatio? Vilket är IV resp DV? Vilke typ av variabler (mätivå) är de? 12

Chi 2 -test Två kategoriska variabler (biär, omial eller ordial med relativt få kategorier) Icke-parametriskt test Testar om frekvese (adele) av utfallet är de samma mella olika grupper (jämför observerade och förvätade frekveser) Ger p-värde Talar ite om exakt vilka celler som skiljer sig åt, edast att fördelige ite är de samma i alla jämförda grupper. 13

Chitvå (Chi 2 ) settig 2 grupper av möss: albio eller icke-albio Hur måga har e specifik ge-mutatio? Både IV och DV är omiala (biära) Oberoede mätigar 14

Chitvå (Chi 2 ) 15

Situatio 2: 2 grupper: ormal diet och restricted caloriesdiet Hur läge lever de? (Hur gamla blir de?) Vilket är IV resp DV? Vilke typ av variabler är de? 18

T-test Parametriskt test Jämför två medelvärde Tvärsitt (oberoede mätigar) eller upprepade mätigar (före-efter) olika t-test! Idepedet- eller paired- samples) Ger p-value Ger medelvärdesskillad och CI Nackdel: går ej att justera för potetiella cofouders. Jämför edast två grupper/mättillfälle. 19

Idepedet sample t-test: 2 grupper: ormal diet och restricted calories Skillad i livslägd? Två grupper IV biär DV: livslägd metric scale (kvotskala) (symmetrisk/ormalfördelad) 20

Två oberoede grupper Ma ka räka ut ett kofidesitervall för skillad i medelvärde SE pooled är ett sammaviktat stadardfel KI = ( x - x ) ± c SE pooled Puktskattige = A s B 2 pooled æ 1 ç è A + SE 1 B ö ø pooled s 2 pooled är e sammaviktad varias 2 pooled ( = atal observatioer; x = medelvärde; s = stadardavvikelse) s = 2 ( A -1) s A + ( B -1) ( -1) + ( -1) A B s 2 B 21

Två versioer av t-testet beroede på om ma ka ata att stadardavvikelse är lika i båda gruppera Levee s test: p-värde ( Sig. ) testar H 0 : Varias i A = Varias i B 22

Atagade bakom t-testet (idepedet sample t-test) 1. Medelvärdet är ett bra sammafattade mått 2. Oberoede observatioer (t.ex. ige patiet förekommer mer ä e gåg) om beroede mätigar/grupper aväds paired sample t-test! 3. Mätigara är ormalfördelade i båda gruppera eller Båda gruppera är stora 23

Situatio 3: 1 grupp: före och efter aabola steroider Förädrig i styrka? (tygdlyftigstest) Förädrig i uthållighet? 1 grupp pre och post Metric/scale outcome. Normalfördelad (differes)? 24

Paired sample t-test 1 25

Paired sample t-test 2: uthållighet (mi i hjulet) 26

Atagade bakom parat t-test 1. Parade stickprov, beroede iom pare, iget beroede mella pare 2. Medelvärde är ett relevat summerade mått: H 0 : Medelvärdesskillade = 0 3. Skilladera mella pare är ormalfördelade eller Det fis så måga par att det ite gör ågot att de ite är ormalfördelade 27

Situatio 4: 3 groups: Normal diet, restricted cal, LCHF Skillad i livslägd? DV/IV? Variabeltyper/mätivå? 28

ANOVA (ANalysis Of VAriace) Parametriskt test Jämför medelvärde mella 2 eller flera grupper (egetlige, varias iom/mella gruppera!) Tvärsittsjämförelse/oberoede mätigar ( valig ANOVA) eller upprepade mätigar (repeated measures ANOVA) Ger p-value Parvisa post hoc test-möjligheter Ger medelvärde med CI Möjligt att ikludera flera olika IV/covariat justera för cofouders Möjligt att testa iteraktioer (effect modificatio) (ANCOVA, MANOVA..) 29

ANOVA: 3 grupper: Normal diet, restricted cal, LCHF Skillad i livslägd? 3 grupper DV/outcome: scale/metrisk variabel 30

ANOVA 31

Post-hoc test 32

När ska icke-parametriska test avädas? Icke-parametriska test aväds är förutsättigara för parametriska test ite uppfylls. Vid små urval, eller skeva fördeligar (eller ordial(?)/omialdata) q q Då aväds icke-parametriska test. De ställer ite samma krav på ormalfördelig, mätivå etc. 33

Icke-parametriska gruppjämförelser T ex Ma-whitey, Wilcoxo, McNemar, Kruskal Wallis, Friedmas ANOVA Modelle ages i SPSS (atal grupper, paired eller idepedet samples, etc). SPSS ka välja exakt test me det är såklart bra att veta vad som häder! Ger p-värde Jämförelser baseras geerellt på ragordig istället för exakta värde 34

Situatio: 8 albioråttor och 8 icke-albioråttor Skillad i serum-vitami D? (g/ml) IV/DV? Små grupper, och/eller asymmetriska data 35

Ma-Whiteys U test Ragorda alla observatioera frå de lägsta till de högsta Beräka summa av ragera i grupp A (W A ) respektive grupp B (W B ) Ju större skillad i medelrag, W A / A och W B / B, ju lägre p-värde fås 36

Ma-whitey U 37

Presetera resultat frå Ma-Whitey U test Deskriptiv statistik för de två gruppera q q Media Mi och Max (eller lämpliga percetiler) P-värde Mediakofidesitervall fis me aväds ite så ofta 38

Situatio: 8 möss, före och efter vitami D-tillskott Förädrig i serum-vitami D? IV/DV? 39

Parade data Icke-parametriskt test Wilcoxos teckeragtest H 0 : Mediadifferesera mella metodera är oll, och positiva och egativa differeser har samma fördelig H 1 : Mediadifferesera mella metodera är ite oll, eller positiva och egativa differeser har ite samma fördelig 40

Wilcoxo siged rak 41

Fler icke-parametriska gruppjämförelser: Tvärsittsjämförelse av mer ä 2 grupper: Kurskal- Wallis (med post-hoc) Samma logik som för Ma-whitey U Biär/dikotom (yes/o) variabel, upprepade mätigar (t ex adele av ågotig före och efter e itervetio): McNemar Vad du primärt får ut: p-värde. 42

Situatio: 32 möss, olika solljusexpoerig. Olika ivåer av serum vitami D Fis det ågot sambad mella solljusexpoerig och vitami D-ivåer? Vilke typ av variabler? 43

Associatio? 44

Korrelatio Parametrisk (pearso) eller icke-parametrisk (spearma) Beskriver associatio (lijär samvariatio) mella två metriska variabler Ger p-värde Ger korrelatioskoefficiet ( r ) (Ger därmed äve förklarad varias (r 2 )) 45

Korrelatio Parametrisk (baserad på faktiska värde) eller icke-parametrisk (baserad på ragordig)? 46

What to report from a correlatio aalysis? r, or rho p-value r 2? 47

Lijär regressio Om ma atar att e variabel påverkar de adra, ka sambadet beskrivas geom lijär regressio (OBS regressioe ka dock aldrig vare sig testa eller bevisa faktisk kausalitet) Om y alltid är samma som x ka ma säga att y = x Om y alltid är dubbelt så mycket som x ka ma säga y = 2x y är beroede variabel x är oberoede variabel 48

Lijär regressio formel 1 y = bx β är lutige, the slope Tolkige av b är: q q q För varje ehet ökig i x, ökar y med b eheter E idivid med e ehet högre x, har b eheter högre (predicted) y β (beta) är stadardiserad slope: för e sd ökig i x, ökar y med β sd β/b ca ka vara egativ = y miskar för varje ökig i x Y=a + bx ikluderar itercept (a) 49

Liear regressio Parametriskt test Testar lijärt sambad mella två metriska/scale variabler eller e biär (oberoede/iv) och e metrisk/scale variabel (som beroede/dv) Y= a + bx Ger p-värde Ger regressios coefficiet ( b/β ) Ger förklarad varias (r 2 ) Flera prediktorvariabler/iv ka ikluderas (multipel lijär regressio), ökar förklarad varias/förbättrar prediktio Tolkas som kausal påverka frå x på y, me bevisar ige kausalitet! 50

Lijär regressio Ex: Maratho och VO 2 Påverkar VO 2 max maratho-tid? Marathotid = depedet/beroede variabel (de som påverkas) = y VO2max= idepedet /oberoede variabel (de som påverkar) = x 51

Y=a + bx Lijär regressio ger y = 414-4.46x Vad säger iterceptet? Vad är y, är x=0 där lije skär y-axel Negativ associatio= ät X ökar, så miskar y! If VO2max icreases with 1 ml/kg/mi, the maratho fiishig time decreases with 4.5 miutes b= -4.46 95% CI:-4,91; -4,02 53

Variatio 54

Lie with best fit 55

Variatio goodess of fit Ju bättre modell, desto midre residualer De adel av variase som förklaras av modelle: (R 2 ) Ju fler förklarade variabler(factors) i modelle, desto högre R 2 56

VO 2 max förklarar 45% av variatioe I marathotid (obs! Fiktivt exempel) 55% är fortfarade oförklarat! Viss adel av variase kommer alltid att förbli oförklarad (idividuella variatioer). Modelle ka dock förbättras geom ikluderig av fler prediktiva/förklarade variabler! 58

AB 20111020 60

Lijär regressio villkor För varje värde på x måste y vara ormalfördelad Samtliga observatioer måste vara oberoede Variase ska vara kostat Dessa villkor måste vallideras! 61

Modellvalliderig Residualera ska vara q q q ormalfördelade oberoede ha kostat varias Detta udersöks med lämpliga figurer 62

Exempel på test-orieterig (fis fler test!!) Parametric No-parametric Depedet variable DV/Outcome Depedet variable DV/Outcome Metric/ cot Nomial/Cat egorical (biary) Metric/ cot Nomial/ Categorical (biary) Idepedet variable IV/Exposure Metric/cot Nomial/Cat egorical Correlatio (Pearso r) Liear regressio 2 groups: t- test 2+ gr/adj: ANOVA (Liear regressio) Logistic regressio* Chi 2 -test* Logistic regressio* Paired/repeated observatios : 2 groups: paired sample t-test 2+ groups/factorial: repeated ANOVA Idepedet variable IV/ Exposure Metric/ cot Nomial/ Categoric al Correlatio (Spearma) 2 gr: Mawhitey U # 3+ gr: Kruskal - Wallis # Logistic regressio* Chi 2 -test Logistic regressio* #Paired/repeated observatios, 2 groups: Wilcoxo siged rak test (or sig test) (2+ gr: Friedmas ANOVA) Repeated measures, 2 groups, biary outcome: McNemar *Chi2 is ot actually parametric, but what you ca use i this situatio. Parametric/oparametric refer more to aalyses icludig metric/scale data. LR is ot either a parametric test, but is just as useful ad ca be used whe sample size is ot too small 63

KORT SAMMANFATTNING AV VANLIGA TEST: Observera: till viss del föreklad och ofullstädig geomgåg! 64

Chi 2 -test Två kategoriska variabler (biära, omial eller ev ordialskala med få kategorier) Icke-parametriskt Testar om det fis skillad i frekvesfördelige mella de olika gruppera/kategoriera (eg: jämför observerade och förvätade frekveser) Ger p-värde Säger ite VILKA celler som skiljer sig åt, bara att/om det fis ågo skillad. 65

T-test Parametriskt test Jämför medelvärde mella två grupper Tvärsittsjämförelse eller upprepade mätigar (olika t-test! Idepedet- eller paired-) Ger p-värde Ger medelvärdesskillad med CI Nackdel: går ej att justera för ev cofouders 66

ANOVA (aalysis of variace) Parametriskt test Jämför medelvärde mella två eller fler grupper (egetlige olika former av varias!) Tvärsittsjämförelse ( valig ANOVA) eller upprepade mätigar (repeated measures ANOVA) observatioer Ger p-värde Möjlighet till parvisa post hoc test Ger medelvärdesskillader med CI Flera faktorer/covariat ka ikluderas medger justerig för cofouders Möjligt att testa iteraktio/effektmodifierig 67

Ickeparametriska gruppjämförelser Ex Ma-whitey, Wilcoxo, Kruskal Wallis, Friedmas ANOVA I SPSS preciseras modelle (hur måga grupper, parade eller oparade observatioer, etc). Ma måste ite välja exakt test (me självklart bra att veta vilket som passar bäst!) Ger p-värde Jämförelse ofta baserad på ragordig istället för exakta värde 68

Korrelatio Parametrisk (pearso) eller icke-parametrisk (spearma) Udersöker lijärt sambad mella två metriska/skalvariabler Ger p-värde Ger korrelatioskoefficiet ( r ) (Ger förklarad varias (r 2 )) 69

Lijär regressio Parametriskt test Testar lijärt sambad mella atige två metriska/skalvariabler eller e (biär eller) ordialskala (som oberoede) och metrisk/skalvariabel (som beroede variabel) Y= a + bx Ger p-värde Ger regressioskoefficiet (med CI) Ger förklarad varias Flera olika faktorer/coviariat ka ikluderas samtidigt 70

Logistisk regressio Kategorisk oberoede variabel och biärt/dikotomt utfall (beroede variabel) Ger p-värde Ger Oddskvot (OR) med CI Tolkas ugefär (me ite exakt) som relativ risk 71