Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Relevanta dokument
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Medicinsk statistik II

Medicinsk statistik II

Statistik och epidemiologi T5

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Att välja statistisk metod

Repetitionsföreläsning

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Statistik och epidemiologi T5

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Statistik Termin 10, Läkarprogrammet, HT16

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

19/10/14. Kvantitativ metod och grundläggande statistik. Olika typer av studier. Experiment. Klinsika prövningar. Representativt (randomiserat) urval

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Kvantitativ metod och grundläggande statistik. Introduktion

Biostatistik II - Hypotesprövning i teori och praktik. Frida Eek

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Parade och oparade test

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Repetitionsföreläsning

Statistik en introduktion

Linjär regressionsanalys. Wieland Wermke

Forsknings- och undersökningsmetodik Skrivtid: 4h

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Gamla tentor (forts) ( x. x ) ) 2 x1

Tentamen MVE301 Sannolikhet, statistik och risk

Introduktion till PAST

Kent W. Nilsson. Falun

Lektionsanteckningar 11-12: Normalfördelningen

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

7.5 Experiment with a single factor having more than two levels

Mata in data i Excel och bearbeta i SPSS

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Medicinsk statistik I

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistiskt säkerställande av skillnader

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen MVE302 Sannolikhet och statistik

OBS! Vi har nya rutiner.

Metod och teori. Statistik för naturvetare Umeå universitet

7.3.3 Nonparametric Mann-Whitney test

Uppgift 1. Deskripitiv statistik. Lön

Hypotestestning och repetition

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

ANOVA Mellangruppsdesign

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Tentamen MVE301 Sannolikhet, statistik och risk

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Statistik en introduktion

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

BIOSTATISTIK OCH EPIDEMIOLOGI

Disraeli, England, 1860 talet: Det finns tre grader av osanning. Går ej att mäta hela populationen. Deskriptiv statistik

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Mall och manual för granskning av interventionsstudier

Multipel Regressionsmodellen

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

MSG830 Statistisk analys och experimentplanering

Höftledsdysplasi hos dansk-svensk gårdshund

För Godkänt krävs minst 12 poäng i kvalitativ metodik och minst 12 poäng i statistiska metoder. Tentamen består av totalt 11 huvudfrågor.

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Introduktion till Biostatistik. Hans Stenlund, 2011

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

F3 Introduktion Stickprov

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Musselmatematik eller Stormusselstatistik

Hur skriver man statistikavsnittet i en ansökan?

Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

7.5 Experiment with a single factor having more than two levels

Uppgift 1. Produktmomentkorrelationskoefficienten

10.1 Enkel linjär regression

Kursnamn: Vetenskapsteori och grundläggande forskningsmetod

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Transkript:

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Frida Eek frida.eek@med.lu.se 1 Studiedesign En grupp (jämfört med referensvärde, eller 0)? Två (eller flera) grupper tvärsnittsjämförelse? Oberoende -unpaired (independent) samples/ observations Upprepade mätningar-två (eller flera) mätningar på samma individer? Beroende paired (dependent) samples/ observations Samples size: Stort eller litet urval? Fördelning: Normalfördelat eller snedfördelat? (Symmetriskt eller assymmetriskt) 3 4 Variablernas mät/skalnivå Samples size: Stort eller litet urval? Fördelning: Normalfördelat eller snedfördelat? (Symmetriskt eller assymetriskt) Kategorisk? Binär? Ordinalskala? Metrisk/scale? Kombinationen av oberoende och beroende variabel (exponering och utfall) avgör test! 5 6 1

Dimensioner att beakta Parametriska test: Förutsätter normalfördelning Stora urval/sample Ger både p-värde och effektmått Tex t-test, ANOVA, pearson correlation 7 8 Icke-parametriska test Test-karta Kräver ej normalfördelning Små sample OK Ger p-värden Ex Mann-whitney, spearman correlation 9 10 Situation 1: Några vanliga test grupper av möss: albino och icke-albino Hur många har en specifik genetisk mutation? Vilket är IV resp DV? Vilken typ av variabler (mätnivå) är de? 11 1

Chi -test Två kategoriska variabler (binär, nominal eller ordinal med relativt få kategorier) Icke-parametriskt test Testar om frekvensen (andelen) av utfallet är den samma mellan olika grupper (jämför observerade och förväntade frekvenser) Ger p-värde Talar inte om exakt vilka celler som skiljer sig åt, endast att fördelningen inte är den samma i alla jämförda grupper. Chitvå (Chi ) setting grupper av möss: albino eller icke-albino Hur många har en specifik gen-mutation? IV: DV: Oberoende mätningar 13 14 Chitvå (Chi ) 15 16 Presentera resultat från Chi-två P-värde Deskriptivt: frekvens/andelsfördelning 17 18 3

Situation : grupper: normal diet och restricted caloriesdiet Hur länge lever de? (Hur gamla blir de?) Vilket är IV resp DV? Vilken typ av variabler är de? T-test Parametriskt test Jämför två medelvärden Tvärsnitt (oberoende mätningar) eller upprepade mätningar (före-efter) olika t-test! Independent- eller paired- samples) Ger p-value Ger medelvärdesskillnad och CI Nackdel: går ej att justera för potentiella confounders. Jämför endast två grupper/mättillfällen. 19 0 Independent sample t-test: Två oberoende grupper grupper: normal diet och restricted calories Skillnad i livslängd? IV DV Man kan räkna ut ett konfidensintervall för skillnad i medelvärde SE pooled är ett sammanviktat standardfel KI ( x x ) c SE SE pooled Punktskattningen A s B pooled 1 1 na nb pooled s pooled är en sammanviktad varians pooled (n = antal observationer; x = medelvärde; s = standardavvikelse) s n A 1 s A nb 1 s n 1 n 1 A B B 1 Antaganden bakom t-testet (independent sample t-test) 1. Medelvärdet är ett bra sammanfattande mått Två versioner av t-testet beroende på om man kan anta att standardavvikelsen är lika i båda grupperna. Oberoende observationer (t.ex. ingen patient förekommer mer än en gång) om beroende mätningar/grupper används paired sample t-test! 3. Mätningarna är normalfördelade i båda grupperna eller Levene s test: p-värde ( Sig. ) testar H 0 : Varians i A = Varians i B Båda grupperna är stora 3 4 4

Situation 3: 1 grupp: före och efter anabola steroider Förändring i styrka? (tyngdlyftningstest) Förändring i uthållighet? Paired sample t-test 1 1 grupp pre och post Metric/scale outcome. Normalfördelad (differens)? 5 6 Paired sample t-test : endurance (min in wheel) Presentera resultat från t-test (paired och/eller independent samples) Medelvärdesskillnader med CI P-värde? 7 8 Antaganden bakom parat t-test 1. Parade stickprov, beroende inom paren, inget beroende mellan paren. Medelvärde är ett relevant summerande mått: H 0 : Medelvärdesskillnaden = 0 3. Skillnaderna mellan paren är normalfördelade eller Det finns så många par att det inte gör något att de inte är normalfördelade Situation 4: 3 groups: Normaldiet, restricted cal, LCHF Skillnad i livslängd? DV/IV? Variabeltyper/mätnivå? 9 30 5

ANOVA (ANalysis Of VAriance) Parametriskt test Jämför medelvärden mellan eller flera grupper (egentligen, varians inom/mellan grupperna!) Tvärsnittsjämförelse/oberoende mätningar ( vanlig ANOVA) eller upprepade mätningar (repeated measures ANOVA) Ger p-value Parvisa post hoc test-möjligheter Ger medelvärden med CI Möjligt att inkludera flera olika IV/covariat justera för confounders Möjligt atth testa interaktioner (effect modification) (ANCOVA, MANOVA..) 31 ANOVA: 3 grupper: Normal diet, restricted cal, LCHF Skillnad i livslängd? IV: DV: 3 ANOVA Post-hoc test 33 34 När ska icke-parametriska test användas? Icke-parametriska test används när förutsättningarna för parametriska test inte uppfylls. Vid små urval, eller skeva fördelningar (eller ordinal(?)/nominaldata) Då används icke-parametriska test. De ställer inte samma krav på normalfördelning, mätnivå etc. Icke-parametriska gruppjämförelser T ex Mann-whitney, Wilcoxon, McNemar, Kruskal Wallis, Friedmans ANOVA Modellen anges i SPSS (antal grupper, paired eller independent samples, etc). SPSS kan välja exakt test men det är såklart bra att veta vad som händer! Ger p-värde Jämförelser baseras generellt på rangordning istället för exakta värden 35 36 6

Situation: Mann-Whitneys U test 8 albinoråttor och 8 icke-albinoråttor Skillnad i serum vitamin D? (ng/ml) IV/DV? Små grupper, och/eller assymmetriska data Rangordna alla observationerna från den lägsta till den högsta Beräkna summan av rangerna i grupp A (W A ) respektive grupp B (W B ) Ju större skillnad i medelrang, W A /n A och W B /n B, ju lägre p-värde fås 37 38 Mann-whitney U Presentera resultat från Mann-Whitney U test Deskriptiv statistik för de två grupperna Median Min och Max (eller lämpliga percentiler) P-värde Mediankonfidensintervall finns men används inte så ofta 39 40 Situation: 8 möss, före och efter vitamin D tillskott Förändring i serum vitamin D? IV/DV? Parade data Icke-parametriskt test Wilcoxons teckenrangtest H 0 : Mediandifferenserna mellan metoderna är noll, och positiva och negativa differenser har samma fördelning H 1 : Mediandifferenserna mellan metoderna är inte noll, eller positiva och negativa differenser har inte samma fördelning 41 4 7

Wilcoxon signed rank Fler icke-parametriska gruppjämförelser: Tvärsnittsjämförelse av mer än grupper: Kurskal- Wallis (med post-hoc) Samma logik som för Mann-whitney U Binär/dikotom (yes/no) variabel, upprepade mätningar (t ex andelen av någonting före och efter en intervention): McNemar Vad du primärt får ut: p-värden. 43 44 Situation: Association? 3 möss, olika solljusexponering. Olika nivåer av serum vitamin D Finns det något samband mellan solljusexponering och vitamin D-nivåer? Vilken typ av variabler? 45 46 Korrelation Korrelation Parametrisk (pearson) eller icke-parametrisk (spearman) Beskriver association (linjär samvariation) mellan två metriska variabler Ger p-värde Ger korrelationskoefficient ( r ) (Ger därmed även förklarad varians (r )) Parametrisk (baserad på faktiska värden) eller icke-parametrisk (baserad på rangordning)? 47 48 8

Presentera resultat från korrelation? Linjär regression r, eller rho p-value r? Om man antar att en variabel påverkar den andra, kan sambandet beskrivas genom linjär regression (OBS regressionen kan dock aldrig vare sig testa eller bevisa faktisk kausalitet) Om y alltid är samma som x kan man säga att y = x Om y alltid är dubbelt så mycket som x kan man säga y = x y är beroende variabel x är oberoende variabel 49 50 Linjär regression formel 1 y = bx β är lutningen, the slope Tolkningen av b är: För varje enhet ökning i x, ökar y med b enheter En individ med en enhet högre x, har b enheter högre (predicted) y β (beta) är standardiserad slope: för en sd ökning i x, ökar y med β sd β/b can kan vara negativ = y minskar för varje ökning i x Y=a + bx inkluderar intercept (a) 51 Linear regression Parametriskt test Testar linjärt samband mellan två metriska/scale variabler eller en binär (oberoende/iv) och en metrisk/scale variabel (som beroende/dv) Y= a + bx Ger p-värde Ger regressions coefficient ( b/β ) Ger förklarad varians (r ) Flera prediktorvariabler/iv kan inkluderas (multipel linjär regression), ökar förklarad varians/förbättrar prediktion Tolkas som kausal påverkan från x på y, men bevisar ingen kausalitet! 5 Linjär regression Ex: Marathon och VO Påverkar VO max marathon-tid? Marathontid = dependent/beroende variabel (den som påverkas) = y VOmax= independent /oberoende variabel (den som påverkar) = x 53 54 9

Y=a + bx Linjär regression ger y = 414-4.46x Variation Vad säger interceptet? Vad är y, när x=0 där linjen skär y-axeln Negativ association= nät X ökar, så minskar y! If VOmax increases with 1 ml/kg/min, then marathon finishing time decreases with 4.5 minutes b= -4.46 95% CI:-4,91; -4,0 55 56 Line with best fit Variation goodness of fit Ju bättre modell, desto mindre residualer Den andel av variansen som förklaras av modellen: (R ) Ju fler förklarande variabler(factors) i modellen, desto högre R 57 58 VO max förklarar 45% av variationen I marathontid (obs! Fiktivt exempel) 55% är fortfarande oförklarat! Viss andel av variansen kommer alltid att förbli oförklarad (individuella variationer). Modellen kan dock förbättras genom inkludering av fler prediktiva/förklarande variabler! 59 60 10

Presentera resultat från linjär regression Slope/b/beta-koefficient med CI Förklarad varians (Intercept?) 61 6 Linjär regression villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Variansen ska vara konstant Dessa villkor måste vallideras! AB 011100 63 64 Modellvallidering Sammanfattning Residualerna ska vara normalfördelade oberoende ha konstant varians Detta undersöks med lämpliga figurer Val av test avgörs genom att beakta: Variabeltyper (både beroende och oberoende) Studiedesign Urvalsstorlek Fördelning av (metrisk) data 65 66 11