Medicinsk statistik II

Relevanta dokument
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Medicinsk statistik II

Statistik och epidemiologi T5

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Statistik och epidemiologi T5

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Uppgift 1. Produktmomentkorrelationskoefficienten

Medicinsk statistik I

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Parade och oparade test

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Gamla tentor (forts) ( x. x ) ) 2 x1

Lösningar till SPSS-övning: Analytisk statistik

Hur skriver man statistikavsnittet i en ansökan?

2. Test av hypotes rörande medianen i en population.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Hypotestestning och repetition

Metod och teori. Statistik för naturvetare Umeå universitet

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Multipel Regressionsmodellen

Föreläsning 12: Regression

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

SOPA62 - Kunskapsproduktion i socialt arbete

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

F3 Introduktion Stickprov

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Att välja statistisk metod

Höftledsdysplasi hos dansk-svensk gårdshund

F22, Icke-parametriska metoder.

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

7.3.3 Nonparametric Mann-Whitney test

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

OBS! Vi har nya rutiner.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Hur man tolkar statistiska resultat

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Föreläsning G60 Statistiska metoder

OBS! Vi har nya rutiner.

7.5 Experiment with a single factor having more than two levels

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

EXAMINATION KVANTITATIV METOD vt-11 (110319)

10.1 Enkel linjär regression

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Fråga nr a b c d 2 D

Grundläggande matematisk statistik

BIOSTATISTIK OCH EPIDEMIOLOGI

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Medicinsk statistik III Läkarprogrammet, Termin 5 VT 2016

Föreläsning 12: Linjär regression

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Matematisk statistik, Föreläsning 5

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Repetitionsföreläsning

Sänkningen av parasitnivåerna i blodet

Medicinsk statistik I

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Samhällsvetenskaplig metod, 7,5 hp

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Statistik 1 för biologer, logopeder och psykologer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Följande resultat erhålls (enhet: 1000psi):

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Regressions- och Tidsserieanalys - F1

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Linjär regressionsanalys. Wieland Wermke

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Transkript:

Medicinsk statistik II Läkarprogrammet T5 HT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus

Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) H0: Ingen effekt H1: Effekt H0 vill man kunna förkasta/avfärda Om H0 förkastas så finns mothypotesen kvar

P-värde P-värdet är en sannolikhet mellan 0 och 1 P-värdet är sannolikheten att man får det resultat man fick (eller ännu mer extremt) om H0 är sann Med mer extremt menar man ett värde som ligger längre ifrån nollhypotesen än det värde som man har fått Om p-värdet är lågt så är det osannolikt att få det undersökningsresultat eller mer extremt resultat om H0 är sann Ju mer resultatet avviker från det förväntade (enligt H0) desto lägre blir p-värdet

P-värde Utgå från att nollhypotesen är sann P-värdet kan beräknas oavsett om data är normalfördelad eller inte men då används olika metoder Räknas inte ut för hand Jämför teststorheten med tabell Dator

Statistisk signifikans - klinisk relevans Lågt p-värde Statistisk signifikans: Det finns en skillnad Hur stor är skillnaden? Klinisk relevans: Har skillnaden någon betydelse? Skattning av storleken på effekten behövs!

Konfidensintervall P-värden kan tala om ifall det finns en effekt, men inte hur stor effekten är Konfidensintervall visar hur stor effekten är Konfidensintervallets bredd beror av antalet individer i stickprovet spridningen (standardavvikelsen) konfidensgraden hur säker man vill vara

Konfidensintervall och p-värde Om data är normalfördelade kan hypotesprövning göras med konfidensintervall och p-värde Båda metoderna ger samma resultat givet samma signifikansnivå Konfidensgrad + signifikansnivå = 1 Om H0 ligger utanför 95% KI är p < 5% Om H0 ligger innanför 95% KI är p > 5%

Sammanfattning hypotesprövning Förkasta H0 om H0 ligger utanför konfidensintervallets gränser p < signifikansnivån Förkasta inte H0 om H0 ligger innanför konfidensintervallets gränser p > signifikansnivån

Gruppjämförelser för kvantitativa mätningar Parametriska metoder t-test för två oberoende grupper t-test för parade grupper Icke-parametriska metoder Mann-Whitney U test för två oberoende grupper Wilcoxons teckenrangtest för parade grupper

t-test för två oberoende grupper exempel (Maximala) syreupptagningsförmågan bland studenter Två grupper A: Fysisk träning med låg intensitet B: Fysisk träning med medel/hög intensitet

Antaganden bakom t-testet 1. Medelvärdet är ett bra sammanfattande mått 2. Oberoende observationer (t.ex. ingen patient förekommer mer än en gång) 3. Mätningarna är normalfördelade i båda grupperna eller Båda grupperna är stora

Syreupptagning - Deskriptiv statistik Statistics a Oxy gen uptake [ml/(kg*min)] N Mean Std. Dev iation Valid Missing 36 9 38.50 6.430 Percentiles 25 50 75 33.00 38.50 43.00 a. Intensitiy in phy sical exercise = Low Statistics a Oxy gen uptake [ml/(kg*min)] N Mean Std. Dev iation Valid Missing 99 30 43.82 8.376 Percentiles 25 50 75 38.00 43.00 49.00 a. Intensitiy in phy sical exercise = Medium/High

t-test Testvariabel: D = Medelvärde i grupp B Medelvärde i grupp A H 0 : D = 0, Medelvärde i grupp A = Medelvärde i grupp B H 1 : D 0, Medelvärde i grupp A Medelvärde i grupp B

Två oberoende grupper Exempel: Syreupptagningsförmåga Punktskattningen Man kan räkna ut ett konfidensintervall för skillnad i medelvärde KI ( x x ) A B c SE pooled SE pooled är ett sammanviktat standardfel SE pooled s 2 pooled 1 n A 1 n B s 2 pooled är en sammanviktad varians s 2 pooled 2 n A 1 s A nb 1 n 1 n 1 A B s 2 B (n = antal observationer; x = medelvärde; s = standardavvikelse)

t-test för två oberoende grupper Exempel på SPSS-output Två versioner av t-testet beroende på om man kan anta att standardavvikelsen är lika i båda grupperna Independent Samples Test Oxy gen uptake [ml/(kg*min)] Equal v ariances assumed Equal v ariances not assumed Levene's Test f or Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Diff erence 95% Confidence Interv al of the Std. Error Diff erence Diff erence Lower Upper 2.158.144-3.454 133.001-5.318 1.539-8.363-2.273-3.903 80.562.000-5.318 1.363-8.030-2.607 P-värden för t-testet Levene s test: p-värde ( Sig. ) testar H 0 : Varians i A = Varians i B Konfidensintervall

Presentera resultat från t-test Deskriptiv statistik för de två grupperna Medelvärde Standardavvikelse Skillnad i medelvärde mellan grupperna Med 95%-konfidensintervall P-värde

crea Exempel är t-test lämpligt? Kreatinin hos män och kvinnor 500 400 300 Män (n A = 11) Kvinnor (n B = 13) crea N Mean Minimum Maximum Percentiles a Statistics Valid Missing 25 50 75 a. sex1 = males 11 0 162.82 43 421 76.00 127.00 218.00 a Statistics 200 100 0 males sex1 females crea N Mean Minimum Maximum Percentiles Valid Missing 25 50 75 a. sex1 = females 13 0 101.77 40 485 49.50 68.00 100.50

Mann-Whitney U test Passar för Icke-normalfördelad data Ordinaldata Kallas ibland för Wilcoxons rangsummetest Kräver oberoende mätningar H 0 : fördelningen i grupp A = fördelningen i grupp B H 1 : fördelningen i grupp A fördelningen i grupp B

Mann-Whitney U test Rangordna alla observationerna från den lägsta till den högsta Beräkna summan av rangerna i grupp A (W A ) respektive grupp B (W B ) Ju större skillnad i medelrang, W A /n A and W B /n B, ju lägre p-värde fås

Creatinine Sex Rank 40 Female 1 43 Male 2 44 Female 3 46 Female 4 53 Female 5 55 Male 6,5 55 Female 6,5 57 Female 8 68 Female 9 74 Female 10 76 Male 11 83 Female 12 97 Female 13 102 Male 14 104 Female 15 115 Male 16 117 Female 17 127 Male 18 153 Male 19 158 Male 20 218 Male 21 323 Male 22 421 Male 23 485 Female 24 Mann-Whitney U test Rangsummorna för de två grupperna är W A =172.5 (män) and W B =127,5 (kvinnor) Medelrangerna är W A /n A =15.98 and W B /n B =9.81 P-värde beräknas med hjälp av datorprogram till 0.04

Presentera resultat från Mann-Whitney U test Deskriptiv statistik för de två grupperna Median Min och Max (eller lämpliga percentiler) P-värde Mediankonfidensintervall finns men används inte så ofta

Parade mätningar Upprepad design Mätningar vid olika tidpunkter för samma patienter/djur Matchad design En kontrollperson är matchad med varje patient på t.ex. ålder och kön Parad analys ökar styrkan i testet om matchningsvariabeln är relaterad till den variabeln vi vill undersöka

Parade mätningar -exempel 44 patienter som behandlats för akut lymfatisk leukemi (ALL) som barn 44 kontroller matchade för varje individ beträffande kön, ålder, bostad (stad/landsbygd) och rökvanor. Finns det en skillnad i kardiovaskulära riskfaktorer? Till exempel fettfri vikt? (Link et al, J Clin Endocrinol Metab 2004)

ALL - Lean weight (kg) Parade mätningar - exempel 80,00 70,00 r 0.59 60,00 50,00 40,00 Matchade faktorer Verkar relaterade till fettfri vikt 30,00 30,00 40,00 50,00 60,00 70,00 80,00 Control - Lean weight (kg)

Antaganden bakom parat t-test 1. Parade stickprov, beroende inom paren, inget beroende mellan paren 2. Medelvärde är ett relevant summerande mått: H 0 : Medelvärdesskillnaden = 0 3. Skillnaderna mellan paren är normalfördelade eller Det finns så många par att det inte gör något att de inte är normalfördelade

Parade data Icke-parametriskt test Wilcoxons teckenrangtest H 0 : Mediandifferenserna mellan metoderna är noll, och positiva och negativa differenser har samma fördelning H 1 : Mediandifferenserna mellan metoderna är inte noll, eller positiva och negativa differenser har inte samma fördelning

Jämförelse av nominaldata (kategoriska data) Två eller flera kategorier Två eller flera grupper som ska jämföras Exempel Jämföra andelen överlevande i två behandlingsgrupper Jämföra andelen som får biverkningar efter behandling på tre olika kliniker

Tester för andelar Ett stickprov konfidensintervall för andelar (förra föreläsningen) Två stickprov konfidensintervall för skillnader i andelar Fler stickprov chi-två-test (ej i denna kurs)

Andelar Exempel: Huvudvärkstablett A vs B Finns det skillnad mellan män och kvinnor? Två stickprov: Män: n=100; andel som föredrar A=70% Kvinnor: n=100; andel som föredrar A=60% Beräkna KI för skillnader i andelar!

Andelar Exempel: Huvudvärkstablett A vs B Vid beräkning av KI för skillnad i andelar används formeln: q A q B c q A 1 q q 1 q n A A B n B B För män vs kvinnor blir 95% KI: 1 70 60 1 60 70 70 60 1,96 100 100 100 100 ( 3%, 23%) 100 100 100 100 TOLKNING!

Samvariation mellan två variabler Ibland vill man undersöka hur två variabler samvarierar Exempel Ålder och njurfunktion Bara samvariation KORRELATION En påverkar den andra LINJÄR REGRESSION

Korrelationskoefficienter Korrelationskoefficienter används för att visa hur två variabler samvarierar För normalfördelade data används Pearsons korrelationskoefficient (r) För övriga data används Spearmans korrelationskoefficient (r S ) r S beräknas på ranger i stället för egentliga värden -1 r 1

Korrelationskoefficienter r = 0.9 r = -0.7 r = -0,1 r = 0

Linjär regression Används då variabeln Y beror på variabeln X Y kallas för den beroende variabeln ( utfall / respons ) x kallas för den oberoende variabeln ( förklarande )

Linjär regression Y= +βx+e = skärning (intercept) β= lutningskoefficient (slope) e=residual (variation som inte förklaras av modellen)

Linjär regression Formel för regressionslinjen: y = + βx Samma som ekvationen y=m+kx i matematiken Kallas ekvationens skärning eller intercept Kan vara negativ Påverkar inte β y = då x=0

Linjär regression y = + βx β kallas för ekvationens lutningskoefficient (slope) Tolkningen av β är För varje enhet x ökar, ökar y β enheter En individ med en enhet högre x har β enheter högre y β kan vara positiv = ökning β kan vara negativ = minskning β kan vara 0 = y beror inte på x

Linjär regression villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Variansen ska vara konstant Dessa villkor måste vallideras!

Linjär regression hypotesprövning Man undersöker förhållandet mellan y och x, d.v.s. β Nollhypotesen är hypotesen om ingen effekt H 0 : β = 0 H 1 : β 0 Hypotesprövningen kan göras med konfidensintervall och p-värde

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? Beroende variabel = DBT = y (den som blir påverkad) Oberoende variabel = vikten (kg) = x (den som påverkar) Skattningar av α och β ger bästa regressionslinjen y = 57.19 + 0.36x När vikten är = 0 DBT irrelevant Tolkning: För varje kilo vikten ökar så ökar det DBT med 0.36 mmhg

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? 95% konfidensintervall: 0.33 till 0.40 P-värdet < 0.001 Förkasta H0 på 5% signifikansnivå Det finns ett samband mellan vikten och DBT

Residualer I verkligheten ligger sällan observationerna på en exakt linje Det finns en variation i data Variationen kan bero på flera faktorer Mätbara faktorer som t.ex. ålder och kön Ej mätbara faktorer som t.ex. genetisk predisposition för viss sjukdom eller mätfel Variationen kan beskrivas med residualer

Variation - residualer En residual är skillnaden mellan 1) det faktiska värdet och 2) värdet enligt ekvationen y = + βx residual

Modellvallidering Residualerna ska vara normalfördelade oberoende ha konstant varians Detta undersöks med lämpliga figurer

Modellvallidering Plotta residualerna mot x-variabeln Oberoende (Inget mönster) Konstant varians (lika stor spridning för alla x)

-200 0 200 400 600 y Ej konstant varians - heterosedastisk Linear regression of y on x 0 20 40 60 80 100 x 46

Variation förklaringsgrad Ju bättre modell man använder desto mindre blir residualerna Den del av variationen som förklaras av en modell kallas modellens förklaringsgrad (R 2 ) Flera oberoende variabler i en regressionsmodell

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? R 2 = 0.39 Vikten förklarar 39% av variationen av DBT Förklaringsgraden är kvadraten av Pearsons korrelationskoefficient

Linjär regression bra att kunna! Tolka ß (och dess KI och p-värde) Vad är ett intercept när är det av intresse? Förstå vad residualer är R 2