Medicinsk statistik II

Relevanta dokument
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistik och epidemiologi T5

Medicinsk statistik II

Statistik och epidemiologi T5

Medicinsk statistik I

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Hur skriver man statistikavsnittet i en ansökan?

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Hypotestestning och repetition

Föreläsning 12: Regression

Parade och oparade test

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Sänkningen av parasitnivåerna i blodet

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

BIOSTATISTIK OCH EPIDEMIOLOGI

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Gamla tentor (forts) ( x. x ) ) 2 x1

Medicinsk statistik III Läkarprogrammet, Termin 5 VT 2016

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

a) Facit till räkneseminarium 3

F3 Introduktion Stickprov

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

2. Test av hypotes rörande medianen i en population.

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

TENTAMEN TEORI. EXAMENSARBETE 1 (LÄLA53/LÄMA53) TERMIN 5, HT 2012, , kl

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

, s a. , s b. personer från Alingsås och n b

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Föreläsning 12: Linjär regression

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Grundläggande matematisk statistik

Föreläsning 7: Punktskattningar

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Föreläsning 7: Punktskattningar

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Fråga nr a b c d 2 D

Hur man tolkar statistiska resultat

Att välja statistisk metod

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning 7: Punktskattningar

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 5. Kapitel 6, sid Inferens om en population

10.1 Enkel linjär regression

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

FACIT (korrekta svar i röd fetstil)

8 Inferens om väntevärdet (och variansen) av en fördelning

Uppgift 1. Produktmomentkorrelationskoefficienten

F22, Icke-parametriska metoder.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Metod och teori. Statistik för naturvetare Umeå universitet

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

F13 Regression och problemlösning

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning G60 Statistiska metoder

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

7.3.3 Nonparametric Mann-Whitney test

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Matematisk statistik för D, I, Π och Fysiker

Mata in data i Excel och bearbeta i SPSS

Tenta i Statistisk analys, 15 december 2004

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

FÖRELÄSNING 8:

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

F9 Konfidensintervall

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Statistik Termin 10, Läkarprogrammet, HT16

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

oberoende av varandra så observationerna är

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Matematisk statistik, Föreläsning 5

Matematisk statistik KTH. Formelsamling i matematisk statistik

Transkript:

Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se

Dagens föreläsning Fördjupning av hypotesprövning - Repetition av p-värde och konfidensintervall - Tester för fler situationer Korrelation och linjär regression

P-värde exempel vilopuls Frågeställning: Har män och kvinnor samma genomsnittspuls? Studiepopulation: Alla män och kvinnor (i Sverige, Norden, Europa etc) Nollhypotes: Det finns inte någon skillnad. Dvs. skillnaden = 0 I hypotesprövningen antar vi att nollhypotesen är sann i studiepopulationen

P-värde exempel vilopuls Stickprovet består av 10 slumpmässigt valda kvinnor och 10 slumpmässigt valda män I stickprovet har kvinnor i snitt 3 bpm lägre vilopuls än män Det finns två möjliga förklaringar till resultatet: 1. Slumpen har gjort att vi har hittat en skillnad på 3 bpm även om det inte finns någon skillnad i studiepopulationen 2. Det finns en skillnad i studiepopulationen dvs. nollhypotesen stämmer inte

P-värde exempel vilopuls Hur ska vi veta vilket förklaring som gäller? Tittar på sannolikheten för att få resultatet Om skillnaden är 0 i studiepopulationen vad är då sannolikheten att skillnaden är minst 3 bpm i stickprovet? Denna sannolikhet = p-värdet Litet p-värde låg sannolikhet det troligaste är att nollhypotesen inte är sann (dvs. alternativ 2)

P-värde exempel vilopuls Hur vet vi om sannolikheten är liten? Signifikansnivån! Om sannolikheten/p-värdet ligger under signifikansnivån är den liten Om den är större än signifikansnivån är den inte liten

P-värde exempel vilopuls Om p > signifikansnivån Stor sannolikhet att få resultatet även om H0 är sann Stor sannolikhet att hitta en skillnad på 3 bpm även om skillnaden i studiepopulationen är 0 Förkasta inte H0!

P-värde exempel vilopuls Om p < signifikansnivån Förkasta H0! Liten sannolikhet att hitta en skillnad på 3 bpm om skillnaden i studiepopulationen är sann

P-värde Utgå från att nollhypotesen är sann P-värdet kan beräknas oavsett om datan är normalfördelad eller inte men då används andra metoder Räknas inte ut för hand Jämför teststorheten med tabell Dator

Konfidensintervall (KI) Ett konfidensintervall kan användas till att... Ange osäkerheten i en skattning Göra hypotesprövningar

KI exempel Kolesterol Man vill testa ett läkemedel som ska sänka kolesterolvärdet 20 personer med högt kolesterolvärde behandlas Före och efter behandlingen mäts varje individs kolesterolvärde För varje individ beräknas förändringen i kolesterolhalten

KI exempel Kolesterol -2,69 1,20 2,23 2,92-0,29 1,46 2,35 3,69 0,16 2,03 2,72 3,75 0,75 2,15 2,90 4,25 1,13 2,22 2,91 6,79 I snitt har patienterna reducerat sitt kolesterol med 2,1 mmol/l

KI exempel Kolesterol Stickprovet är de 20 patienterna Studiepopulation är alla med högt kolesterol Hur skulle den genomsnittliga kolesterolhalten i studiepopulationen förändras om vi behandlade samtliga? Baserat på resultatet från stickprovet gissar (skattar) vi att individerna i studiepopulationen i snitt skulle minska kolesterolhalten med 2,1 mmol/l

KI exempel Kolesterol Osäkerheten kan beskrivas med ett konfidensintervall Om vi använder ett 95% konfidensintervall så täcker det med 95% säkerhet det sanna värdet dvs. minskningen i studiepopulationen

KI exempel Kolesterol 95% KI = 1,2 3,0 mmol/l Med 95% säkerhet ligger det sanna värdet mellan 1,2 mmol/l och 3,0 mmol/l Om vi skulle behandla hela studiepopulationen skulle individerna i snitt minska sitt kolesterol med ett värde som, med 95% säkerhet, ligger mellan 1,2 och 3,0 mmol/l KI används här som ett mått på osäkerheten i skattningen

KI exempel Kolesterol Vi vill veta om läkemedlet verkligen har effekt H0 = Ingen effekt eller Skillnaden = 0 Med 95% säkerhet ligger det sanna värdet inom konfidensintervallets gränser, d.v.s mellan 1,2 och 3,0 mmol/l Då nollhypotesen inte ligger innanför gränserna är det liten sannolikhet att nollhypotesen är det sanna värdet Förkasta H0!

Konfidensintervall och p-värde Om data är normalfördelade kan hypotesprövning göras med konfidensintervall och p-värde Båda metoderna ger samma resultat givet samma signifikansnivå Konfidensgrad + signifikansnivå = 1 Om H0 ligger utanför 95% KI är p < 5% Om H0 ligger innanför 95% KI är p > 5%

Sammanfattning hypotesprövning Förkasta H0 om H0 ligger utanför konfidensintervallets gränser p < signifikansnivån Förkasta inte H0 om H0 ligger innanför konfidensintervallets gränser p > signifikansnivån

Parade mätningar Exempel: Kolesterol före och efter mätningar Parade data = beroende observationer Analysera skillnaden mellan parade data Lämpligt parametriskt test - Parat t-test Lämpligt icke-parametriskt test - Wilcoxons teckenrangtest

Före behandling Efter behandling Differens Antal mätningar 20 20 20

Parat t-test Differensen mellan de parade mätningarna ska vara normalfördelade eller om Antalet parade mätningar tillräckligt stort Räcker med cirka 20 mätpar om differenserna inte är kraftigt snedfördelade H0: medeldifferensen = 0 Ha: medeldifferensen 0

Två oberoende grupper När man har samlat in värden från två olika grupper så har man två uppsättningar av värden I detta fall kan ett konfidensintervall för skillnaden i medelvärde beräknas för grupperna Punktskattningen blir skillnaden i medelvärde P-värdet för skillnaden kan beräknas med (twosample) t-test Nollhypotes: Skillnaden = 0 Dubbelsidig nollhypotes är att skillnaden 0

Två oberoende grupper Exempel: Syreupptagningsförmåga Studenter fick bedöma på vilken intensitetsnivå de bedriver sin konditionsträning (låg alt medel/hög). Frågeställning: Påverkar intensitetsnivån syreupptagningsförmågan? Resultat: Syreupptagningsförmåga (ml/(kg*min) Intensitetsnivå Antal Medelvärde SD Låg 36 38.4 8.1 Medel/hög 98 43.3 8.4

Två oberoende grupper Exempel: Syreupptagningsförmåga Punktskattningen Man kan räkna ut ett konfidensintervall för skillnad i medelvärde KI ( x x ) A B c SE pooled SE pooled är ett sammanviktat standardfel SE pooled s 2 pooled 1 n A 1 n B s 2 pooled är en sammanviktad varians s 2 pooled n A n 1 A s 2 A 1 n n B B 1 1 s 2 B (n = antal observationer; x = medelvärde; s = standardavvikelse)

Två oberoende grupper Exempel: Syreupptagningsförmåga Skillnad i medelvärde: 43.3-38.4 = 4.9 ml/(kg*min) 95% KI: 1.7 8.1 ml/(kg*min) Tolkning av KI! KI ( x x ) A B c SE pooled SE pooled s 2 pooled 1 n A 1 n B s 2 pooled n A n 1 A s 2 A 1 n n B B 1 1 s 2 B

Två oberoende grupper Exempel: Syreupptagningsförmåga Vad gör vi om vi har få individer i grupperna? Och om vi inte vågar säga något om fördelningarna? Icke-parametriskt test! Mann-Whitney test

Två oberoende grupper Exempel: Syreupptagningsförmåga Exempel: Låg (n=7) 34, 36, 37, 38, 42, 44, 46 Medel/hög (n=8) 35, 39, 40, 43, 45, 47, 48, 49 Rangordna individerna: 34 (1), 35 (2), 36 (3), 37 (4), 38 (5), 39 (6), 40 (7), 42 (8), 43 (9), 44 (10) 45 (11), 46 (12), 47 (13), 48 (14), 49 (15) Rangsummor: Låg: 1+3+4+ +12 = 43 Medel/hög: 77 Går in i en tabell och ser vad som är det kritiska värdet. Använder ett statistikprogram! (Exempel från en SPSS-utskrift) Mann-Whitney Test Syreupptagningsförmåga Mann-Whitney U Wilcoxon W Z Test Statistics b Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. b. Grouping Variable: Grupp Grupp 0 Låg 1 Medel/hög Total Syreupptagni ngsförmåga 15,000 43,000-1,504,132,152 a Ranks N Mean Rank Sum of Ranks 7 6,14 43,00 8 9,63 77,00 15 P-värde = 0.15

Tester för andelar Ett stickprov konfidensintervall för andelar (förra föreläsningen) Två stickprov konfidensintervall för skillnader i andelar Fler stickprov chi-två-test (ej i denna kurs)

Andelar Exempel: Huvudvärkstablett A vs B Finns det skillnad mellan män och kvinnor? Två stickprov: Män: n=100; andel som föredrar A=70% Kvinnor: n=100; andel som föredrar A=60% Beräkna KI för skillnader i andelar!

Andelar Exempel: Huvudvärkstablett A vs B Vid beräkning av KI för skillnad i andelar används formeln: q A q B c q A 1 n A q A q B 1 n B q B För män vs kvinnor blir 95% KI: 70 100 60 100 1,96 70 100 1 70 100 100 60 100 1 60 100 100 3% 23% TOLKNING!

Sammanfattning hittills (1) Konfidensintervall Uttrycker osäkerhet i en skattning Används vid hypotesprövning Fungerar om data är normalfördelade p-värde Används vid hypotesprövning Olika metoder beroende på om data är normalfördelade eller ej

Sammanfattning hittills (2) Parametriska test Bygger på en specifik fördelning (oftast normalfördelningen) Kan användas för kontinuerliga normalfördelade data Beräknas på observationernas värde Icke-parametriska test Inga antagande om specifik fördelning Kan användas för kontinuerliga icke-normalfördelade data, samt för ordinaldata Beräknas på observationernas ranger

Sammanfattning hittills (3) Oberoende observationer Mätningar på flera grupper som inte är relaterade Kallas också oparade data Beroende observationer Flera mätningar på samma individer Kallas också parade data

Två variabler Ibland vill man undersöka två variabler för att se hur de samvarierar Exempel Ålder och njurfunktion Bara samvariation KORRELATION En påverkar den andra LINJÄR REGRESSION

Korrelationskoefficienter Korrelationskoefficienter används för att visa hur två variabler samvarierar För normalfördelade data används Pearsons korrelationskoefficient (r) För övriga data används Spearmans korrelationskoefficient (r S ) r S beräknas på ranger i stället för egentliga värden -1 r 1

Korrelationskoefficienter r = 1 r = -1 r = -0,1 r = 0

Linjär regression Om en variabel påverkar den andra använder man linjär regression Exempel: Om y alltid är samma som x kan man skriva y = x Exempel: Om y alltid är dubbelt så stor som x kan man skriva y = 2x y kallas för den beroende variabeln ( utfall / respons ) x kallas för den oberoende variabeln ( förklarande )

Linjär regression y = x 20 18 16 14 12 10 8 6 4 2 0 0 5 10 15 20

Linjär regression generell formel En generell formel för sambandet mellan y och x kan skrivas y = + βx Kallas ekvationens skärning eller intercept Kan vara negativ Påverkar inte β

Linjär regression generell formel y = + βx β kallas för ekvationens riktningskoefficient eller lutningskoefficient (slope) Tolkningen av β är För varje enhet x ökar, ökar y β enheter En individ med en enhet högre x har β enheter högre y β kan vara negativ = minskning

Linjär regression villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Förhållandet mellan x och y måste vara linjärt

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? Beroende variabel = DBT = y (den som blir påverkad) Oberoende variabel = vikten (kg) = x (den som påverkar) Resultat från linjär regression: y = 57.19 + 0.36x När vikten är = 0 DBT irrelevant Tolkning: För varje kilo vikten ökar så ökar det DBT med 0.36 mmhg

Linjär regression hypotesprövning Man undersöker förhållandet mellan y och x, d.v.s. β Nollhypotesen är hypotesen om ingen effekt H 0 : β = 0 H 1 : β 0 Hypotesprövningen kan göras med konfidensintervall och p-värde

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? 95% konfidensintervall: 0.33 till 0.40 P-värdet < 0.001 Förkasta H0 på 5% signifikansnivå Det finns ett samband mellan vikten och DBT

Variation I verkligheten ligger sällan observationerna på en exakt linje Det finns en variation i data Variationen kan bero på flera faktorer Mätbara faktorer som t.ex. ålder och kön Ej mätbara faktorer som t.ex. genetisk predisposition för viss sjukdom eller mätfel Variationen kan beskrivas med residualer

Variation - residualer En residual är skillnaden mellan 1) det faktiska värdet och 2) värdet enligt ekvationen y = + βx residual

Variation förklaringsgrad Ju bättre modell man använder desto mindre blir residualerna Den del av variationen som förklaras av en modell kallas modellens förklaringsgrad (R 2 ) Ju fler variabler i modellen, desto bättre förklaringsgrad En justerad förklaringsgrad tar hänsyn till antalet variabler

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? R 2 = 0.39 Vikten förklarar 39% av variationen av DBT Förklaringsgraden är kvadraten av Pearsons korrelationskoefficient

Linjär regression bra att kunna! Tolka ß (och dess KI och p-värde) Vad är ett intercept när är det av intresse? Förstå vad residualer är R 2

Lästips - Rapportering och tolkning av p-värden Kapitel 9 - Medianjämförelser Kapitel 10 - Korrelationer och linjär regression Kapitel 11 - Konfidensintervall Kapitel 12.2