Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Relevanta dokument
Medicinsk statistik II

Medicinsk statistik II

Statistik och epidemiologi T5

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Statistik och epidemiologi T5

Hur skriver man statistikavsnittet i en ansökan?

Gamla tentor (forts) ( x. x ) ) 2 x1

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Medicinsk statistik I

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Parade och oparade test

Hypotestestning och repetition

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

2. Test av hypotes rörande medianen i en population.

Föreläsning 12: Regression

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

F22, Icke-parametriska metoder.

Hur man tolkar statistiska resultat

SOPA62 - Kunskapsproduktion i socialt arbete

Uppgift 1. Produktmomentkorrelationskoefficienten

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

7.3.3 Nonparametric Mann-Whitney test

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Metod och teori. Statistik för naturvetare Umeå universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

F3 Introduktion Stickprov

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Att välja statistisk metod

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Multipel Regressionsmodellen

Höftledsdysplasi hos dansk-svensk gårdshund

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Lösningar till SPSS-övning: Analytisk statistik

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

OBS! Vi har nya rutiner.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Repetitionsföreläsning

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Fråga nr a b c d 2 D

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Statistik 1 för biologer, logopeder och psykologer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

7.5 Experiment with a single factor having more than two levels

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Sänkningen av parasitnivåerna i blodet

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 12: Linjär regression

10.1 Enkel linjär regression

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning G60 Statistiska metoder

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Matematisk statistik, Föreläsning 5

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

OBS! Vi har nya rutiner.

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

, s a. , s b. personer från Alingsås och n b

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Grundläggande matematisk statistik

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Föreläsning 5: Hypotesprövningar

Samhällsvetenskaplig metod, 7,5 hp

BIOSTATISTIK OCH EPIDEMIOLOGI

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Föreläsning G60 Statistiska metoder

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Uppgift a b c d e Vet inte Poäng

8 Inferens om väntevärdet (och variansen) av en fördelning

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Transkript:

Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I Grundbegrepp: målpopulation/stickprov Statistisk osäkerhet och systematiska fel Variabeltyper skalnivå Läges och spridningsmått Normalfördelning Konfidensintervall Referensintervall Bild 3 Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) H0: Ingen effekt H1: Effekt H0 vill man kunna förkasta/avfärda Om H0 förkastas så finns mothypotesen kvar

Bild 4 P-värde P-värdet är en sannolikhet mellan 0 och 1 P-värdet är sannolikheten att man får det resultat man fick (eller ännu mer extremt) om H0 är sann Med mer extremt menar man ett värde som ligger längre ifrån nollhypotesen än det värde som man har fått Om p-värdet är lågt så är det osannolikt att få det undersökningsresultat eller mer extremt resultat om H0 är sann Ju mer resultatet avviker från det förväntade (enligt H0) desto lägre blir p-värdet Bild 5 P-värde Exempel vilopuls Frågeställning: Har män och kvinnor samma vilopuls? Målpopulation: Alla män och kvinnor (i Sverige, Norden, Europa etc.) Nollhypotes (H0): Det finns inte någon skillnad dvs. skillnaden = 0 I hypotesprövningen antar vi att nollhypotesen är sann i målpopulationen Bild 6 P-värde Exempel vilopuls Stickprovet består av 10 slumpmässigt valda kvinnor och 10 slumpmässigt valda män I stickprovet har kvinnor i snitt 3 bpm lägre vilopuls än män Det finns två möjliga förklaringar till resultatet: 1. Slumpen har gjort att vi har hittat en skillnad på 3 bpm även om det inte finns någon skillnad i målpopulationen 2. Det finns en skillnad i målpopulationen dvs. nollhypotesen stämmer inte

Bild 7 P-värde Exempel vilopuls Hur ska vi veta vilket förklaring som gäller? Tittar på sannolikheten för att få resultatet Om skillnaden är 0 i målpopulationen vad är då sannolikheten att skillnaden är minst 3 bpm i stickprovet? Denna sannolikhet = p-värdet Litet p-värde låg sannolikhet det troligaste är att nollhypotesen inte är sann (dvs. alternativ 2) Bild 8 P-värde Exempel vilopuls Hur vet vi om sannolikheten är liten? Signifikansnivån! Om sannolikheten/p-värdet ligger under signifikansnivån är den liten Om den är större än signifikansnivån är den inte liten Bild 9 P-värde Exempel vilopuls Om p > signifikansnivån Stor sannolikhet att få resultatet även om H0 är sann Stor sannolikhet att hitta en skillnad på 3 bpm även om skillnaden i målpopulationen är 0 Förkasta inte H0!

Bild 10 P-värde Exempel vilopuls Om p < signifikansnivån Liten sannolikhet att hitta en skillnad på 3 bpm om skillnaden i målpopulationen är sann Förkasta H0! Bild 11 P-värde Utgå från att nollhypotesen är sann P-värdet kan beräknas oavsett om data är normalfördelad eller inte men då används olika metoder Räknas inte ut för hand Jämför teststorheten med tabell Dator Bild 12 Statistisk signifikans - klinisk relevans Lågt p-värde Hur stor är skillnaden? Statistisk signifikans: Det finns en skillnad Klinisk relevans: Har skillnaden någon betydelse? Skattning av storleken på effekten behövs!

Bild 13 Konfidensintervall P-värden kan tala om ifall det finns en effekt, men inte hur stor effekten är Konfidensintervall visar hur stor effekten är Konfidensintervallets bredd beror av antalet individer i stickprovet spridningen (standardavvikelsen) konfidensgraden hur säker man vill vara Bild 14 Konfidensintervall och p-värde Om data är normalfördelade kan hypotesprövning göras med konfidensintervall och p-värde Båda metoderna ger samma resultat givet samma signifikansnivå Konfidensgrad + signifikansnivå = 1 Om H0 ligger utanför 95% KI är p < 5% Om H0 ligger innanför 95% KI är p > 5% Bild 15 Förkasta H0 om H0 ligger utanför konfidensintervallets gränser p < signifikansnivån Sammanfattning hypotesprövning Förkasta inte H0 om H0 ligger innanför konfidensintervallets gränser p > signifikansnivån

Bild 16 Gruppjämförelser för kvantitativa mätningar Parametriska metoder t-test för två oberoende grupper t-test för parade grupper Icke-parametriska metoder Mann-Whitney U test för två oberoende grupper Wilcoxons teckenrangtest för parade grupper Bild 17 t-test för två oberoende grupper exempel (Maximala) syreupptagningsförmågan bland studenter Två grupper A: Fysisk träning med låg intensitet B: Fysisk träning med medel/hög intensitet Bild 18 Antaganden bakom t-testet 1. Medelvärdet är ett bra sammanfattande mått 2. Oberoende observationer (t.ex. ingen patient förekommer mer än en gång) 3. Mätningarna är normalfördelade i båda grupperna eller Båda grupperna är stora

Bild 19 t-test Testvariabel: D = Medelvärde i grupp B Medelvärde i grupp A H 0 : D = 0, Medelvärde i grupp A = Medelvärde i grupp B H 1 : D 0, Medelvärde i grupp A Medelvärde i grupp B Bild 20 t-test för två oberoende grupper Exempel på SPSS-output Två versioner av t-testet beroende på om man kan anta att standardavvikelsen är lika i båda grupperna Independent Samples Test Oxygen uptake Equal variances [ml/(kg*min)] assumed Equal variances not assumed Levene's Test f or Equality of Variances t-test for Equality of Means 95% Confidence Interv al of the Diff erence Mean Std. Error F Sig. t df Sig. (2-tailed) Diff erence Diff erence Lower Upper 2.158.144-3.454 133.001-5.318 1.539-8.363-2.273-3.903 80.562.000-5.318 1.363-8.030-2.607 P-värden för t-testet Levene s test: p-värde ( Sig. ) testar H 0: Varians i A = Varians i B Konfidensintervall Bild 21 Presentera resultat från t-test Deskriptiv statistik för de två grupperna Medelvärde Standardavvikelse Skillnad i medelvärde mellan grupperna Med 95%-konfidensintervall P-värde

Bild 22 Mann-Whitney U test Passar för Icke-normalfördelad data Ordinaldata Kallas ibland för Wilcoxons rangsummetest Kräver oberoende mätningar H 0 : fördelningen i grupp A = fördelningen i grupp B H 1 : fördelningen i grupp A fördelningen i grupp B Bild 23 Mann-Whitney U test Rangordna alla observationerna från den lägsta till den högsta Beräkna summan av rangerna i grupp A (W A ) respektive grupp B (W B ) Ju större skillnad i medelrang, W A /n A och W B /n B, ju lägre p-värde fås Bild 24 Creatinine Sex Rank 40 Female 1 43 Male 2 44 Female 3 46 Female 4 53 Female 5 55 Male 6,5 55 Female 6,5 57 Female 8 68 Female 9 74 Female 10 76 Male 11 83 Female 12 97 Female 13 102 Male 14 Mann-Whitney U test Rangsummorna för de två grupperna är W A =172.5 (män) and W B =127,5 (kvinnor) Medelrangerna är 104 Female 15 115 Male 16 117 Female 17 127 Male 18 153 Male 19 158 Male 20 218 Male 21 W A /n A =15.98 and W B /n B =9.81 P-värde beräknas med hjälp av datorprogram till 0.04 323 Male 22 421 Male 23 485 Female 24

Bild 25 Presentera resultat från Mann-Whitney U test Deskriptiv statistik för de två grupperna Median Min och Max (eller lämpliga percentiler) P-värde Mediankonfidensintervall finns men används inte så ofta Bild 26 Parade mätningar Upprepad design Mätningar vid olika tidpunkter för samma patienter/djur Matchad design En kontrollperson är matchad med varje patient på t.ex. ålder och kön Parad analys ökar styrkan i testet om matchningsvariabeln är relaterad till den variabeln vi vill undersöka Bild 27 Antaganden bakom parat t-test 1. Parade stickprov, beroende inom paren, inget beroende mellan paren 2. Medelvärde är ett relevant summerande mått: H 0 : Medelvärdesskillnaden = 0 3. Skillnaderna mellan paren är normalfördelade eller Det finns så många par att det inte gör något att de inte är normalfördelade

Bild 28 Parade data Icke-parametriskt test Wilcoxons teckenrangtest H 0 : Mediandifferenserna mellan metoderna är noll, och positiva och negativa differenser har samma fördelning H 1 : Mediandifferenserna mellan metoderna är inte noll, eller positiva och negativa differenser har inte samma fördelning Bild 29 Samvariation mellan två variabler Ibland vill man undersöka hur två variabler samvarierar Exempel Ålder och njurfunktion Bara samvariation KORRELATION En påverkar den andra LINJÄR REGRESSION Bild 30 Korrelationskoefficienter Korrelationskoefficienter används för att visa hur två variabler samvarierar För normalfördelade data används Pearsons korrelationskoefficient (r) För övriga data används Spearmans korrelationskoefficient (r S ) -1 r 1

Bild 31 Korrelationskoefficienter r = 0.9 r = -0.7 r = -0,1 r = 0 Bild 32 Linjär regression Används då variabeln Y beror på variabeln X Y kallas för den beroende variabeln ( utfall / respons ) x kallas för den oberoende variabeln ( förklarande ) Bild 33 Y= +βx+e = skärning (intercept) β= lutningskoefficient (slope) Linjär regression e=residual (variation som inte förklaras av modellen)

Bild 34 Linjär regression Formel för regressionslinjen: y = + βx Kallas ekvationens skärning eller intercept Kan vara negativ Påverkar inte β y = då x=0 Bild 35 Linjär regression y = + βx β ekvationens lutningskoefficient (slope) Tolkningen av β är För varje enhet x ökar, ökar y β enheter En individ med en enhet högre x har β enheter högre y β kan vara positiv = ökning β kan vara negativ = minskning β kan vara 0 = y beror inte på x Bild 36 Linjär regression villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Variansen ska vara konstant Dessa villkor måste vallideras!

Bild 37 Linjär regression hypotesprövning Man undersöker förhållandet mellan y och x, d.v.s. β Nollhypotesen är hypotesen om ingen effekt H 0 : β = 0 H 1 : β 0 Hypotesprövningen kan göras med konfidensintervall och p-värde Bild 38 Linjär regression - Exempel Påverkar vikten det diastoliska blodtrycket (DBT)? Beroende variabel = DBT = y (den som blir påverkad) Oberoende variabel = vikten (kg) = x (den som påverkar) Skattningar av α och β ger bästa regressionslinjen y = 57.19 + 0.36x När vikten är = 0 DBT irrelevant Tolkning: För varje kilo vikten ökar så ökar det DBT med 0.36 mmhg Bild 39 Linjär regression - Exempel Påverkar vikten det diastoliska blodtrycket (DBT)? 95% konfidensintervall: 0.33 till 0.40 P-värdet < 0.001 Förkasta H0 på 5% signifikansnivå Det finns ett samband mellan vikten och DBT

Bild 40 Residualer I verkligheten ligger sällan observationerna på en exakt linje Det finns en variation i data Variationen kan bero på flera faktorer Mätbara faktorer som t.ex. ålder och kön Ej mätbara faktorer som t.ex. genetisk predisposition för viss sjukdom eller mätfel Variationen kan beskrivas med residualer Bild 41 En residual är skillnaden mellan 1) det faktiska värdet och 2) värdet enligt ekvationen y = + βx Variation - residualer residual Bild 42 Modellvallidering Residualerna ska vara normalfördelade oberoende ha konstant varians Detta undersöks med lämpliga figurer

Bild 43 Variation förklaringsgrad Ju bättre modell man använder desto mindre blir residualerna Den del av variationen som förklaras av en modell kallas modellens förklaringsgrad (R 2 ) Flera oberoende variabler i en regressionsmodell Bild 44 Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? R 2 = 0.39 Vikten förklarar 39% av variationen av DBT Förklaringsgraden är kvadraten av Pearsons korrelationskoefficient Bild 45 Sammanfattning Statistik II P-värde och hypotestest Parametriska Oberoende t-test Parade parat t-test Icke-parametriskt Oberoende Mann Whitney Parade Wilcoxon Samvariation Korrelation Linjär regression