Introduktion till Biostatistik. Hans Stenlund, 2011



Relevanta dokument
Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hur skriver man statistikavsnittet i en ansökan?

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Uppgift 1. Produktmomentkorrelationskoefficienten

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

OBS! Vi har nya rutiner.

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

OBS! Vi har nya rutiner.

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Statistik Termin 10, Läkarprogrammet, HT16

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Gamla tentor (forts) ( x. x ) ) 2 x1

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Statistik och epidemiologi T5

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Studietyper, inferens och konfidensintervall

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Lösningar till SPSS-övning: Analytisk statistik

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

7.5 Experiment with a single factor having more than two levels

Hur man tolkar statistiska resultat

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

EXAMINATION KVANTITATIV METOD vt-11 (110204)

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Medicinsk statistik I

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Medicinsk statistik II

Statistik Lars Valter

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

2.1 Minitab-introduktion

SOPA62 - Kunskapsproduktion i socialt arbete

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Medicinsk statistik I

F3 Introduktion Stickprov

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

FACIT (korrekta svar i röd fetstil)

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

OBS! Vi har nya rutiner.

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

ST-fredag epidemiologi och biostatistik 2017

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Parade och oparade test

Medicinsk statistik II

19/10/14. Kvantitativ metod och grundläggande statistik. Olika typer av studier. Experiment. Klinsika prövningar. Representativt (randomiserat) urval

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Medicinsk statistik III Läkarprogrammet, Termin 5 VT 2016

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Analys av proportioner

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Hypotestestning och repetition

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

OBS! Vi har nya rutiner.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Statistik 1 för biologer, logopeder och psykologer

7.3.3 Nonparametric Mann-Whitney test

Kvantitativ metod och grundläggande statistik. Introduktion

Statistik en introduktion

Statistik för teknologer, 5 poäng Skrivtid:

OBS! Vi har nya rutiner.

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Metod och teori. Statistik för naturvetare Umeå universitet

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Studiedesign: Observationsstudier

Kent W. Nilsson. Falun

Uppgift a b c d e Vet inte Poäng

Datorlaboration 2 Konfidensintervall & hypotesprövning

Datorlaboration 7. Simuleringsbaserade tekniker

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

TENTAMEN KVANTITATIV METOD (100205)

Tentamen i matematisk statistik

Mata in data i Excel och bearbeta i SPSS

EXAMINATION KVANTITATIV METOD vt-11 (110319)

, s a. , s b. personer från Alingsås och n b

Samhällsvetenskaplig metod, 7,5 hp

ANOVA Mellangruppsdesign

Transkript:

Introduktion till Biostatistik Hans Stenlund, 2011

Modellbaserad analys Regression Logistisk regression Överlevnadsanalys Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Formell analys Informell data analys Design och mätning Konfidensintervall P-värden (enkla tester) Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet

A Low-Carbohydrate as Compared with a Low-Fat Diet in Severe Obesity Fredrick F. Samantha et al The New England Journal of Medicine 2004

Syfte We performed a study design to test the hypothesis that severely obese subjects with a high prevalence of diabetes or the metabolic syndrome would have a greater weight loss, without effects on risk factors for atherosclerosis while on low-carbohydrate diet than on a calorie and fat restricted diet.

Subjects Inklusionskriterier Ålder över 18 år BMI över 35 Exklusionkriterier Diverse sjukdomar Deltar i diet program Använder viktreducerande medicin

Design 132 personer rekryterades under perioden maj-december 2001 Randomiserades på fett-fri (68)/kolhydratfri kost (64) Randomiseringen gjordes så att varje grupp skulle bestå av Lika många kvinnor Diabetiker Kraftigt överviktiga BMI>40

Power-beräkning Det beräknades att med en signifikansnivå på 5% och en power på 80% så behövdes 50 per grupp för att påvisa en skillnad i viktnedgång om 5 kg. En förväntad avhoppsfrekvens om 25% gjorde att totalt skulle 135 rekryteras

Mätning Vid starten (baseline) och efter 6 måndare mättes bl a Vikt Blodtryck Blodfetter Blodsocker Följdes instruktionerna? (Compliance)

Statistisk analys Primärt utfallsmått viktreduktion efter 6 månader Jämförelse mellan grupperna gjordes med t-test. Kategoriska variabler jämfördes med chi-2 test. Tvåsidiga p-värden beräknades och p-värde<0.05 ansågs signifikant.

Resultat 79 personer fullföljde studien 36 i fettfria gruppen 43 i kolhydratfria gruppen Grupperna lika vid base-line (Tabell 1)

Viktreduktion Kolhydratfria gruppen Fettfria gruppen -5.8 kg +-8.6 kg -1.9 kg +- 4.2 kg Statistiska testet visade p=0.002 (signifikant) Figur 2

Problem syfte Skatta prevalenser av sjukdom Jämföra utfall av behandling tex läkemedel/rehabiliterningsmetoder Jämföra grupper (med arbete - arbetslösa) med avseende på livskvalitet Kartlägga riskfaktorer, dvs faktorer som ökar risken för sjukdom Följa förlopp - tillväxtkurvor

Studiedesign Experiment Observationsstudie Klinisk prövning Tvärsnittsundersökning Longitudinell undersökning Kohortstudie Fall-kontroll studie

Randomiserad kontrollerad studie Behandling Utfall Patienter Randomisering Kontroll/ Placebo Utfall Fler armar kan förekomma

Kohort studie Exponerade Utfall Population Ej exponerade Utfall

Fall kontroll studie Exponerade Fall Ej exponerade Kontroller

Tvärsnitts-studie Mätningar Population Urval

Mätning Variabel Kvantitativ Kategorisk Diskret Kontinuerlig Ordnad Ej ordnad

Datanivå Kvot + + + Intervall + + - Nominal - - - Ordinal + - - Ordning Avstånd Absolut nollpunkt

Se problem 2.1 sid 37 faktorer som påverkar antal vårddagar efter operation Variabel Kategorier Typ av variabel ID Kön Blodgrupp VIKT Rökare Smärta Vårddagar Man/Kvinna O, A, B, AB Mätt i kg Nej, Ja Obetydlig, Måttlig, Svår, Outhärdlig Antal vårdagar Datanivå

Variabel Kategorier Typ av variabel ID Datanivå Kön Man/Kvinna Kat Nominal Binär Blodgrupp O, A, B, AB Kat Nominal VIKT Mätt i kg Kvant Kontinuerlig Rökare Nej, Ja Kat Nominal Binär Smärta Obetydlig, Måttlig, Svår, Outhärdlig Kat Ordinal Vårddagar Antal vårdagar Kvant Diskret

Presentation av data Bild Mått Val styrs av variabeltyp Tabell

Exempel 1: Kroppstemperatur Vi har lärt oss att normal kroppstemperatur, när man är frisk, skall vara 37 grader C. Stämmer det? En studie av detta gjordes i USA för ca 20 år sedan. Design: Utfallsvariabel: Andra variabler: Tvärsnittsstudie Kroppstemperatur (vid fix tid på dagen) Kön, ålder,

Grafisk beskrivning: Histogram 0.4 0.3 Y 0.2 0.1 0.0-3 -2-1 -0 1 2 3 4 X Referens

Grafisk beskrivning: Boxplot

Lägesmått Medelvärde x n n x i i= 1 = 36.8 gr C Median Mittersta värdet 36.8 gr C

Variationsmått Standardavvikelse s = n i= 1 ( x i n 1 x) 2 s = 4.13 år Kvartilavstånd (IQR) q1 = 36.56, q3 = 37.06 IQR= 0.5 grc Variationsvidd (Range) max =38.22, min = 35.72 VV = 2.5

Tabellpresentation Kategorisering om två grupper dikotomisering

Jämförelse mellan grupper

Sned fördelning Medelvärde: 14.67 Median: 8.7 Geometriskt medelv: 9.45

Analys Sant medelvärde Inferens Urvalsmetod Skattning av sant medelvärde Population Urval

Inferens 1. Konfidensintervall Ange ett intervall som inkluderar det sanna medelvärdet nästan säkert (95%). Kroppstemperatur Konfidensintervallet blir 36.73 36.88 Detta intervall inkluderar populationens medelvärde nästan säkert (med 95% konfidens)

Inferens 2. Hypotesprövning Skiljer sig män och kvinnor åt vad avser kroppstemperatur? temp_c Report sex Mean N Std. Deviation Man 36,7248 65,38820 Kvinna 36,8855 65,41305 Total 36,8051 130,40732 P-värde = 0.024 Slutsats:?

0.4 Y 0.3 0.2 Population 0.1 0.0-3 -2-1 -0 1 2 3 4 X Stickprov Av storlek n Medelvärde

0.4 Y 0.3 0.2 Population 0.1 0.0-3 -2-1 -0 1 2 3 4 X Y 0.4 0.3 0.2 Samplingfördelning för medelvärdet 0.1 0.0-3 -2-1 -0 1 2 3 4 X

-3-2 -1-0 1 2 3 4 Sned population Y 0.4 0.3 0.2 Samplingfördelning för medelvärdet 0.1 0.0 X

-3-2 -1-0 1 2 3 4 Population Y 0.4 0.3 0.2 Samplingfördelning för proportion 0.1 0.0 X

Sammanfattning Oavsett vilken form populationen har såär samplingfördelningen för medelvärdet (eller proportionen) approximativt normalfördelad om n (=stickprovsstorleken) är tillräckligt stor. Spridningen i samplingfördelningen benämns STANDARD ERROR (SE)

Konfidensintervall

Populationsmedelvärdet finns nästan säkert I intervallet Nedre gräns Skattning Övre gräns

Konfidensintervall för medelvärde x ±1.96* s n Kroppstemperatur mv=36.81, s =0.41, n= 130 0.41 36.81± 1.96* 36.73 36.88 130

Begrepp vid hypotesprövning Nollhypotes Alternativ hypotes Signifikansnivå P-värde

Signifikansnivå(alfa-fel) Sannolikheten att felaktigt förkasta nollhypotesten. P-värde Sannolikheten att få det utfall vi fått (eller mer avvikande) under förutsättning att nollhypotesen stämmer

Praxis för bedömning av p-värden p > 0.05 ingen skillnad (ej signifikant) 0.05>p>0.01 skillnad (signifikant *) 0.01>p>0.001 skillnad (signifikant **) 0.001>p skillnad (signifikant ***)

Parametriska test t-test -en sampel test Fråga: Kommer vårt sampel från en population med Medelvärde 37 grader C? Data: mv=36,8, Standardavvikelse=, n = 130 Nollhypotes: Populationens medelvärde = 37 Aternativ hypotes: Populationens medelvärde >37 eller <37 Signifikansnivå: 0.05

Beräkning t = x µ s n One-Sample Test Test Value = 37 95% Confidence Interval of the Sig. (2- Mean Difference t df tailed) Difference Lower Upper temp_c -5,455 129,000 -,19487 -,2656 -,1242

Två grupper t-test temp_ c Group Statistics sex N Mean Std. Deviation Std. Error Mean Man 65 36,7248,38820,04815 Kvinna 65 36,8855,41305,05123 P-värde = 0.024

Tre grupper eller fler -ANOVA Vid en hälsoundersökning mättes midjemåttet på knappt 1600 individer. Tre åldersgrupper jämförs. Skiljer Sig åldersgrupperna åt? Midjemått i cm N Mean Std. Deviation Descriptives Std. Error 95% Confidence Interval for Mean Lower Bound Upper Bound Minimum Maximum -39 557 81,715 11,32893,48002 80,7727 82,6585 58,50 122,00 40-59 808 86,597 11,56607,40689 85,7988 87,3962 61,50 140,50 60+ 212 89,872 11,39584,78267 88,3298 91,4155 61,50 130,00 Total 1577 85,313 11,80601,29729 84,7304 85,8966 58,50 140,50 P<0.001

Parvisa test En grupp barn har undersökts med avseende på styrka i höger respektive vänster hand. Skiljer sig styrkan åt? Pair 1 Paired Samples Statistics Handstyrka höger (kg) Handstyrka vänster (kg) Mean N Std. Deviation Std. Error Mean 14,878 67 4,2883,5239 13,469 67 3,9734,4854 p<0.001

Två grupper Tre eller fler grupper Upprepade mätningar T test ANOVA Parvis t-test

Baseline Follow up Differens Fup - Bl Grupp 1 Parat t-test Grupp 2 Parat t-test t-test t-test t-test Alternativ analys ANCOVA

En studie av handeksem-fall Meding et al J Invest Dermatol 124, 2005 Handeksem-fall Handeksem senaste 12 månaderna Baseline studie 1983 Uppföljning 1998

En konceptuell modell Ålder handeksemdebut Eksem som barn Lapp test Utbredning (HEES score) Handeksem vid uppföljning Ålder vid baseline Kön

En regressions-situation 0m Y är X 1 kontinuerlig - linjär regression X 2 X 3 Y ordinal binär - ordinal regression logistisk regression X k tid till händelse - survival analysis Prediktorer Utfall

Exempel 1 (en risk faktor på två nivåer) Debutålder av handeksem Handeksem de sista 12 månaderna vid uppföljning 1998 Nej Total <20 år 91 114 205 >= 20 år 397 266 663 Total 488 380 868 Ja Proportion med handeksem 56% (p1) 40% (p2) p1 och p2 kan även kallas risker eller kumulativa incidenser

Tre sätt att analysera sambandet mellan en risk faktor och ett utfall 1. Chi-square test (test av differens p1-p2) 2. Relativ risk (p1/p2 eller p2/p1) 3. Odds kvot

Resultat av chi-square testet Chi-square = 15.3, df = 1, p-value < 0.001 Slutsats: Det finns en signifikant skillnad i proportion med handeksem senaste 12 månaderna 1998 bland de som debuterade tidigt jämfört med de som debuterade sent

Risk kvot RR = 56/40 = 1.40, 95% CI 1.19 1.62 Slutsats: Det är 1.40 ggr högre risk att ha handeksem 1998 om debutålder <20 jämfört med om om debutålder var >=20 år. Signifikant förhöjd risk (Konfidensintervallet innehåller ej 1)

ODDS Ett ODDS är kvoten mellan sannolikheten för en händelse och ett minus sannolikheten för händelsen ODDS = P(händelse) / (1-P(händelse))

ODDSet att ha handeksem 1998 i gruppen som debuterade före 20 års ålder Händelse = E = handeksem 1998 P(E)/(1-P(E)) = 0.56/0.44 = 1.27

ODDSet att ha handeksem 1998 i gruppen som debuterade efter 20 års ålder P(E)/(1-P(E)) = 0.40/0.60 = 0.67

ODDS KVOT OR = 1.27/0.67 = 1.90 95% CI 1.36 2.57 Slutsats: Det är 1.90 ggr högre odds att ha handeksem 1998 om debutålder <20 jämfört med om om debutålder var >=20 år. Signifikant förhöjt odds (Konfidensintervallet innehåller ej 1)