Introduktion till Biostatistik Hans Stenlund, 2011
Modellbaserad analys Regression Logistisk regression Överlevnadsanalys Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Formell analys Informell data analys Design och mätning Konfidensintervall P-värden (enkla tester) Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet
A Low-Carbohydrate as Compared with a Low-Fat Diet in Severe Obesity Fredrick F. Samantha et al The New England Journal of Medicine 2004
Syfte We performed a study design to test the hypothesis that severely obese subjects with a high prevalence of diabetes or the metabolic syndrome would have a greater weight loss, without effects on risk factors for atherosclerosis while on low-carbohydrate diet than on a calorie and fat restricted diet.
Subjects Inklusionskriterier Ålder över 18 år BMI över 35 Exklusionkriterier Diverse sjukdomar Deltar i diet program Använder viktreducerande medicin
Design 132 personer rekryterades under perioden maj-december 2001 Randomiserades på fett-fri (68)/kolhydratfri kost (64) Randomiseringen gjordes så att varje grupp skulle bestå av Lika många kvinnor Diabetiker Kraftigt överviktiga BMI>40
Power-beräkning Det beräknades att med en signifikansnivå på 5% och en power på 80% så behövdes 50 per grupp för att påvisa en skillnad i viktnedgång om 5 kg. En förväntad avhoppsfrekvens om 25% gjorde att totalt skulle 135 rekryteras
Mätning Vid starten (baseline) och efter 6 måndare mättes bl a Vikt Blodtryck Blodfetter Blodsocker Följdes instruktionerna? (Compliance)
Statistisk analys Primärt utfallsmått viktreduktion efter 6 månader Jämförelse mellan grupperna gjordes med t-test. Kategoriska variabler jämfördes med chi-2 test. Tvåsidiga p-värden beräknades och p-värde<0.05 ansågs signifikant.
Resultat 79 personer fullföljde studien 36 i fettfria gruppen 43 i kolhydratfria gruppen Grupperna lika vid base-line (Tabell 1)
Viktreduktion Kolhydratfria gruppen Fettfria gruppen -5.8 kg +-8.6 kg -1.9 kg +- 4.2 kg Statistiska testet visade p=0.002 (signifikant) Figur 2
Problem syfte Skatta prevalenser av sjukdom Jämföra utfall av behandling tex läkemedel/rehabiliterningsmetoder Jämföra grupper (med arbete - arbetslösa) med avseende på livskvalitet Kartlägga riskfaktorer, dvs faktorer som ökar risken för sjukdom Följa förlopp - tillväxtkurvor
Studiedesign Experiment Observationsstudie Klinisk prövning Tvärsnittsundersökning Longitudinell undersökning Kohortstudie Fall-kontroll studie
Randomiserad kontrollerad studie Behandling Utfall Patienter Randomisering Kontroll/ Placebo Utfall Fler armar kan förekomma
Kohort studie Exponerade Utfall Population Ej exponerade Utfall
Fall kontroll studie Exponerade Fall Ej exponerade Kontroller
Tvärsnitts-studie Mätningar Population Urval
Mätning Variabel Kvantitativ Kategorisk Diskret Kontinuerlig Ordnad Ej ordnad
Datanivå Kvot + + + Intervall + + - Nominal - - - Ordinal + - - Ordning Avstånd Absolut nollpunkt
Se problem 2.1 sid 37 faktorer som påverkar antal vårddagar efter operation Variabel Kategorier Typ av variabel ID Kön Blodgrupp VIKT Rökare Smärta Vårddagar Man/Kvinna O, A, B, AB Mätt i kg Nej, Ja Obetydlig, Måttlig, Svår, Outhärdlig Antal vårdagar Datanivå
Variabel Kategorier Typ av variabel ID Datanivå Kön Man/Kvinna Kat Nominal Binär Blodgrupp O, A, B, AB Kat Nominal VIKT Mätt i kg Kvant Kontinuerlig Rökare Nej, Ja Kat Nominal Binär Smärta Obetydlig, Måttlig, Svår, Outhärdlig Kat Ordinal Vårddagar Antal vårdagar Kvant Diskret
Presentation av data Bild Mått Val styrs av variabeltyp Tabell
Exempel 1: Kroppstemperatur Vi har lärt oss att normal kroppstemperatur, när man är frisk, skall vara 37 grader C. Stämmer det? En studie av detta gjordes i USA för ca 20 år sedan. Design: Utfallsvariabel: Andra variabler: Tvärsnittsstudie Kroppstemperatur (vid fix tid på dagen) Kön, ålder,
Grafisk beskrivning: Histogram 0.4 0.3 Y 0.2 0.1 0.0-3 -2-1 -0 1 2 3 4 X Referens
Grafisk beskrivning: Boxplot
Lägesmått Medelvärde x n n x i i= 1 = 36.8 gr C Median Mittersta värdet 36.8 gr C
Variationsmått Standardavvikelse s = n i= 1 ( x i n 1 x) 2 s = 4.13 år Kvartilavstånd (IQR) q1 = 36.56, q3 = 37.06 IQR= 0.5 grc Variationsvidd (Range) max =38.22, min = 35.72 VV = 2.5
Tabellpresentation Kategorisering om två grupper dikotomisering
Jämförelse mellan grupper
Sned fördelning Medelvärde: 14.67 Median: 8.7 Geometriskt medelv: 9.45
Analys Sant medelvärde Inferens Urvalsmetod Skattning av sant medelvärde Population Urval
Inferens 1. Konfidensintervall Ange ett intervall som inkluderar det sanna medelvärdet nästan säkert (95%). Kroppstemperatur Konfidensintervallet blir 36.73 36.88 Detta intervall inkluderar populationens medelvärde nästan säkert (med 95% konfidens)
Inferens 2. Hypotesprövning Skiljer sig män och kvinnor åt vad avser kroppstemperatur? temp_c Report sex Mean N Std. Deviation Man 36,7248 65,38820 Kvinna 36,8855 65,41305 Total 36,8051 130,40732 P-värde = 0.024 Slutsats:?
0.4 Y 0.3 0.2 Population 0.1 0.0-3 -2-1 -0 1 2 3 4 X Stickprov Av storlek n Medelvärde
0.4 Y 0.3 0.2 Population 0.1 0.0-3 -2-1 -0 1 2 3 4 X Y 0.4 0.3 0.2 Samplingfördelning för medelvärdet 0.1 0.0-3 -2-1 -0 1 2 3 4 X
-3-2 -1-0 1 2 3 4 Sned population Y 0.4 0.3 0.2 Samplingfördelning för medelvärdet 0.1 0.0 X
-3-2 -1-0 1 2 3 4 Population Y 0.4 0.3 0.2 Samplingfördelning för proportion 0.1 0.0 X
Sammanfattning Oavsett vilken form populationen har såär samplingfördelningen för medelvärdet (eller proportionen) approximativt normalfördelad om n (=stickprovsstorleken) är tillräckligt stor. Spridningen i samplingfördelningen benämns STANDARD ERROR (SE)
Konfidensintervall
Populationsmedelvärdet finns nästan säkert I intervallet Nedre gräns Skattning Övre gräns
Konfidensintervall för medelvärde x ±1.96* s n Kroppstemperatur mv=36.81, s =0.41, n= 130 0.41 36.81± 1.96* 36.73 36.88 130
Begrepp vid hypotesprövning Nollhypotes Alternativ hypotes Signifikansnivå P-värde
Signifikansnivå(alfa-fel) Sannolikheten att felaktigt förkasta nollhypotesten. P-värde Sannolikheten att få det utfall vi fått (eller mer avvikande) under förutsättning att nollhypotesen stämmer
Praxis för bedömning av p-värden p > 0.05 ingen skillnad (ej signifikant) 0.05>p>0.01 skillnad (signifikant *) 0.01>p>0.001 skillnad (signifikant **) 0.001>p skillnad (signifikant ***)
Parametriska test t-test -en sampel test Fråga: Kommer vårt sampel från en population med Medelvärde 37 grader C? Data: mv=36,8, Standardavvikelse=, n = 130 Nollhypotes: Populationens medelvärde = 37 Aternativ hypotes: Populationens medelvärde >37 eller <37 Signifikansnivå: 0.05
Beräkning t = x µ s n One-Sample Test Test Value = 37 95% Confidence Interval of the Sig. (2- Mean Difference t df tailed) Difference Lower Upper temp_c -5,455 129,000 -,19487 -,2656 -,1242
Två grupper t-test temp_ c Group Statistics sex N Mean Std. Deviation Std. Error Mean Man 65 36,7248,38820,04815 Kvinna 65 36,8855,41305,05123 P-värde = 0.024
Tre grupper eller fler -ANOVA Vid en hälsoundersökning mättes midjemåttet på knappt 1600 individer. Tre åldersgrupper jämförs. Skiljer Sig åldersgrupperna åt? Midjemått i cm N Mean Std. Deviation Descriptives Std. Error 95% Confidence Interval for Mean Lower Bound Upper Bound Minimum Maximum -39 557 81,715 11,32893,48002 80,7727 82,6585 58,50 122,00 40-59 808 86,597 11,56607,40689 85,7988 87,3962 61,50 140,50 60+ 212 89,872 11,39584,78267 88,3298 91,4155 61,50 130,00 Total 1577 85,313 11,80601,29729 84,7304 85,8966 58,50 140,50 P<0.001
Parvisa test En grupp barn har undersökts med avseende på styrka i höger respektive vänster hand. Skiljer sig styrkan åt? Pair 1 Paired Samples Statistics Handstyrka höger (kg) Handstyrka vänster (kg) Mean N Std. Deviation Std. Error Mean 14,878 67 4,2883,5239 13,469 67 3,9734,4854 p<0.001
Två grupper Tre eller fler grupper Upprepade mätningar T test ANOVA Parvis t-test
Baseline Follow up Differens Fup - Bl Grupp 1 Parat t-test Grupp 2 Parat t-test t-test t-test t-test Alternativ analys ANCOVA
En studie av handeksem-fall Meding et al J Invest Dermatol 124, 2005 Handeksem-fall Handeksem senaste 12 månaderna Baseline studie 1983 Uppföljning 1998
En konceptuell modell Ålder handeksemdebut Eksem som barn Lapp test Utbredning (HEES score) Handeksem vid uppföljning Ålder vid baseline Kön
En regressions-situation 0m Y är X 1 kontinuerlig - linjär regression X 2 X 3 Y ordinal binär - ordinal regression logistisk regression X k tid till händelse - survival analysis Prediktorer Utfall
Exempel 1 (en risk faktor på två nivåer) Debutålder av handeksem Handeksem de sista 12 månaderna vid uppföljning 1998 Nej Total <20 år 91 114 205 >= 20 år 397 266 663 Total 488 380 868 Ja Proportion med handeksem 56% (p1) 40% (p2) p1 och p2 kan även kallas risker eller kumulativa incidenser
Tre sätt att analysera sambandet mellan en risk faktor och ett utfall 1. Chi-square test (test av differens p1-p2) 2. Relativ risk (p1/p2 eller p2/p1) 3. Odds kvot
Resultat av chi-square testet Chi-square = 15.3, df = 1, p-value < 0.001 Slutsats: Det finns en signifikant skillnad i proportion med handeksem senaste 12 månaderna 1998 bland de som debuterade tidigt jämfört med de som debuterade sent
Risk kvot RR = 56/40 = 1.40, 95% CI 1.19 1.62 Slutsats: Det är 1.40 ggr högre risk att ha handeksem 1998 om debutålder <20 jämfört med om om debutålder var >=20 år. Signifikant förhöjd risk (Konfidensintervallet innehåller ej 1)
ODDS Ett ODDS är kvoten mellan sannolikheten för en händelse och ett minus sannolikheten för händelsen ODDS = P(händelse) / (1-P(händelse))
ODDSet att ha handeksem 1998 i gruppen som debuterade före 20 års ålder Händelse = E = handeksem 1998 P(E)/(1-P(E)) = 0.56/0.44 = 1.27
ODDSet att ha handeksem 1998 i gruppen som debuterade efter 20 års ålder P(E)/(1-P(E)) = 0.40/0.60 = 0.67
ODDS KVOT OR = 1.27/0.67 = 1.90 95% CI 1.36 2.57 Slutsats: Det är 1.90 ggr högre odds att ha handeksem 1998 om debutålder <20 jämfört med om om debutålder var >=20 år. Signifikant förhöjt odds (Konfidensintervallet innehåller ej 1)