Grundläggande Biostatistik Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet
Formell analys Informell data analys Design and mätning Problem
Formell analys Informell data analys Hur samlas data in? Design och mätning
Formell analys Informell data analys Hur samlas data in? Design och mätning Mätskalor reliabilitet validitet
Formell analys Hur samlas data in? Informell data analys Design och mätning Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet
Hitta misstag Hantera extremvärden Bortfall Formell analys Informell data analys Lär känna data, tabeller, mått, grafer Hur samlas data in? Design och mätning Mätskalor reliabilitet validitet
Konfidensintervall P-värden Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Formell analys Informell data analys Design och mätning Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet
Modellbaserad analys Regression Logistisk regression Överlevnadsanalys Hitta misstag Hantera extremvärden Bortfall Hur samlas data in? Formell analys Informell data analys Design och mätning Konfidensintervall P-värden (enkla tester) Lär känna data, tabeller, mått, grafer Mätskalor reliabilitet validitet
Problem syfte Skatta prevalenser och risker för insjuknande av sjukdom Jämföra utfall av behandling tex läkemedel/ rehabiliteringsmetoder Kartlägga riskfaktorer, dvs faktorer som ökar risken för sjukdom Följa förlopp - tillväxtkurvor
Studiedesign Experiment Observationsstudie Klinisk prövning Tvärsnittsundersökning Longitudinell undersökning Kohortstudie Fall-kontroll studie
Randomiserad kontrollerad studie Behandling Utfall Patienter Randomisering Kontroll/ Placebo Utfall Fler armar kan förekomma
Kohort studie Exponerade Utfall Population Ej exponerade Utfall
Fall kontroll studie Exponerade Fall Ej exponerade Kontroller
Tvärsnitts-studie Mätningar Population Urval
Hypotesprövning Vid prövning av behandlingsmetod på två grupper: H 0 : ingen skillnad mellan grupper H A : skillnad mellan grupper När väljer vi nollhypotesen och när förkastar vi den till fördel för den alternativa hypotesen?
Typ I och II fel H0: gruop 1 =gruop 2 HA: gruop 1 gruop 2 Reject Null Hypothesis - Negative Reject Null Hypothesis - Positive Null Hypothesis is true (H0) Right decision Type 1 error (α) Alternative Hypothesis is true (HA) Type 2 error (β) Right decision Type 1 error is referred to as false positive Type 2 error is referred to as false negative
Standard normal distribution α = 0.1, P(Z>1.28)=0.1
Hypotesprövning v α är sannolikheten för typ 1 fel: α = P(Type 1 error) = P(reject H0 H0 true) v β är sannolikheten för typ 2 fel: β = P(Type 2 error) = P(fail to reject H0 H1 true) = 1 P(reject H0 H1 true) = 1 - (power of the test) v Power eller styrkan för testet = 1 - β
Begreppet power studiens styrka Sannolikheten att kunna påvisa en skillnad mellan grupper (tex behandlingsgrupper) om den finns där Utgör en komponent vid bestämning av studiens storlek Andra komponenter är: Den minsta skillnad vi vill kunna påvisa Risk för ett falskt positivt fynd (alfa-fel) Storleken av spridningen i utfallet
Mätning Variabel Kvantitativ Kategorisk Diskret Kontinuerlig Ordnad Ej ordnad
Datanivå Kvot + + + Intervall + + - Nominal - - - Ordinal + - - Ordning Avstånd Absolut nollpunkt
Variabel Kategorier Typ av variabel Datanivå ID Kön Man/Kvinna Kat Nominal Binär Blodgrupp O, A, B, AB Kat Nominal VIKT Mätt i kg Kvant Kontinuerlig Rökare Nej, Ja Kat Nominal Binär Smärta Obetydlig, Måttlig, Svår, Outhärdlig Kat Ordinal Vårddagar Antal vårdagar Kvant Diskret
Grupper av variabler Utfallsvariabler primära/sekundära Behandlingsvariabler/riskfaktorer variabler som påverkar utfallet Bakgrundsvariabler demografiska variabler Förväxlingsvariabler confounders/inflytelserika men ej intressanta variabler för frågeställningen
Presentation av data Bild Mått Val styrs av variabeltyp Tabell
Exempel: Kroppstemperatur Vi har lärt oss att normal kroppstemperatur, när man är frisk, skall vara 37 grader C. Stämmer det? En studie av detta gjordes i USA för ca 20 år sedan. Design: Tvärsnittsstudie Utfallsvariabel: Kroppstemperatur (vid fix tid på dagen) Andra variabler: Kön, ålder,
Lägesmått Medelvärde x n n x i i= = 1 36.8 gr C Median Mittersta värdet 36.8 gr C
Variationsmått Standardavvikelse s = n i= 1 ( x i n 1 x) 2 s = 4.13 år Kvartilavstånd (IQR) q1 = 36.56, q3 = 37.06 IQR= 0.5 grc Variationsvidd (Range) max =38.22, min = 35.72 VV = 2.5
Grafisk beskrivning: Histogram 0.4 0.3 Y 0.2 0.1 0.0-3-2-1-01234 X Referens
Grafisk beskrivning: Boxplot
Tabellpresentation
Jämförelse mellan grupper
Analys Sant medelvärde Inferens Urvalsmetod Ska7ning av sant medelvärde Popula1on Urval
Inferens 1: Konfidensintervall Ska7ningar är osäkra på grund av a7 vi studerar en del av popula1onen. Ska7ningar kan ges med FELMARGINAL. Det kallas KONFIDENSINTERVALL. Konfidensintervallet anges med grad av osäkerhet som kallas konfidensnivå (95%, 99%, etc)
Inferens 1: Konfidensintervall intervall som inkluderar det sanna medelvärdet nästan säkert (95%). Kroppstemperatur Konfidensintervallet blir 36.73 36.88 De7a intervall inkluderar popula1onens medelvärde nästan säkert (med 95% konfidens)
Inferens 2: Hypotesprövning Skiljer sig män och kvinnor åt vad avser kroppstemperatur? temp_c Report sex Mean N Std. Deviation Man 36,7248 65,38820 Kvinna 36,8855 65,41305 Total 36,8051 130,40732 P-värde = 0.024 Slutsats:?
P-värde Sannolikheten a7 få det uzall vi få7 (eller mer avvikande) under förutsä7ning a7 nollhypotesen stämmer motsvarar typ I fel
Praxis för bedömning av p-värden p > 0.05 ingen skillnad (ej signifikant) 0.05>p>0.01 skillnad (signifikant *) 0.01>p>0.001 skillnad (signifikant **) 0.001>p skillnad (signifikant ***)
Tre grupper eller fler -ANOVA Vid en hälsoundersökning mättes midjemåttet på knappt 1600 individer. Tre åldersgrupper jämförs. Skiljer Sig åldersgrupperna åt? Descriptives Midjemått i cm 95% Confidence Interval for Std. N Mean Deviation Std. Error Mean Lower Bound Upper Bound Minimum Maximum -39 557 81,715 11,32893,48002 80,7727 82,6585 58,50 122,00 40-59 808 86,597 11,56607,40689 85,7988 87,3962 61,50 140,50 60+ 212 89,872 11,39584,78267 88,3298 91,4155 61,50 130,00 Total 1577 85,313 11,80601,29729 84,7304 85,8966 58,50 140,50 P<0.001
Parvisa test En grupp barn har undersökts med avseende på styrka i höger respektive vänster hand. Skiljer sig styrkan åt? Pair 1 Paired Samples Statistics Handstyrka höger (kg) Handstyrka vänster (kg) Mean N Std. Deviation Std. Error Mean 14,878 67 4,2883,5239 13,469 67 3,9734,4854 p<0.001
Linjär regression för att beskriva sambandet mellan kontinuerliga utfalls variabler och kontinuerliga samt kategoriska förklaringsvariabler antar normalfördelning kan inkludera flera förklaringsvariabler och bakgrundsvariabler (crude/adjusted) Vid studie av enbart två variabler liknar det och kan jämföras med korrelationsanalys Annars kan det ses som en utveckling av ANOVA Beräknar linjära samband i skala av utfallet
Logistisk regression för att beskriva sambandet mellan binära (ja/nej) utfallsvariabler samt kontinuerliga eller kategoriska förklaringsvariabler kan inkludera flera förklaringsvariabler och bakgrundsvariabler (crude/adjusted) Vid studie av enbart en kategorisk förklaringsvariabel kan det liknas vid korstabell/ kontigenstabell (chi-2) Kan ses som en utveckling av korstabeller Vanligt i tvärsnittsstudier Beräknar Odds Ratio
Survival eller time to event analys Utfallet är binärt (ja, nej) och förklaringsvariabler kan vara katergoriska (Kaplan-Meier) och kontinuerliga (Cox Proportional Hazards) Inbegriper person-tid av exponering i olika grupper Vanligt i kohortstudier Kan inkludera flera förklaringsvariabler (Cox PH) Cox PH antar proportionella risker i grupper eller över skalor Beräknar Hazard Ratio/Incidence Rate Ratio/ Relative Risk (t.ex. mellan grupper)