Medicinsk statistik I

Relevanta dokument
Medicinsk statistik I

Statistik och epidemiologi T5

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Studietyper, inferens och konfidensintervall

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Hur skriver man statistikavsnittet i en ansökan?

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Beskrivande statistik

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Medicinsk statistik II

2 Dataanalys och beskrivande statistik

Statistik 1 för biologer, logopeder och psykologer

Statistik och epidemiologi T5

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning G70 Statistik A

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Parade och oparade test

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Thomas Önskog 28/

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

TMS136. Föreläsning 10

F3 Introduktion Stickprov

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Forskningsmetodik 2006 lektion 2

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Lektionsanteckningar 11-12: Normalfördelningen

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Uppgift a b c d e Vet inte Poäng

, s a. , s b. personer från Alingsås och n b

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Medicinsk statistik II

13.1 Matematisk statistik

TMS136. Föreläsning 7

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning G60 Statistiska metoder

Statistik en introduktion

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Gamla tentor (forts) ( x. x ) ) 2 x1

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Medelvärde, median och standardavvikelse

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

F9 SAMPLINGFÖRDELNINGAR (NCT

BIOSTATISTIK OCH EPIDEMIOLOGI

Föreläsning G60 Statistiska metoder

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TENTAMEN TEORI. EXAMENSARBETE 1 (LÄLA53/LÄMA53) TERMIN 5, HT 2012, , kl

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M MAM801 IEK309 Institutionen för matematik Datum Skrivtid

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Statistik 1 för biologer, logopeder och psykologer

Samplingfördelningar 1

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 12: Regression

Statistik en introduktion

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik


Repetitionsföreläsning

Hypotestestning och repetition

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Laboration 3: Urval och skattningar

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Statistik Termin 10, Läkarprogrammet, HT16

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Statistiska undersökningar

2.1 Minitab-introduktion

Transkript:

Medicinsk statistik I Läkarprogrammet T5 VT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus

Medicinsk statistik Varför behöver Ni kunskap i medicinsk statistik? Självständigt arbete Framtida arbete Kunna tolka resultat från andra studier Analysera data Presentera resultat

Medicinsk statistik LITTERATURTIPS Jonas Björk Praktisk statistik för medicin och hälsa

Målpopulation Stickprov Stickprov Datainsamling Slutsats Beskrivning Deskriptiv statistik Analys Analytisk statistik

Vilka personer gäller resultatet för? Gruppen personer som man vill kunna dra slutsatser om kallas målpopulation Exempel på målpopulationer: Personer som kommer till akuten med bröstsmärtor Barn under 5 år Rökare Typ 2-diabetiker

Systematiska fel - bias Kan ge fel tolkning av resultatet Olika typer av systematiska fel: Urvalet inte är representativt för populationen Icke-slumpmässigt urval Bortfall Felaktigheter i datainsamling Fel svar från apparatur Otydligt formulerade enkätfrågor Bristande jämförbarhet i de grupper som jämförs Skillnader i utgångsläge mellan patientgrupper

Undersökningsupplägg Undersökningen påverkar skeendet Experiment, tex klinisk prövning Undersökningen påverkar inte skeendet Observationsundersökning Tvärsnittsundersökning Longitudinell undersökning

Observationsundersökning Påverkar inte skeendet utan jämför grupperingar som har uppstått utan påverkan Rökare jämfört med icke rökare Boende i stad jämfört med boende på landsbygd Personer med en viss diagnos jämfört med personer utan den diagnosen Gruppskillnaden behöver inte bero på den faktor vi vill studera

Confounding Exempel (Rothman: Epidemiologyan introduction)

Confounding Exempel (forts.)

Confounding Exempel (forts.) Stratifierad ansats

Experiment - Randomisering Slumpvis bestämning av vilka patienter som får vilken av två (eller flera) behandlingar Är ofta lämpligt vid kliniska prövningar Ger två grupper som är lika vid start-tillfället och eventuella skillnader som uppstår kan antas bero på behandlingseffekten

Placeboeffekt Patientens förväntade effekt av behandlingen Kan medföra att effekt kan observeras av verkningslös behandling Kontrollgrupp kan användas för att skilja på behandlingseffekt och placeboeffekt Bäst att låta kontrollgruppen använda nuvarande behandling, gold standard Blindning Enkelblind Dubbelblind

Variabler Mätningar (kvantitativa) och klassificeringar (kvalitativa) av studieindividerna Egenskaper, utfall, effekt, säkerhet En variabel = en kolumn i ett datablad

Exempel på datablad Variabler Patienter Patient-id Kön Ålder Längd Vikt BMI Kreatinin 1 m 54 177 88 28 153 2 m 67 179 76 24 115 3 m 69 172 73 25 218 4 m 50 165 73 27 102 5 m 60 177 66 21 76 6 k 78 161 77 30 133 7 k 70 159 80 32 101 8 k 55 170 63 22 67 9 k 46 177 70 22 90 10 k 44 160 50 20 67

Datatyper Kontinuerliga data mäts på en intervallskala Exempel: Vikt, längd, ålder, blodtryck Diskreta data data som mäts på en intervallskala men bara kan anta vissa värden Exempel: Antal barn, antal bakterier

Datatyper Ordinaldata klassdata/kategoriindelning med rangordning Exempel: klassificering av smärta enligt låg måttlig hög outhärdlig, 1 2 3 4 Ej säkert att 2-1 = 3-2 Ej säkert att 4 är dubbelt så mycket som 2 Nominaldata klassdata/kategoriindelning utan rangordning Exempel: Kön, bostadsort, behandlingsgrupp

Målpopulation Stickprov Stickprov Datainsamling Slutsats Beskrivning Deskriptiv statistik Analys Analytisk statistik

Deskriptiv statistik Vad? Deltagande Bakgrund Utfall Säkerhet Hur? Listning av rådata (upp till n 10-20 individer) Tabeller Grafer Genomsnittsmått Spridningsmått

Redovisning av deltagande i randomiserade kliniska prövningar (CONSORT JAMA 18 April 2001) www.skane.se/rskc

Genomsnittsmått Lägesmått, centralmått, tyngdpunkt Var ligger tyngdpunkten? Hur kan tyngdpunkten anges?

Genomsnittsmått Medelvärde Summan av observationerna dividerat med antalet observationer Median Den mittersta observationen om observationerna sorteras i storleksordning

Medelvärde eller median? Valet görs utifrån hur data ser ut Symmetriska data på intervallskala Asymmetriska data på intervallskala Ordinaldata

Symmetriska kontinuerliga data Medelvärde = Median Exempel: Födelsevikt, längd I figuren: Medelvärde = 24 Median = 24 Använd medelvärdet!

Asymmetriska kontinuerliga data Data är skevt åt höger eller åt vänster Medelvärdet < Medianen Medelvärdet > Medianen I figuren: Medelvärdet = 8 Medianen = 5 Använd medianen!

Utfall på ordinalskala Exempel Modified Ranking Scale Grad av handikapp efter stroke (Kasner 2006) (Hacke et al. 2008) Använd medianen!

Varför inte alltid använda medelvärdet? Exempel I en enkätundersökning fanns följande fråga: Hur ofta tränar du? Aldrig 0 poäng 0 poäng 1-4 gånger i månaden 5-8 gånger i månaden 1 poäng 2 poäng eller 1 poäng 3 poäng Mer än 8 gånger i månaden 3 poäng 6 poäng Medelvärdet blir beroende av hur man kodar variabeln!

Deskriptiv statistik Nominal- och ordinalskalor Presentera absoluta och relativa frekvenser i tabell och/eller i ett diagram Ex. Rökare [n (%)] Icke-rökare [n (%)] Patienter 130 (50) 131 (50) Kontroller 120 (38) 195 (62) Rökvanor bland patienter (n=261) och kontroller (n=315) mätt som paketår 70% 60% 50% 40% 30% 20% 10% 0% 0 1-20 21-40 >40 Patienter Kontroller

Sammanfattning Lägesmått Symmetriska data Asymmetriska data Ordinaldata Medelvärde Median Median

Spridning Liten spridning Stor spridning

Spridningsmått Beskriver hur pass koncentrerade data är kring centralvärdet Olika mått används för symmetriska och asymmetriska data Symmetri spridningsmått baseras på medelvärde Asymmetri spridningsmått baseras INTE på medelvärde

Spridningsmått Standardavvikelse, genomsnittliga avvikelsen från medelvärdet Percentiler och kvartiler, delar data i bestämda proportioner Variationsvidd, differensen mellan max och min

Percentiler Beskriver hur stor andel av observationerna som ligger under värdet 10% ligger under 10:e percentilen 20% ligger under 20:e percentilen etc. n 1 q 100 1 Kvartiler delar upp data i fyra lika stora delar; Undre kvartil = n 1 25 100 1 Övre kvartil = n 1 75 100 1

Lådagram (Box-plot) -Jämförelse mellan grupper 3000 Uteliggare O Observationer mer än 1.5 kvartilavstånd utanför lådan Extremvärde * Observationer mer än 3 kvartilavstånd utanför lådan 2000 Högsta normala värdet 1000 Övre kvartil Median Undre kvartil 0 Lägsta normala värdet N = 39 33 38 Låg Medium Hög Fiskkonsumtionsgrupp Kvartilavstånd = Lådlängd = Övre - Undre kvartil

Sammanfattning Lägesmått Symmetriska data Medelvärde Spridning Varians/ Standardavvikelse Asymmetriska data Median Percentiler Ordinaldata Median Percentiler

Hur vet vi om det är symmetriskt? Grafiskt se om värdena ser symmetriska ut, tex med histogram eller boxplot (lådagram) Medianen och medelvärdet skall vara lika Avståndet mellan median och symmetriska percentiler skall vara lika stora, t.ex. jämföra avståndet av övre kvartilen med medianen och undre kvartilen med medianen. Dessa avstånd skall vara lika. Max Övre kvartil Median Undre kvartil Min

Normalfördelningen En familj av modeller för hur kontinuerliga kvantitativa data kan vara fördelade i en studiepopulation Sannolikhets massa 0.009 0.008 0.007 M = 200 S = 50 Sannolikhets massa 0.45 0.4 0.35 M = 0 S = 1 0.006 0.005 0.004 0.003 0.002 0.001 0 0 100 200 300 400 0.3 0.25 0.2 0.15 0.1 0.05 0-4 -3-2 -1 0 1 2 3 4 Sannolikhets massa 0.045 0.04 0.035 0.03 0.025 0.02 0.015 0.01 M = 200 S = 10 Bestäms entydigt av medelvärde (M) och standardavvikelse (S) Värden för standardiserad normalfördelning (M=0, S=1) finns i tabeller 0.005 0 0 100 200 300 400

Normalfördelningen X=medelvärde S=SD=standardavvikelse Referensintervall Medelvärdet ± 1 SD täcker 68% av data Medelvärdet 2 SD täcker 95% av data Medelvärdet 3 SD täcker 99.7% av data

Originaldata vs. logtransformerade data Exempel: CB-153 (ng/g lipidvikt; markör för PCB-exponering) i serum från 110 yrkesfiskare vid Östersjön Originaldata Log-transformerade data 20 30 20 M = 460 S = 450 15 M = 5.75 S = 0.892 5.75 1.96 * 0.892, dvs 4.0-7.5 Count 10 Count 10 5 Återgå till originalskalan: e 4.0 - e 7.5, dvs 55-1800 ng 0 500.00 1000.00 1500.00 2000.00 0 4.00 5.00 6.00 7.00 cb_153 ln_c_153 Originaldata positivt snedfördelade Log-transformerade data mer symmetriska

Målpopulation Stickprov Stickprov Datainsamling Slutsats Beskrivning Deskriptiv statistik Analys Analytisk statistik

Punktskattning Stickprovet används för att skatta värden i studiepopulationen - Medelvärdet är exempel på en punktskattning.

Skattningar standardfel (medelfel) Varje skattning har en osäkerhet Osäkerheten kan mätas med standardfelet (standard error, SE) SE för medelvärde: 2 s s = standardavvikelsen SE n n = antal observationer Ju större n ju mindre blir SE

Standardfel - exempel Medellängden hos individer i två populationer Stor spridning Patienter i ett väntrum på en akutmottagning Medelvärde=150cm; standardavvikelse=25 Liten spridning Barn i årskurs 5 Medelvärde=150cm; standardavvikelse=10

Standardfel - exempel Patienter i ett väntrum på en akutmottagning Elever i årskurs 5 Medel=150, s=25 Medel=150, s=10 100 observationer Medel = 150,4 s = 28,9 SE = 2,9 10 observationer Medel = 141,2 s = 32,4 SE = 10,2 100 observationer Medel = 149,2 10 observationer s = 8,6 Medel = 149,2 SE = 0,9 s = 8,2 SE = 2,6

Konfidensintervall SE kan användas för att beräkna ett konfidensintervall (KI) Med en viss säkerhet täcker konfidensintervallet det sanna värdet Konfidensintervallets bredd beror av Storleken på SE (och därmed antalet individer i stickprovet samt spridningen) Konfidensgraden hur säker man vill vara

Konfidensintervall Om man gör 100 konfidensintervall med konfidensgrad 95% så kommer i genomsnitt 95 av de 100 intervallen att innehålla den sanna parametern. 120 130 140 150 160 170

Beräkning av konfidensintervall Generell formel för konfidensintervall Skattning ± konstant*se Konfidensgrad på 90% ger en konstant = 1.64 Konfidensgrad på 95% ger en konstant = 1.96 Konfidensgrad på 99% ger en konstant = 2.58 Konstanterna kommer från Normalfördelningen.

Konfidensintervall Exempel Patienter i ett väntrum på en akutmottagning Tar ut ett stickprov på 100 individer Beräknar ett 95% KI x 1.96 SE 150.4 1.96 2.9 [144.7;156.1] Med 95 procent säkerhet finns den genomsnittliga längden i den underliggande målpopulationen mellan 144.7 och 156.1 cm. Det sanna medelvärdet ligger med 95% säkerhet i intervallet medelvärdet ± 2*SE

Referensintervall Ett referensintervall säger något om spridningen i studiepopulationen Istället för att använda SE används standardavvikelsen, s.

Referensintervall Exempel Stickprov om 100 individer till patienter i ett väntrum på en akutmottagning Beräkning av 95% referensintervall = 150,4 ± 1.96*28.9 = [93.8; 207.0] 95% av målpopulationen bör vara mellan 94 och 207 cm medelvärde ± 2* standardavvikelser täcker 95% av data i studiepopulationen

Sammanfattning Konfidensintervall och referensintervall är beräknade baserat på data från stickprovet men drar slutsatser om studiepopulationen! KONFIDENSINTERVALL: Medelvärdet i studiepopulationen ligger med 95% säkerhet inom gränserna REFERENSINTERVALL: 95% av studiepopulationen har ett värde inom gränserna

Förutsättningar för konfidens och referensintervall Stickprovet måste vara representativt för studiepopulationen Kontinuerlig data måste vara approximativt normalfördelade Stickprovet är normalfördelat eller Stickprovet stort

Konstanten c=1.96 i formeln T-fördelningen Medelvärdet c*se kommer från den standardiserade normalfördelningen vid konfidensgraden 95% För små stickprov blir KI för snäva, går inte upp till den önskade konfidensgraden Hur löser vi det?

T-fördelningen Vi löser det genom att använda t-fördelningen med n-1 frihetsgrader för att bestämma konstanten c - Ex. om vi har n=10 så blir antalet frihetsgrader 10-1=9 I en tabell kan man ta reda på att c=2.26

T-fördelningen En fördelning som mycket påminner om normalfördelningen men som för små stickprov gör att vi bättre uppnår den önskade konfidensgraden Vad är små stickprov?

Tumregel - stickprovsstorlek Antal oberoende observationer Tumregel n<20 Beräkna bara konfidensintervall om det sedan tidigare är känt att den variabel som studeras är normalfördelad. Använd t-fördelningen med n-1 frihetsgrader för att bestämma konstanten c n: 20-50 Beräkna konfidensintervall om mätvariabeln är någorlunda normalfördelad. Använd t-fördelningen med n-1 frihetsgrader för att bestämma konstanten c n>50 Konfidensintervall kan beräknas oavsett hur variabeln som undersöks är fördelad i studiepopulationen. Den standardiserade normalfördelningen ger fortfarande något för låga värden på c; skillnaden jämfört med korrekta värdet hämtat från t-fördelningen är dock försumbart

Hur gör vi med data som inte är kontinuerliga/normalfördelade?

Exempel Ett nytt läkemedel ska testas. Hur många kände sig bättre av det nya läkemedlet?

Konfidensintervall för en andel Antag att q = punktskattningen q är andelen i stickprovet, q ligger mellan 0-1 Konfidensintervall för andelar beräknas q c q 1 n q n=antalet individer i stickprovet c=konstant (samma som i tidigare beräkningar) Förutsättning: q*(1-q)*n > 10

Konfidensintervall för en andel Exempel: Ett nytt läkemedel ska testas. Hur många kände sig bättre av det nya läkemedlet? En studie med 100 individer, n=100 q=andel som kände sig bättre av det nya läkemedlet. q=70% Konfidensgrad=95% c=1.96

Exempel fortsättning 95% KI: q c q 1 n q 0.70 1.96 0.70 1 0.70 100 95% KI: 61% - 79%