Medicinsk statistik I

Medicinsk statistik I Läkarprogrammet T5 VT 2013 Susanna Lövdahl, Msc, Doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se

Medicinsk statistik VT-2013 Tre stycken statistikföreläsningar - Susanna Lövdahl (I+II) / Jonas Björk (III) Frågestund ett tillfälle - Övningsuppgifter delas ut innan med facit

Medicinsk statistik INNEHÅLL Deskriptiv/beskrivande statistik Medelvärdesjämförselser Icke-parametriska test Tolkning av p-värden/konfidensintervall Proportionstal Korrelation Linjär regression Dimensionsberäkning/Statistik styrka

Medicinsk statistik Kompendium Biostatistik och epidemiologi Anna Axmon http://www.med.lu.se/labmedlund/amm/utbildning Bra artiklar Statistisk styrka: Colomb MO and Stevens A. Power analysis and sample size calculations. Current Anaesthesia & Critical Care 2008;19:12-14. Signifikanstest: Sterne JAC and Smith GD. Sifting the evidence what s wrong with significance tests? BMJ 2001;322:226-31. Statistics Notes in the British Medical Journal (praktiskt inriktade statistikartiklar): http://www-users.york.ac.uk/~mb55/pubs/pbstnote.htm

Studiepopulation (Målpopulation) Stickprov Stickprov Datainsamling Analys Beskrivning Dra slutsatser från insamlad data genom skattningar och hypotesprövningar Deskriptiv statistik Analytisk statistik

Datatyper Kvantitativ Kvalitativ

Kvantitativ

Kvantitativ Kontinuerlig - Mäts på en skala - Exempel: Vikt, längd, ålder, blodtryck Diskret - Kontinuerliga data som bara kan anta vissa värden - Exempel: Antal barn - Värdena är sanna - 2-1 = 3-2 - 4 är dubbelt så mycket som 2

Kvalitativ

Kvalitativ (kategorisk) Ordinaldata klassdata/kategoriindelning med rangordning Exempel: - 1 < 2 < 3 Nominaldata klassdata/kategoriindelning utan rangordning Exempel: Kön, bostadsort, civilstånd - Ej säkert att 2-1 = 3-2 - Ej säkert att 4 är dubbelt så mycket som 2 - Ålderskategorier - Självskattning

Deskriptiv statistik Beskrivning av materialet utan att ge alla siffror Grafiskt Numeriskt Viktiga frågor: Var ligger tyngdpunkten - Hur kan vi ange tyngdpunkten? Hur stor är spridningen

Tyngdpunkten kan anges genom Median Det mittersta värdet när man sorterat observationerna i storleksordning (om udda antal) Exempel: 4, 5, 6, 7, 10, 11, 12, 20, 22 Mittersta värdet: 10 Median = 10 Om jämnt antal observationer: medelvärdet av de två värdena i mitten x i n 1 n x i x 1 x 2 n... x n Typvärde Det mest förekommande värdet

Tyngdpunkten brukar refereras till som CENTRALMÅTT eller LÄGESMÅTT Valet görs utifrån hur data ser ut Symmetriska kontinuerliga data Assymetriska kontinuerliga data Ordinaldata Nominaldata

Symmetriska kontinuerliga data Medel = Median Exempel: Födelsevikt, längd I figuren: Medelvärde = 24 Median = 24 Använd medelvärdet!

Assymetriska kontinuerliga data Data förskjutet åt höger eller åt vänster Medelvärdet < Medianen Medelvärdet > Medianen I figuren: Medelvärdet = 8 Medianen = 5 Använd medianen!

Ordinaldata I figuren: Median = F! Använd median!

Varför inte alltid använda medelvärdet? Exempel I en enkätundersökning fanns följande fråga: Hur ofta tränar du? Aldrig 1-4 gånger i månaden 5-8 gånger i månaden Mer än 8 gånger i månaden 0 poäng 1 poäng 3 poäng 5 poäng Medelvärdet blir beroende av hur man kodar variabeln! Inget mätvärde utan endast en kodning som vi själva bestämmer.

Varför inte alltid använda medelvärdet? Exempel: Undersökning av löner på ett företag med 11 anställda 1 2 3 4 5 6 7 8 9 10 11 15000 15000 16200 15600 15400 15800 16200 16000 15900 16700 60000 Medelvärdet: 217800/ 11 = 19800 Median: Börja med att sortera lönerna I storleksordning 15000 15000 15400 15600 15800 15900 16000 16200 16200 16700 60000

Nominaldata Ange exempelvis andelar. Här är lägesmått inte meningsfulla. I figuren: Malmö = 24% Göteborg = 50% Stockholm = 26%

Sammanfattning Lägesmått Symmetriska data Asymmetriska data Ordinaldata Medelvärde Median Median Nominaldata

Vilka lägesmått är lämpliga i dessa studier? Blodtrycket är uppmätt på 150 friska män i åldrarna 50-55. Hur ofta ungdomar dricker alkohol: Aldrig 1p Sällan 2p Ofta 3p Undersöka hur många män respektive kvinnor som jobbar på Lunds universitet.

Sammanfattning Lägesmått Spridning?? Symmetriska data Asymmetriska data Ordinaldata Medelvärde Median Median Nominaldata ---

Spridning Liten spridning Stor spridning

Spridningsmått Beskriver hur pass koncentrerade data är kring centralvärdet Olika mått används för symmetriska och assymetriska data Symmetri spridningsmått baseras på medelvärde Assymetri spridningsmått baseras INTE på medelvärde

Spridningsmått Om vi kollar på den genomsnittliga avvikelsen från medelvärdet: ID x (x-x) x i n x 1 2 3 4 5 6 7 8 9 150 152 161 177 155 160 162 158-9.375-7.375 1.625 17.625-4.375 0.625 2.625-1.375 Men den genomsnittliga avvikelsen från medelvärdet blir 0. 0 x i n x

Spridningsmått Genom att kvadrera varje term så slipper vi problemet med att det blir 0. 2 x i x För att få bättre skattning så använder man n-1 i nämnaren Detta kallas för VARIANSEN! 2 Men variansen är nu uttryckt i cm vilket inte är så praktiskt när medellängden är uttryckt i cm. n x i n 1 x 2 = 69.12 x 150 152 161 177 155 160 162 158 (x-x) (x-x) 2-9.375 87.89-7.375 54.39 1.625 2.64 17.625 310.64-4.375 19.14 0.625 0.39 2.625 6.89-1.375 1.89 0 483.87

Spridningsmått Genom att ta roten ur variansen så får man standardavvikelsen (standard deviation = SD) som har samma enhet som det man mäter s x n i 1 x 2

Percentiler Beskriver hur stor andel av observationerna som ligger under värdet 10% ligger under 10:e percentilen 20% ligger under 20:e percentilen etc Formel: n 1 q 100 1 Kvartiler Delar upp data i fyra lika stora delar; 25 75 Undre kvartil = n 1 1 Övre kvartil = n 1 1 100 100 kvartilavstånd = skillnad mellan övre och undre kvartilen

Variationsvidd (range) Avståndet mellan det högsta och lägsta värdet kallas variationsvidd Kan användas för både symmetriska och asymmetriska data

Sammanfattning Symmetriska data Lägesmått Medelvärde Spridning Varians/standa rdavvikelse Asymmetriska data Median Percentiler Ordinaldata Median Percentiler Nominaldata --- ---

Hur vet vi om det är symmetriskt? Grafiskt se om värdena ser symmetriska ut Medianen och medelvärdet skall vara lika Avståndet mellan median och symmetriska percentiler skall vara lika stora, t.ex. jämföra avståndet av övre kvartilen med medianen och undre kvartiel med medianen. Dessa avstånd skall vara lika. Max Övre kvartil Median Undre kvartil Min

Hur vet vi om det är symmetriskt?

Normalfördelningen Symmetrisk fördelning runt sitt medelvärde X=medelvärde S=SD=standardavvikelse Referensintervall Medelvärdet ± 1 SD täcker 68% av data Medelvärdet 2 SD täcker 95% av data Medelvärdet 3 SD täcker 99.7% av data

Stickprov jämfört med studiepopulation Populationen vill man kunna dra slutsatser om Är de individer som man inte kan mäta plus stickprovet POPULATION

Stickprov jämfört med studiepopulation Stickprov hjälper oss att uppskatta och dra slutsatser om en population där stickprovet blev taget POPULATION Stickprov Stickprov Stickprovet är de individer som man mäter på Man kan ta reda på allt om stickprovet

Skattningar standardfel (medelfel) Varje skattning har en osäkerhet Osäkerheten kan mätas med standardfelet (standard error, SE) s = standardavvikelsen n = antal observationer SE Ju större n ju mindre blir SE s n 2

Standardfel - exempel Medellängden hos individer i två populationer Stor spridning Patienter i ett väntrum på en akutmottagning Medelvärde=150cm; standardavvikelse=25 Liten spridning Barn i årskurs 5 Medelvärde=150cm; standardavvikelse=10

Standardfel - exempel Patienter i ett väntrum på en akutmottagning Elever i årskurs 5 Medel=150, s=25 Medel=150, s=10 100 observationer Medel = 150,4 s = 28,9 SE = 2,9 10 observationer Medel = 141,2 s = 32,4 SE = 10,2 10 observationer Medel = 149,2 s = 8,2 SE = 2,6 100 observationer Medel = 149,2 s = 8,6 SE = 0,9

Sammanfattning Punktskattningar Osäkerhet - Stickprovet används för att skatta värden i studiepopulationen - Medelvärdet är exempel på en punktskattning. - Standardfel är ett mått på osäkerheten i punktskattningen - Ju mindre SE, desto säkrare punktskattning

Konfidensintervall SE kan användas för att beräkna ett konfidensintervall (KI) Med en viss säkerhet täcker konfidensintervallet det sanna värdet Konfidensintervallets bredd beror av Storleken på SE (och därmed antalet individer i stickprovet samt spridningen) Konfidensgraden hur säker man vill vara

Sanna medelvärdet Om vi tar 100 stycken stickprov och beräknar KI för varje stickprov så kommer vissa att inkludera det sanna värdet och vissa inte Antalet KI som täcker det sanna värdet beror på konfidensgraden Exempel 95% konfidensgrad 95 av 100 KI täcker det sanna medelvärdet Motsvarande gäller för andra konfidensgrader ex 90% eller 99% 120 130 140 150 160 170

Beräkning av konfidensintervall Generell formel för konfidensintervall Skattning ± konstant*se Konfidensgrad på 90% ger en konstant = 1.64 Konfidensgrad på 95% ger en konstant = 1.96 Konfidensgrad på 99% ger en konstant = 2.58

Konfidensintervall Exempel Patienter i ett väntrum på en akutmottagning Tar ut ett stickprov på 100 individer Beräknar ett 95% KI x 1.96 SE 150.4 1.96 2.9 [144.7;156.1] Med 95 procent säkerhet finns den genomsnittliga längden i den underliggande målpopulationen mellan 144.7 och 156.1 cm. Det sanna medelvärdet ligger med 95% säkerhet i intervallet medelvärdet ± 2*SE

Referensintervall Ett referensintervall säger något om spridningen i studiepopulationen Istället för att använda SE används standardavvikelsen, s.

Referensintervall Exempel Stickprov om 100 individer till patienter i ett väntrum på en akutmottagning Beräkning av 95% referensintervall = 150,4 ± 1.96*28.9 = [93.8; 207.0] 95% av målpopulationen bör vara mellan 94 och 207 cm Intervallet medelvärde ± 2* standardavvikelser täcker 95% av data i studiepopulationen

Sammanfattning Konfidensintervall och referensintervall är beräknade baserat på data från stickprovet men drar slutsatser om studiepopulationen! KONFIDENSINTERVALL: Medelvärdet i studiepopulationen ligger med 95% säkerhet inom gränserna REFERENSINTERVALL: 95% av studiepopulationen har ett värde inom gränserna

Förutsättningar för konfidens och referensintervall Stickprovet måste vara representativt för studiepopulationen Kontinuerlig data måste vara normalfördelade Stickprovet är normalfördelat Studiepopulationen är normalfördelad Stickprovet stort

Hur gör vi med data som inte är kontinuerliga/normalfördelade?

Exempel Ett nytt läkemedel ska testas. Hur många kände sig bättre av det nya läkemedlet?

Konfidensintervall för en andel Antag att q = punktskattningen q är andelen i stickprovet, q ligger mellan 0-1 Konfidensintervall för andelar beräknas q c q 1 n q n=antalet individer i stickprovet c=konstant (samma som i tidigare beräkningar) Förutsättning: q*(1-q)*n > 5

Konfidensintervall för en andel Exempel: Ett nytt läkemedel ska testas. Hur många kände sig bättre av det nya läkemedlet? En studie med 100 individer, n=100 q=andel som kände sig bättre av det nya läkemedlet. A=70% Konfidensgrad=95% c=1.96

Exempel fortsättning 95% KI: 0.70 1.96 0.70 1 0.70 100 95% KI: 61% - 79% q c q 1 n q

Hypotesprövning Ett stickprov väljs för att dra slutsatser om en studiepopulation Det går inte att bevisa något om en studiepopulation Däremot kan man avfärda en teori som är mer eller mindre troligt Detta gör man genom hypotesprövningar

Hypotesprövning Man sätter upp en nollhypotes (H0) H0 vill man kunna förkasta/avfärda ex. ingen effekt Om H0 förkastas så finns en alternativhypotes kvar (H1) H0: Ingen effekt H1: Effekt

Att uttrycka hypoteser Hypoteser går att uttrycka på många olika sätt Bäst att uttrycka hypoteser så numerisk som möjligt Ex. H 0 : Medelvärdet för behandlade = Medelvärdet för kontroller H 1 : Medelvärdet för behandlade Medelvärdet för kontroller

Exempel Vi vill undersöka om det finns lika många kvinnor som män som läser medicinsk statistik på Lunds universitet. Vilka hypoteser testas i denna studie? Hur ser H0 respektive H1 ut?

Hypotesprövning med p-värde Stickprov Studiepopulation Stickprov Stickprov där H 0 inte verkar stämma! Studiepopulation där H 0 är sann! Sannolikhet? (p = probability)

Hypotesprövning med p-värde P-värdet är en sannolikhet som ligger mellan 0 och 1 P-värdet är sannolikheten att man får det resultat man fick (eller ännu mer extremt) om H0 är sann Mer extremt menar man ett värde som ligger längre ifrån nollhypotesen än det värde som man har fått fram Exempel: Undersökning av om det finns lika många kvinnor som män som läser medicinsk statistik vid Lunds universitet. H0: Andelen kvinnor = 50% H1: Andelen kvinnor 50% Undersökning av stickprovet gav oss att 61% som läser medicinsk statistik vid Lunds universitet är kvinnor. P-värdet kommer att ge oss sannolikheten att vi hittar ett stickprov minst 61% kvinnor eller mer givet att H0 är sann.

Hypotesprövning med p-värde Om p-värdet är tillräckligt litet så förkastas H0 Tillräckligt liten är en gräns som man sätter upp innan analysen utförs, signifikansnivån T.ex. 1%, 5% eller 10% Signifikansnivån + konfidensgraden = 1 Beräkning av p-värdet kan göras även om data inte är normalfördelat, men på olika sätt

Hypotesprövning med p-värde H0: Andelen kvinnor = 50% H1: Andelen kvinnor 50% P-värdet = 0.02 Signifikansnivå = 0.05 H0 kan förkastas eftersom 0.02 < 0.05

Hypotesprövning med KI Hypotesprövning kan även göras med KI Om H0 ligger inom KI:s gränser kan H0 vara det sanna värdet Vi kan inte förkasta H0 Om H0 ligger utanför KI:s gränser Förkasta H0 eftersom det då är låg sannolikhet att H0 är det sanna värdet Test med 95% KI = test med 5% signifikansgräns

Konstanten c=1.96 i formeln Medelvärdet c*se kommer från den standardiserade normalfördelningen vid konfidensgraden 95% För små stickprov blir KI för snäva, går inte upp till den önskade konfidensgraden Hur löser vi det?

T-fördelningen Vi löser det genom att använda t-fördelningen med n-1 frihetsgrader för att bestämma konstanten c - Ex. om vi har n=10 så blir antalet frihetsgrader 10-1=9 I en tabell kan man ta reda på att c=2.26

T-fördelningen En fördelning som mycket påminner om normalfördelningen men som för små stickprov gör att vi bättre uppnår den önskade konfidensgraden Vad är små stickprov?

Tumregel - stickprovsstorlek Antal oberoende observationer Tumregel n<20 Beräkna bara konfidensintervall om det sedan tidigare är känt att den variabel som studeras är normalfördelad. Använd t-fördelningen med n-1 frihetsgrader för att bestämma konstanten c n: 20-50 Beräkna konfidensintervall om mätvariabeln är någorlunda normalfördelad. Använd t-fördelningen med n-1 frihetsgrader för att bestämma konstanten c n>50 Konfidensintervall kan beräknas oavsett hur variabeln som undersöks är fördelad i studiepopulationen. Den standardiserade normalfördelningen ger fortfarande något för låga värden på c; skillnaden jämfört med korrekta värdet hämtat från t-fördelningen är dock försumbart

Parametriska och icke parametriska test Namnet parametriskt kommer från att det bygger på användandet av specifika parametrar, - normalfördelningens parametrar. Normalfördelningens parametrar är det som definierar fördelningen - medelvärdet och variansen.

Parametriska och icke parametriska test Test som inte bygger på parametrar kallas ICKE-PARAMETRISKA TEST eller FÖRDELNINGSFRIA TEST Dessa använder observationernas ranger i i stället för värdena Kommer mer om detta i nästa föreläsning!

Parametriska och icke parametriska test Parametriskt Icke-parametriskt Utförs på Värden Ranger Kräver Ja Nej Normalfördelning Skattar effekt Ja Nej med KI P-värde Ja Ja

Lästips - Beskrivande statistik Kapitel 3 - Normalfördelningen/Referensintervall Kapitel 5 - Hypoteser/p-värden/konfidensintervall Kapitel 6, 7, 9.1-9.2, 12.1