Grundläggande biostatistik Jenny Selander jenny.selander@ki.se 524 800 29 Jenny Selander, Kvant. metoder, FHV T1 december 20111
Dagens föreläsning Beskrivande statistik kap 1 Samplingsfördelning kap 3 Jenny Selander, Kvant. metoder, FHV T1 december 2011 2
Beskrivande statistik
Organisera insamlade data I en undersökning samlas oftast ett stort antal uppgifter om deltagarna in och registreras i en forskningsdatabas Ålder Kön Mätvärden från provtagningar Uppgifter om behandlingsgrupp och behandlingsresultat Exponeringar Utfall Varje sådan uppgift som kan variera mellan deltagarna i undersökningen lagras som en egen variabel Jenny Selander, Kvant. metoder, FHV T1 december 2011 4
Variabel En egenskap eller storhet som kan anta olika värden Exempel: längd på alla oss i rummet, Excel Kolumner = variabler Rader = observationer (oftast antalet personer) ID Längd Vikt Kön Ålder FP89 165 40 K 37 KM77 180 69 K 25 KM83 177 81 M 54 FP32 188 79 M 34 FJ02 161 49 K 17 KL45 173 63 M 23 KL99 169 62 K 63 Jenny Selander, Kvant. metoder, FHV T1 december 2011 5
Variabel Kvantitativ variabel - Mätning av ett numeriskt värde Exempel: Ålder Längd Vikt Blodtryck Kvalitativ variabel En egenskap som inte karakteriseras av ett numeriskt värde Kön Jenny Selander, Kvant. metoder, FHV T1 december 2011 6
Kvantitativa variabler Diskreta Kan endast anta vissa värden (ofta heltal) Antal barn Antalet cigaretter per dag Kontinuerliga Kan i princip anta alla värden inom ett intervall Längd Vikt Blodtryck Jenny Selander, Kvant. metoder, FHV T1 december 2011 7
Variabel Kvantitativ Kvalitativ Diskret Kontinuerlig
Dikotoma variabler Variabler där endast två värden kan förekomma Ja/nej Sjuk/frisk Man/kvinna Det är även vanligt att man delar in variabler i två kategorier (dikotomiserar) även om en mer detaljerad uppdelning är möjlig Rökare/Icke rökare Arbetare/Tjänstemän Unga/Gamla Jenny Selander, Kvant. metoder, FHV T1 december 2011 9
Kategorisk variabel En variabel som delats in i olika kategorier Ålder: 25-34, 35-44, 45-54, 55-64 De numeriska gränser som används för en sådan kategorisering av en kvantitativ variabel bör helst vara biologisk eller medicinsk motiverade Om en sådan gräns saknas kan man istället använda sig av statistiska gränser Bl.a. percentiler (tas upp lite senare i föreläsningen) Jenny Selander, Kvant. metoder, FHV T1 december 2011 10
Variabler kan också grupperas utifrån den typ av skala de mäts på Nominalskala Ordinalskala Intervallskala Kvotskala
Nominalskala Finns två eller flera olika kategorier utan naturlig rangordning Exempel: Blodgrupp A, B, AB, O
Ordinalskala Har kategorerna en naturlig rangordning Upplevd smärta: 0=Obetydlig, 1=Måttlig, 2=Svår, 3=Outhärdlig. Fysisk rörlighet: 1= går utan svårigheter, 2= går med viss svårighet, 3=sängliggande)
Intervallskala I intervallskalan finns en numerisk innebörd som gör det meningsfullt att beräkna summor, differanser och medelvärden. Däremot finns ingen absolut nollpunkt och negativa värden kan därför förekomma. Temperatur i grader Celsius Om det är +10 grader i dag och det var +5 grader i går så kan man inte säga att de är dubbelt så varmt i dag.
Kvotskala Numerisk variabel där negativa värden inte kan förekomma, I stället finns det en absolut nollpunkt De flesta biologiska och medicinska variabler har absoluta nollpunkter Halter i blod Blodtryck Lungfunktion
Exempel på studie I en undersökning besvarade kvinnor i åldern 25-45 år frågor om sitt familjeliv. De 40 kvinnor som totalt deltog i studien gav följande information om antalet barn i familjen (se nästa sida) Jenny Selander, Kvant. metoder, FHV T1 december 2011 16
fortsättning Kvinna Idnr 1 0 2 1 3 3 4 5 5 0 6 0 7 2 8 1 9 0 10 2 11 2 12 2 13 3 14 4 15 1 16 3 17 3 18 3 19 4 20 0 Antal barn Kvinna Idnr 21 2 22 0 23 2 24 1 25 2 26 1 27 1 28 0 29 0 30 2 31 2 32 3 33 2 34 2 35 0 36 1 37 3 38 3 39 2 40 2 Antal barn Jenny Selander, Kvant. metoder, FHV T1 december 2011 17
Frekvenstabell Antal barn Absolut frekvens (Antal) Relativ frekvens (Procent) 0 9 22,5 9 1 7 17,5 16 2 13 32,5 29 3 8 20 37 4 2 5 39 5 1 2,5 40 Totalt 40 100 Kumulativ frekvens (Antal summerat) Relativ frekvens = Absolut frekvens/ totalt antal Kumulativ frekvens = Absolut frekvens summerad löpande Jenny Selander, Kvant. metoder, FHV T1 december 2011 18
Frekvenstabell Antal barn Absolut frekvens (Antal) Relativ frekvens (Procent) 0 9 22,5 9 1-2 20 50,0 29 >3 11 27,5 40 Totalt 40 100 Kumulativ frekvens (Antal summerat) Relativ frekvens = Absolut frekvens/ totalt antal Kumulativ frekvens = Absolut frekvens summerad löpande Jenny Selander, Kvant. metoder, FHV T1 december 2011 19
Histogram Antal barn Procent 0.1 = 10% 0.2 = 20% 0.3 = 30% Jenny Selander, Kvant. metoder, FHV T1 december 2011 20
Pajdiagram Antal barn Jenny Selander, Kvant. metoder, FHV T1 december 2011 21
Det finns många grafiska sätt att visa statistik DN 14 dec 2011 Jenny Selander, Kvant. metoder, FHV T1 december 2011 22
Sammanfattande mått Ofta är vi intresserade av att ge en sammanfattning av hela variabeln i ett enda tal Exempel: Medellängden i detta rum är 178cm Jenny Selander, Kvant. metoder, FHV T1 december 2011 23
Sammanfattande mått Aritmetiskt medelvärde Median Geometriskt medelvärde Jenny Selander, Kvant. metoder, FHV T1 december 2011 24
Aritmetiskt medelvärde Det som vi vanligtvis endast kallar medelvärde Brukar betecknas x, och uttalas x-bar Medelvärdet: x = n x = värden i en variabel t.ex. antal barn x x = summan av alla värden i variabeln t.ex. antal barn n = antalet observationer i variabeln I exemplet med antal barn (se nästa sida) blir det aritmetiska medelvärdet: (0+1+3+5+0+0+2+1+0+2+2+2+3+4+1+3+3+3+4+0+2+0+2+1+2+1+ 1+0+0+2+2+3+2+2+0+1+3+3+2+2)/40 = 70/40 =1,75 Kvinnorna i studien har i medeltal 1,75 barn Jenny Selander, Kvant. metoder, FHV T1 december 2011 25
fortsättning Kvinna Idnr 1 0 2 1 3 3 4 5 5 0 6 0 7 2 8 1 9 0 10 2 11 2 12 2 13 3 14 4 15 1 16 3 17 3 18 3 19 4 20 0 Antal barn Kvinna Idnr 21 2 22 0 23 2 24 1 25 2 26 1 27 1 28 0 29 0 30 2 31 2 32 3 33 2 34 2 35 0 36 1 37 3 38 3 39 2 40 2 Antal barn Jenny Selander, Kvant. metoder, FHV T1 december 2011 26
Median Ibland är medianen ett mer lämpligt mått. Medianen är den mittersta observationen. Först måsta man då rangordna (sortera) alla observationer från lägsta till högsta värdet. Om ingen observation är den mittersta (vid jämt antal observationer) summerar man de två mittersta värdena och dividerar med två. I exemplet med antalet barn blir medianen (se nästa sida): Jenny Selander, Kvant. metoder, FHV T1 december 2011 27
Idnr idnr Antal antal_~n barn 17. 23 2 18. 12 2 19. 25 2 20. 33 2 Median 1. 20 0 2. 9 0 3. 1 0 4. 5 0 5. 29 0 21. 31 2 22. 30 2 23. 7 2 24. 34 2 25. 39 2 6. 6 0 7. 22 0 8. 35 0 9. 28 0 10. 15 1 11. 8 1 12. 24 1 13. 26 1 14. 2 1 15. 36 1 16. 27 1 17. 23 2 18. 12 2 19. 25 2 20. 33 2 26. 21 2 27. 40 2 28. 11 2 29. 10 2 30. 37 3 31. 3 3 32. 38 3 33. 13 3 34. 18 3 35. 16 3 36. 17 3 37. 32 3 38. 14 4 39. 19 4 40. 4 5 Materialet är nu sorterat på antalet barn och inte på Idnr Medianen = (2+2)/2 = 2 21. 31 2 22. 30 2 23. 7 2 24. 34 2 Jenny Selander, Kvant. metoder, FHV T1 december 2011 28.
Aritmetiskt medelvärde och Median - jämförelse Det Aritmetiska medelvärdet är mer känsligt för extremvärden Exempel (9 observationer): 1, 1, 2, 2, 2, 3, 4, 4, 58 Aritmetiska medelvärdet= (1+1+2+2+2+3+4+4+58)/9 = 8,6 Medianen = det mittersta värdet = 2 Jenny Selander, Kvant. metoder, FHV T1 december 2011 29
Geometriskt medelvärde I likhet med medianvärdet är detta mått inte så känsligt för extremvärden Man logaritmerar först alla värden och summerar sedan ihop dessa och delar med antalet observationer, för att få ut det Geometriska medelvärdet (GM) sedan måste värdet antilogaritmeras log GM = GM = 10 (log x) n log GM Jenny Selander, Kvant. metoder, FHV T1 december 2011 30
Geometriska medelvärdet Exempel (9 observationer): 1, 1, 2, 2, 2, 3, 4, 4, 58 Aritmetiska medelvärdet= (1+1+2+2+2+3+4+4+58)/9 = 8,6 Medianen = det mittersta värdet = 2 Geometriska medelvärdet (GM) loggm=(0+0+0,3+0,3+0,3+0,5+0,6+0,6+1,76)/9 = 4,36/9= 0,48 10 0,48 = 3,0 Observationer Logartimerade värden 1 0 1 0 2 0,3 2 0,3 2 0,3 3 0,5 4 0,6 4 0,6 58 1,76 Jenny Selander, Kvant. metoder, FHV T1 december 2011 31
Variationsmått Medelvärden och medianen beskriver variabeln i ett enda tal, men ibland är vi intresserade av att beskriva hur väl samlade alla observationerna är kring dessa tal, d.v.s. spridningen Jenny Selander, Kvant. metoder, FHV T1 december 2011 32
Variationsmått Variationsvidden Percentiler Variansen Standardavvikelsen Jenny Selander, Kvant. metoder, FHV T1 december 2011 33
Variationsvidden Genom att beräkna skillnaden mellan det högsta och lägsta värdet får vi variansvidden Ifrån exemplet gällande antal barn ( se nästa sida) får vi: 5-0=5 Variationsvidden är enkel att beräkna, men är inte så informativ. Jenny Selander, Kvant. metoder, FHV T1 december 2011 34
Idnr idnr Antal antal_~n barn 17. 23 2 18. 12 2 19. 25 2 20. 33 2 1. 20 0 2. 9 0 3. 1 0 4. 5 0 5. 29 0 21. 31 2 22. 30 2 23. 7 2 24. 34 2 25. 39 2 6. 6 0 7. 22 0 8. 35 0 9. 28 0 10. 15 1 11. 8 1 12. 24 1 13. 26 1 14. 2 1 15. 36 1 16. 27 1 17. 23 2 18. 12 2 19. 25 2 20. 33 2 26. 21 2 27. 40 2 28. 11 2 29. 10 2 30. 37 3 31. 3 3 32. 38 3 33. 13 3 34. 18 3 35. 16 3 36. 17 3 37. 32 3 38. 14 4 39. 19 4 40. 4 5 Materialet är sorterat på antalet barn 21. 31 2 22. 30 2 23. 7 2 24. 34 2 Jenny Selander, Kvant. metoder, FHV T1 december 2011 35.
Percentiler Vi hittar percentiler på liknande sätt som vi hittar medianen Medianen = 50:e percentilen Variabeln måste sorteras och man startar med minsta värdet Exempel, antal barn (40 kvinnor) 0000000001111111222222222222233333333445 10:e 25:e 50:e 75:e 90:e 10:e percentilen är det som avgränsar 10% av fördelningen nedåt 50:e percentilen är den mittersta observationen (medianen) 90:e percentilen är det som avgränsar 90% av fördelningen nedåt 25:e percentilen är det som avgränsar 25% av fördelningen nedåt 75:e percentilen är det som avgränsar 75% av fördelningen nedåt Jenny Selander, Kvant. metoder, FHV T1 december 2011 36
Percentiler räkna ut percentiler BMI för n=11 män är ordnat efter storlek nedan: Percentiler räknas ut genom: (n 1) q 100 + 1 q= den percentil man vill räkna ut tex 25:e percentilen: 25:e percentilen räknas då ut genom: (n 1) 25 100 + 1 = (11 1) 25 100 + 1 = 2,5 + 1 = 3,5 det betyder att man utgår från observation nr 3=24 och lägger till 50% (0,5) av avståndet till variabelvärde 4 =25 24+0,5x(25-24)=24,5 90:e percentilen räknas ut genom: (n 1) 90 + 1 = (11 1) 90 + 1 = 10 100 100 Observation 10 motsvarar BMI 29, ingen ytterligare uträkning behövs Jenny Selander, Kvant. metoder, FHV T1 december 2011 37
Percentiler Percentiler används ofta för att dela in variabler i kategorier Man skall alltid fråga sig hur en studieansvarig valt att dela in sina kategorier, om man inte valt att dela in sina variabler i kategorier utifrån percentiler så måste man tydligt förklara varför man valt de gränser man gjort T.ex BMI 30 är gränsen för fetma 55dBA är riktvärdet för trafikbuller vid bostadens fasad Jenny Selander, Kvant. metoder, FHV T1 december 2011 38
Variansen Baseras på information från samtliga observationer Beskriver hur väl samlade observationerna är kring medelvärdet Variansen = (x x)2 n Stickprovets varians = (x x)2 n 1 Vi beräknar skillnaden mellan varje värde och medelvärdet i kvadrat och summerar de kvadrerade skillnaderna för alla observationer. Summan delas sedan med det totala antalet observationer (n) minus 1. Jenny Selander, Kvant. metoder, FHV T1 december 2011 39
Vad blir variansen? - Samma längd på alla personer Id 1 177 2 177 3 177 4 177 5 177 6 177 7 177 8 177 9 177 10 177 Längd i cm (x) Först räknar vi ut medelvärdet: Medelvärdet: x = x = 177 10 10 Variansen (s 2 ) är: s 2 = x x ² n 1 n x = 177 cm = 0 ² 10 1 = 0 9 = 0 Variansen är 0, vilket vi ser i datat Jenny Selander, Kvant. metoder, FHV T1 december 2011 40
Vad blir variansen? - Olika längd på personerna Id Längd i cm (x) x-x (x-x) 2 Först räknar vi ut medelvärdet: 1 167-9,2 84,64 2 177 0,8 0,64 Medelvärdet: x = n x 3 179 2,8 7,84 4 187 10,8 116,64 x = 167+177+179+187+169+172+179+180+175+177 10 = 176,2 cm 5 169-7,2 51,84 6 172-4,2 17,64 Variansen (s 2 ) är: 7 179 2,8 7,84 8 180 3,8 14,44 s 2 = x x ² n 1 = 303,6 = 303,6 10 1 9 = 33,73 9 175-1,2 1.44 10 177 0,8 0,64 Variansen är 33,73 Totalt 0 303,6 Jenny Selander, Kvant. metoder, FHV T1 december 2011 41
Standardavvikelsen Standard avvikelsen (s) får vi genom att beräkna kvadratroten ur variansen (s 2 ) s = s 2 I föregående exempel så blir standardavvikelsen s = 33,73 = 5.8 cm Jenny Selander, Kvant. metoder, FHV T1 december 2011 42
Population stickprov (urval) Oftast vill vi veta något om risken eller förekomsten av något i en population Tex Sveriges befolkning Medelålders män i Stockholms län Grundskolebarn i Norrland En population = en grupp som har någon definerad egenskap gemensamt Det går oftast inte att undersöka alla i en population, därför väljer man ut stickprov Väljer oftast slumpvis ut personer från populationen man vill undersöka Jenny Selander, Kvant. metoder, FHV T1 december 2011 43
Övningsuppgift Skapa en egen studie genom ett stickprov ur en definerad population Definera Populationen Stickprovet Dina variabler Dina observationer Genomför följande beräkningar på stickprovet: Frekvenstabell Aritmetisk medelvärde Geometriskt medelvärde Median Variationsvidden Percentiler (10:e, 25:e, 75:e och 90:e) Variansen Standardavvikelsen
Statistisk inferens
Statistisk inferens Handlar om hur vi kan använda data från ett stickprov för att dra slutsatser om egenskaper för en hel population Jenny Selander, Kvant. metoder, FHV T1 december 2011 46
Stickprov Väljer oftast slumpvis ut personer som representerar populationen man vill undersöka Om man beräknar medelvärdet för stickprovspopulationen, tex 400 personer slumpvis utvalda vuxna personer i Järfälla kommun, för att titta på vikten hos den vuxna befolkningen i länet Det aritmetiska medelvärdet blir i detta stickprov 71kg Om vi nu skulle välja ett nytt lika stort slumpvis urval ur samma population, så skulle sannorlikt medelvärdet ändras något Slumpen gör att medelvärderna vid olika stickprov på samma population kommer att skilja sig åt. Om vi upprepar stickprovproceduren många gånger får vi ett flertal olika medelvärden, Tillsammans bildar dessa medelvärden en fördelning som brukar kallas samplingsfördelningen av medelvärden Jenny Selander, Kvant. metoder, FHV T1 december 2011 47
Samplingsfördelning Medelvärdet för samplingsfördelningen = populationsmedelvärdet Summera alla medelvärden från alla stickprov, dela med antalet stickprov som genomförts så får du medelvärdet för samplingsfördelningen. Samplingsfördelninens varians = (populationsvariansen, σ² / stickprovsstorleken, n) σ²/n Samplingsfördelningens standardavvikelse är kvadratroten ur samplingsfördelningens varians dividerat med stickprovsstorleken σ2 n = σ n Jenny Selander, Kvant. metoder, FHV T1 december 2011 48
Population - stickprov Som regel är populationens varians inte känd, man använder sig då av stickprovets varians
Läs kapitel 1 och 3 i Grunderna i biostatistik samt gör övningsuppgifterna Jenny Selander, Kvant. metoder, FHV T1 december 2011 50