Biostatistik: Begrepp & verktyg Kvantitativa Metoder II: teori och tillämpning Lovisa.Syden@ki.se
BIOSTATISTIK att hantera slumpmässiga variationer! BIO datat handlar om levande saker STATISTIK beskriva slumpmässiga variationer modellera slumpmässiga variationer dra slutsatser från observerade data förutsäga framtida utfall Lovisa Sydén 30 januari, 2013 2
Varför beskrivande statistik och olika mått/diagram/skalor? Beskriver stickprovet, gruppen/variabeln man vill undersöka Organiserar och sammanfattar när man samlar in, hanterar och presenterar data Många mätvärden varierar mycket beroende på omständigheter (t.ex. blodtryck) Tydliggör de egna resultaten Ökar förståelsen för annan presenterad forskning Lovisa Sydén 30 januari, 2013 3
Innehåll Att definiera, sammanfatta och presentera data Typ av data/variabel Mätskala Tabeller och diagram Sammanfattande mått (central- och spridningsmått) Medelvärde, median och typvärden Fördelningar Varians, standardavvikelse och standardfel Lovisa Sydén 30 januari, 2013 4
Vad vill vi mäta? Ålder Antal Längd, vikt, blodtryck, temperatur Erfarenheter Åsikter Attityder Känslor Välbefinnande Upplevelser Smärta, besvär av olika slag Livskvalitet Rökvanor, motion, alkoholvanor, matvanor Lovisa Sydén 30 januari, 2013 5
Variabel En egenskap som kan variera mellan olika individer i populationen En variabel kan vara dikotom, beroende, oberoende, kvalitativ, kvantitativ (kontinuerlig eller diskret) En kvalitativ variabel är icke-numerisk t.ex. kön, inställning till cancervård Lovisa Sydén 30 januari, 2013 6
Typ av variabel/data Lovisa Sydén 30 januari, 2013 7
Datanivåer/skaltyper Nominalskala: data klassificeras i kategorier t.ex. kön, färg (proportioner, antal) Ordinalskala: data klassificeras samt rangordnas inbördes t.ex. betyg, placering (proportioner, antal) Intervallskala: definierat avstånd mellan varje mått (ekvidistans), saknar 0-punkt t.ex. temperatur, poäng på intelligenstest (addition och subtraktion) Kvotskala: både avstånd och förhållandet mellan två mått definieras, har en 0-punkt t.ex. längd (division och multiplikation) Lovisa Sydén 30 januari, 2013 8
Datanivåer Lovisa Sydén 30 januari, 2013 9
Kodning av data För att underlätta statistisk bearbetning av data brukar man koda vissa egenskaper med siffror T.ex. kön där 1 = man och 2 = kvinna Koda uteblivna svar (missing data) med siffror (p.g.a att vissa statistikprogram ej tillåter uteblivna värden) Lovisa Sydén 30 januari, 2013 10
1) Kvantitativ/kvalitativ studie? 2) Vad har du för typ av data/ variabler och datanivå? Lovisa Sydén 30 januari, 2013 11
Sammanfattande mått/centralmått Lovisa Sydén 30 januari, 2013 12
Sammanfattande mått Median, Md ( mittenvärdet som är bra att använda om extrema värden förekommer i data materialet) Medelvärde, x (genomsnittligt värde) Typvärde, T ( vanligaste värdet ) Lovisa Sydén 30 januari, 2013 13
Medelvärde Egenskaper för medelvärde: 1. All data på datanivån intervalldata eller kvotdata har ett medelvärde 2. Alla värden inkluderas vid beräkning av medelvärdet 3. En datamängd har endast ett medelvärde, medelvärdet är unikt 4. Medelvärdet kan användas för att jämföra flera populationer 5. Summan av alla avvikelser från medelvärdet är alltid 0 Lovisa Sydén 30 januari, 2013 14
Medelvärde / median Medianen kan vara ett lämpligt mått om observationerna har en sned fördelning med många höga eller låga värden I motsats till medelvärdet påverkas inte medianen av extremvärden En variabel där medianvärdet är att föredra är inkomsten i ett hushåll, som vanligen karakteriseras av att många hushåll har låga eller medelhöga inkomster samt ett fåtal har höga eller mycket höga inkomster (medelvärde kan i detta fall vara missvisande) Medelvärde är bättre att använda när man har en totalpopulation Lovisa Sydén 30 januari, 2013 15
Sammanfattande mått: exempel 1 1 3 4 7 7 8 10 21 21 21 28 Beräkna följande utifrån exemplet ovan! Median, Md : Medelvärde, : Typvärde, T: x Lovisa Sydén 30 januari, 2013 16
Spridningsmått/Variansmått Varför? Därför att det mesta (allt) varierar! Variationsvidd (eng. Range) skillnaden mellan högsta och lägsta värdet Percentiler, kvartiler Varians och standardavvikelse Lovisa Sydén 30 januari, 2013 17
Variationsvidd= R Avståndet mellan största och minsta värdet Ju större spridning på X-axeln desto mer heterogen grupp Ju mindre spridning på X-axeln desto mer homogen grupp Lovisa Sydén 30 januari, 2013 18
Kvartilavstånd Lovisa Sydén 30 januari, 2013 19
Varians s 2 Varians baseras på avvikelser från medelvärdet och är medelvärdet av avvikelserna i kvadrat Varians beräknas på avvikelser i kvadrat eftersom vi då eliminerar negativa nummer Varians och standardavvikelse är de mest använda måtten för spridning Varians beräknat från en population är den verkliga variansen medan variansen beräknat från ett urval är endast ett estimat av variansen i populationen Lovisa Sydén 30 januari, 2013 20
Standardavvikelse Standardavvikelse (SD) är ett statistiskt mått på hur mycket mätvärdena i en population avviker från medelvärdet Standardavvikelsen är kvadratroten av variansen: =SD (=S) Om de olika värdena ligger samlade nära medelvärdet blir standardavvikelsen låg, medan värden som är spridda långt över och under medelvärdet ger en hög standardavvikelse x Lovisa Sydén 30 januari, 2013 21
OBS! Eftersom avvikelsen från medelvärdet kvadreras (för variansen, s 2 ) blir även standardavvikelsen känslig för enstaka värden som ligger särskilt långt från medelvärdet (extremvärden) Lovisa Sydén 30 januari, 2013 22
Symboler Population Urval µ (medelvärde) x (medelvärde) 2 (varians) (varians) 2 (standardavvikelse) N = antal SD = = (S) (standardavvikelse) n= antal Lovisa Sydén 30 januari, 2013 23
Urvalsfördelning Lovisa Sydén 30 januari, 2013 24
Normalfördelning Exempel! Lovisa Sydén 30 januari, 2013 25
Standardfel Standardfel (eng: standard error) är urvalfördelningens standardavvikelse Standardfel påverkas av standardavvikelsen och urvalets storlek: en större standardavvikelse ger ett större standardfel och ett större urval reducerar standardfelet Lovisa Sydén 30 januari, 2013 26
Variabler / Mått Lovisa Sydén 30 januari, 2013 27
Att presentera data Lovisa Sydén 30 januari, 2013 28
Deskriptiv (beskrivande) data Med hjälp av deskriptiv statistik kan man sammanfatta och presentera sitt material! Den viktigaste informationen plockas ut och presenteras på ett överskådligt sätt Deskriptiv statistik omfattar olika slags tabeller och grafer samt beräkning av vissa karakteristiska tal Lovisa Sydén 30 januari, 2013 29
Frekvensfördelning Frekvensfördelning är ett sätt inom den beskrivande statistiken att organisera data Frekvensfördelning innebär en gruppering av data i klasser/grupper och att man visar antalet observationer i varje klass/grupp En frekvensfördelning görs ofta i form av en tabell där klasser/grupper ställs upp på vänster sida och antalet observationer skrivs in till höger om klasserna Lovisa Sydén 30 januari, 2013 30
Klassindela Görs vid stora material, stor spännvidd bland observationer och kontinuerliga variabler Syfte och bearbetning styr antal klasser Välj gärna samma klassbredd Lovisa Sydén 30 januari, 2013 31
Steg för att klassindela data: I. Hur många klasser/grupper ska datat delas in i? II. Hur stora intervall ska det vara mellan klasserna/grupperna? Mellan alla klasser/grupper ska det (om möjligt) vara lika stora intervall och den första klassen/gruppen bör täcka in det lägsta värdet och den sista klassen/gruppen det högsta värdet i rådatat I. Hur ska klass/gruppgränser sättas? Gränser ska vara tydliga så att en observation endast kan kategoriseras in i en grupp/klass. Överlappande och otydliga gränser mellan grupper/klasser ska undvikas I. Sätt in varje observation/individ i rätt klass/grupp och beräkna antal (frekvens) i varje klass/grupp Lovisa Sydén 30 januari, 2013 32
Tabeller Tabeller ska vara tydliga, beskrivande och presentera data på ett sammanfattande vis! En frekvensfördelningstabell kan användas för vilken mätskala som helst Tabeller ska kunna läsas fristående med namn (Tabell 1. XX), kort beskrivande text och referens ovanför tabellen Det ska tydligt framgå vad man vill visa med tabellen i rader och kolumner, tex kön/grupp, frekvens, mätvärde, konfidensintervall, p-värde osv Ha gärna flera tydliga tabeller än en stor rörig! Lovisa Sydén 30 januari, 2013 33
Frekvenstabell Lovisa Sydén 30 januari, 2013 34
Tabell Lovisa Sydén 30 januari, 2013 35
Diagram Frekvensfördelning kan presenteras grafiskt i t.ex.: linjediagram stolpdiagram stapeldiagram (diskret data) cirkeldiagram histogram (kontinuerlig data) tematiska kartor Lovisa Sydén 30 januari, 2013 36
Diagram/figurer Diagramtyp ska stämma överens med vilken sorts variabel som presenteras och med vad man avser att påvisa! Axlarna bör visa nollpunkten eller vara kapade med tydliga skalor och visa vad de mäter! Diagram skall vara fristående med namn (Figur 1.), kort beskrivande text och referens under figuren! Figurer/diagram bör kompletteras med exakta siffrorna i löpande text Lovisa Sydén 30 januari, 2013 37
Linjediagram Diagram används ofta vid beskrivning av någon kvalitativ variabel över tid Om antalet tänkbara värden för variabeln på x-axeln är många Linjediagram kräver att variabeln på x-axeln är kvantitativ, ett exempel på detta är tid Lovisa Sydén 30 januari, 2013 38
Linjediagram Lovisa Sydén 30 januari, 2013 39
Stolpdiagram Lovisa Sydén 30 januari, 2013 40
Stapeldiagram (liggande) Könsföredning Öppenvård Kungälvs sjukhus Södra Älvsborgs Sjukhus NU-sjukvården Skaraborgs Sjukhus SU-Beroendevården Man Kvinna SU-Neuropsykiatrin SU-Östra sjukhuset SU-Sahlgrenska SU-Mölndal 0% 20% 40% 60% 80% 100% Lovisa Sydén 30 januari, 2013 41
Stapeldiagram (grupperad) Lovisa Sydén 30 januari, 2013 42
Cirkeldiagram Lovisa Sydén 30 januari, 2013 43
Histogram Vid kontinuerliga variabler och en diskret variabel (som kan anta många olika värden, t.ex. blodtryck) använder man en variant av stapeldiagram som kallas histogram I histogrammet klassindelas variabeln och sätts på x- axeln, antal eller frekvens sätts på y- axeln Staplarna har inget mellanrum mellan sig, bredd på staplarna = klassbredd Ytan av varje stapel är proportionellt mot antal eller frekvens Lovisa Sydén 30 januari, 2013 44
Histogram Lovisa Sydén 30 januari, 2013 45
Vilket diagram ska jag välja? Lovisa Sydén 30 januari, 2013 46
Prickkartor och frekvenskartor Frekvenskartor kan konstrueras för klassvariabler Lovisa Sydén 30 januari, 2013 47
Frekvenskarta kombinerat med (liggande) stapeldiagram! Lovisa Sydén 30 januari, 2013 48
Tips! Tabeller och diagram hjälper dig att strukturera ditt arbete och se skillnader/likheter osv i dina resultat under skrivprocessen! Lovisa Sydén 30 januari, 2013 49
Vilka resultat/vad kan du förtydliga i din uppsats genom att presentera data/resultat i tabeller eller figurer? Fundera på det ett tag! Lovisa Sydén 30 januari, 2013 50
Litteraturtips! Grundläggande epidemiologi R Beaglehole, R Bonita & T Kjellström Grunderna i Biostatistik Niklas Hammar Statistiska metoder för beteendevetenskap och medicin Dariush Araï Lovisa Sydén 30 januari, 2013 51