Beskrivande statistik Kapitel 19. (totalt 12 sidor) För att åskådliggöra insamlat material från en undersökning används mått, tabeller och diagram vid sammanställningen. Det är därför viktigt med en grundläggande förståelse för dessa tre verktyg. Detta häfte ger en kort introduktion av statistiska mått, tabeller och diagram. Grundläggande begrepp Population Individ Variabel Observation Population Definition: En samling individer som är av intresse i ett visst sammanhang. Populationen definieras oftast av det problem man ställs inför i en studie/undersökning. Vill man studera blodsockernivån hos insulinberoende diabetiker i Västragötalandslän så består populationen av samtliga insulinberoende diabetiker i västragötalandslän. Vill man ta reda på hur väl kalibrerade blodsockermätarna är på ett visst sjukhus så består populationen av samtliga blodsockermätare på det aktuella sjukhuset. Individ Populationen består av ena individer. I exemplen ovan är individerna diabetiker och blodsockermätare. Variabel Den egenskap man mäter på en individ. Diabetiker: längd, vikt, rökare, hba1c, ögonfärg mm. Blodsockermätare: fabrikat, kalibreringsstatus, inköpsdatum mm. Observation Ett observerat mätvärde på en variabel. Individ Variabel Observation Diabetiker Längd 174 cm Rökare Ja Blodsocker- Fabrikat Bm Mätare kalibreringsstatus kalibrerad Vi skall på kommande sidor titta närmare på variabler. 1
Kvalitativa och kvantitativa variabler Man skiljer på kvalitativa och kvantitativa variabler. Kvantitativa variabler är numeriska vilket innebär att räkneoperationer kan utföras. Kvalitativa variabler är icke-numeriska så räkneoperationer kan ej utföras. Kvantitativa variabler är diskreta eller kontinuerliga. Bilden nedan visar uppdelning (streckad linje pekar på ett exempel). V a r i a b e l Kvalitativ (icke-numerisk) Kvantitativ (numerisk) kön, yrke, ögonfärg och sjukdomstyp. Diskret Kan mätas exakt. Kontinuerlig Kan ej mätas exakt avrundade mätvärden. Antal födelsemärken på höger arm. Har vi två födelsemärken så har vi exakt två. Vi mäter kroppslängd med en måttstock som mäter i hela centimeter. Individer vars längd ligger i intervallet 173.5 till 174.5 cm får sin längd uppmätt till 174 cm. \ \ \ \ \ \ \ \ \ \ \ Längd(cm) 173.5 174.5 Mätning: Vår måttstock mäter i hela centimeter. Efter avläsning bestäms längden till 174 cm. Avrundad kroppslängd=174 cm Några fler exempel på kontinuerliga variabler. vikt ålder tid kroppstemperatur 2
Mätskalor (Levels of measurememt) En variabel tillhör en av fyra möjliga mätskalor. nominalskala kvalitativa (icke-numeriska) ordinalskala intervallskala kvantitativa (numeriska) kvotskala Nominalskala Den enda operation man kan göra vid nominalskala är gruppindelning. Man frågat 50 personer om de röker eller ej. Vi kan nu dela in dem i två grupper, rökare och icke-rökare. Andra exempel på nominalskala är kön och sjukdomstyp. Ordinalskala Variabler kan gruppindelas och rangordnas. Fem patienter som genomgått en behandling mot ryggsmärtor fick svara på följande fråga: Hur har ditt smärttillstånd påverkats av behandlingen? Har blivit bättre Ingen förändring Har blivit sämre Fem patienter svarade följande: bättre, sämre, ingen skillnad, bättre, ingen skillnad. Vi kan rangordna dessa svar: sämre, ingen skillnad, ingen skillnad, bättre, bättre. Intervallskala Man kan gruppindela, rangordna samt beräkna summor och differenser(+, -). Vi har två hinkar med vatten. Vattentemperaturen i första hinken är 50 celsiusgrader och den andra 100 celsiusgrader. Det är 50 grader varmare i hink två ( vi kan bilda differensen 100-50=50). Kan man säga att det är dubbelt så varmt i hink två? Nej det kan man inte. Om man sätter en fot i varje hink så kommer det säkert att kännas mer än dubbelt så varmt i hink två. Detta kan man se då vi mäter temperaturen i båda hinkarna med två termometrar, en som mäter i Celsius och en som mäter i Farenheight, resultat: Hink 1 Hink 2 50 C 100 C 122 F 212 F Det är dubbelt så många celsiusgrader men inte dubbelt så många Farenheight. Detta beror på att intervallskalan saknar absolut nollpunkt. Absolut nollpunkt innebär att noll motsvarar ingenting. Har jag noll kronor så har jag inga pengar. Noll grader Celsius är en temperatur då isen smälter. Kvotskala Vi kan gruppindela, rangordna, beräkna summor och differenser samt kvoter. Vi har mätt kroppslängden hos två personer. Den första personen var 155 cm och den andra var 194. Person två är 39 cm längre(194-155=39). Person två är 1.25 gånger längre (194/155=1.25). Kroppslängd har absolut nollpunkt ty 0 cm är inget avstånd. 3
Statistiska mått Statistiska mått används för att sammanfatta statistiska material. Det finns två typer av mått: central- och spridningsmått. Centralmått ger information om materialets mittpunkt medan spridningsmått ger information om observationernas utbredning runt mittpunkten. Nedan finns några tallinjer med inritade observationer som illustrerar central och spridningsmått. o o o o o o o o o A B A x x x x x x x x x 5 10 Material A och B har olika mittpunkter. A har mittpunken 5 och B 10. A och B har lika stor spridning runt sina mittpunkter. B o o o o o 0 5 10 x x x x x 0 5 10 Material A och B har samma mittpunkt(5). A har större spridning runt sin mittpunkt. Centralmått Typvärde (mode) Median (median) Medelvärde (mean) Spridningsmått Variationsvidd (range) Kvartilavstånd (inter-quartile range) Standardavvikelse (standard deviation) Typvärde (Krav på mätskala: kan användas vid alla fyra mätskalor) Den grupp som har störst frekvens. Man frågade 50 personer om de röker. 8 personer angav att de röker och 42 att de inte röker. Typvärdet blir icke-rökare. Median (Krav på mätskala: ordinalskala, intervallskala eller kvotskala) Värdet på den mittersta observationen då observationerna har rangordnats. Median kan användas på såväl ickenumeriska som numeriska variabler. Icke-numerisk variabel (ordinalskala) Man kan uttrycka medianen i ord. Fem patienter som genomgått en behandling mot ryggsmärtor fick svara på följande fråga: Hur har dina smärtor påverkats av behandlingen? Har blivit bättre Ingen förändring Har blivit sämre Patienterna svarade: bättre, sämre, ingen skillnad, bättre och ingen skillnad. Vi rangordnar dessa svar: sämre, ingen skillnad, ingen skillnad, bättre, bättre. Median = ingen skillnad median Numerisk variabel (intervall eller kvotskala) Värdet på medianen kan beräknas Uppmätta kroppslängder hos sex individer: 174 179 183 185 188 194 (jämnt antal observationer) median=(183+185) / 2 = 184 Vid ojämnt antal observationer blir medianen värdet på den mittersta observationen. 4
Medelvärde (Krav på mätskala: intervall- eller kvotskala) Summan av samtliga observationer delat med antalet observationer Uppmätta kroppslängder hos fem personer: 174 179 183 188 194 174+ 179+ 183+ 188+ 194 918 medelvärde = = = 183.6 5 5 Avvikande observationer En avvikande observation skiljer sig från övriga observationer. Betrakta följande uppmätta kroppslängder: 174 179 180 183 185 218. Kroppslängden 218 cm skiljer sig markant från de övriga. Hur påverkas median och medelvärde av dessa observationer? För att besvara frågan börjar vi med att beräkna median och medelvärde. 174 + 179 + 180 + 183 + 185 + 218 1119 medelvärde = = = 186.5 6 6 180 + 183 median = = 181.5 2 174 179 180 183 185 218 median medelvärde Medelvärdet är i detta fall en mindre lämplig mittpunkt. Detta beror på att medelvärdet är känsligt för avvikande observationer. Den 218 cm långe individen drar upp medelvärdet så mycket att fem av sex individer hamnar till vänster om medelvärdet. Medelvärdet kan vara ett mindre lämpligt centralmått då det finns avvikande observationer. 5
Variationsvidd (Krav på mätskala: intervall eller kvotskala) Avståndet mellan den största och den minsta observationen. Uppmätta kroppslängder hos 5 män: 172 193 185 188 182. Variationsvidd= 193-172 = 21! Kvartilavstånd (Krav på mätskala: intervall eller kvotskala) Det finns tre kvartiler vilka delar in observationsmaterialet i 4 lika stora delar. 25 % av observationerna finns till vänster om första kvartilen, 25% mellan första och andra kvartilen, 25% mellan andra och tredje kvartilen samt 25% av observationerna finns till höger om tredje kvartilen. Ni behöver ej känna till hur man beräknar kvartilerna det kan man göra med datorns hjälp. Kvartilavståndet är lika med avståndet mellan första och tredje kvartilen. Andra kvartilen är medianen. Kvartilavståndet 6
Standardavvikelse (Krav på mätskala: intervall eller kvotskala) Viktigt mått inom statistisk inferens. Standardavvikelsen är lika med roten ur variansen. Ex: Vi har tre observationer på en numerisk variabel: 2,3 och 7. Variansen beräknas på följande sätt: ',&,"!-&('-&(% ' (% (' (& ( ' & % &) '(%(&(* ' ' (% ' (& ' (* %+ %,,*(% $. / 01!(%-&(%#" 01! (%-'("! $ # " Standardavvikelsen fås genom att dra roten ur variansen. Vi beräknar här standardavvikelsen för urvalsundersökning(stickprov). Standardavvikelse = var iansen = 7 2,65 Av bilden ovan framgår att desto större avstånd mellan observationerna och medelvärdet, desto större blir variansen och standardavvikelsen. Man kan tolka standardavvikelsen som observationernas genomsnittliga avvikelse från medelvärdet. Exempel: Standardavvikelse för två datamaterial A och B. Båda materialen har samma medelvärde (20.9) vilket markerats i diagrammet nedan. Det framgår tydligt att material A har störst spridning runt sitt medelvärde. Standardavvikelsen för A blir 1,6 och för B 0,6. 7
Tabeller Tabeller används ofta vid sammanställning av statistiska material. Frekvenstabell används för att studera variabler var för sig och korstabell för att studera två variabler samtidigt (kräver parvisadata). Man har undersökt civilstånd hos patienter vid två avdelningar. Patient avdelning Variablerna avdelning och civilstånd är icke-numeriska. 1 1 Parvisadata innebär att varje patient har observationer 2 2 på två variabler, civilstånd och avdelning. 400 1 Frekvenstabell Nedan återfinns frekvenstabeller för variablerna civilstånd och avdelning. Det finns en kolumn för frekvens och en kolumn för relativ frekvens (percent). Vi ser att 210 patienter är gifta/sammanboende vilket utgör 52.5% av samtliga patienter. Avdelning Total Frequency Percent 210 52,5 82 20,5 53 13,3 55 13,8 400 100,0 1 2 Frequency Percent 199 49,8 201 50,3 400 100,0 Korstabell Men korstabell kan man studera två variabler samtidigt förutsatt att man har parvisadata. Nedan finns en korstabell för variablerna civilstånd och avdelning. Count Total * Avdelning Crosstabulation Avdelning 1 2 Total 112 98 210 41 41 82 32 21 53 14 41 55 199 201 400 Av de 210 gifta/ sammanboende patienterna finns 112 på avdelning ett och 98 på avdelning två. Vi har delat upp civilstånd på två avdelningar. 8
Diagram Diagram ger en översiktsbild av datamaterialets struktur. Vilken diagramtyp man använder beror på variablernas egenskaper. Kvalitativa(icke-numeriska) variabler Stapeldiagram Cirkeldiagram Kvantitativa(numeriska) variabler Stolpdiagram (vid diskret variabel) Histogram (vid kontinuerlig variabel) Lådagram Stapel- och cirkeldiagram. Dessa diagramtyper är vanliga vid icke-numeriska variabler. Variabeln är icke-numerisk. Nedan återfinns stapel och cirkeldiagram för variabeln civilstånd. Stapeldiagram 300 Total Frequency Percent 210 52,5 82 20,5 53 13,3 55 13,8 400 100,0 200 100 Cirkeldiagram Frequency 0 13,8% Alternativet skall ta upp 52.5% av cirkelns yta. Det vill säga lite mer än halva cirkeln. 13,2% 52,5% 20,5% 9
Grupperade staplar. Med ett grupperat stapeldiagram kan man redovisa civilstånd och avdelning i samma diagram. För varje civilståndsalternativ används två staplar. Vit stapel för avdelning 1 och grå för avdelning 2. Count Total * GRUPP Crosstabulation GRUPP 1 2 Total 112 98 210 41 41 82 32 21 53 14 41 55 199 201 400 120 100 80 60 40 Avdelning frekvens 20 0 1 2 Stolpdiagram Stolpdiagram används vid diskret variabel. Man har undersökt förekomsten av öroninflammation hos 95 barn under ett år. Resultatet följer av frekvenstabellen nedan: Valid 0 1 2 3 4 5 6 7 Total Öroninflammationer Cumulative Frequency Percent Percent 46 48,4 48,4 21 22,1 70,5 14 14,7 85,3 8 8,4 93,7 3 3,2 96,8 1 1,1 97,9 1 1,1 98,9 1 1,1 100,0 95 100,0 Variabeln antal öroninflammationer är numerisk och diskret. Av frekvenstabellen framgår att 46 av barnen inte hade någon öroninflammation. Av kolumnen cumulative percent framgår att 93.7 % av barnen hade 3 eller färre öroninflammationer $ % & ' I stolpdiagrammet använder man smala streck istället för staplar. Strecken indikerar att man antar exakta värden(ej avrundade). De flesta datorprogram ritar stapeldiagram istället för stolpdiagram. Kurslitteraturen använder stapeldiagram vid diskreta variabler. ' & % $ # " 10
Histogram Histogram används vid kontinuerliga variabler (avrundade mätvärden). Man har mätt Body-mass index (Bmi) hos fyrtio män i fyrtioårsåldern. Bmi viktkg längdmeter 2 Då vikt och längd är kontinuerliga variabler så är även Bmi en kontinuerlig variabel. De 40 männens Bmi värden (ordnade i storleksordning) blev: 19,03 20,17 21,54 21,98 22,18 22,19 23,00 23,26 23,54 23,88 24,00 24,02 24,55 24,72 24,95 25,12 25,41 25,91 26,19 26,28 26,44 26,95 26,99 27,27 27,37 27,54 27,80 28,37 28,75 28,90 29,01 29,52 29,52 29,70 29,75 30,03 30,91 33,11 35,13 38,90 Histogram 9 Inom intervallet 20...22 finns tre observationer. 20.17 21.54 21.98 Se gråmarkering i tabellen ovan. frekvens 8 7 6 5 4 3 Det finns inga observationer i intervallet 36...38 2 1 18 20 22 24 26 28 30 32 34 36 38 40 bmi Det skall inte finnas något mellanrum mellan staplarna. 11
Lådagram Lådagram kan användas både vid diskreta och kontinuerliga variabler. Här följer en kort förklaring över strukturen på ett lådagram. Lådagram för uppmätta Bmi värden hos fyrtio män. 50 Avvikande värden får en egen symbol. I detta fall är det Bmi värdet 38,90. 40 Största värdet som inte betraktras som avvikande (35,13) 30 3:e kvartilen 2:a kvartilen(median) Det finns inga avvikande värden i materialets nedre del då det saknas ringar. BMI 20 10 1:a kvartilen Minsta värdet som inte betraktras som avvikande (19,03) 12