Deskriptiv statistik Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Deskriptiv statistik Tabeller Figurer Sammanfattande mått Vilken typ som används beror på utrymme och vilken typ av data som insamlats 2
Grundläggande begrepp Individer Undersökningsobjekten i en studie (ex råttor, plasmaprover, patienter) Population Alla individer av en viss typ bildar en population (ex. Alla apotekarstudenter i Sverige) Variabel Skala Den egenskap som studeras hos individerna (vikt, rökvanor, kön, etc.) Den måttstock som variabeln mäts med 3
Olika typer av variabler Variabel Kvalitativ eller kvantitativ Kvalitativa variabler: Icke-numeriska (oftast) observationer som innebär en klassificering. Ex. blodgrupp, sjuk/frisk. Kvantitativa variabler: Numeriska observationer. Ex. blodtryck, tumörstorlek. 4
Olika typer av variabler Variabel Kvalitativ eller kvantitativ Nominal Ordinal Nominala variabler kan ej rangordnas (ex. nationalitet) Ordinala variabler kan rangordnas (ex. enkätsvar av typen ofta/sällan/aldrig) 5
Olika typer av variabler Variabel Kvalitativ eller kvantitativ Dikotom Nominal Trikotom Ordinal Polytom Dikotoma variabler kan bara anta två värden (ex. kön) Trikotoma variabler kan bara anta tre värden Ploytoma variabler kan bara anta ett visst antal värden 6
Olika typer av variabler Variabel Kvalitativ eller kvantitativ Diskreta variabler kan enbart anta vissa värden inom sitt variationsområde (ex. antal cigaretter/dag, tumörer) Diskret Kontinuerlig Kontinuerliga variabler kan anta vilka värden som helst inom sitt variationsområde (ex. vikt, förmögenhet) 7
Exempel Olika typer av variabler Ange variabeltyp för de fyra kolumnerna Patient nr Koncentration (mg/l) Kön Värk efter 2 timmar? 1 330 Man Nej 2 240 Man Ja 3 390 Kvinna Nej 4 290 Kvinna Ja 5 140 Man Ja Patient nr? Diskret Koncentration? Kontinuerlig Kön? Nominal dikotom Värk efter 2 timmar? Ordinal dikotom 8
Mätskalor Vid en mätning av något slag, får vi information om det vi mäter eller iakttar. Olika typer av mätresultat/iakttagelser innehåller olika typ av information. Exempel Hypertonipatienter kan efter en tids läkemedelsbehandling klassificeras som förbättrad, oförändrad eller försämrad. Kvalitativ variabel Eller så kan den numeriska skillnaden i blodtryck före och efter läkemedelsbehandlingen användas för att mäta läkemedelseffekten. Kvantitativ variabel Mätresultatens olika typ av information mäts med olika skalor! 9
Mätskalor för kvalitativa variabler Nominalskala Den lägsta nivån. En klassificering utan rangordning. Ex. kön, hårfärg. Ordinalskala En klassificering med inbördes rangordning. Man kan dock ej säga något om storleken på skillnaden mellan olika individer. Ex. grad av biverkan eller läkemedelseffekt. 10
Mätskalor för kvantitativa variabler Intervallskala Observationerna är inte bara rangordnade, utan skillnader mellan individer kan jämföras, och även adderas och subtraheras. Ex. temperatur i grader Celsius Kvotskala Den högsta skalnivån. Med absolut nollpunkt; alla räknesätt kan användas. Ex. ålder, blodkoncentration, temperatur i grader Kelvin 11
Antal individer Deskriptiv statistik för kvalitativa variabler Tabeller Rökare F d rökare Aldrig rökt Yrsel 30 20 23 Ej yrsel 97 73 81 Figurer/bilder (Ex. Stolpdiagram, cirkeldiagram) 40 30 20 10 0 Rökare F d rökare Icke-rökare Yrsel Ej yrsel Sammanfattande mått: Frekvens, typvärde Rökare 12
Antal (frekvens) 0 2 4 6 8 Deskriptiv statistik för kvantitativa variabler Tabeller Vikt (kg) 50-60 61-70 71-80 81-90 Frekvens 3 7 8 2 Figurer/bilder (boxplottar, histogram) 55 65 75 85 Vikt (kg) 50 60 70 80 90 Vikt (kg) Sammanfattande mått: Medelvärde, median, varians, variationsvidd, standardavvikelse 13
Sammanfattande mått Centrallägesmått Parametriska (aritmetiskt respektive geometriskt medelvärde) Icke-parametriska (median, typvärde) Spridningsmått Parametriska (varians, absolut och relativ standardavvikelse) Icke-parametriska (variationsvidd, kvartiler och percentiler) 14
Centrallägesmått Parametriska Aritmetiskt medelvärde Det vanliga medelvärdet Bra när värdena ligger väl samlade x = x 1 + x 2 + + x n n = n i=1 n x i 15
Centrallägesmått Parametriska Geometiskt medelvärde Bra när spridningen är stor och/eller skev GM = 10 log x 1+log x 2 + +log x n n GM = 10 n i=1 n log x i 16
Exempel Medelvärde Beräkna det aritmetiska och det geometriska medelvärdet av vikterna Individ Vikt (kg) Individ Vikt (kg) 1 61.6 x 1 11 56.2 x 11 2 70.3 x 2 12 60.1 x 12 3 61.1 x 3 13 60.5 x 13 4 89.9 5 83.8 x 4 x 5 14 62.3 15 71.3 x 14 x 15 n = 20 6 74.5 x 6 16 67.8 x 16 7 74.6 x 7 17 77.8 x 17 8 72.5 x 8 18 72.7 x 18 9 77.5 x 9 19 57.8 x 19 10 56.8 x 10 20 67.8 x 20 17
Exempel Medelvärde Beräkna det aritmetiska medelvärdet av vikterna x = x 1 + x 2 + + x n n = n i=1 n x i x = 61.6 + 70.3 + 61.1 + + 72.7 + 57.8 + 67.8 20 x = 68.8 [kg] 18
Exempel Medelvärde Beräkna det geometiska medelvärdet av vikterna GM = 10 log x 1+log x 2 + +log x n n = 10 n i=1 n log x i log 61.6 + log 70.3 + + log 57.8 + log 67.8 20 = 1.83 GM = 10 1.83 GM = 68.3 [kg] 19
Centrallägesmått Icke-parametriska Median Det mittersta, rangordnade, värdet Vid jämnt antal värden, medelvärdet av de två mittersta värdena Bra när spridningen är skev Typvärde Det vanligaste förekommande värdet i distributionen 20
Exempel Median och typvärde Beräkna medianen och typvärdet Individ Vikt (kg) 1 61.6 2 70.3 3 61.1 4 89.9 5 83.8 6 74.5 7 74.6 8 72.5 9 77.5 10 56.8 Individ Vikt (kg) 7 11 56.2 1 11 12 60.1 4 6 13 60.5 5 20 14 62.3 8 19 15 71.3 12 15 16 67.8 9 16 17 77.8 18 13 18 72.7 14 17 19 57.8 3 2 20 67.8 10
Exempel Median och typvärde Beräkna medianen och typvärdet Individ Vikt (kg) 11 56.2 10 56.8 19 57.8 12 60.1 13 60.5 3 61.1 1 61.6 14 62.3 16 67.8 20 67.8 Individ Vikt (kg) 1 2 70.3 11 2 15 71.3 12 3 8 72.5 13 4 18 72.7 14 5 6 74.5 15 6 7 74.6 16 7 9 77.5 17 8 17 77.8 18 9 5 83.8 19 10 4 89.9 20 Medianen: nr 10 och nr 11 är i mitten x = 67.8 + 70.3 2 x = 69.05 69.1 [kg] Typvärdet: nr 9 och nr 10 har samma värde
Antal (frekvens) 0 2 4 6 8 Exempel Centrallägesmått Median (69.1 kg) Medelvärde (68.8 kg) 50 60 70 80 90 Vikt (kg) 23
Antal (frekvens) Exempel Centrallägesmått 40 Median Medelvärde 30 20 10 0 0 20 40 60 80 100 120 140 160 180 Restid (min) 24
Spridningsmått Parametriska Varians Mäter spridningen på den kvadrerade observationskalan σ 2 = 1 n n i=1 x i μ 2 σ 2 är populationsvariansen μ är populationsmedelvärdet 25
Population Stickprovstagning Målgrupp om vilka vi vill kunna uttala oss om Studiepopulation De i målgruppen som är möjliga att studera Stickprov De som faktiskt ingår i studien 26
Mängden information Frihetsgrader Om vi kan göra mätningar av en variabel på alla individer i populationen så har vi tillgång till all information om variabeln. Om vi gör mätningar av variabeln på ett stickprov individer så ger dessa mätningar mindre information om variabeln. - Ett stort stickprov innehåller mycket mer information än ett litet stickprov. 27
Mängden information Frihetsgrader Mängden (oberoende-) information tillgänglig för beräkning av en parameter kallas för antalet frihetsgrader. När parametrarna beräknas utifrån ett stickprov så måste vi ta hänsyn till att vi inte har tillgång till all information om variabeln. 28
Frihetsgrader Degrees of freedom Exempel: För antal observationer (n): df = n 1 För kvalitativa data (χ 2 -test): df = antal kategorier 1 antal utfall 1 29
Spridningsmått Parametriska Stickprovsarians Mäter spridningen i ett stickprov Används som skattning av spridning i allmänpopulationen s 2 = 1 n 1 n i=1 x i x 2 s 2 är stickprovsvariansen x är stickprovsmedelvärdet 30
Exempel Stickprovsvarians s 2 = 1 n 1 n i=1 x i x 2 Beräkna stickprovsvariansen av vikterna Individ Vikt (kg) Individ Vikt (kg) n = 20 1 61.6 x 1 11 56.2 x 11 2 70.3 x 2 12 60.1 x 12 x = 68.8 3 61.1 x 3 13 60.5 x 13 4 89.9 x 4 14 62.3 x 14 5 83.8 x 5 15 71.3 x 15 6 74.5 x 6 16 67.8 x 16 7 74.6 x 7 17 77.8 x 17 8 72.5 x 8 18 72.7 x 18 9 77.5 x 9 19 57.8 x 19 10 56.8 x 10 20 67.8 x 20 31
Exempel Stickprovsvarians s 2 = 1 n 1 n i=1 x i x 2 Beräkna stickprovsvariansen av vikterna Individ Vikt (kg) x i 68. 8 2 Individ Vikt (kg) x i 68. 8 2 1 61.6 7.2 2 11 56.2 12.6 2 2 70.3 1.5 2 12 60.1 8.7 2 3 61.1 7.7 2 13 60.5 8.3 2 4 89.9 21.1 2 14 62.3 6.5 2 5 83.8 15.0 2 15 71.3 2.5 2 6 74.5 5.7 2 16 67.8 1.0 2 7 74.6 5.8 2 17 77.8 9.0 2 8 72.5 3.7 2 18 72.7 3.9 2 9 77.5 8.7 2 19 57.8 11.0 2 10 56.8 12.0 2 20 67.8 1.0 2 32
Exempel Stickprovsvarians Beräkna stickprovsvariansen av vikterna s 2 = 1 n 1 n i=1 x i x 2 s 2 = 1 20 1 7.2 2 + 1.5 2 + 11.0 2 + 1.0 2 s 2 = 1 19 52.0 + 2.3 + 120.4 + 0.9 s 2 = 87.0 [kg 2 ] 33
Spridningsmått Parametriska Stickprovets standardavvikelse Mäter spridningen från medelvärdet ~ observationernas medelavstånd från medelvärdet s = 1 n 1 n i=1 x i x 2 s = stickprovets standardavvikelse 34
Exempel Stickprovsstandardavvikelse Beräkna stickprovsstandardavvikelsen av vikterna s = 1 n 1 n i=1 x i x 2 s 2 = 87.0 s = 87.0 9.33 [kg] 35
Spridningsmått Parametriska Variationskoefficient Normaliserad (relativ) standardavvikelse Ger ett mått på spridningen som är jämförbart mellan olika skalor %CV = s x 100 %CV är variationskoefficienten [%] s är stickprovets standardavvikelse 36
Exempel Variationskoefficient Beräkna variationskoefficienten av vikterna %CV = s x 100 %CV = 9.33 68.8 100 %CV = 13.6 [%] 37
Spridningsmått Icke-parametriska Kvartilavstånd (IQR) Bra om värdena är skevt fördelade Dela upp de rangordnade observationerna i 4 grupper med lika många observationer i varje grupp (kvartiler). Avståndet mellan den nedre och övre kvartilen mäter spridningen Q1 Q2=median Q3 Inter-kvartilavstånd (IQR) 38
Spridningsmått Beräkning av kvartilavstånd Beräkning av Q1 och Q3 Rangordna talen och beräkna medianen Dela materialet i två lika stora delar och beräkna medianen i den nedre och den övre halvan av materialet Om det är ett udda antal observationer skall den mittersta observationen ingå i både den nedre och den övre halvan av materialet 23, 25, 25, 27, 29, 30, 45, 56, 77 Q1 Median Q3 IQR = Q3-Q1 = 45-25 = 20 39
Exempel Kvartilavstånd Beräkna kvartilavståndet för vikterna Individ Vikt (kg) 1 61.6 2 70.3 3 61.1 4 89.9 5 83.8 6 74.5 7 74.6 8 72.5 9 77.5 10 56.8 Individ Vikt (kg) 11 56.2 12 60.1 13 60.5 14 62.3 15 71.3 16 67.8 17 77.8 18 72.7 19 57.8 20 67.8 40
Exempel Kvartilavstånd Beräkna kvartilavståndet för vikterna Individ Vikt (kg) 11 56.2 10 56.8 19 57.8 12 60.1 13 60.5 3 61.1 1 61.6 14 62.3 16 67.8 20 67.8 Individ Vikt (kg) 1 2 70.3 11 2 15 71.3 12 3 8 72.5 13 4 18 72.7 14 5 6 74.5 15 6 7 74.6 16 7 9 77.5 17 8 17 77.8 18 9 5 83.8 19 10 4 89.9 20 Dela in de rangordnade vikterna i 4 grupper med lika många individer i varje grupp 20 4 = 5 41
Exempel Kvartilavstånd Beräkna kvartilavståndet för vikterna Medianen (Q2) är medelvärdet av vikt nr 10 och vikt nr 11 Q1 är medelvärdet av vikt nr 5 och vikt nr 6 Q3 är medelvärdet av vikt nr 15 och vikt nr 16 42
Exempel Kvartilavstånd Beräkna kvartilavståndet för vikterna Q1 = 60.5 + 61.1 2 = 60.8 [kg] Q3 = 74.5 + 74.6 2 = 74.55 74.6 [kg] IQR = 74.6 60.8 = 13.8 [kg] 43
Vikt (kg) 55 60 65 70 75 80 85 90 Icke-parametriska spridningsmått Boxplott Median Q1 44
Vikt (kg) 55 60 65 70 75 80 85 90 Icke-parametriska spridningsmått Boxplott Morrhåren (+): Högsta datapunkten som befinner sig inom 1.5*IQR från Q3 max(data Q3+1.5*IQR) Andra definitioner av morrhåren finns Eventuella värden som ligger utanför morrhåren kallas för extremvärden. Morrhåren (-): Lägsta datapunkten som befinner sig inom 1.5*IQR från Q1 min(data Q1-1.5*IQR) 45
Spridningsmått Icke-parametriska Percentiler Beräknas på samma sätt som kvartilerna men istället för att dela in i fjärdedelar så delar vi in i hundradelar Ger en stor frihet när det gäller vilken nivå vi vill titta på Q1 motsvarar 25:e percentilen Q2 motsvarar 50:e percentilen (medianen) Q3 motsvarar 75:e percentilen 46
Spridningsmått Icke-parametriska Variationsvidd Skillnaden mellan det högsta och det lägsta värdet Ger mycket begränsad information 47
Sammanfattning Variabler Kvalitativa Nominala Ordinala Dikotoma, trikotoma, polytoma Kvantitativa Diskreta Kontinuerliga 48
Sammanfattning Skalor Kvalitativa variabler Nominalskala Ordinalskala Kvantitativa variabler Intervallskala Kvotskala 49
Sammanfattning Centrallägesmått Parametriska Aritmetiskt medelvärde Geometriskt medelvärde Icke-parametriska Median Typvärde 50
Sammanfattning Spridningsmått Parametriska Varians Standardavvikelse Variationskoefficient (Konfidensintervall) Icke-parametriska Kvartiler Percentiler Variationsvidd 51