Statistik för läkare och läkarstudenter Första upplagan Johan Olsén 3 november 2015
Förord Författandet av detta material började som en ambition att skapa ett hjälpmedel för läkarstudenter som vill lära sig statistik. Som dåvarande läkarstudent vet jag att kurslitteraturen är dyr och omfattande redan utan inköp av en statistikbok. Tillsammans med företrädare för läkarprogrammet vill jag därför ge er tillgång till denna bok gratis. Som civilingenjör med inriktning mot just matematisk statistik har jag kunskaper inom ämnet och som läkare har jag en uppfattning om vilka kunskaper som kan vara värdefulla för er. Denna version av boken är ämnad för läkarstudenter vid Uppsala Universitet. Kommersiellt bruk utanför denna krets är inte tillåtet utan författarens tillåtelse. Observera att samtliga exempel består av fiktiva data som inte har någon koppling till verkliga studier. Syftet med dessa exempel är uteslutande att presentera matematiska metoder och olika tolkningar. De kliniska resultaten är därför inte verklighetsbaserade eller på annat sätt relevanta. Tack till Lars Lindhagen, statistiker vid UCR, Uppsala Universitet för genomläsning och granskning som bidragit till ökad kvalitet. Trots denna kvalitetsförsäkring skall man vara medveten om att detta är en första upplaga och att det därför fortfarande kan finnas felaktigheter. För att utveckla boken och rätta eventuella fel uppskattar jag all typ av feedback. Denna kan lämnas via e-post på nedanstående adress. Lycka till med era medicin- och statistikstudier! Johan Olsén 2015-11-03 johan.olsen.uu@gmail.com 1
Innehåll 1 Introduktion 5 1.1 Syfte................................................ 5 1.2 Läsguide.............................................. 6 2 Lathund 7 I Beskrivningar 11 3 Variabeltyper och mätskalor 12 3.1 Kvalitativa och kvantitativa variabler.............................. 12 3.1.1 Mätskalor......................................... 12 4 Deskriptiv statistik 14 4.1 Centralmått............................................ 14 4.1.1 Medelvärde........................................ 14 4.1.2 Median.......................................... 14 4.1.3 Typvärde......................................... 15 4.2 Medelvärdet säger inte allt.................................... 15 4.3 Spridningsmått.......................................... 15 4.3.1 Standardavvikelse.................................... 15 4.3.2 Varians.......................................... 16 4.3.3 Kvartilavstånd...................................... 16 4.4 Sannolikhet och odds....................................... 16 4.5 Bivariat deskriptiv statistik................................... 17 4.5.1 Kovarians......................................... 17 4.5.2 Korrelationskoe cient.................................. 17 4.5.3 Relativ Risk och Oddskvot (= odds ratio )...................... 19 4.5.4 Hasardkvot (= Hazard ratio )............................. 20 4.5.5 Frekvenstabell (contingency table)........................... 22 5 Grafisk presentation av data 23 5.1 Kategorivariabler......................................... 23 5.1.1 Cirkeldiagram....................................... 23 5.1.2 Stapeldiagram...................................... 23 5.2 Kontinuerliga variabler...................................... 24 5.2.1 Histogram......................................... 24 5.2.2 Spridningsdiagram (scatter plot)............................ 24 5.2.3 Box-plot (låddiagram).................................. 25 6 Inferensstatistik 27 6.1 Individuell variation....................................... 27 6.2 Statistiska fördelningar...................................... 28 6.2.1 Normalfördelning..................................... 28 6.3 Beteckningar och begrepp.................................... 28 2
6.4 Stickprovsmedelvärdet...................................... 29 6.5 Stickprovsvarians......................................... 29 6.6 Skattningarnas precision..................................... 29 6.7 Konfidensintervall........................................ 30 6.8 Hypotesprövning och p-värde.................................. 30 6.8.1 Osäkerhet och power................................... 31 6.8.2 Ensidigt eller tvåsidigt test?............................... 32 6.8.3 Parat eller oparat test?................................. 32 6.9 Signifikans och relevans..................................... 36 6.10 Tolka en läkemedelspresentation................................ 37 7 Prediktion och klassificering 39 7.1 Prediktion............................................. 39 7.2 Klassificering........................................... 39 7.2.1 Klassifikationstabeller.................................. 39 7.2.2 Mått på klassificeringsförmågan............................. 40 8 Linjär regression 44 8.1 Enkel regression.......................................... 44 8.2 Multipel regression........................................ 46 9 Studieplanering 49 9.1 Bias................................................ 49 9.2 Missledande faktorer....................................... 49 9.2.1 Confounding factors................................... 50 9.2.2 Mediatorer........................................ 50 9.2.3 Moderatorer....................................... 51 9.3 Validitet och reliabilitet..................................... 51 9.4 Studiedesign............................................ 51 9.4.1 Fall-kontrollstudie (case control study)......................... 52 9.4.2 Kohortstudie....................................... 53 9.4.3 Tvärsnittsstudie (cross sectional study)........................ 54 9.4.4 Randomiserad kontrollerad studie........................... 55 9.4.5 Kvasi-experimentell studie................................ 56 II Avancerade beskrivningar 57 10 Statistiska fördelningar och tester 58 10.1 Normalfördelning......................................... 58 10.1.1 Z-transformation..................................... 59 10.1.2 Samplingfördelning.................................... 60 10.1.3 Konfidensintervall.................................... 65 10.1.4 Z-test........................................... 68 10.2 t-fördelningen........................................... 70 10.2.1 Konfidensintervall.................................... 70 10.2.2 t-test........................................... 73 10.3 2 -fördelningen.......................................... 78 10.3.1 Pearson s Chi Square Test................................ 78 10.4 Statistisk power.......................................... 80 10.4.1 Stickprovsstorlek..................................... 83 11 Icke-parametriska test 84 11.1 Mann Whitney U-test...................................... 84 11.2 Wilcoxon signed rank test.................................... 85 11.3 Kruskal Wallis test........................................ 86 3
12 Variansanalys (ANOVA=Analysis Of Variance) 88 12.1 Envägs-anova........................................... 88 13 Regressionsanalys 92 13.1 Enkel regression.......................................... 92 13.1.1 F-värde.......................................... 94 13.2 Multipel regression........................................ 95 13.2.1 F-värde.......................................... 96 13.2.2 Förklarad varians R 2... 96 13.2.3 Kurvlinearitet....................................... 96 13.2.4 Dummy-variabler..................................... 97 13.2.5 Interaktioner....................................... 97 13.2.6 Selektionsmetoder.................................... 99 13.3 Logistisk regression........................................ 100 14 Metodväljaren 102 14.1 Flödesscheman.......................................... 103 III Datorn som hjälpmedel 107 15 Statistik med R 108 15.1 Kom igång med R........................................ 108 15.1.1 R commander (Rcmdr)................................. 108 15.2 Basal matematik......................................... 109 15.3 Förvaring av data......................................... 109 15.3.1 Vektorer.......................................... 109 15.3.2 Factors.......................................... 110 15.3.3 Listor........................................... 110 15.3.4 Matriser.......................................... 111 15.3.5 Data frames........................................ 112 15.3.6 Vilken typ skall man välja?............................... 113 15.4 Importera data.......................................... 113 15.5 Vektoroperationer........................................ 114 15.5.1 Frekvenstabell...................................... 115 15.6 Grafisk presentation....................................... 116 15.6.1 Scatter plot........................................ 116 15.6.2 Histogram......................................... 117 15.6.3 Stapeldiagram...................................... 118 15.6.4 Cirkeldiagram....................................... 119 15.6.5 Box plot.......................................... 120 15.7 Inferensstatistik.......................................... 121 15.7.1 Normalfördelningen................................... 121 15.7.2 t-fördelningen....................................... 122 15.7.3 2 -fördelningen...................................... 126 15.7.4 F-fördelningen...................................... 127 15.8 Power och stickprovsstorlek................................... 127 15.9 Odds ratio............................................. 128 15.10Regressionsanalys......................................... 128 15.10.1 Enkel regression..................................... 128 15.10.2 Multipel regression.................................... 129 15.10.3 Logistisk regression.................................... 129 15.11ANOVA.............................................. 130 15.12Icke-parametriska test...................................... 130 15.12.1 Mann Whitney U-test.................................. 130 15.12.2 Wilcoxon signed rank test................................ 131 15.12.3 Kruskal Wallis test.................................... 131 4
Kapitel 1 Introduktion Det finns ett stort antal olika matematiska parametrar för att presentera ett datamaterial eller ett resultat. Ett första steg är att lära sig alla beteckningar för att översiktligt kunna förstå det författaren vill förmedla. Man skall dock vara medveten om att det krävs mer än så ifall målet är att kunna fatta avgörande beslut baserade på den tolkning man gjort av vetenskapliga rapporter. Den kritiska granskningen av en studie består av många olika komponenter. Hit hör t.ex. att betänka tidskriftens renommé och fundera över vilka intressen de som finansierat studien har. Den typen av överväganden lämnar jag till andra att redogöra för och övergår nu till att helt fokusera på den del av granskningen som kräver kunskaper i matematisk statistik. För att kunna tolka en parameter måste man alltid fundera mycket bredare än att bara betänka parameterns värde. I ett sammanhang kan ett värde vara ett häpnadsväckande genombrott medan samma värde i ett annat sammanhang helt saknar betydelse. Ibland kan tolkningen av en parameter vara helt meningslös om inte värden på vissa andra parametrar är angivna. Det finns en sak som jag med säkerhet kan påstå: den som inte förstår detta kommer garanterat att bli lurad av många tveksamma forskningsresultat genom sin karriär. Forskare vill såklart presentera banbrytande resultat och många kommer medvetet eller omedvetet att utnyttja de kunskapsluckor som finns hos läsarna (och kanske även hos författaren själv). Observera att det inte handlar om felaktiga beräkningar eller påhittade resultat! Det är oftast helt korrekta si ror där det enda som saknas är rätt sammanhang för att rättfärdiga de rubriker som rapporten sedan fått. 1.1 Syfte Syftet med detta material är primärt att bidra till att stärka kunskaperna i matematisk statistik hos läkare och läkarstudenter. Självklart kan även andra ha nytta av de kunskaper jag försöker förmedla. Med hjälp av denna bok kan man lära sig begrepp, tolka rapporter och även uföra egna analyser. Som läkare är man normalt ingen matematiker men det finns en gränszon mellan dessa områden som alla läkare bör känna sig bekväma i. Figur 1.1 5
1.2 Läsguide Denna bok består väsentligen av tre nivåer: Lathund. Bokens inledande del är en lathund som består av en tabell med vanliga begrepp och beteckningar. Denna rekommenderas inte som primär inlärningskälla. Tanken är att man under läsning av en vetenskaplig artikel skall kunna titta i lathunden för att få en grov uppfattning om vad en term eller beteckning betyder. Här finns även referenser till de avsnitt där begreppen förklaras mer ingående. Beskrivningar. I denna del finns grundliga beskrivningar av viktiga begrepp inom matematisk statistik. Tanken är att dessa kunskaper skall vara tillräckliga för att ni ska kunna tolka majoriteten av de statistiska resonemang som förekommer i medicinska rapporter. Fokus ligger på tolkning av resultat och uträkningarna är därför oftast utelämnade. Förhoppningen är att ni med denna del skall förstå resultaten och kunna göra en kritisk granskning för att avslöja rubriker som blivit alldeles för stora i förhållande till de faktiska resultaten. Avancerade beskrivningar. Denna del är betydligt mer djupgående. Den riktas främst till dig som skall utföra en egen analys och därmed behöver förstå den matematiska bakgrunden. I denna del finns även uträkningarna till majoriteten av de exempel som presenteras i den föregående delen (där fokus låg på att tolka resultatet). I slutet finns även en metodväljare som hjälper dig att välja rätt metod/test för just din studies frågeställning, härifrån hänvisas sedan till lämpliga avsnitt. Om målet är att bara kunna förstå andras forskning så är inte denna del nödvändig, men självklart kan den särskilt intresserade läsaren förhoppningsvis få många aha-upplevelser här. Utöver dessa finns en fjärde del i boken som beskriver hur man kan använda datorer som hjälpmedel vid statistiska analyser. R är en gratis statistisk mjukvara som jag har valt att presentera. För alla exempel som löses manuellt finns även en referens till avsnittet om R där jag visar hur man enkelt kan göra beräkningen och tolka resultatet i R. Jag förutsätter inga förkunskaper om R. 6
Kapitel 2 Lathund I denna del finns kortfattade förklaringar till vanliga statistiska begrepp. Samtliga kommer att förklaras ingående i kommande kapitel, jag rekommenderar därför inte denna del för läsning där man faktiskt vill lära sig begreppens innebörd. Dock kan den vara användbar som repetition eller vid läsning av vetenskapliga artiklar där man vill bilda sig en snabb uppfattning om vad det man nyss läste egentligen betyder. Begreppen är sorterade i bokstavsordning på engelska (eftersom de flesta artiklar är skrivna på detta språk). Engelskt namn Svenskt namn Beteckning Beskrivning Läs mer Bias Bias Systematiskt fel i forskningsupplägget Confidence interval Konfidensintervall CI Man har fått ett resultat i ett stickprov. Konfidensintervallet beskriver det intervall inom vilket hela populationens motsvarande värde förväntas ligga. Vanligtvis är konfidensgraden 95 %, vilket innebär att populationens värde ligger inom konfidensintervallet med 95 % sannolikhet. Correlation coe cient Korrelationskoe cient r, fl Beskriver sambandet mellan två parametrar i ett stickprov. Varierar mellan -1 och 1. Om korrelationskoe cienten är 0 finns inget samband. 1 är ett perfekt positivt samband och -1 är ett perfekt negativt samband (om en parameter ökar så minskar den andra). Hazard Hazard (fara) Risken för att en händelse (t.ex. att dö) inträ ar under ett specifikt tidsintervall. Om faran vid varje tidsintervall är hög så är den förväntade tiden till att händelsen inträ ar kort. 9.1 6.7 4.5.2 4.5.4 7
Hazard ratio Hasardkvot HR Kvoten mellan faran i olika grupper. Kan ofta antas vara ungefär detsamma som kvoten mellan gruppernas mediantiderna (till händelsen inträ ar). Inter quartile range Kvartilavstånd IQR Ett spridningsmått som beskriver avståndet mellan den första och den trejde kvartilen. Man exkluderar alltså den lägsta och den högsta fjärdedelen vilket kvarlämnar hälften av observationerna. Längden av det intervall som dessa utgör är kvartilavståndet. Mean (population) Populationsmedelvärde µ Medelvärde hos en hel population. 4.5.4 4.3.3 4.1.1 Mean (sample) Stickprovsmedelvärde m, x Medelvärde i ett stickprov. 4.1.1 Median Median Det mellersta värdet ifall alla värden rangordnas. Mode Typvärde Det värde som förekommer flest gånger. 4.1.2 4.1.3 Negative predictive value Negativt prediktivt värde NPV Hur mycket kan man lita på ett negativt utfall i ett test? 7.2.2 Normal distribution Normalfördelning N(µ, ) Fördelningsmönster som många variabler följer (åtminstone approximativt). Detta innebär att majoriteten av alla individer befinner sig nära medelvärdet och att ett värde blir mindre sannolikt desto längre ifrån medelvärdet man befinner sig. Värden som är lägre än medelvärdet är dessutom lika sannolika som värden lika långt över medelvärdet. I en normalfördelad population så befinner sig ungefär 68 % av individerna inom ±1 SD (standardavvikelse), 95 % inom ±2 SD och 99,7 % inom ±3 SD. Odds Odds O Sannolikhet att något inträ ar dividerat med sannolikheten att det inte inträ ar. Odds ratio Oddskvot OR Oddset för något i en grupp relativt oddset i en annan grupp. 6.2.1, 10.1 4.4 4.5.3 8
Population size Populationsstolek N En population beskriver alla individer i en viss grupp. Individer behöver inte nödvändigtvis vara människor. En population kan t.ex. vara alla svenskar över 50 år eller alla tabletter som producerades av ett specifikt läkemedel under ett år. Ofta undersöker man ett stickprov (bara några av individerna), men syftet är att dra slutsatser om hela populationen. 6 Positive value predictive Positivt prediktivt värde PPV Hur mycket kan man lita på ett positivt utfall i ett test? 7.2.2 Power Power/styrka Beskriver styrkan hos ett statisktiskt test. Hur stor är sannolikheten att testet skulle klara av att bevisa en viss skillnad mellan olika grupper? Probability Sannolikhet p 4.4 6.8.1, 10.4 P-value P-värde p Sannolikheten att man genom individuell variation skulle få den i stickprovet uppmätta skillnaden (eller större) mellan grupper som egentligen har samma medelvärde (dvs om alla individer hade inkluderats i undersökningen). Man kan också säga: ifall vi skulle dra slutsatsen att det finns en skillnad (t.ex. att grupp 1 är bättre än grupp 2) så är p-värdet sannolikheten för att denna slutsats är felaktig. Man brukar ofta tolka resultatet som signifikant om p < 0, 05. Ett så litet (eller mindre) p-värde tyder på att det finns en verklig skillnad mellan grupperna. Obs! P-värdet säger inte nödvändigtvis något om skillnadens storlek eller kliniska relevans. Relative risk Relativ risk RR Sannolikheten för något i en grupp relativt sannolikheten i en annan grupp. 6.8 4.5.3 Sample size Stickprovsstorlek n Antal individer i ett stickprov. 6 Sensitivity Sensitivitet Ett tests förmåga att detektera det som testet syftar till att hitta. T.ex. förmågan att upptäcka individer som faktiskt är sjuka. 7.2.2 9
Specificity Specificitet Hur bra är testet på att INTE ge felatigt positiva svar. 7.2.2 Standard deviation (population) Standard deviation (sample) Populationsstandardavvikelse Ett mått på spridningen i en population. Stickprovsstandardavvikelse s Ett mått på spridningen i ett stickprov. 4.3.1 6.5 t test t-test Vanligt statistiskt test för att avgöra om det finns en signifikant skillnad mellan 2 grupper. Type 1 error Typ-1-fel Felaktigt förkasta en sann nollhypotes. Type 2 error Typ-2-fel Felaktigt behålla en falsk nollhypotes. Variance Varians 2, s 2 Ett spridningsmått som motsvarar standardavvikelsen i kvadrat. 10.2.2 6.8.1, 10.4 6.8.1, 10.4 4.3.2, 6.5 Tabell 2.1 10
Del I Beskrivningar 11
Kapitel 3 Variabeltyper och mätskalor 3.1 Kvalitativa och kvantitativa variabler Variabler som antar numeriska värden, dvs kan beskrivas med si ror, kallas kvantitativa, vilket exempelvis kan vara ålder och längd. Övriga, icke-numeriska, variabler såsom kön och favoritfärg, kallas för kvalitativa. I analyser brukar dessa dock kodas till numeriska värden. Exempel på detta är att kvinnor kan representeras av en etta och män med en nolla. Det sistnämnda är även exempel på en dikotom variabel, vilket är ett specialfall där variabeln endast kan anta två värden. Kvantitativa variabler kan även klassindelas och då framstå som kvalitativa. Man kan t.ex. indela olika åldrar i grupperna barn, tonåringar, unga vuxna, medelålders och äldre. En annan indelning är den mellan diskreta och kontinuerliga variabler. En diskret variablel kan anta ett ändligt antal olika värden, detta omfattar i princip alla kvalitativa variabler men även många kvantitativa, såsom antalet poäng på ett prov eller önskat antal barn. En kontinuerlig variabel kan i teorin anta alla möjliga tal inom ett intervall. En människas längd kan t.ex. ses som en kontinuerlig variabel, bara mätningens noggrannhet sätter gränsen för hur många olika värden man kan få. Låt säga att vi har en (helt otrolig) mätsticka som kan mäta längden med hundra decimalers precision, då skulle vi ha ett nästintill oändligt antal möjliga längder. Antalet önskade barn måste däremot anges i heltal och kan aldrig vara 2,555423, vilket är skillnaden som gör denna till en diskret variabel. I praktiken är dock gränsen mellan diskreta och kontinuerliga variabler lite flytande. Om en diskret variabel kan anta ett stort antal olika värden så behandlas den ofta med analysmetoder som lämpar sig för kontinuerliga variabler. Om man t.ex. ombeds att ange sin ålder i hela år så blir detta i teorin en diskret variabel men eftersom antalet möjliga åldrar spänner över ett relativt stort intervall så behandlas den i praktiken som en kontinuerlig variabel. I detta material kommer jag att behandla variabler som kan anta en sekvens om minst 10 värden inom ett intervall som kontinuerliga. 3.1.1 Mätskalor En god grund för statistisk analys av data är att känna till de olika mätskalor som finns: Nominalskala: Detta är beskrivande variabler som kan delas in i olika grupper utan rangordning. Det kan vara t.ex. kön, hemstad eller färg. Att grupperna saknar rangordning innebär att man inte kan säga att något värde är mer eller mindre än ett annat. Det är precis lika mycket bil oavsett om den är blå eller grön! För en variabel på nominalskala kan man endast beräkna ett typvärde: den vanligaste bilfärgen på gatan är blå. Ordinalskala: Detta är data som kan rangordnas men där skillnader eller avstånd saknar betydelse. T.ex. kan man i en enkät fråga efter en persons högsta utbildningsnivå och koda svaren med en si ra (1=förskola, 2=grundskola, 3=gymnasiet, 4= högskola/universitet). Då kan man säga att en fyra innebär mer utbildning än en tvåa, men man kan inte dra slutsatsen att en fyra innebär dubbelt så mycket utbildning som en tvåa. Man kan heller inte säga att skillnaden mellan tre och fyra är lika stor som skillnaden mellan ett och två. Man kan frestas att göra beräkningar såsom medelvärde på dessa parametrar men här skall man vara mycket försiktig! Att i en enkätstudie få medelvärdet 2,5 på ovanstående fråga och dra slutsatsen att medelpersonen klarat ungefär halva gymnasiet är ett minst sagt förargelseväckande 12
beteende (i alla fall i matematikerkretsar). För en variabel på ordinalskala kan man förutom typvärde normalt endast beräkna en median. Om medianen blir 3 kan man dra slutsatsen att åtminstone hälften av alla personer i studien har utbildningsnivån gymnasium eller högre. Om man ändå vill försöka skapa ett medelvärde är det viktigt att man noggrant funderar över betydelsen av det värde man fått fram innan man drar några slutsatser. Ett exempel där man faktiskt beräknar medelvärden för variabler på en ordinalskala är snittbetygen från gymnasiet. Intervallskala: Detta är data som kan rangordnas och där avstånd har en tolkningsbar betydelse. Ett bra exempel är temperaturen i grader Celsius. 20 grader är 10 varmare än 10 och 25 är ytterligare 5 grader varmare. Avstånden har betydelse! Man skall dock fortfarande vara försiktig med multiplikation och division. Att säga att 20 grader är dubbelt så varmt som 10 är inte korrekt då nollpunkten endast är en konstruerad referens. För variabler på en intervallskala kan man beräkna typvärde, median och medelvärde: medeltemperaturen i juni var 5 grader Celsius. Kvotskala: Dessa data uppfyller kraven för intervallskala samt att det finns en absolut nollpunkt. Längden 0 cm innebär t.ex. att längden är obefintlig (jmf med temperaturen där man inte kan säga att 0 grader Celsius innebär att det inte existerar någon värme/kyla). Det betyder att du utan att skämmas kan påstå att en 100 m lång kulvert är dubbelt så lång som den som uppmättes till 50 m. Variabler på nominal- och ordinalskala brukar tillsammans betraktas som diskreta medan de på intervalloch kvotskala ofta behandlas som kontinuerliga. 13
Kapitel 4 Deskriptiv statistik Deskriptiv statistik är, som namnet antyder, beskrivande satistik. När du har insamlade data så skall du, med hjälp av några olika mått, kunna beskriva för en medmänniska så att denne får en god sammanfattande uppfattning om innehållet utan att behöva läsa alla data. Att förstå deskriptiv statistik och känna till vad de olika måtten innebär är mycket viktigt för förståelsen av vetenskapliga rapporter. 4.1 Centralmått Olika centralmått försöker på olika sätt beskriva var datamängdens tyngdpunkt befinner sig. Precis som ordet antyder så vill de belysa var populationens centrum finns. 4.1.1 Medelvärde Det aritmetriska medelvärdet är ett mycket vanligt centralmått som de flesta känner igen. Här kan det vara bra att introducera några vedertagna notationer: Antalet mätningar i en studie bruka betecknas som lilla n (antalet individer i hela populationen betecknas med stora N). Notera att individer inte nödvändigtvis refererar till människor. Det kan handla om vilken enhet som helst. t.ex. kan varje penna i ett pennskrin ses som en individ i detta sammanhang. Ett streck ovanför en variabel brukar betyda att det är ett medelvärde. Om vi gjort n mätningar där utfallen beteckans som x 1,x 2,...,x n så kommer x att motsvara medelvärdet av dessa mätningar. Man kan även använda den grekiska bokstaven µ (uttalas my) för att beteckna medelvärdet. x brukar beteckna medelvärdet i ett stickprov och µ i populationen. Medelvärdet beräknas som summan av observationerna dividerat med antalet observationer, vilken matematiskt kan skrivas som: x = 1 n nÿ i=1 x i Exempel 4.1.1. Man har frågat 6 personer om deras skostorlek och fått svaren: {x 1,x 2,x 3,x 4,x 5,x 6 } = {36, 39, 37, 42, 42, 38}. x = 1 234 6 (36 + 39 + 37 + 42 + 42 + 38) = 6 = 39 4.1.2 Median Medianen är den mellersta observationen ifall dessa rangordnas, vilket motsvaras av obervation (n+1)/2. Exempel 4.1.2. Om vi rangordnar observationerna i exemplet med skostorlekar ovan så får vi {x 1,x 3,x 6,x 2,x 4,x 5 } = {36, 37, 38, 39, 42, 42}. Medianen är nu observation (n + 1)/2 = (6 + 1)/2 =3, 5. Då detta inte är ett heltal så blir medianen medelvärdet av observation 3 och 4, i detta fall (38 + 39)/2 = 38, 5. (4.1) 14
4.1.3 Typvärde Det värde som förekommer flest gånger. I exempet ovan förekommer skostorleken 42 vid två observationer, vilket gör 42 till studiens typvärde. 4.2 Medelvärdet säger inte allt Inom sjukvården finns en grundregel om att inte ange tidsangivelser för enskilda individer utifrån generella studier. Detta gäller t.ex. om man skall prata om förväntad överlevnad vid tumörsjukdom. Förklaringen till detta är att vi ofta grundar våra antaganden på medelvärden från större populationer, t.ex. medelöverlevnaden vid denna tumörtyp är 5 månader. Men ett medelvärde säger inte allt! Två helt olika situationer man ha samma medelväde, begrunda figur 4.1. Här ser vi två grupper med exakt samma medelvärde men olika spridning. Om verkligheten såg ut som på den högra bilden så skulle man med ganska gott samvete kunna meddela patienten att överlevnaden kommer bli knappt fem månader. Men om vi säger detsamma till en person och verkligheten ser ut som på den vänstra bilden så kan det bli väldigt fel. Som ni ser så överlevde några individer knappt transporten hem efter mottagningsbeskedet medan andra levde i flera år. Eftersom vi sällan vet spridningen och eftersom patienterna inte kan förväntas förstå detta så är det oftast bättre att utelämna si rorna och förklara prognosen med andra ord. Figur 4.1 4.3 Spridningsmått Trots att olika datainsamlingar ger samma medelvärde/median så kan grupperna se helt olika ut beroende på vilken spridning som finns mellan individerna. Datamängderna {50, 50, 50} och {0, 50, 100} har båda medelvärde 50, men håll med om att grupperna inte är likvärdiga. Olika spridningsmått försöker beskriva hur spridningen mellan individerna i en population ser ut. 4.3.1 Standardavvikelse Standardavvikelsen kan grovt ses som medelvärdet av varje individs avvikelse från medel. Observera dock att detta påstående inte är riktigt sant utan bara skall ses som ett sätt att i grova drag få en förståelse för vad begreppet innebär. Standardavvikelsen betecknas av den grekiska bokstaven (uttalas sigma) och beräknas enligt: ˆ ı x = Ù 1 nÿ (x i x) n 2 (4.2) i=1 15
Exempel 4.3.1. Man har frågat 10 personer om deras längd och fått svaren: {180, 163, 161, 177, 157, 170, 167, 186, 178, 171}. Vi börjar med att beräkna medelvärdet och därefter standardavvikelsen: x = 1 (180 + 163 + 161 + 177 + 157 + 170 + 167 + 186 + 178 + 171) = 171 (4.3) 10 Ú 1 x = 10 ((182 171)2 + (163 171) 2 +... + (171 171) 2 ) Ú 1 = 10 (92 +( 8) 2 +( 10) 2 +6 2 +( 14) 2 +( 1) 2 +( 4) 2 + 15 2 +7 2 +0 2 ) Ú Ú 1 768 = (81 + 64 + 100 + 36 + 196 + 1 + 16 + 225 + 49 + 0) = 10 10 = apple 76, 8=8, 76 Standardavvikelsen i exemplet är alltså 8,76. (4.4) 4.3.2 Varians Variansen är ett mått som är mycket likt standardavvikelsen. Den beskriver helt enkelt standardavvikelsen i kvadrat. Om man tar bort roten ur från formeln för standardavvikelsen får man istället variansen. var(x) = 1 nÿ (x i x) 2 (4.5) n i=1 Detta innebär att variansen i exemplet ovan 76,8. Det är viktigt att veta förhållandet mellan dessa mått! x = apple var(x) var(x) = 2 x (4.6) Vilken skall användas? Variansen är ofta ett matematiskt smidigare mått och används därför mer i beräkningar. När man skall presentera ett spridningsmått för en datamängd så brukar standardavvikelsen vara att föredra eftersom den är lättare att intuitivt tolka. Om man däremot läser en artikel där författaren valt att presentera variansen så är det bara att själv beräkna roten ur denna för att få standardavvikelsen! 4.3.3 Kvartilavstånd När man talar om kvartiler så innebär det att data rangordnas och delas in i 4 lika stora grupper. Om man t.ex. har 20 observationer så kommer de 5 minsta värderna tillhöra grupp 1, nästa 5 grupp 2 osv. Kvartilerna är gränserna mellan dessa grupper. Första kvartilen, Q1, är den gräns under vilken 25 % av observationerna befinner sig. Andra kvartilen, Q2 = medianen, är den gräns under vilken hälften av observationerna befinner sig. Tredje kvartilen, Q3, är den gräns under vilken 75 % av observationerna befinner sig. Kvartilavståndet är avståndet mellan första och tredje kvartilen, dvs ett intervall som innefattar hälften av observationerna. Detta kallas på engelska för IQR (inter quartile range) och används t.ex. för detektion av extremvärden. IQR = Q3 Q1 4.4 Sannolikhet och odds Sannolikhet och odds är besläktade begrepp som ofta förekommer i litteraturen. Jag antar att de flesta läsarna redan har en relativt god uppfattning om vad sannolikhet innebär men att odds är svårare att definiera även om det är ett känt begrepp. Sannolikhet betecknas ofta p (för probability) och beskriver antalet utfall (x) med en specifik händelse, dividerat med det totala antalet utfall, n. Sannolikheten är alltid mellan 0 och 1. p(x) = x x +(n x) = x n 16 (4.7) (4.8)
Exempel 4.4.1. 100 rökande personer testas för ett visst hälsoproblem och 60 utfaller som positiva. Sannolikheten (risken) att en rökare är drabbad är då: p = 60/100 = 0, 6, dvs 60 %. Odds anger antalet utfall med en specifik händelse dividerat med antalet utfall utan den specifika händelsen. O = x (4.9) n x Exempel 4.4.2. Vid samma exempel som ovan blir oddset: O = x/(n x) = 60/(100 60) = 60/40 = 1, 5 För att en rökare skall vara drabbad av det aktuella hälsoproblemet är alltså sannolikheten 0,6 och oddset 1,5. Författaren kan välja att presentera det som låter bäst. Man kan alltid räkna fram och tillbaka mellan sannolikhet och odds genom: p = O = O O +1 = 1, 5 =0.6 (4.10) 2, 5 p 1 p = 0.6 =1.5 (4.11) 0.4 Vi återkommer till dessa när vi i avsnitt 4.5.3 pratar om relativ risk och odds ratio. 4.5 Bivariat deskriptiv statistik Hittills har vi haft en parameter vars egenskaper vi velat beskriva. Nu vill vi istället beskriva samband mellan två parametrar. Vilken metod vi använder för detta är beroende på vilken typ av variabler vi har, se avsnitt 3.1.1 om olika mätskalor. Bägge variablerna är kontinuerliga. Här kan man presentera variablerna i ett spridningsdiagram, se avsnitt 5.2.2. Man kan även beräkna kovarians och korrelationskoe cient. För en lite mer avancerad beskrivning kan man utföra en regressionsanalys, vilket jag återkommer till i kapitel 8. Två diskreta variablers samband kan presenteras i en frekvenstabell, se avsnitt 4.5.5. I specialfallet där ena variabeln är dikotom (har 2 möjliga utfall) kan odds ratio och relativ risk beräknas. Då en variabel är diskret och den andra kontinuerlig så beskrivs sambandet främst grafiskt, t.ex. med en box plot. Man kan även presentera de ovan beskrivna deskriptiva måtten (medelvärde, standardavvikelse mm) för varje grupp. 4.5.1 Kovarians Kovariansen är ett mått på hur 2 variabler samvarierar. Den beräknas som: Cov(X, Y )= 1 n nÿ (x i x) ú (y i ȳ) (4.12) i=1 Kovariansen är dock sällan ett värde som presenteras eftersom det är svårt att tolka. Värdet är beroende av de bägge variablernas enheter. 4.5.2 Korrelationskoe cient Korrelationskoe cienten betecknas ofta r (eller med den grekiska bokstaven fl (uttalas rå)). Detta är ett betydligt vanligare sätt att presentera samvarians (korrelation) mellan 2 variabler. Det är egentligen en normering av kovariansen så att man alltid får ett värde mellan -1 och 1. Detta uppnås genom att man dividerar kovariansen med produkten av variablernas standardavvikelser: r X,Y = Cov(X, Y ) x y Hur skall värdet på korrelationskoe cienten tolkas? 17 (4.13)
r =0: Ingen korrelation mellan variablerna, de är helt oberoende av varandra. r =1: Det finns en perfekt positiv korrelation mellan x och y. Det betyder att alla punkter ligger på en linje och att ökande x också ger ökande y. r = 1: Perfekt negativ korrelation. Punkterna ligger på linje men om x ökar så minskar y. Korrelationskoe cienten kan även anta alla andra värden mellan -1 och 1. Desto närmare 1 (eller -1), desto starkare är sambandet mellan variablerna. Nära 0 är samvariationen liten. Varning: Korrelationskoe cienten säger bara hur stark korrelationen mellan två variabler är i det aktuella stickprovet. Den säger ingenting om hur starkt förhållandet mellan variablerna är i hela befolkningen. Exempel 4.5.1. I tabell 4.1 finns data ifrån tre olika studier. Person Längd Vikt 1 180 77 2 163 58 3 161 53 4 177 68 5 157 59 6 170 76 7 167 74 8 186 69 9 178 71 10 171 65 medel 171 67 Person Längd IQ 1 180 110 2 163 97 3 161 117 4 177 88 5 157 95 6 170 104 7 167 96 8 186 107 9 178 100 10 171 96 medel 171 101 Dag Regn Glassar 1 1 20 2 2 18 3 5 12 4 3 16 5 0 22 6 8 6 7 4 14 8 2 18 9 6 10 10 0 22 medel 3.1 15.8 Tabell 4.1: Den första tabellen beskriver 10 personers längd och vikt. Den andra tabellen samma personers längd och IQ. Den tredje tabellen beskriver antalet regntimmar och sålda glassar i den lokala kiosken under 10 sommardagar. (a) (b) (c) Figur 4.2: Plottar av ovanstående data Börja med att titta på plottarna och försök att gissa vad korrelationskoe cienterna kommer bli. I den första kan man ana en tendens att långa personer väger mer än korta. I den andra syns inget tydligt samband. I den tredje verkar alla punkter ligga på en linje där antalet sålda glassar minskar då regnet ökar. 18
Vi börjar med att beräkna kovariansen för exemplet med längd och vikt: Cov(längd,vikt) = 1 (180 171)(77 67) + (163 171)(58 67) +... + (171 171)(65 67) 10 = 1 (9 ú 10 + ( 8) ú ( 9) +... + 0) 10 = 1 441 (90 + 72 + 140 + 6 + 112 9 28 + 30 + 28 + 0) = 10 10 = 44, 1 (4.14) Standardavvikelsen för personernas längd har vi faktiskt redan beräknat i exempel 4.3.1 med resultatet: längd =8, 76. Motsvarande beräkning för vikten ger: vikt =7.72. Nu har vi allt som behövs för att beräkna korrelationskoe cienten! r(längd,vikt) = Cov(längd,vikt) 44, 1 = längd ú vikt 8, 76 ú 7, 72 = 44, 1 =0, 65 (4.15) 67, 6 Som utlovat så blev korrelationskoe cienten mellan -1 och 1! r =0, 65 kan tolkas som ett relativt starkt positivt samband. När längden ökar så ökar även vikten, i alla fall i detta stickprov. Här vill jag passa på att exemplifiera varför korrelationskoe cienten är att föredra framför kovariansen när man presenterar data. Låt säga att personerna istället hade frågats om sin längd uttryckt i meter, då hade kovariansen istället blivit 0,44. MEN, korrelationskoe cienten hade fortfarande varit 0,65. För de övriga 2 exemplen lämnar jag beräkningarna som egen övning, för er som hellre bara vill ha svaren så kommer de här: r(längd,iq) =0.08, dvs ett mycket svagt samband (som förmodligen blir ännu svagare om fler invidiver inkluderas). r(regn,glass) = 1, vilket innebär ett perfekt negativt samband. Ju mer det regnar desto mindre glass säljs. 4.5.3 Relativ Risk och Oddskvot (= odds ratio ) I exempel 4.4.1 och 4.4.2 beräknades sannolikheten och oddset för att rökare skall vara drabbade av ett specifikt hälsoproblem. Men det säger ingenting om huruvida detta är relaterat till rökningen eller inte. Det kanske är exakt lika många icke-rökare som är drabbade, eller ännu fler! Relativ risk och odds ratio är två begrepp som är mått på skillnaden i sannolikhet respektive odds mellan två grupper, t.ex. rökare och icke-rökare. Relativ risk är kvoten mellan sannolikheterna hos de bägge grupperna. RR = p grupp1 p grupp2 (4.16) I figur 4.3 ser vi en studie med två olika preparat. I början av studien finns tio friska individer i vardera grupp och i slutet av studien ser vi att några har drabbats av en sjukdom. Risken att drabbas i grupp A beräknas till 0,8 (eftersom åtta av tio blev sjuka) och risken i grupp B är 0,5. Den relativa risken beräknas då till 1,6 (0,8/0,5). Exempel 4.5.2. De 100 rökarna från exempel 4.4.1 utgör nu grupp 1. Man har även testat 100 ickerökare för samma tillstånd, där blev utfallet att 20 var drabbade, sannolikheten för icke-rökarna är alltså 0,2. RR = p rökare /p icke rökare =0, 6/0, 2=3 Odds ratio: Är kvoten mellan oddsen i de bägge grupperna. OR = O grupp1 O grupp2 (4.17) Exempel 4.5.3. Oddset för rökarna är som tidigare uträknat 1,5. För icke-rökarna är oddset O = 20/80 = 0.25. Detta ger OR = O rökare /O icke rökare =1.5/0.25 = 6. Oddset för att drabbas är alltså 6 gånger högre för rökarna. Exempel 4.5.4. I figur 4.3 blir odds ratio 4 (oddset för preparat A är 4 och för preparat B 1). 19
Figur 4.3 Den relativa risken 3 i exemplet tolkas som att risken att drabbas är 3 gånger högre för rökare jämfört med icke-rökare. Att motsvarande odds ratio är 6 saknar en lika intuitiv tolkning. Här kan man dock tänka sig att författaren väljer att presentera odds ratio eftersom 6 låter mer e ektfullt än 3. Varning! För att göra en ordentlig tolkning av RR (eller OR) måste man veta hur stor risken är från början. I exemplet ovan tror jag att alla kan vara eniga om att rökning verkar vara en stor riskfaktor. Men tänk er att man gjort en enorm studie om hur olika livsmedel påverkar hälsan. Man har undersökt en miljon människor som ätit kokosnötter och en miljon som inte gjort det. Där fann man att 3 personer bland kokosnötsätarna drabbats av en sjukdom som endast drabbat 1 av de andra. Sannolikheten att drabbas är alltså minimal men den relativa risken för kokosnötsätana är 3, precis som i exemplet med rökare. Tänk er kvällstidningsrubriken: "EXTRA! Stor studie visar att kokosnötter ger 3-faldigt ökad risk för syndrom Z!!". Visserligen sant (i alla fall i denna studie), men kanske en lite uppblåst nyhet? Den alternativa rubriken "3 på miljonen drabbas av syndrom Z vid intag av kokosnötter" ogillades av chefsredaktören som vill sälja lösnummer... Här har vi nu sett två exempel med samma relativa risk men helt olika nyhetsvärde. Tänk på detta när ni läser om relativ risk eller odds ratio! Dessa är relativa mått och utan tillägg av absoluta mått säger de ganska lite. Då sannolikheten är liten i bägge grupperna, vilket är vanligt i epidemiologiska studier, så blir RR och OR approximativt lika, för exemplet med kokosnötterna gäller: OR = 3 999997 1 999999 3 1000000 1 1000000 = RR (4.18) I detta fall kan alltså även odds ratio tolkas som att risken att drabbas är 3 gånger högre för kokosnötsätare jämfört med kontrollgruppen. 4.5.4 Hasardkvot (= Hazard ratio ) Hazard ratio (HR) är ett mått som liknar relativ risk, men med en viktig skillnad. Men innan vi talar om hazard ratios så måste vi först förstå vad en hazard är. Hazard betyder fara och beskriver i detta sammanhang risken att en individ drabbas av en händelse (t.ex. sjukdom, död, recidiv, biverkan) inom ett specifikt tidsintervall. Man kan också relatera detta till tiden innan händelsen inträ ar ( time to event ). Om risken för en händelse under varje tidsintervall är stor så är den förväntade tiden tills händelsen inträ ar kort. Vi tar ett drastiskt exempel om något så allvarligt som döden för att belysa min mening. En människas risk för att dö är 1 eftersom vi vet att alla kommer att dö. Hazard (faran) 20
för att dö ses som risken att dö inom den närmaste tiden, t.ex. inom ett år, vilket är en si ra på någon eller några procent beroende på ålder, riskfaktorer mm. En hög hazard säger alltså att det finns en stor fara för att en händelse inträ ar inom kort. Hazard ratio är kvoten mellan hazards i olika grupper. Figur 4.4 I figur 4.4 ser vi en studie med två olika preparat. Vi kan konstatera att det från början var tio friska individer i bägge grupperna och antalet insjuknade vid studiens slut var detsamma i bägge grupperna. Risken är alltså 0,8 i bägge grupperna och därmed är den relativa risken 1. Betyder det att bägge preparaten är lika bra? Nu kollar vi även på kontroller som funnits under studiens gång. Vi kan konstatera att lika många blev sjuka men att sjukdomen debuterade tidigare i grupp B. Detta framgår inte i den relativa risken men om man skulle beräkna hazard ratio så skulle denna bli < 1 eftersom hazard är större i grupp B. Så i studier där de flesta individerna förväntas insjukna under studiens gång ger hazard ratio en mycket bättre bild av verkligheten. Förenklat kan man säga att relativ risk passar då frågan är OM något ska hända medan hazard ratio är att föredra om det intressanta är NÄR det inträ ar. Exempel 4.5.5. Ett läkemedelsföretag vill påvisa att deras nya läkemedel förlänger livet vid behandling av en obotbar sjukdom. En grupp patienter får det nya läkemedlet, en annan grupp får ett beprövat läkemedel och man registrerar tiden mellan behandlingsstart och död. Eftersom alla individer är döda när studien avslutas så blev den relativa risken för död = 1, dvs risken att dö under studien var lika stor i bägge grupperna. Men låt säga att patienterna som fick den nya medicinen levde längre än de andra, dvs att tiden till döden var längre. Då kommer detta att synas på hazard ratio, som blir lägre än 1. Om HR =0, 5 så betyder detta att faran (risken för en händelse inom ett givet tidsintervall) är häften så stor i den aktuella gruppen jämfört med en referensgrupp. Om man kan förutsätta att faran är konstant så kan detta även tolkas som att mediantiden till händelsen är dubbelt så lång. Att faran är konstant kan ses som att risken för händelsen upprepas vid varje ny tidsperiod. Låt säga att risken att dö inom ett år för en specifik människa är 20 %. Förutsatt att hen överlever året och nu påbörjar ett nytt år så är risken återigen 20 % under det kommande året. Om risken istället vore 30 % under år 2 så är faran ökande och inte konstant. I ett annat sammanhang kanske risken är betydligt lägre under år 2 och då är faran sjunkande, inte konstant. Faran att dö för en människa med en obotbar sjukdom är sannolikt ökande eftersom sjukdomen progredierar. Även om personen inte dör under år 1 så är sjukdomen längre gången vid årsskiftet och därmed är risken under kommande år något högre. Nu får man dock betänka att jag i dessa exempel använt tidsintervall som i sammanhanget får ses som mycket långa (1 år). Om intervallet görs kortare (t.ex. en dag) så känns det fullt rimligt att anta att risken att dö imorgon är ungefär lika stor som den var idag 21
(även för människor med obotbara sjukdomar), vilket då innebär att faran är nästintill konstant. Vid beräkningarna av hazard ratio används så pass korta intervall att man på en läkemedelslunch med gott samvete kan göra tolkningen att hazard ratio är ungefär detsamma som kvoten mellan medianöverlevnaden i de bägge grupperna. Men tänk på att hazard ratio (precis som odds ratio och relativ risk) är ett relationsmått. Ett fördelaktigt värde är naturligtvis intressant men man bör inte dra några större slutsatser innan man får se att även absoluta mått är bra. 4.5.5 Frekvenstabell (contingency table) Nu har vi en situation där vi frågat individer efter två diskreta variabler. T.ex. kön (man/kvinna) och vilken typ av förlossning de skulle föredra när deras barn föds (hemma, på sjukhus, planerat kejsarsnitt). Svaren kan presenteras i en frekvenstabell, vilket exemplifieras i tabell 4.2. Hemma Sjukhus Planerat kejsarsnitt Totalt Män 3 28 9 40 Kvinnor 1 33 26 60 Totalt 4 61 35 100 Tabell 4.2: Frekvenstabell Nu kan man inspektera tabellen och ska a sig en känsla. Jämför raderna, ser det ut att vara någon skillnad mellan mäns och kvinnors uppfattning? Om man föredrar en grafisk presentation så är stapeldiagram ett bra alternativ, se avsnitt 5.1.2. Man kan även göra matematiska beräkningar som ger svar på huruvida det finns signifikanta skillnader, detta beskrivs närnare i avsnitt 10.3.1. 22
Kapitel 5 Grafisk presentation av data I detta kapitel presenteras några olika grafiska framställningar av data. Det finns fler, men jag har gjort ett urval som jag tycker räcker bra som grund. Återigen blir typen av data avgörande för vilken framställning vi väljer. Repetera kapitel 3 om begrepp och mätskalor ifall detta känns oklart. Mer om grafisk presentation finns i avsnitt 15.6 där fokus ligger på tillämpningar i R. 5.1 Kategorivariabler Dessa presenteras bra i form av cirkeldiagram och stapeldiagram. 5.1.1 Cirkeldiagram Ger en lättolkad översikt av förhållandet mellan olika kategorier. Tänk bara på att berätta hur många individer som totalt ingick i studien! Om studien är väldigt liten betyder det inte särskilt mycket ifall t.ex. varannan person angett ett visst svar, men detta framgår inte av cirkeldiagrammet. Figur 5.1: Cirkeldiagram. 52 Personer frågades om vilken bilfärg de föredrar. 5.1.2 Stapeldiagram Valet mellan cirkeldiagram och stapeldiagram är oftast en smaksak. Om man skulle vilja dela på data utifrån en annan kategorivariabel så kan stapeldiagrammet vara att föredra. 23
Figur 5.2: Stapeldiagram. 26 kvinnor och 26 män frågades om vilken bilfärg de föredrar. 5.2 Kontinuerliga variabler Nedan kommer jag att beskriva tre sätt att grafiskt presentera kontinuerliga variabler. Histogram ger en bra bild av en variabels fördelning medan spridningsdiagram och box-plots är särskilt bra när man vill visa förhållanden mellan variabler. 5.2.1 Histogram Tänk att man vill mäta en kontinuerlig variabel, t.ex. ålder. Man frågar 100 individer och får svar som sträcker sig från 2 år till 100 år. I ett histogram delas svaren in i intervall, t.ex. åldersgrupper där varje grupp omfattar 10 år. Sedan beräknas frekvensen i varje grupp och dessa framställs sedan som staplar i ett diagram. Antalet staplar kan varieras som man själv vill. Om vi hade frågat tusentals personer hade vi kanske haft tillräckligt med data för att skapa 100 staplar (en för varje födelseår). Figur 5.3: Histogram över 100 personers ålder, där varje stapel visar frekvensen inom ett tioårigt intervall. 5.2.2 Spridningsdiagram (scatter plot) Spridningsdiagram är bra för att få en översiktlig bild av spridningen i data. Särskilt bra är det om man mäter två kontinuerliga variabler hos samma individ och vill få en bild av eventuella samband. Låt säga att vi har mätt två kontinuerliga variabler y 1 och y 2 hos 100 personer. Först visar vi variablerna i varsitt spridningsdiagram, se figur 5.4. I dessa diagram representerar x-axeln bara ett index, t.ex. genom att deltagarna numreras från 1-100. Värdet på y-axeln är variabelns uppmätta värde. 24
(a) Spridningsdiagram av variabel y 1 (b) Spridningsdiagram av variabel y 2 Figur 5.4 Detta ger oss en översiktlig bild, men är inte alltid så informativt. Nu plottar vi dem tillsammans. Varje patients värden plottas som en punkt med y 1 på x-axeln och y 2 på y-axeln. Figur 5.5 Nu ser vi att det finns ett tydligt positivt samband mellan variablerna! 5.2.3 Box-plot (låddiagram) En box-plot är ett mycket bra val om man vill presentera en kontinuerlig variabel, särskilt om man vill jämföra den mellan olika grupper. Tänk er t.ex. att man har gett ett läkemedel på tre olika administrationssätt. Man mäter mängden av substansen i blodet och presenterar det i följande box-plot: 25
Figur 5.6: Jämförelse av substans z efter 3 olika administrationssätt (a,b,c) Hur skall man tolka lådornas utseende? Det feta strecket inne i varje låda symboliserar medianen. Lådans övre och undre kant motsvarar övre och nedre kvartilen (Q3 och Q1). Dvs. 25 % av observationerna ligger ovanför lådan, 25 % ligger nedom lådan och 50 % ligger inom lådan. Lådans längd är således detsamma som IQR ( interquartile range ), se avsnitt 4.3.3. De vertikala strecken utanför lådan (ibland kallade morrhår) löper fram till det minimala respektive maximala värdet, dock längst till 1,5 * IQR utanför lådan (detta är standard, men det kan ibland se annorlunda ut). Alla värden som ligger längre ifrån lådan än 1, 5 ú IQR betraktas som extremvärden ( outliers ), dessa markeras med en liten stjärna, ring eller annan symbol. I en boxplot får vi alltså en lättöverskådlig bild av både centralmått och spridningsmått samt information om eventuella extremvärden. 26
Kapitel 6 Inferensstatistik När man analyserar data nöjer man sig ofta inte med att dra slutsatser om sitt stickprov, målet brukar vara att säga något om hela populationen. Inferensstatistik är den gren inom statistiken där man använder ett stickprov för att dra slutsatser om en annan grupp. Tänk er att man vill göra en marknadsundersökning om svenska folkets motionsvanor genom att kartlägga hur många timmar vi dagligen ägnar åt fysisk aktivitet. Antalet individer i populationen brukar betecknas med stora N. I populationen kommer det att finnas ett medelvärde (betecknas my, µ) och en varians (betecknas sigma i kvadrat, 2 ). Dessa värden är hittills okända och vår studie syftar till att säga något om dem. För att få ett 100 % säkert svar finns det bara en sak att göra, fråga alla svenskar! Men det är såklart praktiskt omöjligt och ekonomiskt ohållbart att fråga hela populationen. Det man då gör är att man frågar ett antal slumpmässigt utvalda individer ( man gör ett stickprov ) och försöker därefter göra goda antaganden om hela folkets motionsvanor. I stickprovet betecknas antalet med lilla n, medelvärdet med x och variansen med s 2. Figur 6.1 ger en schematisk bild av population och stickprov. Figur 6.1 6.1 Individuell variation Individuell variation är kanske den starkaste orsaken till att matematisk statistik behövs i medicinska sammanhang. Oavsett om behandlingen generellt sett är bra eller dålig så kommer människor att reagera olika. Ett jättebra läkemedel kan ge ett dåligt resultat för en enskild individ och tvärtom. Om alla människor hade reagerat exakt lika så hade inferensstatistiken varit enkel. Det hade räckt med en försöksperson och sen hade vi vetat att resultatet skulle gälla för alla, så ser såklart inte verkligheten ut. Även om två läkemedel är exakt lika e ektiva så kommer individuell variation leda till att olika människor svarar olika bra. I en studie är det osannolikt att två grupper med olika behandlingar har exakt samma medelöverlevnad. En av grupperna kommer uppvisa ett bättre medelvärde än den andra. Är denna skillnad slumpens verk eller är den ena behandlingen verkligen bättre än den andra? Matematisk statistik hjälper oss att besvara denna fråga! 27
6.2 Statistiska fördelningar En stor del av statistiken bygger på kunskaper om statistiska fördelningar. Oavsett vilken variabel man mäter så kommer svaren att fördela sig på något sätt. Upprepade tärningskast kommer ge en fördelning där alla sex möjliga utfall förekommer likvärdigt många gånger. Frågar vi människor om deras längd så kommer många svara runt 160-190 cm, men några är betydligt kortare och andra är mycket längre. Om vi bara orkar rulla tärningen några enstaka gånger eller bara frågar några få personer på den nästintill tomma nattbussen så kan utfallen såklart bli lite hur som helst. Men uttrycket det utjämnar sig i längden stämmer väldigt bra när det handlar om statistik. Rullar vi tärningen ett stort antal gånger eller frågar ett stort antal slumpmässigt utvalda personer om längd så kan vi vara ganska säkra på att vi skulle få en liknande fördelning om vi gjorde om samma försök. 6.2.1 Normalfördelning Jag kommer ge en grundlig presentation av normalfördelningen i avsnitt 10.1, men jag inser att den måste introduceras redan här. Många variabler i naturen följer approximativt denna specifika fördelning. I korthet innebär det att de flesta individerna i populationen befinner sig nära medelvärdet och ju längre ifrån detta man kommer, desto färre blir antalet individer. Fördelningen är dessutom symmetrisk kring medelvärdet, vilket innebär att antalet individer som befinner sig på ett visst avstånd under medelvärdet är lika som antalet individer på samma avstånd över medelvärdet. Många av de analyser som används i följande avsnitt förutsätter att den aktuella variabeln är normalfördelad, eller åtminstone approximativt normalfördelad. Om det antagandet inte kan göras måste man ibland hitta andra sätt att analysera sina resultat. Säg att vi har en variabel som vi bedömmer som approximativt normalfördelad, med detta menar jag: De flesta individerna befinner sig nära medelvärdet. Det är lika vanligt att ligga under medelvärdet som över. Alla fördelningar som uppfyller dessa punkter är såklart inte exakt normalfördelade, men som en grov approximation kan man utgå ifrån dessa. Om ni tänker efter så är det många parametrar som uppfyller dessa krav (någorlunda väl). Vidare så är det ganska vanligt inom statistiken att man säger något i stil med det här värdet avviker 1,5 standardavvikelser från medel. För de flesta människor är detta ogreppbart och man vet inte riktigt om detta är normalt, lätt avvikande eller grovt avvikande. Förutsatt att parametern är approximativt normalfördelad så kan man använda följande tumregel: 68 % av individerna befinner sig inom ±1 standardavvikelse från medelvärdet. 95 % av individerna befinner sig inom ±2 standardavvikelser från medelvärdet. 99 % av individerna befinner sig inom ±2,5 standardavvikelser från medelvärdet. Andra fördelningar som också är viktiga för inferensstatistiken är t.ex. t-fördelningen och 2 -fördelningen, dessa kommer också att presenteras senare. 6.3 Beteckningar och begrepp µ: Den grekiska bokstaven my betecknar populationens medelvärde. Det är ofta detta vi vill dra slutsatser om inom inferensstatistiken. : Den grekiska bokstaven sigma betecknar populationens standardavvikelse. Denna är oftast okänd. x: Ett streck över variabeln brukar beteckna medelvärde. Detta är stickprovets medelvärde. s: Lilla s betecknar stickprovets standardavvikelse. Det är mycket viktigt att hålla isär dessa begrepp. Vi använder stickprovets värden för att med inferensstatistik uppskatta populationens motsvarande värden. 28
6.4 Stickprovsmedelvärdet Stickprovets medelvärde brukar betecknas x eller m och beräknas på samma sätt som populationens medelvärde. x = 1 nÿ x i (6.1) n i=1 Detta är också vår bästa skattning av populationens medelvärde, µ. Om vi utifrån stickprovet skall gissa vad populationens medelvärde är så blir alltså stickprovets medelvärde vår bästa möjliga gissning. 6.5 Stickprovsvarians I avsnitt 4.3 gick vi igenom vad varians innebär och ekvation 4.5 beskriver hur man beräknar populationsvariansen. Nu kommer dock något som säkert kan uppfattas som lite knepigt, nämligen stickprovsvariansen. Med detta menar jag att man tagit ett stickprov och vill beräkna spridningen hos detta isyfteattdraslutsatser om hela populationen. Man kan säga att stickprovsvariansen, s 2, är en skattning av populationens varians, 2. Det är den bästa gissningen vi kan göra! s 2 = 1 n 1 nÿ (x i x) 2 (6.2) i=1 Om ni jämför med formeln för populationsvariansen (ekvation 4.5) så är mycket sig likt, men man dividerar med antalet observationer minus 1 istället för bara antalet observationer. Detta kan vara svårt att intuitivt förstå men det har visat sig att detta ger en bättre skattning av populationsvariansen. Så, har ni förstått skillnaden nu? Populationsvariansen beräknas om man har data från hela den population man är intresserad av att dra slutsatser om, stickprovsvariansen beräknas om den skall verka som skattning av en större populations varians. Stickprovsstandardavvikelse Denna är precis som i populationsfallet kvadratroten ur motsvarande varians. s = Ô s 2 (6.3) 6.6 Skattningarnas precision Nu har vi beräknat stickprovets medelvärde och varians ( x och s 2 ) och även slagit fast att dessa är våra bästa skattningar av populationens motsvarande värden (µ och 2 ). Då är det dags att börja använda statistik för att bedöma hur pass säkra våra skattningar är. Tänk er exemplet där vi vill undersöka svenska folkets motionsvanor. Vi vet att N är (ungefär) 9 miljoner och att vi gjort ett stickprov omfattande n individer där x och s 2 har beräknats. Hur bra skattning av µ är egentligen x? Vi börjar med att lägga matematiken åt sidan och försöker att ska a oss en intuitiv uppfattning. Vad skulle göra dig mer eller mindre säker på gissningen att µ x? Stickprovsstorleken n. Desto större andel av befolkningen som ingår i stickprovet, desto säkrare kan vi vara på skattningen. Självklart får vi ett mer tillförlitligt medelvärde om vi frågat en miljon människor än om vi pratat med 4 personer på stan. Stickprovsvariansen s 2. Låt säga att vi frågar 100 personer och alla svarar exakt lika, då är stickprovsvariansen 0. Då kan vi känna oss mer trygga med vårt medelvärde än om vi har en enorm variation inom vårt stickprov. Om vi har fått svar som skiljer mycket från varandra så skapar det en viss oro eftersom vi kan ha haft otur och råkat inkludera några extremsportare som därmed ger en skev bild av folkets motionsvanor. Nu vill vi sätta si ror på detta för att med några få värden kunna beskriva för läsare hur vår skattning ser ut och hur säker den kan anses vara. 29
6.7 Konfidensintervall Ett konfidensintervall anger inom vilka gränser populationens värde kan anses ligga. Eftersom vi aldrig helt säkert kan veta något om populationen (utan att verkligen fråga alla individer) så hör alltid en konfidensgrad till varje konfidensintervall, denna är vanligen 95 %. Med konfidensintervallet påstår man alltså att med 95-procentig sannolikhet så har vi rätt när vi säger att populationens medelvärde ligger mellan a och b. För att skapa ett konfidensintervall krävs att variabeln är kontinuerlig (se avsnitt 3.1.1). Varning: Tänk noga på betydelsen. Ett konfidensintervall betyder inte att hela populationens medelvärde verkligen ligger mellan a och b. Säkerheten i konfidensintervallet är oftast 95 %. En gång på tjugo ligger det verkliga värdet alltså utanför konfidensintervallet. Det är ganska ofta! Om man analyserar många parametrar så kommer några konfidensintervall rent statistiskt bli felaktiga. Tänk därför på att alltid ha en klinisk motivering innan man analyserar något, om man bara väljer variabler på måfå kan det sluta med att man drar många konstiga slutsatser. Detta är analogt med att man inte skall beställa omotiverat många blodprover eftersom 5 % per definition kommer hamna utanför referensintervallet (för friska individer). Varning 2: Ett konfidensintervall är en rent matematisk konstruktion som inte alls tar hänsyn till stickprovets kvalitet. Om det finns bias (systematiskt fel) när urvalet gjordes, t.ex. om man vill dra slutsatser kring svenska folkets medel-iq och tar hela stickprovet på universitetet. Då får man snarare ett konfidensintervall för alla universitetsstudenters IQ, inte för hela folkets. Konfidensintervallet tar alltså inte hänsyn till felaktigt utvalda stickprov. Exempel 6.7.1. Vi har mätt IQ hos 100 slumpmässigt utvalda svenskar och fått stickprovsmedelvärdet x=102. Ur detta vill vi skapa ett konfidensintervall för hela folkets medel-iq. Svaret (CI95: 99,9-104,1) kan tolkas som att svenska folkets genomsnitts-iq med 95 % sannolikhet ligger mellan 99,9 och 104,1. I kapitel 10 finns en utförlig förklaring och exempel 10.2.1 visar uträkningen av detta fall. En annan tillämpning av konfidensintervall är att man vill undersöka skillnaden i medelvärdet av en variabel mellan två grupper. Exempel 6.7.2. Låt säga att bland de 100 personer som utförde IQ-testet i föregående exempel så kunde 35 kategoriseras som gamla och 65 som unga. Medelvärdena för respektive grupp blev x 1 = 103, 2 för de gamla och x 2 = 101, 4 för de unga. Hur stor kan skillnaden mellan gruppernas medelvärden tänkas vara i hela befolkningen? Vi vill ange detta i form av ett 95-procentigt konfidensintervall och resultatet blir µ 1 µ 2 œ ( 3.4, +7), där symbolen œ utsläses som finns inom. Vi har alltså fått ett konfidensintervall som löper från -3,4 (dvs unga har lite högre IQ) till +7 (dvs gamla har högre IQ). Eftersom intervallet inkluderar noll så kan vi inte dra några slutsatser om att den ena gruppen skulle vara smartare än den andra. Vi kan bara konstatera att gamla presterade lite bättre i just detta test. Att intervallet sträcker sig över noll betyder alltså att det inkluderar värden där bägge grupperna är smartare än den andra, därav kan vi inte dra några säkra slutsatser. Uträkningen av detta ses i exempel 10.2.2 på sidan 72. 6.8 Hypotesprövning och p-värde Hypotesprövning är på många sätt besläktat med konfidensintervall och dessa utgör tillsammans grunden för inferensstatistiken. För att utföra en hypotesprövning krävs en nollhypotes (H 0 ), en mothypotes (H 1 ) och en beslutsgräns ( ), exempelvis: Nollhypotes, H 0 : µ =0(eller lika med något annat) Mothypotes, H 1 : H 0 är falsk. Beslutsgräns = 0, 05 (vanligen). Vad innebär detta? Jo, vi har en hypotes om att t.ex. ett medelvärde eller en medelvärdesskillnad är noll. Vi kan aldrig veta exakt vad ett populationsmedelvärde är (utan att fråga alla), vi kommer därför aldrig kunna dra en slutsats om att ett medelvärde ÄR noll. Däremot kan vi efter att ha gjort ett stickprov med 30
slumpmässigt utvalda individer säga att det är osannolikt att populationens medelvärde är noll. Läs de sista raderna igen, detta är viktigt! Även om vi frågat 100 personer och alla svarar att de skulle vilja ha 2 barn så kan vi INTE dra slutsatsen att medelvärdet av folkets barnaönskan är exakt 2. Däremot kan vi säga att det är väldigt osannolikt att medelvärdet skulle vara 7. Så funkar det även vid hypotesprövning! Vi gör ett stickprov och utifrån det avgör vi hur rimligt det är att vår nollhypotes skulle kunna vara sann. I beräkningen så vänder vi lite på resonemanget. Vi utgår ifrån att nollhypotesen är sann och frågar oss hur rimligt det då skulle vara att få vårt stickprov. Om det vore orimligt så väljer vi att förkasta nollhypotesen och hävda att den inte stämmer. Om nollhypotesen säger att µ =0och vi i vårt stickprov får medelvärdet x =1, 5, hur sannolikt är det egentligen att få ett värde som skiljer så mycket ifrån noll (eller mer) om nollhypotesen är sann? Detta kan beräknas för hand eller med hjälp av datorer som ger oss ett p-värde. Detta kan tolkas som sannolikheten att, av slumpen, få ett värde som avviker så mycket (eller mer) OM nollhypotesen är sann. Nu kommer vi till beslutsgränsen, vanligen 0,05, dvs 5 %. Notera dock att detta värde kan väljas helt godtyckligt och inte alls behöver vara just 5 %. Den betecknar risken vi tar att förkasta en nollhypotes som egentligen är sann (= typ-1-fel ). Säg att vi har en nollhypotes om att svenskar i snitt vill ha 4 barn. Vi gör ett stickprov om 100 personer och får snittet 2,1. Kan vi förkasta nollhypotesen eller inte? Vi utgår ifrån att den är sann och ställer oss frågan hur sannolikt det då är att 100 slumpmässigt utvalda personer skulle ge snittet 2,1. Datorn ger oss p=0,005. Det betyder att 5 gånger på 1000 så skulle vi faktiskt få ett så extremt resultat även om befolkningens verkliga snitt är 4. OM vi förkastar nollhypotesen och rapporterar att svenskar i genomsnitt INTE vill ha 4 barn så tar vi alltså en liten risk. Om den risken är mindre än beslutsgränsen (p < ) så är vi beredda att ta den. Man talar om signifikansnivån som är 1-. Om denna är 95 % så innebär det att vi förkastar en nollhypotes om, och endast om, vi är minst 95 % säkra på att detta är korrekt. Den maximala risk vi tar när vi förkastar en nollhypotes är således 5%(= ). Man kan säga att nollhypotesen alltid speglar det odramatiska tillståndet att ingen skillnad föreligger. Målet är inte att bevisa detta, för det går inte. Målet är att om möjligt motbevisa det. Att förkasta en nollhypotes är alltså att sticka ut hakan och säga att vi funnit något som avviker. P-värdet symboliserar då risken att man drar en spännande slutsats trots att den inte alls är sann. Om denna risk är större än så säger vi att man inte lyckats motbevisa nollhypotesen (eftersom risken för att studiens uppmätta skillnad endast är slumpmässig är för stor). Detta betyder absolut inte att man bevisat att nollhypotesen är sann! p-värdet är alltså sannolikheten att en uppmätt skillnad beror på individuell variation. Notera att detta är sannolikheten för att HELA skillnaden beror på individuell variation. Om vi i en studie mätt att rökare presterar 10 poäng sämre än icke-rökare på ett specifikt prov och fått p=0,02 så säger detta att skillnaden sannolikt inte bara beror på individuell variation. Det säger ingenting om att den verkliga skillnaden nödvändigtvis är så mycket som 10 poäng. Sannolikheten är 2 % att rökare inte alls preseterar sämre än icke-rökare men sannolikheten att den verkliga skillnaden är mindre än 10 är såklart större. Vår slutsats är således att rökare sannolikt presterar sämre än icke-rökare, men p-värdet säger ingenting om hur mycket sämre. 6.8.1 Osäkerhet och power När man skall utföra statistiska test finns alltid en osäkerhet och en viss risk att man drar felaktiga slutsatser, den goda forskaren är dock medveten om dessa risker och anger dem tydligt i sin rapport. Sann nollhypotes Felaktig nollhypotes Bibehållen nolhypotes Korrekt Typ-2-fel Förkastad nolhypotes Typ-1-fel Korrekt Tabell 6.1 I tabell 6.1 introduceras ett par nya begrepp. Om vi efter testet behåller en sann nollhypotes eller förkastar en felaktig så kan vi (med facit på hand) säga att testet gav ett korrekt resultat. Fallet där man råkar förkasta en egentligen sann nollhypotes kallar vi för typ-1-fel och detta har i viss mån redan 31
berörts i det föregående avsnittet. Den risk för detta som vi är beredda att ta är. Om sannolikheten att slumpen gett den uppmätta avvikelsen (=p-värdet) är mindre än så förkastar vi nollhypotesen. Den motsatta situationen där nollhypotesen faktiskt är felaktig men vi inte lyckas åstadkomma nog signifikans för att anse den vara motbevisad kallas typ-2-fel. Självklart kan vi ha en reell avvikelse, men där slump och individuell variation ger att stickprovet ser tämligen normalt ut. Begreppet power, 1, betecknar testets styrka att påvisa avvikelser. Med andra ord: OM det finns en avvikelse, hur stor är då sannolikheten att testet hittar den? är alltså risken för typ-1-fel och är risken för typ-2-fel. Det finns ett mycket nära samband mellan, och n, något som jag kommer beskriva mycket närmare i avsnitt 10.4. Men några av de viktigaste egenskaperna är: Om man minskar risken för typ-1-fel (t.ex. genom att sänka från 0,05 till 0,01) så ökar man risken för typ-2-fel. Man måste alltså välja vilket av felen man helst undviker i det aktuella fallet. Om man ökar stickprovsstorleken minskar man både och, men ökar det administrativa arbetet och kostnaderna. Därför kan man på förhand, genom att bestämma vilka risker (, ) man är beredd att ta, beräkna hur stor stickprovsstorlek man behöver. Detta är mycket användbart! Detaljerna kring detta kommer i avsnitt 10.4. Innan vi övergår till exempel så vill jag belysa två viktiga frågor som man ofta måste ställa sig vid hypotesprövning. Ensidigt eller tvåsidigt? Parat eller oparat? 6.8.2 Ensidigt eller tvåsidigt test? I de flesta statistiska testen måste man bestämma sig för om det skall vara ensidigt eller tvåsidigt. Valet styrs av hur mothypotesen formuleras. Som standard lyder hypoteserna: H 0 : x =0 H 1 : x = 0 Där x t.ex. kan vara ett medelvärde eller en skillnad mellan gruppers medelvärden. Här skall ett tvåsidigt test utföras! Men låt säga att vi istället skriver: H 0 : x =0 H 1 : x>0 Notera att mothypotesen nu säger större än istället för skilt från. Skillnaden är att vi i detta fall har en tydlig uppfattning om hur skillnaden ser ut OM det finns en skillnad. Möjligheten att x<0 har kliniskt bedömts som osannolik och därför utför vi ett ensidigt test. Exempel 6.8.1. Vi har gjort IQ-test och vill jämföra norrlänningar och skåningar. Vår nollhypotes är att det inte finns någon skillnad på populationsnivå. Men OM det faktiskt skulle finnas en skillnad så kan vi inte säkert säga vilken av grupperna som skulle vara den signifikant smartare. Då gör vi ett tvåsidigt test. Nollhypotesen kan förkastas åt bägge hållen. Exempel 6.8.2. Vi har gjort en undersökning om vilka som åker mest till Danmark av norrlänningar och skåningar. Nollhypotesen är att bägge grupperna åker lika ofta. Vår bedömning är dock att OM det finns en skillnad så är det skåningarna som åker oftare. Att norrlänningar i snitt skulle åka mer till Danmark än skåningar är ett osannolikt utfall som vi inte ens vill testa för. Då gör vi ett ensidigt test. 6.8.3 Parat eller oparat test? Om man vill jämföra resultaten i två utfallsgrupper så måste man avgöra ifall testet skall vara parat eller oparat. Om det är oberoende observationer så skall testet vara oparat. Vid beroende, parade observationer (t.ex. före och efter), så skall ett parat test utföras. 32
Exempel 6.8.3. vi vill jämföra om det finns en skillnad i hur mycket män och kvinnor röker. Alla personers svar är oberoende av varandra, därför utför vi ett oparat test. Exempel 6.8.4. Vi vill undersöka e ekten av läkemedel på människors vikt. Vi väger därför alla personer två gånger, varav en gång innan läkemedelsintag och en gång efter. Nu har alla individer två resultat och vi vill bestämma om läkemedlet har en signifikant e ekt på populationsnivå. Mätresultaten utgörs alltså av par. Då utförs ett parat test. Exempel på hypotesprövning Exempel 6.8.5. Vi har kunskaper om att längden hos friska individer är normalfördelad med ett medelvärde på 175 cm och standardavvikelse 10 cm (OBS! Fiktiva si ror). En man på kliniken mäter 215 cm och vi frågar oss om det kan tyda på en tillväxtrubbning. H 0 : Det tillhör normal individuell variation att bli så lång. H 1 : Personen är längre än normalt pga en tillväxtrubbning. Ensidigt test! Beslutsgränen bestäms som 0,01. Vi vill inte använda 0,05 eftersom det inte är acceptabelt att felaktigt diagnostisera var tjugonde patient som tillväxtrubbad. Utfallet av hypotesprövningen blir p =0, 00003, vilket är mindre än =0, 01. Vi kan därför förkasta nollhypotesen och hävda att mannen har en tillväxtrubbning. Men notera att tre personer av hundratusen faktiskt blir så långa helt utan rubbning. Så helt säkra på att han är sjuk kan vi inte vara. Se exempel 10.1.9 på sidan 68 om du är nyfiken på beräkningen! Exempel 6.8.6. Forskaren Svante Pipette är övertygad om att befolkningens medellängd är kortare än 178 cm, han slår vad med en kollega och de formulerar förutsättningarna för ett test: H 0 : Medellängden är 178 cm H 1 : Medelängden är kortare (ensidigt test). Beslutsnivå =0, 05 För att bevisa sin tes frågar han 14 slumpmässigt utvalda personer och deras medellängd visar sig vara 173 cm. Efter gedigna analyser fås p-värdet 0,033. Hur tolkar ni detta? Jo, eftersom p< så anser vi att sannolikheten att slumpen gett detta resultat vid en sann nollhypotes är så liten att vi väljer att förkasta nollhypotesen. Slutsatsen blir att populationens medellängd är signifikant lägre än 178 cm. Svante jublar och blir bjuden på lunch. Se hela uträkningen i exempel 10.2.3 på sidan 74. En lösning med R finns också tillgänglig på sidan 124. Den vanligaste medicinska tillämpningen av hypotesprövning rör dock inte enskilda individer. Oftast vill man testa ifall det finns en signifikant skillnad mellan medelvärdet i olika grupper. Har rökare i snitt ett annat resultat på blodprov X än icke-rökare? Mår individer som fått läkemedel i snitt bättre än de som fått placebo? Ni fattar, detta användas ofta! Exempel 6.8.7. Vetenskapskvinnan Kajsa Kvark har en teori om att kärnkraftolyckor påverkar barns tillväxthormoner (på förhand har hon dock ingen säker uppfattning om huruvida det skulle ge ökad eller minskad tillväxt). Nollhypotes, H 0 : µ population µ olycka =0. Mothypotes, H 1 : µ population = µ olycka. Tvåsidigt test! Beslutsgräns =0, 05. Man har långt efter en olycka gjort mätningar på 50, numera vuxna individer, som i barndomen exponerades. Medellängden i denna grupp blev x = 169 cm. Man vet att hela befolkningens medelvärde är 175 cm och standardavvikelsen är 10. Utfallet för analysen blir p =0, 00002. Eftersom detta understiger vår beslutsgräns kan vi slå fast att denna grupps längd med stor sannolikhet skiljer sig från populationens (om det beror på kärnkraftolyckan eller på något annat kan inte statistiken besvara, det får forskaren fundera vidare på). Uträkningen finner den vetgirige läsaren i exempel 10.1.10 på sidan 69. 33
Exempel 6.8.8. Läkaren Rebecka Röök vill undersöka huruvida rökares värden skiljer från icke-rökares vad gäller en specifik inflammationsmarkör. H 0 : Ingen skillnad mellan gruppernas medelvärden µ 1 = µ 2 H 1 : µ 1 = µ 2 (tvåsidigt test) Beslutsgräns =0.05 Hon tar ett blodprov på 70 patienter, varav 40 är rökare. Bland rökarna finner hon ett medelvärdet 714 på inflammationsmarkören, medan icke-rökarnas prover i genomsnitt resulterar i 685. Det är dock en ganska stor individuell variation mellan individerna. Hon utför ett statistiskt test och får p=0.33. Hur tolkar ni detta? 1. p>0.05, nollhypotesen kan inte förkastas. 2. Skillnaden mellan gruppernas medelvärden är ändå ganska stor, runt 5 %. 3. Den stora individuella variationen gör dock att testets power blir lägre vilket resulterar i ett ickesignifikant resultat. 4. Man kan säga att hon funnit en intressant indikation på att rökare har högre värden, men det behövs ett större stickprov innan hon kan dra några slutsatser om att detta skulle gälla generellt. 5. Att nollhypotesen inte kan förkastas betyder absolut INTE att hon har bevisat att gruppernas medelvärde är lika. Vi vet fortfarande inte om nollhypotesen är sann, bara att den i nuläget inte kan förkastas! Uträkningen av detta problem finner ni i exempel 10.2.4 på sidan 75 och även med R i exempel 15.7.8 på sidan 125. Exempel 6.8.9. Allmänläkaren Bengt Bar föredrar att ta blodtryck stående istället för liggande. Han är dock lite fundersam och undrar om han skulle utföra ett systematiskt fel ifall han ändrade rutin. Han mäter därför blodtrycket både liggande och stående för 10 patienter och noterar det systoliska blodtrycket vid varje mätning. H 0 : Det finns ingen skillnad mellan liggande och sittande systoliskt blodtryck. µ 1 µ 2 =0 H 1 : Det finns en skillnad, µ 1 µ 2 =0(tvåsidigt test). Beslutsgräns =0.05 Han utför nu ett parat test och får p-värdet 0.06. Hur tolkar vi detta? 1. p-värdet är aningen för stort för att vi skall kunna förkasta nollhypotesen. 2. Men ett p-värde som är så pass lågt i en studie med bara 10 personer än ändå lite anmärkningsvärt. Vi har ett test med låg power som ändå är nästan ger ett signifikant resultat. 3. Det är troligt att det faktisk finns en skillnad men att den inte kunde bevisas i denna studie. Uträkningen av detta problem finner ni i exempel 10.2.5 på sidan 76 och även isom R-lösning i exempel 15.7.9 på sidan 125. Hittills har alla exemplen berört kontinuerliga variabler och huruvida medelvärdet av dessa är lika i olika grupper. Men man kan även utföra hypotesprövningar för kategorivariabler och frekvenser av grupptillhörigheter. Exempel 6.8.10. En landstingsmedarbetare söker svar på vilka administrationssätt patienterna egentligen föredrar när det handlar om läkemedel. Tablett? Drickbar lösning? Injektion? Stolpiller? Ska man verkligen köpa in lika många av varje (för de läkemedel som finns i dessa former) eller har patienterna tydliga preferenser? Man formulerar sina hypoteser och frågar därefter 100 slumpmässigt utvalda patienter. 34
H 0 : Alla former är lika populära. H 1 : Det finns skillnader, alla är inte lika populära. Beslutsgräns =0.05 Svaren utfaller som: Stolpiller Injektion Tablett Oral lösning 18 24 31 27 Tabell 6.2: Preferenser för läkemedelsadministration Beräkningarna som följer ger p=0,31. Vi kan alltså inte förkasta nollhypotesen. Vi kan inte säga att alla administrationssätt är lika populära men vi har heller inte lyckats motbevisa det. Uträkningen av detta problem finns i exempel 10.3.1 på sidan 78. Exempel 6.8.11. Låt säga att vi vill jobba vidare med föregående exempel och frågar oss om det finns någon attitydsskillnad mellan män och kvinnor vad gäller läkemedelsadministration. Om svaren fördelas mellan könen fås en tvådimensionell frekvenstabell: Våra hypoteser lyder: Stolpiller Injektion Tablett Oral lösning Totalt Kvinnor 6 13 21 20 60 Män 12 11 10 7 40 Totalt 18 24 31 27 100 Tabell 6.3 H 0 : Det finns ingen skillnad mellan kvinnors och mäns attityder. H 1 : Det finns en skillnad. Beslutsgräns =0.05 Efterföljande beräkningar ger p=0,03. Hur skall detta tolkas? Eftersom p-värdet understiger beslutsgränsen så förkastar vi nollhypotesen. Sannolikheten att de skillnader som uppmätts endast beror på slumpen är så låg att vi tror att det faktiskt finns en skillnad. Hur skillnaden ser ut kan vi dock inte säga någonting om utifrån detta test. Dock kan man säkert få en god uppfattning bara genom att titta i frekvenstabellen. Uppgiftens lösning finner ni i exempel 10.3.2. P-värdets svagheter Nu till några exempel som belyser p-värdets svagheter: Exempel 6.8.12. Ett företag har tagit fram ett medel, som enligt egen utsago är revolutionerande då det höjer människors kognitiva förmåga. Eftersom det är ett kapitalstarkt bolag har man finansierat en enorm dubbelblind studie där en miljon människor fått BrainBoosterPlus och en miljon har fått placebo. Testet består av 1000 uppgifter som vardera kan ge en poäng. Vid så stora studier kan man säga att e ekten av individuella variationer blir liten. Medelvärdet i de bägge grupperna blev x BrainBoosterP lus = 756 och x placebo = 755 med p =0.007. Företaget prestenterar under storslagna omständigheter sitt resultat: Det är högsignifikant bevisat att BrainBoosterPlus förbättrar människor kognitiva prestationer!. Har de ljugit? Nej! Det är faktisk med stor sannoliket så att preparatet höjer prestationsförmågan. Men under festligheterna råkade företagets VD glömma att meddela hur mycket prestationsförmågan höjs. Notera att medelvärdet endast skiljer med en enda poäng mellan grupperna! Skulle du betala tusentals kronor och riskera ännu icke upptäckta biverkningar för något som förväntas höja ditt resultat från 755 till 756? Troligen inte. Så, titta alltid på skillnaderna mellan medelvärderna innan ni bemödar er med att dra några slutsatser utifrån p-värdet. Är inte medelvärdesskillnaden kliniskt relevant så är inte heller skillnaden mellan grupperna det, oavsett p-värde. Men jag kan lova att många artikelförfattare valt att lägga tyngd på p-värden trots att de uppmätta skillnaderna i praktiken är helt försumbara. 35
Exempel 6.8.13. Säg att man bara testat 100 personer och fått m BrainBoosterP lus = 856 och m placebo = 755 med p = 0.007. Då hade vi haft en kliniskt relevant medelvärdesskillnad (m BrainBoosterP lus m placebo = 101) och dessutom kunnat konstatera att p-värdet är litet. Detta vore ett fantastiskt resultat för företaget (och mänskligheten?). Det finns förvisso en liten risk (0, 007 = 0, 7%) att resultatet är en slump, men det finns också en stor möjlighet att preparatet gör en betydande skillnad! Så, samma p-värde men väldigt mycket mer intressant. Exempel 6.8.14. Om man istället bara testat 10 personer och fått m BrainBoosterP lus = 856 och m placebo = 711 med p =0, 27. Då hade vi först noterat en intressant medelvärdesskillnad men sedan sett att p =0, 27, dvs sannolikheten att slumpen gett denna skillnad är stor. Notera dock att detta IN- TE betyder att prepratet är verkningslöst. Skillnaden kan fortfarande bero på preparatet, men studien är för liten för att man skall kunna dra en sådan slutsats. Detta resultat skulle kunna kommenteras med vi har funnit en intressant skillnad, men vi behöver göra fler studier eftersom den inte är statistiskt säkerställd. Vad vill jag säga med dessa tre exempel? Jo, att p-värden alltid måste betraktas i kombination med andra parametrar. P-värdet är beroende av hur många individer som avviker och hur mycket de avviker. Ett litet värde kan alltså bero på: 1. En liten avvikelse hos ett stort antal individer, det sker knappast av en slump men behöver inte heller vara det minsta kliniskt relevant. 2. En stor avvikelse hos några få. Är studien verkligen korrekt utförd? Detta leder till ett par varningar: Varning: P-värdet ger oss sannolikheten för att en uppmätt avvikelse helt varit slumpens verk. Det säger egentligen ingenting om hur stor skillnaden är. Läs de senaste meningarna igen! Ett litet p-värde ger oss rätten att dra slutsatsen att det finns en skillnad, men säger ensamt ingenting om skillnadens storlek eller kliniska relevans. Varning: Ett stort p-värde betyder inte nödvändigtvis att det inte finns något skillnad. Det betyder bara att vi inte lyckats bevisa det, vilken i sin tur kan bero på att vi gjorde ett för litet stickprov. 6.9 Signifikans och relevans Rubrikens bägge begrepp är mycket viktiga att hålla isär. Signifikans är ett matematiskt mått som inte tar hänsyn till medicinska avväganden. Man måste vara medveten om att alla signifikanta resultat inte är relevanta. Ibland kan mycket små skillnader vara signifikanta, dvs vi vet att metod A är pyttelite bättre än metod B rent utfallsmässigt. Men metod B kanske är skonsammare, biverkningslös, billig och välbeprövad, vilket gör att den totalt sett ändå är ett givet val. Den senaste meningen innefattar ett flertal medicinska bedömningar som en matematiker inte är rätt person att uttala sig om. I detta fall visade det sig att studien gav en signifikant skillnad som inte var medicinskt relevant. Som läkare så tycker jag att man alltid skall börja med att bedöma resultatets relevans. Se på utfallet i studien och fråga er om det ser ut att vara en relevant skillnad mellan grupperna. Om det nya läkemedlet ger en mycket begränsad ökad medelöverlevnad så är det kanske inte relevant att introducera ett helt nytt läkemedel på marknaden. Vi exemplifierar detta med en bild. I figur 6.2 ser man överlevnaden för ett stort antal individer som fått ett av två läkemedel, de heldragna linjerna beskriver respektive grupps medelvärde. Man ser att det nya läkemedlet har en något längre medelöverlevnad och analyser visar att skillnaden är signifikant. Men tycker ni att det verkar relevant att byta till det nya? 36
Figur 6.2 Figur 6.3 Visar en liknande studie men antalet som fick det nya läkemedlet är betydligt mindre. Här ser vi en ganska stor överlevnadsskillnad men eftersom antalet är litet blir resultatet inte signifikant. Men om denna studie skulle utvidgas så finns förhoppningar om ett resultat som är både relevant och signifikant. Denna studie är därför väldigt intressant! Figur 6.3 6.10 Tolka en läkemedelspresentation Under en läkemedelspresentation vill försäljaren ofta presentera sitt läkemedel på bästa möjliga sätt. Den kan presenteras si ror som kan förvirra de flesta. Här gäller det att tänka enkelt! Mitt förslag är att följande flödesschema följs. Grundprincipen är att resultat som inte är medicinskt intressanta kan aldrig räddas av matematiken. Utgå ifrån din medicinska bedömning och sök sedan matematisk bekräftelse om något verkar intressant. 37
Figur 6.4 Dessutom presenteras ofta relativa mått som odds ratio, relativ risk och hazard ratio. I dessa fall har läkemedlet på något sätt relaterats till andra alternativ. Ett bra värde på ett relativt mått bör väcka intresse hos dig som lyssnare men man kan inte nöja sig där. Det räcker inte att veta hur bra läkemedlet är i förhållande till något annat, vi vill även veta hur bra det verkligen är. Om du funderar på att börja förskriva det nya läkemedlet så är detta jätteviktigt. Låt informationen väcka ditt intresse men ställ frågor eller läs rapporten från den underliggande studien innan du i praktiken änvänder det nya. 38
Kapitel 7 Prediktion och klassificering Inom infernsstatistiken så drog vi slutsatser om populationen utifrån ett stickprov. Självklart kan man även gå åt andra hållet och använda kunkaper om populationen för att göra antaganden om individers egenskaper. Man kan antingen försöka förutse värdet på en parameter (prediktion) eller använda kunskaper för att dela in individer i olika fack (klassificering). 7.1 Prediktion Genom att vi vet hur det ser ut i en population (eller ett stickprov) så försöker vi göra antaganden om en enskild individ. Ofta handlar det om att vi vet något om individen och med hjälp av kunskaper om populationen vill dra slutsatser om en annan parameter. Exempel 7.1.1. Du har ett barn där du vet kön samt bägge föräldrarnas längd. Utifrån detta vill du ge en prognos för hur lång hen kommer bli i vuxen ålder. För denna typ av frågor kan man t.ex. använda regression, vilket jag återkommer till i nästa kapitel. 7.2 Klassificering Klassificering är vanligt inom medicin. Det kan handla om att man mäter en kontinuerlig parameter men skall fatta ett dikotomt beslut. Exempel 7.2.1. Du mäter värdet av en substans i blodet och målet är att fatta ett beslut (sjuk eller inte sjuk). Det finns alltså ett gränsvärde över vilket du väljer om att ställa diagnosen. Exempel 7.2.2. Du frågar patienter om hur mycket alkohol de dricker. Även här kan du göra en dikotom klassificering: riskbruk eller inte riskbruk. En hundraprocentig klassificering skulle innebära att alla som klassificeras som sjuka är sjuka och de som klassificeras som friska är friska. Dvs du kan ta ett blodprov och sedan ge ett säkert besked. Så är det sällan är verkligheten! Individer är olika och det påverkar vår möjlighet att kategorisera. Människor som genom blodprovet klassificerats som sjuka kommer ibland, efter annan mer påkostad utredning, visa sig vara friska och tvärtom. 7.2.1 Klassifikationstabeller I forskning där man försöker hitta nya tester och diagnoskriterier mäter man ofta den parameter man är intresserad av samt utför en annan, säker, undersökning. För att fortsätta på exemplet med ett blodprov så skulle detta innebära att man dels mätt den intressanta substansen i blodet, men även gjort en annan undersökning (t.ex. röntgen) så att man med stor säkerhet har ett facit på om individen är frisk eller sjuk. Man kan därefter sätta ett gränsvärde på blodprovet, över vilket individen skall klassificeras som sjuk. Individers klassifikation (enligt blodprovet) och observerade tillstånd (röntgenundersökningen) jämförs i en tabell. Exempel på detta ses i tablell 7.1. 39
Verifierat Klassificerat Sjuk Frisk Totalt Sjuk 28 12 40 Frisk 14 46 60 Totalt 42 58 100 Tabell 7.1: Klassifikationstabell Hur skall denna tabell tolkas? 100 personer ingick i studien 40 personer klassificerades som sjuka, av dessa visade sig 28 faktisk vara det medan 12 egentligen var friska. 60 personer klassificerades som friska. Av dem var 46 korrekt klassificerade medan 14 faktiskt var sjuka vid den säkrare röntgenundersökningen. 7.2.2 Mått på klassificeringsförmågan Ur klassifikationstabellen vill vi beräkna ett antal mått som berättar för oss om hur bra vårt test lyckats klassificera individerna. Vi skriver återigen ut tabellen, men med ett något mer generellt innehåll: Verifierat Klassificerat Sjuk Frisk Totalt Sjuk a b a+b Frisk c d c+d Totalt a+c b+d a+b+c+d Tabell 7.2: Klassifikationstabell Vi kan börja med att konstatera att a och d är korrekta klassificeringar, medan b och c är felaktiga. Detta ger: Andel korrekta klassificeringar = Sensitivitet och specificitet a+d a+b+c+d Sensitivitet och specificitet två mycket vanliga begrepp inom medicinsk forskning. a a+c Sensitivitet = Andel positiva test bland sjuka. Beskriver testets förmåga att upptäcka ett tillstånd. Ett test med 100 % sensitivitet kommer alltså att ge ett positivt utfall för alla som är sjuka (men säger ingenting om hur många falskt positiva svar man får på köpet). d b+d Specificitet = Andel negativa test bland friska. Hur specifikt pekar testet ut den aktuella sjukdomen? 100 % specificitet betyder att alla som är friska testar negativt (men det säger inget om antalet falskt negativa). Varning: Nu har det blivit dags att återigen föra fram en klassisk fallgrop i ljuset. Man kan aldrig göra en tolkning av sensitiviteten utan att veta specificiteten, eller tvärtom! Dessa är ett par och skall också presenteras som ett par. För kom ihåg att klassificeringen delvis är beroende av att vi själva bestämt ett gränsvärde över vilket man skall klassificeras som sjuk. Exempel 7.2.3. Vi mäter ett värde för nio personer varav fem visar sig vara sjuka vid en verifierande röntgenundersökning. Resultatet framgår i figur 7.1 som även visar vårt valda gränsvärde som säger att alla individer som får värdet 6 eller högre kommer att klassificeras som sjuka. 40
Figur 7.1 Vi gör våra beräkningar för att utvärdera testets förmåga att klassificera människor. Sensitivitet: 4/5 = 0, 8 (80 %) eftersom fyra av fem sjuka testade positivt. Specificitet: 3/4 = 0, 75 (75 %) eftersom tre av fyra friska testade negativt. Men kom ihåg att gränsvärdet 6 valdes helt godtyckligt. Hur skulle det ha blivit om vi valt något annat, t.ex. 12 eller 3? Detta visas i figur 7.2. Figur 7.2 Om gränsvärdet sätts till 12 kommer ingen att klassificeras som sjuk. Detta ger 100 % specificitet (men 0 % sensitivitet). Om gränsvärdet sätts till 3 fås omvända si ror eftersom alla klassificeras som sjuka. Dessa är usla test men som ni ser så kan alltså antingen sensitiviteten eller specificiteten alltid bli hög på bekostnad av den andra, endast genom ett godtyckligt val av gränsvärde. Endast i ett perfekt fall där man kan dra en linje som helt separerar sjuka från friska (alla sjuka testar positivt och alla friska testar negativt) blir både sensitivitet och specificitet 100 %. Detta vore ett perfekt test! Exempel 7.2.4. Tänk er att gränsvärdet i exemplet med blodprovet var att man skall hitta > 1000 bakterier för att bedömas som sjuk och att detta gav klassifikationstabellen 7.1. Låt säga att vi istället 41
skulle ha sagt att det räcker med att hitta 10 bakterier för att klassificeras som sjuk, då skulle exakt samma prover istället kunna ge tabell 7.3 där sensitiviteten är 100 % men specificiteten bara är 3 %. Verifierat Klassificerat Sjuk Frisk Totalt Sjuk 42 56 98 Frisk 0 2 2 Totalt 42 58 100 Tabell 7.3: Klassifikationstabell Om denna forskare då bara angav specificiteten så skulle rubriken kunna bli: Nytt blodprov kan med 100 % sensitivitet upptäcka förekomst av bakterier. Det är förvisso sant, men ärligt talat så kommer nästan alla friska människor också få en cancer-diagnos om detta test användes, men det vet vi ju inte ifall specificiteten aldrig anges! Positivt och negativt prediktivt värde Dessa är mått på hur väl man kan lita på positiva respektive negativa testresultat. Dessa beräknas enligt tabell 7.2 som: a a+b PPV = Detta beskriver hur stor andel av dem som vi klassificerar som sjuka som faktiskt är det. Hur mycket kan man lita på ett positivt testresultat? d c+d NPV = Beskriver hur stor andel av de som testet klassificerar som friska som faktiskt är det. Hur mycket kan man lita på ett negativt testresultat? Precis som sensitivitet och specificitet så skall PPV och NPV alltid presenteras som ett par. Hur bra var egentligen testet som presenterades i tabell 7.1? Sensitivitet 28/42 = 0, 67 Specificitet 46/58 = 0, 79 Positivt prediktivt värde 28/40 = 0, 7 Negativt prediktivt värde 46/60 = 0, 77 Total andel korrekta klassificeringar (28 + 46)/(12 + 14 + 28 + 46) = 0, 74 Receiver Operating Characteristics (ROC) Vill man kunna ge ett enda värde på hur bra ett test är på att diskriminera mellan 2 grupper (t.ex. sjuk och frisk) så kan man använda ROC. Som jag beskrev i ovanstånde varning så kommer sensitivitet och specificitet att variera när man ändrar gränsvärdet. Låt säga att man gör en tabell där man skriver ner sensitiviteten och specificiteten för många olika gränsvärden. Dessa kan sedan plottas med (1-specificiteten) på x-axeln och sensitiviteten på y-axeln. Figur 7.3 är ett exempel på detta. 42
Figur 7.3: ROC-kurva. I bilden har man vänt på x-axelns skala istället för att plotta 1-specificiteten. Genom att beräkna arean under denna kurva (AUC = Area Under Curve) får man en bra bild av testets kapacitet att klassificera. Följande gränser kan ses som en tumregel, men måste alltid värdera den enskilda fallet. AU C =0.5: Ingen klassificeringsförmåga alla. Lika bra som att singla slant. 0, 5 < AUC < 0.7: Dåligt. 0, 7 < AUC < 0.8: Acceptabelt. 0, 8 < AUC < 0.9: Bra. AUC > 0.9: Utmärkt. AUC kan också ses som sannolikheten att ett fall har ett högre värde än ett icke-fall. Om man slumpmässigt väljer en sjuk och en frisk individ speglar alltså AUC sannolikheten att den sjuka individen har ett högre värde. Varning: Tänk på att även detta värde bör presenteras med ett konfidensintervall. Testet är kanske utfört på bara några få personer och har råkat gissa rätt på dessa. Då blir alla klassifikationsmått höga men ett eventuellt konfidensintervall stort. 43
Kapitel 8 Linjär regression 8.1 Enkel regression Som vi lärde oss i avsittet om korrelationskoe ceienter så innebär ett perfekt samband (r=1 eller -1) att alla punkterna ligger på en linje ifall man skulle göra ett spridningsdiagram. Om korrelationen däremot inte är perfekt så är det omöjligt att dra en rät linje som passerar alla punkter. Då kan man använda linjär regression, vilket innebär att bästa möjliga linje anpassas till mätpunkterna. Exempel 8.1.1. Tio personer har angivit längd och vikt enligt tabell 8.1. Längd Vikt 1 182 77 2 163 58 3 161 53 4 177 68 5 157 59 6 170 76 7 167 74 8 186 69 9 178 71 10 169 65 Medel 171 67 Tabell 8.1 Vi gör ett spridningsdiagram av detta, se figur 8.1a. (a) Figur 8.1 (b) 44
Ser det ut att finnas ett samband? Ja! Går det att dra en rät linje genom alla punkter? Nej! Om vi skulle beräkna korrelationskoe cienten så skulle den bli 0,67. Nu kan vi låta datorn anpassa en regressionslinje, se figur 8.1b. Denna linje är framräknad som den som minimerar summan av punkternas avstånd till linjen (eller rättare sagt summan av deras kvadrerade avstånd). Mer om detta finns i kapitel 13. Nu tittar vi på en datorutskrift (från R) över linjens egenskaper (mer om kommandon i R finns i avsnitt 15.10.1). Figur 8.2 Detta kan vid en första anblick se krångligt ut, men jag skall gå igenom valda delar och hjälpa er att fokusera på det som är viktigt. Allra först måste vi repetera räta linjens ekvation: y = a + bx (8.1) a är interceptet, dvs värdet på y där linjen skär x-axeln (x=0). b kallas för regressionskoe ökar y med b enheter. cienten och beskriver lutningen på linjen. Om x ökar med en enhet så Så till utskriften. Där kan ni se att interceptet är -30,9 och regressionskoe lyder alltså: cienten 0,57. Linjens ekvation vikt = 30, 9+0, 57 ú längd (8.2) I utskriften finns ytterligare ett värde som är värt att kommentera i nuläget. Längst till höger i raden för längden står: 0.0346*. Det är p-värdet för antagandet att vikten är oberoende av längden. Vad skulle regressionskoe cienten bli om vi har två helt okorrelerade variabler? Noll! Regressionslinjen skulle bli vågrät, vilket innebär att lutningskoe cienten b skulle vara 0. Vi har nu nollhypotesen att vikt och längd (i hela populationen) är okorrelerade, dvs om vi anpassade en linje till hela folkets värden skulle koe cienten b bli noll. Vi har gjort ett stickprov på 10 personer och då fått b =0, 57. P-värdet för att detta skett av en slump om det sanna värdet är 0 visar sig vara 0,03. På beslutsnivån 5 % kan vi alltså förkasta nollhypotesen och slå fast att det med stor sannolikhet finns ett samband mellan längd och vikt. Regressionsanalysen kan alltså användas för att testa nollhypotesen om att det inte föreligger något samband mellan parametrarna. Men utöver detta finns stora möjligheter eftersom vi kan använda linjen för att predicera andra människors längd. Låt att säga att det hade varit en jättedyr och jobbig undersökning och väga patienter. Dessutom får vi tänka oss att det utifrån skulle vara omöjligt att uppskatta 45
vikt (dvs att man inte skulle kunna titta på personen och få en grov uppskattning). Vår allra bästa gissning kring någons vikt skulle då vara att chansa på medelvikten i befolkningen. Nu har dock en forskare gjort en studie enligt ovanstånde exempel och längd råkar vara mycket lätt att mäta. Vi vet att patienten mäter 155 cm. Då kan vi använda vår regression: vikt = 30, 9+0, 57 ú längd = 30, 9+0, 57 ú 155 = 57, 5 (8.3) Detta blir såklart inte alltid rätt, men det är en betydligt bättre gissning än att chansa på befolkningens medelvärde! Vi har alltså fått mer information (längden) och kan därför göra en bättre gissning. 8.2 Multipel regression Multipel regression innebär att vi har flera oberoende variabler (även kallade prediktorer) och vill undersöka hur dessa tillsammans påverkar en parameter. Exempel 8.2.1. Vi har tre parametrar hos människor: antal motionstimmar varje vecka, antal cigaretter dagligen samt en egen uppskattad livskvalitet (1-10). Vi vill veta hur detta påverkade deras livslängd (detta var en långtidsstudie där alla deltagare nu är avlidna, vi har alltså facit på hur länge just de levde). Hur skall vi hantera detta? Man skulle kunna göra 3 separata enkla regressionsmodeller och få svaren: 1. Såhär är sambandet mellan rökning och livslängd. 2. Såhär är sambandet mellan motion och livslängd. 3. Såhär är sambandet mellan uppfattad livskvalitet och livslängd. Men detta blir inte riktigt bra! Vi förlorar massor av möjlig intressant information på detta sätt. Vi förlorar helt informationen om tänkbara samband mellan prediktorerna. Tänk t.ex. Människor kanske upplever en högre livskvalitet som följd av motion. Den förlängda livslängden är kanske helt och hållet en e ekt av motionen och har egentligen ingenting med den upplevda livskvaliteten att göra? Det vi egentligen vill svara på är: Påverkar upplevd livskvalitet livslängden förutsatt att man motionerar och röker lika mycket? Man kan kalla detta för en isolerad e ekt av den upplevda livskvaliteten. Att bara utifrån det enkla regressionen dra slutsatsen att upplevd livskvalitet ger längre liv vore som att säga att man lever längre av att gå till kyrkan (helt utan att betänka att människor som ofta går dit har en annan livsstil). Det kan även vara så att motion förlänger livet, men inte om man röker mer än ett paket om dagen (för en storrökare har motionen i så fall ingen e ekt på livslängden). Ett sådant samband skulle enkel regression aldrig kunna utvisa. Lösningen är att inkludera alla parametrar i en och samma regressionsanalys. Resultatet för en modell med n prediktorer blir nu enligt formeln: y = b 0 + b 1 ú x 1 +... + b n ú x n (8.4) Det är inte längre lika lätt att visuellt visa koe cienterna b i som en lutning i en plot. Nu skall varje koe cient tolkas som e ekten av en parameter när alla de andra hålls konstanta. Koe cienten b i framför parametern x motion skall alltså spelgla hur motion påverkar livslängden oberoende av hur mycket man röker och hur man själv upplever sin livskvalitet. Det är den unika e ekten av motion. Detta skulle även kunna benämnas som e ekten av motion när man korrigerat för skillnader i rökning och upplevd livskvalitet. 46
I vår studie ingick tio personer och utfallen var: x 1 = Rökning x 2 = Motion Livskvalitet = x 3 Livslängd = y 1 30 2 3 70 2 50 6 4 68 3 20 10 6 85 4 0 5 7 75 5 0 4 4 80 6 10 0 2 76 7 0 6 4 94 8 25 2 2 55 9 25 8 9 85 10 20 3 7 62 Medel 18 4,6 4,8 75 Tabell 8.2 Vi låter R (datorn) utföra en multipel regression och tittar på utfallet: Vad kan vi utläsa? Figur 8.3 Den uppskattade koe cienten för rökning är -0,41. Det kan tolkas som för varje daglig cigarett så minskar livslängden med 0,41 år, förutsatt att motion och upplevd livskvalitet hålls konstant. Bland människor som motionerar lika mycket och upplever lika god livskvalitet så sänks livslängden så här mycket av rökning. p-värdet är 0,06. Det betyder att om det verkliga värdet för hela populationen skulle vara noll (dvs rökning påverkar inte livslängden för människor med samma motion och upplevd livskvalitet) så skulle slumpen kunna ge detta resultat med sannolikheten 6 %. Vi kan därför inte dra någon säker slutsats om att rökning förkortar livet (utifrån denna studie). Koe centen för motion är +3,0. Dvs för varje motionstimme i veckan så förlängs livet med 3 år för människor som röker lika mycket och upplever samma livskvalitet. Inte heller denna är signifikant (p=0,052) skilt från 0, men nära! Den upplevda livskvaliteten tenderar i denna undersökning att förkorta livet, men detta är inte alls statistiskt säkerställt (p=0.49). 47
Anledningen till att varken rökningen eller motionen bler riktigt signifikanta är troligen studiens storlek, bara 10 personer. Om ytterligare några personer inkluderats och visat liknande mönster hade p-värdena minskat. Hur man undersöker eventuella interaktioner mellan parametrar och hur man bestämmer bästa möjliga modell lämnar jag till det avancerade avsnittet om multipel regression, 13.2. 48
Kapitel 9 Studieplanering Det är viktigt att planera sin studie noggrannt utifrån vilka frågeställningar och förväntningar man har. Det finns många olika upplägg och metoder att välja sina urval. Innan jag presenteras dessa närmare så vill jag introducera några vanliga begrepp som berör systematiska fel utförda av forskaren, nämligen bias, confounders, mediatorer och moderatorer. Jag kommer även att beskriva validitet och reliabilitet som är viktiga kvalitetsmått vid kvantitativ forskning. 9.1 Bias Bias är ett systematiskt metodfel vid insamling eller tolkning av data. En vanlig form är selektionsbias vilket innebär att man gör ett stickprov som inte representerar populationen tillräckligt bra. Vill man göra en undersökning om svenska folkets läkemedelsvanor kan det kanske ses som praktiskt att göra studien i vårdcentralens väntrum. Men detta ger ett typiskt selektionsbias eftersom personer som besöker vårdcentralen tenderar att använda fler läkemedel än befolkningen i allmänhet. För att undvika selektionsbias måste urvalet vara en perfekt spegling av befolkningens sammansättning, vilket är mycket svårt att uppnå. Målet är att minimera bias. En annan typ av bias kan uppstå vid matematiska analyser om man t.ex. använder metoder som systematiskt överskattar de verkliga värdena. Genom att använda guiderna som finns i denna bok så minimerar du förhoppningsvis risken för betydande bias. Bias handlar sällan om medvetet fusk utan är snarare något som uppstår vid slarv, bekvämlighet, knappa resurser eller okunskap. 9.2 Missledande faktorer Det är enkelt att undersöka två parametrar och se att det finns ett samband mellan dessa. Men det är viktigt att noggrant fundera över sambandet och hur det egentligen ser ut. Många uppmätta samband kan vara illusioner eller åtminstone ha helt andra förklaringar. Eftersom variabler samvarierar är det lätt att dra felaktiga slutsatser om man inte är riktigt noggrann. Tänk er ett exempel där man undersöker inkomst och förekomst av en specifik sjukdom hos ett stort antal individer. Kanske hittar man ett samband mellan låg inkomst och sjukdom, men är det verkligen själva inkomsten som leder till sjukdomen? Kanske får man en chock av besvikelsen när man ser läser löneavin? Nej, troligen är det någon annan faktor som också har ett samband med inkomsten som i sin tur har en direkt påverkan på sjukdomsutvecklingen. Men kan se det som att inkomst och sjukdom befinner sig på varsin sida om en stort svart låda med okänt innehåll. Här måste forskaren fundera på vad som eventuellt kan finnas inuti denna låda, se figur 9.1. Det finns olika typer av vilseledande samvariation som kan bidra till felaktiga slutsatser, några av dessa kommer nu beskrivas. 49
Figur 9.1 9.2.1 Confounding factors Confounding factors kan på svenska kallas för snedvridande faktorer men vanligtvis används det engelska ordet confounders. Dessa är parametrar som samvarierar med både beroende och oberoende variabler, vilket kan leda till missvisande resultat om dessa parametrar utelämnas i analysen. Som exempel kan sägas att solens strålar både ger en ökad temperatur och en ökad risk för utveckling av malignt melanom. Om man missar detta faktum så skulle man kunna tro att hög temperatur ger en ökad risk för cancer, vilket inte alls är sant. Man kan t.ex. sitta länge i en bastu utan att det påverkar risken för melanom. Figur 9.2: Solstrålning som confounder 9.2.2 Mediatorer Mediatorer är en annan typ av parametrar som också kan ge missvisande slutsatser om de utelämnas i analyserna. Skillnaden mot confounders är att mediatorerna är delar av en kedjereaktion. De kan ses som ett mellansteg mellan oberoende och beroende variabler. Säg t.ex. att låg socioekonomisk status (SES) har ett samband med antalet rökta cigaretter och att detta i sin tur ökar risken för cancer. Att dra slutsatsen att det finns ett direkt samband mellan fattigdom och cancer är felaktigt men till skillnad från exemplet med confounders så finns här ändå ett indirekt samband. Man ser att fattigdom ökar risken för cancer via den ökade rökningen. Rökning är alltså ett mellansteg mellan låg socioekonomisk status och cancer. Figur 9.3: Rökning som mediator 50
9.2.3 Moderatorer Ytterligare en typ av parametrar som kan påverka utfallet är moderatorer. Dessa modererar e ekten av en variabel på en annan. Tänk er ett exempel där antalet motionstimmar påverkar den förväntade livslängden, vilket låter rimligt. Här skulle rökning kunna vara en moderator. I fallet där man inte röker kanske motionstimmarna har stor betydelse för livslängden, men för en storrökare så spelar kanske motionen en mindre roll. Då är rökningens negativa e ekt så stark att motionen inte förmår påverka. Således kan man säga att motionens inverkan på livslängden är beroende av antalet rökta cigaretter. Man kan då säga att rökningen är en moderator eller att det finns en interaktion mellan motion och rökning när det gäller hur livslängden påverkas. Figur 9.4: Rökning som modulator 9.3 Validitet och reliabilitet Validitet handlar om vad vi mäter och reliabilitet om hur vi mäter. För att få ett bra resultat på en studie krävs att vi faktisk mäter det vi är intresserade av. Om vi vill mäta folks vikt så är denna fråga tämligen okomlicerad, alla vet hur vikten mäts. Man om vi istället vill mäta en persons livskvalitet så blir det genast svårare. Om vi ställer frågan om hur ofta personen upplever sig må bra, har vi verkligen mätt rätt sak då? Eller har vi egentligen mätt något helt annat, t.ex. den livskvalitet som människor vill utge sig för att ha? Frågan är kanske ställd så att det är jobbigt att svara sanningsenligt, i så fall är det kanske snarare folkets ärlighet vi mäter istället för livskvalitet. Detta är innebörden av validitet. I en studie med hög validitet kan man vara säker på att man verkligen mäter det man är intresserad av. Det är viktigt att tänka på vad metoden egentligen mäter och att man ställer tydliga enkätfrågor som deltagarna tolkar likadant och på rätt sätt. Många potentiella confounders gör att validiteten sjunker. Även om vi mäter rätt parameter så är det inte säkert att vi mäter den på ett bra sätt. I en studie med hög reliabilitet kan man lita på att mätningarna är korrekt utförda. Detta betyder i praktiken att man skulle få exakt samma värde om mätningen upprepades flera gånger. Ett dåligt instrument eller en godtycklig mätmetod ger alltså en låg reliabilitet. I kvantitativ forskning eftersträvas både hög validitet och reliabilitet. Om svagheter förekommer bör dessa kommenteras som potentiella felkällor. 9.4 Studiedesign När studieupplägget skall designas finns två huvudtyper av studier: observationsstudier och experimentella studier. En observationsstudie innebär att forskaren står bredvid och observerar naturens gång utan att ingripa. Tanken är att man observerar och analyserar det man ser. I en experimentell studie påverkar forskaren på något sätt individerna och analyserar sedan utfallen. Nu följer en beskrivning av olika typer av observationsstudier och experimentella studier. Observationsstudier: Fall-kontrollstudier Kohortstudier (prospektiva eller retrospektiva) Tvärsnittsstudier Experimentella studier: Randomiserad kontrollerad studie. Quasi-experimentell studie. 51
9.4.1 Fall-kontrollstudie (case control study) I en fall-kontrollstudie utgår man ifrån utfallen och undersöker sedan tidigare exponeringar. Man väljer exempelvis ut 100 personer med en specifik sjukdom (fallgruppen) samt 100 friska personer (kontrollgruppen). Därefter går man bakåt i tiden och undersöker vad personerna blivit exponerade för under livet, t.ex. rökning och övergrepp. Eftersom forskaren är medveten om alla individers utfall (frisk/sjuk) redan då studien påbörjas så är fall-kontrollstudier per definition retrospektiva observationsstudier. Figur 9.5: Fall-kontrollstudie Fördelar med fall-kontrollstudier Att utföra en fall-kontrollstudie är relativt enkelt och billigt. Dessutom är det mindre tidskrävande än många andra metoder. De fokuserar på utfallet och är därför att föredra om man vill analysera ett specifikt utfall (t.ex. en sjukdom), med detta menas frågeställningar av typen vilka faktorer ökar/minskar risken för utfall x? (jämför med retrospektiva kohortstudier som snarare svarar på frågor av typen vilka tillstånd är relaterade till exponering av faktor x? ). Fall-kontrollstudier är särskilt bra om: Man vill snabbt utreda orsaken till utbrott av en epidemi. Man vill undersöka riskfaktorer för en ovanlig sjukdom. Om sjukdomen är ovanlig så skulle det behövas en enormt stor kohortstudie för att inkludera tillräckligt många som utvecklar sjukdomen (det går väldigt många friska på varje sjuk individ). Vid en fall-kontrollstudie kan man inkludera alla de sjukdomsfall som finns tillgängliga. Nackdelar med fall-kontrollstudier När man gör en fall-kontrollstudie kan det vara svårt att välja ut de individer som skall inkluderas. För fallgruppen ( de sjuka ) krävs att man tydligt har definierat villkoren för att en individ skall räknas till gruppen. Att välja kontrollgruppen är en annan potentiell fallgrop som kräver noggrannt övervägande. Den skall helst vara bra matchad med fallgruppen vilket innebär att de i många avseenden skall dela egenskaper. Om man t.ex. vill undersöka ett sjukdomsutbrott bör man välja en kontrollgrupp där personerna vistas i samma miljöer och har samma ålderssammansättning som de drabbade. Genom att slarva med gruppernas kompositioner så utsätts studien för risker för bias, dvs faktorer som påverkar studien och ger skeva resultat. En annan potentiell källa till bias är att individerna måste minnas tidigare exponering (eller att information om detta på något sätt finns dokumenterat) och personer med exponering för negativa faktorer tenderar att underestimera denna. Detta medför att fall-kontrollstudier sällan leder till säkra bevis. Dock kan fördelarna ändå motivera denna studiedesign och ibland kan resultaten bidra till att man senare utför en säkrare (men mer kostsam) longitudinell studie. 52
Statistiska analyser Från en fall-kontrollstudie kan man beräka en odds ratio för olika riskfaktorer. Detta kan tolkas som oddset för att individer i fallgruppen varit exponerade för en faktor relativt oddset att individer i kontrollgruppen varit det. Detta kan visas med en tabell. Grupptillhörighet (utfall) Exponering Fall (sjuk) Kontroll (frisk) Totalt Ja A B A+B Nej C D C+D Totalt A+C B+D A+B+C+D Tabell 9.1 Oddset för att de fallgruppen varit exponerade = A C Oddset för att de i kontrollgruppen varit exponerade = B D Odds ratio är kvoten mellan oddset för individerna i fallgruppen och oddset för individerna i kontrollgruppen. OR = A/C B/D = A ú D B ú C Tolkning av odds ratio: OR=1: Det finns inget samband mellan exponering och utfall. OR>1: Det finns ett positivt samband där exponering tenderar till positiva utfall (sjukdom). Exponering är en riskfaktor. OR<1: Det finns ett negativt samband. Exponeringen kan ses som en skyddande faktor. En odds ratio från en fall-kontrollstudie bör dock alltid anges tillsammans med ett konfidensintervall. Om konfidensintervallet inkluderar 1 så kan man inte dra några statistiskt säkerställda slutsatser. Ett exempel på en sådan uträkning finns i bokens avancerade del, exempel 10.1.8. Beroende på hur många parametrar man undersöker och vilken typ av variabler dessa är (kontinuerliga/kategori), så kan andra analyser göras. Om man bara undersöker en parameter och denna är kontinuerlig (t.ex. antal rökta cigaretter) så kan man utföra ett t-test för att se om det finns en signifikant skillnad mellan grupperna (friska/sjuka). Om man har undersökt flera parametrar så är logistisk regression en utmärkt analysmetod, se avsnitt 13.3. 9.4.2 Kohortstudie En kohort är en grupp individer som ofta delar en viss egenskap. I medicinska studier är det vanligt med ålderskohorter, vilket innebär att man följer en grupp människor som tillhör en specifik åldersgrupp. En kohort kan också ses som en grupp individer som studeras under en längre tid. (9.1) Figur 9.6: Prospektiv kohortstudie 53
I en prospektiv kohortstudie finns en longitudinell studiedesign där man börjar följa en kohort med friska individer, man gör upprepade mätningar (eller som minst endast i början och slutet av studien) och noterar exponering för olika faktorer. Man fortsätter att följa gruppen och ser till sist vilka hälsotillstånd personerna drabbas av. En kohortstudie kan även vara retrospektiv vilket innebär att man blickar tillbaka och identifierar individer som exponerats för olika föremål. Därefter går man framåt i tiden och ser vilka hälsotillstånd som drabbade individerna. Notera att man utgår ifrån olika exponeringar och därefter ser om individerna blev sjuka (till skillnad från fall-kontrollstudien där man utgår ifrån utfallet och sedan undersöker vad individen exponerats för). I en kohortstudie kommer exponeringen före utfallet vilket ger en större möjlighet att dra slutsatser. När man följer en kohort ges goda möjligheter att dra slutsatser om incidens och prevalens av olika hälsotillstånd. Dessutom kan an beräkna relativ risk (RR) och odds ratio (OR) för olika riskfaktorer för specifika sjukdomar. Man kan även utföra t.ex. regressionsanalyser för materialet. Analyser utförda på data från en prospektiv kohortstudie har stort värde eftersom problemen med bias blir mindre jämfört med en fall-kontrollstudie. Forskaren behöver inte välja fallgrupper och kontrollgrupper, det räcker att följa sin kohort och låta naturen avgöra vilka som blir sjuka och vilka som förblir friska. Nackdelen är såklart att det kräver stora resurser och lång tid att följa en grupp människor genom livet. Retrospektiva kontrollstudier är särskilt bra när man vill analysera vad exponering för ovanliga föremål medför. Man kan då välja alla individer som exponerats för en viss faktor och kalla dessa för en kohort. Till detta bör man även ha en kontrollgrupp med oexponerade individer. Därefter undersöker man vad dessa människor senare drabbades av. Detta är en relativt snabb och billig studiedesign. 9.4.3 Tvärsnittsstudie (cross sectional study) Vid en tvärsnittsstudie tittar man på befolkningen (eller ett urval ur denna) vid en enda tidpunkt. Man kan se det som att man stannar tiden och undersöker individernas tillstånd just nu. Vilka faktorer exponeras de för och vilka hälsotillstånd är de drabbade av? Fördelen med detta är att man tämligen Figur 9.7: Tvärsnittsstudie enkelt kan fånga många individers tillstånd. Eftersom datainsamlingen sker vid endast ett tillfälle så blir bortfallet litet och möjligheten att ge svar om många parametrar ökar (vid en longitudinell studie är bortfallen under studiens gång ett stort problem och dessa blir fler om deltagarna måste svara på många frågor vid varje tillfälle). Man kan även beräkna prevalens, odds ratio och relativ risk samt utföra regressionsanalyser. Nackdelarna med en tvärsnittsstudie inkluderar svårigheter att dra slutsatser om orsakssamband. Eftersom all data samlas in samtidigt är det omöjligt att veta om exponeringen för en faktor tillkommit innan eller efter utvecklingen av en sjukdom, man kan därför inte säga särskilt mycket om att exponeringen orsakat sjukdomen. En annan svaghet på samma tema är att vi bara fångar hur det ser ut just nu, om samma studie upprepas om några månader kan resultatet bli ett helt annat. Dessutom kan bias 54
uppstå då exponeringsfaktorer som är korrelerade med svår sjukdom/död försvinner ur analysen eftersom individerna endast lever en kort tid med denna faktor och därför sällan fångas av tvärsnittsstudien. 9.4.4 Randomiserad kontrollerad studie Detta är en experimentell studiedesign där individer först inkluderas i studien baserat på utvalda inklusionskriterier. De kommer därefter slumpmässigt att tilldelas en grupptillhörighet (vanligen behandling eller placebo). Man gör mätningar under studien och därefter sker statistiska analyser för att undersöka om behandlingen givit någon e ekt. Det är viktigt att tilldelningen av grupp (behandling/kontroll) sker slumpmässigt för att undvika bias. På detta sätt blir eventuella skillnader mellan grupperna endast beroende av slumpen och vi slipper problem med confounders beroende på felaktiga avvägningar från forskaren. En schematisk bild av processen presenteras i figur 9.8. Fördelar med randomiserade kontrollerade studier: Figur 9.8: Randomiserad kontrollerad studie Få källor till bias eftersom grupptilldelningen sker helt slumpmässigt. Tillförlitliga resultat. Nackdelar: Etiska problem att endast vissa får behandlingen. Resultaten är inte säkert generaliserbara till individer som inte uppfyller studiens inklusionskriterier. Olika typer av randomiserade kontrollerade studier: Öppen. Både patienter och behandlande personal vet vilka som fått behandling. Blindad. Patienter och/eller behandlande personal kan vara omedvetna om vilka som tillhör vilken grupp. Traditionellt används termen dubbelblind då varken patient eller personal vet vilken grupp patienten tillhör. Detta minskar risken för bias ytterligare, men i vissa fall kan etiska eller praktiska omständigheter medföra att en öppen studie är nödvändig. 55
9.4.5 Kvasi-experimentell studie En kvasi-experimentell (engelska: quasi) studiedesign kan se ut på många olika sätt. Gemensamt för dessa är att de saknar någon av nyckelkomponenterna i en äkta randomiserad kontrollerad experimentell studie (mätningar före/efter, en behandlingsgrupp och en kontrollgrupp samt en slumpmässig indelning i dessa grupper). Man kan t.ex. välja två grupper som till synes är relativt lika och därefter utföra en intervention. Det kan handla om två skolor där barnen ges olika mat varpå man mäter deras studieresultat. Denna metod kan vara tillräcklig men man skall vara medveten om att grupperna aldrig blir så lika som de skulle ha blivit med en slumpmässig grupptilldelning. En annan typ av quasi-experimentell design kan vara att grupptillhörigheten baseras på personernas utgångsvärden, där alla över ett visst värde får en annan intervention. En quasi-experimentell studie kan vara enklare att genomföra än en randomiserad kontrollerad studie, men validiteten blir lägre. Detta innebär att risken för confounders ökar vilket betyder att man inte kan vara lika säker på att skillnader i utfall beror på just forskarens intervention (t.ex. behandling/placebo). 56
Del II Avancerade beskrivningar 57
Kapitel 10 Statistiska fördelningar och tester 10.1 Normalfördelning Normalfördelningen är en av statistikens grundpelare och en stor anledning till att vi kan utföra många av våra statistiska tester. Den kan också kallas Bell curve (pga sin klockform) eller Gauss-kurva. Många variabler i naturen har visat sig följa ett speciellt mönster, nämligen normalfördelningen, i alla fall approximativt. Det innebär att många individer befinner sig nära populationens medelvärde samt att fördelningen är symmetrisk kring detta medelvärde. Det är alltså lika många som ligger under medelvärdet som över och antalet minskar gradvis desto längre ifrån medelpunkten man kommer. Vi tittar på hur kurvan kan se ut! (a) (b) Figur 10.1: Exempel på två olika normalfördelningar. På y-axeln ses tätheten vilket kan ses som andelen av individerna som ligger inom ett visst intervall. Som ni ser så är tätheten stor kring medelvärdet och symmetrisk kring detta. Det exakta utseendet på kurvan är beroende av variabelns medelvärde och standardavvikelse. Figur 10.1a visar det som kallas för standardnormalfördelningen, nämligen den situation där medelvärdet är 0 och standardavvikelsen 1. Figur 10.1b visar ett exempel på hur det skulle kunna se ut om man gjorde en undersökning av människors längd. Vi ser ett medelvärde på 175 cm och standardavvikelsen 10. Det betyder att kurvan blir bredare och lägre (notera att det är olika skalor på bildernas axlar), men det är fortfarande en normalfördelning! 58
Beteckning: X N(µ, ) innebär att variabeln X är normalfördelad med medelvärdet µ och standardavvikelse. Det kan vara bra att veta något om gränserna i standardnormalfördelningen, betrakta figur 10.2. Här (a) (b) Figur 10.2: Standardnormalfödelning framgår att 95 % av alla individer som tillhör en standardnormalfördelning kommer att hamna inom intervallet -1,96 till +1,96. Motsvarande intervall som omfattar 99 % är -2,58 till +2,58. Detta är särskilt viktigt när vi skall prata om konfidensintervall och hypotesprövning med hjälp av normalfördelningen. Notera att detta även är generaliserbart för normalfördelningar med andra medelvärden och standardavvikelser än 0 respektive 1. Det innebär att 95 % av alla individer kommer att ligga inom 1,96 standardavvikelser från medelvärdet. Detta ger oss en bra tumregel om att ungefär 95 % av individerna ligger inom 2 standardavvikelser från medelvärdet och ungefär 99 % befinner sig inom 2,5 standardavvikelser från medelvärdet. Beteckning: x anger det värde som andelen x av individerna överstiger i en standardnormalfördelad population. T.ex. är 0.025 =1, 96, vilket också framgår ur figur 10.2a. Dvs om man vill veta inom vilka gränser som 95 % av individerna befinner sig så blir den undre gränsen (1 0.95)/2 = 1, 96 och den övre gränsen blir 0.95+0,05/2 =1, 96. Eftersom standarnormalfördelningen är symmetrisk kring noll så behöver man bara beräkna den övre gränsen och sedan och sedan sätta ett minustecken framför denna för att få den undre gränsen. 10.1.1 Z-transformation Även om många variabler är normalfördelade så följer de flesta inte standarnormalfördelningen, dvs de har ett annat medelvärde och standardavvikelse än 0 och 1. Med med ett enkelt knep kan vi transformera valfri normalfördelad variabel X N(µ, ) till en standarnormalfördelad variabel Z N(0, 1). I statistikens värld är variabelnamnet Z reserverat till just standardnormalfördelningen. Z = X µ (10.1) Varje värde ur populationen X N(µ, ) kan alltå subtraheras med medelvärdet och därefter divideras med standardavvikelsen. Därefter kan det behandlas som om de kom ifrån N(0,1). Exempel 10.1.1. Vi återgår till kurvan i figur 10.1b som beskriver N(175,10). Vi vill veta hur många 59
% av individerna som understiger 195. Nu kan vi Z-transformera! Z = X µ = 195 175 10 =2 (10.2) Detta kan tolkas som att det är lika sannolikt att få värdet 195 i N(175,10) som det är att få 2 i N(0,1). Eftersom vi vet att 2,5 % överstiger 1,96 i denna fördelning så kan vi konstatera att det är ungefär lika många som överstiger 195 i vårt exempel. Z-transformation är mycket användbart när vi skall beräkna konfidensintervall och göra hypotesprövningar. 10.1.2 Samplingfördelning Samplingfördelning är ett grundläggande begrepp inom statistiken, vilket man bör känna till om man vill förstå var olika si ror kommer ifrån. Som jag skrev i den korta introduktionen till statistiska fördelningar på sidan 28 så kommer utfall av alla variabler följa någon typ av fördelning. Vidare skrev jag att man kan förvänta sig ungefär samma förelning om man upprepar en studie med ett stort deltagarantal n. Säg att vi beräknar medelvärdet för våra n deltagares värden och kallar detta x. Tror ni att man får samma medelvärde x 2 om ni gör om en likadan studie? Troligen inte, men beroende på antalet deltagare så kan man komma ganska nära. Vi fortsätter att upprepa samma försök och beräknar varje gång ett nytt medelvärde. Till slut har vi gjort proceduren j antal gånger och fått j (mer eller mindre) olika medelvärden: { x, x 2, x 3,..., x j }. Dessa kommer också att ha en fördelning! Nämligen den vi kallar samplingfördelningen. Vi vet t.o.m vilket medelvärde och vilken spridning den kommer ha om försöket upprepas många gånger. Här följer en grafisk illustration av detta: Figur 10.3 60
Varifrån kommer egentligen samplingfördelnings medelvärde och standardavvikelse? Vi börjar med medelvärdet. Nu pratar vi alltså om medelvärdet av alla medelvärden vi beräknat. Vad tror ni att det kommer vara? Jo, det blir samma som medelvärdet hos populationens individer (µ). Tänk igenom saken om det inte känns intuitivt! Om spridningen mellan individerna är (standardavvikelsen) och vi tar medelvärdet av n personer vid varje försök så kommer standardavvikelsen för medelvärdena vara M = / Ô n. Så, om vi bara inkluderar några få personer vid varje försök så kommer spridningen mellan medelvärderna från de olika försöken att vara nästan lika stor som spridningen mellan de enskilda individerna, men om vi inkluderar ett stort antal individer i försöken så kommer spridningen närma sig noll, dvs vi får nästan samma medelvärde varje gång. Det låter väl rimligt? Situationen i figur 10.3 är dock bara hypotetisk eftersom man i normala studier inte upprepar försöket j gånger. I verkligheten vill vi bara göra ett stickprov med n individer. Dessutom är populationens standaravvikelse sällan känd, vilket innebär att även samplingfördelningens standardavvikelse är okänd. Det sistnämnda kan lösas genom att man approximerar populationens standardavvikelse med försökets stickprovsstandardavvikelse s. Detta leder oss fram till en mycket viktig formel. SE M = s Ô n (10.3) Detta kallas för medelfel (eller standard error of the mean ) och kan även betecknas SE x. Det är alltså vår approximation av samplingfördelningens standardavvikelse. I det teoretiska resonemanget ovan gjorde vi ett stort antal (j st) olika stickprov. I verkligheten gör vi bara ett och det kommer motsvara ett av de j teoretiska stickproven, men vi vet inte vilket! Man kan se det som att vi gör ett stickprov ur samplingfördelningen genom att vi slumpmässigt drar ett värde ur denna. Figur 10.4 gör ett försök att illustrera detta. Figur 10.4 61
I nuläget vet vi alltså: Samplingfördelningen har ett okänt medelvärde µ och en approximativ standardavvikelse s/ Ô n. x är ett värde som kommer ur denna fördelning. Utifrån detta kan vi dra slutsatser om µ! För att kunna dra slutsatser om µ krävs att man förstår hur x och µ förhåller sig till varandra. Om vi har en normalfördelning där både medelvärdet µ och standardavvikelse är kända så vet vi att ett enskilt värde x med en viss sannolikhet kommer ligga inom ett intervall. Vi vet t.ex. att 95 % av alla individer kommer ligga inom 1,96 standardavvikelser från medelvärdet. Om vi (som nu) har en situation med en normalfördelning där endast standardavvikelsen är känd men istället för att veta medelvärdet så känner vi värdet för en individ x. Då kan man skapa motsvarande intervall för medelvärdet. Sannolikheten för att µ ligger inom 1,96 standardavvikelser från x är alltså också 95 %. Figur 10.5 gör ett försök att illustrera detta: Om vi känner medelvärde och standardavvikelse så kommer ett slumpmässigt utvalt värde med 95 % sannolikhet att hamna inom det röda intervallet. Om vi känner standardavvikelsen och ett slumpmässigt utvalt värde x så kommer medelvärdet med samma sannolikhet ligga inom det gröna intervallet. Notera att de röda och gröna intervallen är lika långa, dvs 2 ú 1, 96 ú. Figur 10.5 I exemplet ovan visste vi samplingfördelningens approximativa standardavvikelse s/ Ô n samt ett slumpmässigt utvalt värde x ur denna fördelning. Med denna kunskap kan vi då skapa ett konfidensintervall för populationens medelvärde µ (exempel kommer senare i avsnittet). x ± SE x ú 1 /2, där konfidensgraden är 1 (10.4) Som ni kanske har noterat så har jag hittills förutsatt att samplingfördelningen är normalfördelad. Detta är (åtminstone approximativt) sant om minst en av dessa punkter är uppfyllda: Den aktuella variabeln är approximativt normalfördelad i populationen. Stickprovet är stort (minst 30), se sidan 64 om centrala gränsvärdessatsen. 62
Jag vill börja med att visa hur bra detta stämmer i fallet där den aktuella variabeln är normalfördelad i populationen. Exempel 10.1.2. I figur 10.6a har jag återigen plottat kurvan för N(175,10). Jag har sedan gjort ett stickprov (n=100) ur denna och beräknat medelvärdet x 1. Försöket upprepas 1000 gånger så att jag totalt får 1000 medelvärden { x 1, x 2,..., x 1000 }. Fördelningen av dessa 1000 medelvärden visas som ett histogram i figur 10.6b. Tänk igenom detta en gång till! Jag har alltså inte frågat 1000 personer i det senaste fallet. Jag har frågat 100 personer och gjort om detta 1000 gånger (självklart har jag inte frågat samma personer varje gång). Det gör att jag fått 1000 medelvärden, varje baserat på 100 svar. Som ni kan se så kommer även medelvärdena att vara normalfördelade. Vidare ser vi att de har samma medelvärde som populationen, dvs 175. Men om ni tittar på x-axelns skala (jämför figur 10.6a och 10.6b) så ser ni att variationen hos medelvärderna är mindre än variationen mellan enstaka individer. Förhållandet mellan dessa är nämligen (som vi redan vet): M = / Ô n. Eftersom vi hade n = 100 så borde standardavvikelsen för samplingfördelningen bli en tiondel av den för enskilda individer, dvs M = 10/ Ô 100 = 1. Kurvan för N(175,1) är uppritad i figur 10.6c och visst stämmer den väldigt bra överens med histogrammet för medelvärderna i figur 10.6b? (a) (b) (c) Figur 10.6 Exempel 10.1.3. Vi har en population om 10000 individer, det skulle kunna representera invånarna i en mindre svensk stad. Syftet med studien är att vi vill utreda medelvärdet för det systoliska blodtrycket bland standens befolkning. Nu råkar ni läsare redan veta svaret, medelvärdet i staden är 135 och standardavvikelsen 10. Det säger vi dock inte till forskaren riktigt ännu. Vi låter henne utföra sin studie och se hur bra hon lyckas. Hon har varken tid eller pengar att mäta blodtrycket på alla invånare och väljer därför slumpmässigt ut 50 personer. I stickprovet får hon medelvärdet x = 134, 6 och standardavvikelsen s =7, 2. Utifrån detta gör hon en approximation av samplingfördelningens standardavvikelse genom att beräkna medelfelet: SE M = Ô s = Ô 7, 2 =1.02. (10.5) n 50 Hon har alltså en fördelning med okänt medelvärde µ (vilket är det studien syftar till att dra slutsatser om) och en approximerad standardavvikelse på SE M =1, 02. Vi förutsätter här att blodtryck är en relativt normalfördelad variabel och antar därför att samplingfördelningen är normalfördelad (med medelvärde µ och standardavvikelse SE M ). Ur denna fördelning har hon tagit ett stickprov (n = 50) där medelvärdet är 134,6. Vi vet (från föregående avsnitt) att ungefär 95 % av alla värden ligger inom 2 standardavvikelser från medelvärdet, vilket i detta fall är ungefär 2 (eftersom 2 ú 1, 02 2). Med stor sannolikhet vet hon alltså att hennes stickprovsmedelvärde (134,6) ligger maximalt 2 mmhg ifrån det verkliga medelvärdet, som därav borde ligga inom intervallet 132,6 till 136,6. Hon rapporterar detta intervall till sin uppdragsgivare. Så, ni som visste svaret redan på förhand, visst lyckades hon ganska bra? 63
Centrala gränsvärdessatsen (CGS) CGS är en grundläggande sats inom statistiken som handlar om att medelvärdet av flera stickprov kommer approximativt att vara normalfördelat oavsett variabelns grundfördelning. Med andra ord: samplingfördelningen blir normalfördelad även om grundvariabeln inte är det! Exempel 10.1.4. Ett läkemedelsföretag vill undersöka hur många läkemedel svenskar dagligen använder. Detta är definitivt inte en normalfördelad variabel eftersom många människor klarar sig helt utan läkemedel medan några tar väldigt många läkemedel. Fördelningen för hela populationen skulle kunna se ut som i figur 10.7a. (a) (b) Figur 10.7 Låt säga att vi tar ett stickprov om 100 personer (n=100) och upprepar detta totalt 1000 gånger. Dessa 1000 medelvärden presenteras som ett histogram i figur 10.7b. Som ni ser så liknar detta en typisk normalfördelning! Vad innebär detta i praktiken? Jo, att vi kan dra ett stickprov om n personer och känna oss säkra på att detta medelvärdet kan ses som ett utfall från en normalfördelad variabel som approximativt har medelvärdet µ och standardavvikelsen SE x = s/ Ô n. Det enda kravet som måste vara uppfyllt för att detta skall gälla är att stickprovet är tillräckligt stort. Riktvärdet brukar vara n>30, men man skall vara medveten om att detta är en relativ si ra. Om grundfördelningen är ganska normalfördelad så kan n>20 räcka, men om den är extremt skev så kan man behöva ett stickprov runt n = 40. Om grundfördelningen är normalfördelad så kommer även samplingfördelningen bli det, även om n är litet. En av storheterna med detta är att vi har goda kunskaper om normalfördelningen och därmed kan dra välgrundade slutsatser. Det kommer ni att märka när vi strax tar oss an konfidensintervall och hypotesprövningar. Samplingfördelning för skillnader mellan medelvärden I många studier nöjer man sig inte med att uppskatta medelvärdet för en population. Man vill jämföra två populationer (grupper) i det avseende att vi funderar över om medelvärdet mellan grupperna skiljer sig från varandra. Tankesättet är analogt med det i föregående avsnitt bortsett ifrån att vi nu har något fler si ror att hantera: 64
Antalet individer, n, i varje försök är nu uppdelat mellan den bägge grupperna (n 1 + n 2 = n) Vi får två olika medelvärden, ett för varje grupp: ( x 1, x 2 ). Från dessa beräknar vi medelvärdesskillnaden x 2 x 1 för varje försök. Vi får två olika standardavvikelse, en från varje grupp: (s 1,s 2 ) Det vi i slutändan är intresserade av är medelvärdesskillnaden. Om försöket skulle upprepas så skulle även detta värde få en fördelning, vilken vi kallar samplingfördelningen för medelvärdesskillnad ( sampling distribution for di erence between means ). Denna skulle ha medelvärdet µ 2 µ 1 (dvs den sanna medelvärdesskillnaden ) och standardavvikelsen apple 1 2/n 1 + 2 2/n 2. Då gruppernas standardavvikelser sällan är kända så approximeras dessa med stickprovets standardavvikelser. Då beräknas medelfelet som: Û s 2 1 SE x1 x 2 = + s2 2 (10.6) n 1 n 2 Samplingfördelningen för medelvärdesskillnad kan anses vara normalfördelad om minst en av dessa punkter är uppfyllda: Den aktuella variabeln är approximativt normalfördelad i bägge grupperna. Stickprovet är stort i bägge grupperna, tumregeln är minst 30. Exempel 10.1.5. Forskaren i det exempel 10.1.3 är ännu inte helt nöjd med sin studie. Hon frågade nämligen även de 50 personerna om de är rökare och fick 20 ja (och 30 nej). Nu funderar hon över om det systoliska blodtrycket kan skilja mellan grupperna. Hon beräknar medelvärden och standardavvikelser för de bägge grupperna: x 1 = 133, 8, x 2 = 135, 9, s 1 = 7, 2, s 2 =7, 1 där grupp 1 utgörs av icke-rökarna och grupp 2 består av rökare. Medelvärdesskillnaden i försöket är x 2 x 1 = 135, 9 133, 8=2, 1. Hon beräknar medelfelet: Û Ú s 2 1 SE x1 x 2 = + s2 2 7, 2 2 7, 12 = + =2, 06 (10.7) n 1 n 2 30 20 Nu har hon alltså en fördelning med okänt medelvärde µ 2 µ 1 och en approximerad standardavvikelse SE x1 x 2 =2, 06. Då blodtrycket anses vara relativt normalfördelat i bägge grupperna och stickprovet är ganska stort så utgår man från att samplingfördelningen blir normalfördelad i detta fall. Medelvärdesskillnaden i stickprovet var 2,1 och vi vet att ungefär 95 % hamnar inom 2 standardavvikelser från medelvärdet (i detta fall 2 ú 2, 06 4). Därav kan vi konstatera att vårt resultat (2,1) troligen hamnat maximalt 4 mmhg ifrån den sanna medelvärdesskillnaden. Därför borde denna vara någonstans mellan -1,9 (icke-rökarna har något högre blodtryck) och +6,1 (rökarna har ganska mycket högre blodtryck). Hon kan alltså inte dra en säker slutsats om att den ena gruppen har högre blodtryck än den andra (eftersom intervallet inkluderar 0). Däremot kan hon säga att studien indikerar på att rökare har högre blodtryck men att det behövs en större studie för att få det statistiskt säkerställt. 10.1.3 Konfidensintervall Konfidensgraden brukar betecknas 1 där innebär risken att det verkliga värdet hamnar utanför intervallet. Vanligen är =0, 05 och därmed är konfidensgraden 95 %. Ett konfidensintervall för en normalfördelad variabel kan skrivas som: µ œ ( x ± SE x ú 1 /2 ) (10.8) Detta kan tolkas som att det verkliga värdet på µ med sannolikheten 1 ligger inom det angivna intervallet. Symbolen œ skall tolkas som finns inom. Ekvation 10.8 är densamma som ekvation 10.4 och bakgrunden till denna har beskrivits i avsnitt 10.1.2 om samplingfördelningen. Exempel 10.1.6. Vi återgår till exempel 10.1.4 om läkemedelsanvändning. Nu drar vi ett stickprov om n=100 individer och presenterar detta i ett spridningsdiagram (vi kan lika gärna välja ett histogram): 65
Figur 10.8 Vi kan grafiskt utläsa att de flesta helt saknar läkemedel men att några använder väldigt många, detta känns rimligt. Om vi bläddrar till metodväljaren i kapitel 14 så ser vi att flödesschema A hjälper oss. Här kan vi använda CGS! Vi beräknar stickprovets medelvärde samt standardavvikelse enligt ekvation 6.2 och 6.3. Dessa blir: x =1, 35 och s =2, 64. Medelfelet blir då enligt ekvation 10.3: SE x = Ô s 2, 64 = Ô =0, 264 (10.9) n 100 Nu är det dags att använda centrala gränsvärdessatsen, se sidan 64. Vi har en okänd fördelning för antalet dagligen använda läkemedel (det enda vi vet är att den absolut inte är normalfördelad). Men vi har dragit ett stort stickprov (n = 100 > 30) och kan därför använda CGS. Denna säger oss att fördelningen för medelvärden (samplingfördelningen) kommer vara approximativt N(µ, SE x ), vilket i detta fall innebär N(µ, 0.264). Vi kan nu enligt ekvation 10.4 och 10.8 skapa ett 95 procentigt konfidensintervall för µ: x ± SE x ú 1 /2 =1, 35 ± 0, 264 ú 0,975 =1, 35 ± 0, 264 ú 1, 96 = 1, 35 ± 0, 52 (10.10) Vi kan alltså från ett enda stickprov om 100 individer ur en okänd fördelning skapa ett konfidensitervall som säger att medelantalet dagliga läkemedel för en människa i Sverige med 95 % sannolikhet ligger någonstans mellan 0,83 och 1,87. Tips kring hur detta kan lösas med hjälp av dator finns i avsnitt 15.7.1. Exempel 10.1.7. Tänk er samma exempel men nu ställer vi oss frågan om det föreligger någon skillnad mellan kvinnor och män. Vi vill ha ett 95-procentigt ( =0.05) konfidensintervall för skillnaden i antal läkemedel i genomsnitt för kvinnor och män. I studien var 50 deltagare kvinnor och 50 män. Enligt flödesschema B i kapitel 14 så är det ett gott val att använda CGS. För kvinnorna var medelvärdet x 1 =1, 55 och stickprovets standardavvikelse s 1 =2, 3. För männen var motsvarande si ror x 2 =1, 15 och s 2 =2, 7. Grundvariabeln är inte normalfördelad men eftersom både n 1 och n 2 är över 30 så kan vi använda CGS och säga att x = x 1 x 2 är approximativt normalfördelad. Medelfelet för skillnaden i medelvärden är: s x1 x 2 = Û s 2 1 n 1 + s2 2 n 2 = Ú 2, 3 2 50 + 2, 72 50 0, 50 (10.11) 66
Konfidensintervallet (95 %) för medelvärdesskillnaden blir: (µ 1 µ 2 ) œ ( x 1 x 2 ) ± s x1 x 2 ú 1 /2 =(1, 55 1, 15) ± 0, 5 ú 1, 96 = 0, 4 ± 0, 98 Intervallet sträcker sig alltså ifrån att män i snitt skulle bruka ungefär 0,6 läkemedel mer än kvinnor till att kvinnor skulle bruka ungefär 1,4 läkemedel mer än män. Eftersom intervallet inkluderar noll så kan vi inte med statistisk säkerhet säga att någon av könen använder mer läkemedel än det andra. Vi kan däremot säga att kvinnorna använde mer läkemedel i vår studie och att den behöver göras om med större stickprov ifall vi vill kunna dra några säkra slutsatser om populationen. Ett förslag på hur detta fall hade kunnat lösas med datorns hjälp finns i exempel 15.7.2 på sidan 121. Konfidensintervall för odds ratio Med hjälp av normalfördelningen kan man skapa konfidensintervall för en odds ratio. Samplingfördelningen för odds ratios är skev men blir approximativt normalfördelad på en logaritmisk skala. Detta innebär att man måste göra ett matematiskt knep där man beräknar logaritmen av odds ratio i ekvationen för konfidensintervallet. Ln(OR) œ (Ln( ˆ OR) ± SE OR ú 1 /2 ) (10.12) Vi återgår till tabellen från avsnitt 9.4.1 om fall-kontrollstudier: Grupptillhörighet (utfall) Exponering Fall (sjuk) Kontroll (frisk) Totalt Ja A B A+B Nej C D C+D Totalt A+C B+D A+B+C+D Tabell 10.1 Vårt estimerade odds ratio blir: OR ˆ = A/C B/D = A ú D B ú C Standardfelet för odds ratio beräknas enligt: (10.13) SE OR = Ú 1 a + 1 b + 1 c + 1 d (10.14) Exempel 10.1.8. I en fall-kontrollstudie inkluderades 100 personer med en viss sjukdom och 100 friska individer. Man undersökte vad dessa individer tidigare exponerats för och koncentrerade sig på rökning. Bland de sjuka räknades 70 som rökare och bland de friska rökte endast 10 personer. Detta sammanfattas i följande tabell: Grupptillhörighet (utfall) Exponering (rökare) Fall (sjuk) Kontroll (frisk) Totalt Ja 70 10 80 Nej 30 90 120 Totalt 100 100 200 Tabell 10.2 Vi vill nu beräkna odds ratio med tillhörande 95 %-igt konfidensintervall. Estimerat odds ratio: OR ˆ = A/C B/D = 70/30 70 ú 90 = = 21 (10.15) 10/90 30 ú 10 Standardfelet: SE OR = Ú 1 a + 1 b + 1 c + 1 Ú 1 d = 70 + 1 10 + 1 30 + 1 =0, 4 (10.16) 90 67
Vi vet sedan tidigare att 1 0.05/2 =1.96. Nu har vi alla parametrar för att beräkna konfidensintervallet (på den logaritmiska skalan). Ln(OR) œ (Ln( ˆ OR) ± SE OR ú 1 /2 )=Ln(21) ± 1, 96 ú 0, 4=3± 0, 8 (10.17) Konfidensintervallet har alltså en undre gräns på 2,2 och en övre gräns på 3,8. Men glöm inte att detta är konfidensintervallet för den naturliga logaritmen av OR. För att få konfidensintervallet för OR måste man återtransformera värdena. Detta görs med hjälp av e (eftersom e Ln(x) = x). Den undre gränsen blir då e 2,2 9 och den övre blir e 3,8 44. Vi har alltså beräknat OR till 21 med ett konfidensintervall (CI95: 9-44). Eftersom detta inte inkluderar 1 så kan vi konstatera att rökning är en signifikant riskfaktor för sjukdomen. I avsnitt 15.9 finns ett lösningsförslag med R. 10.1.4 Z-test Z-test är förmodligen statistikens allra simplaste test. Vi har en standarnormalfördelning N(0,1) och ställer oss frågan hur sannolikt det är att få ett specifikt utfall. Figur 10.9 Ensidigt test: Hur stor är sannolikheten att få ett värde som är större än x? På bilden exemplifieras detta genom det röda området vilket är andelen som överstiger x =1, 8. Vi kan se att andelen observationer som är 1,8 eller högre är 3,6 %. Vårt p-värde för testet blir p=0.036. Tänk på symmetrin! Om vårt värde hade varit x=-1,8 så hade vi ställt oss frågan: hur stor andel som är mindre än detta (dvs den gröna delen på bilden)? Tack vare symmetrin är denna exakt lika stor som sannolikheten att vara större än +1,8. Tvåsidigt test: Hur stor är sannolikheten att få ett värde som ligger så långt (eller längre) från medelvärdet (0 i exemplet). Då måste vi även addera den grönmarkerade delen på bilden för att få andelen utfall som ligger länge än 1,8 från 0. Vårt p-värde blir nu 2*0,036=0,072. Exempel 10.1.9. Ofta kombineras z-transformation (avsnitt 10.1.1) och z-test. Låt säga att vi har en normalfördelning N(175,10) och vill testa hur sannolikt utfallet 215 är. H 0 : Utfallet kommer ifrån populationen med fördelning N(175,10) H 1 : Utfallet är för stort för att komma från fördelningen (ensidigt test!). Beslutsgränsen är =0.01. 68
Metodväljaren i kapitel 14 hävdar att z-transformation och z-test är ett bra val, jag håller med! Z = X µ = 215 175 10 =4. (10.18) Dvs, det är lika sannolikt att få 4 från en standardnormalfördelad variabel som 215 från N(175,10). Om vi gör ett ensidigt z-test för x=4 så får vi p=0,00003. För tips om hur datorn kan hjälpa oss hänvisas till avsnitt 15.7.1. Exempel 10.1.10. Vi fortsätter med människors längd och antar att det är fastslaget att friska individer följer N(175,10). Nu har en forskare en teori om att kärnkraftolyckor påverkar barns tillväxthormoner. Nollhypotes, H 0 : µ population µ olycka =0. Mothypotes, H 1 : µ population = µ olycka. Tvåsidigt test! Beslutsgräns =0, 05. Man har långt efter en olycka gjort mätningar på 50, numera vuxna individer, som i barndomen exponerades. Medellängden i denna grupp blev x = 169 cm. Det finns två sätt att angripa detta problem. 1. Vi förutsätter att nollhypotesen är sann. Hur stor sannolikhet är det då att dra ett stickprov med 50 friska individer och få utfallet x = 169? 2. Vi ser olycksexponerade som en egen population och frågar oss hur stor sannolikheten är att deras medelvärde också är 175 cm utifrån vårt stickprov. Det negativa är att det inte är självklart vilket alternativ som är bäst men det positiva är att det inte spelar så stor roll, p-värdet kommer bli ungefär detsamma. Jag väljer att hantera problemet som det beskrivs i punkt 1. Din räddare i nöden, metodväljaren i kapitel 14 föreslår att du skall använda ett z-test. Eftersom det är ett medelvärde vi vill dra slutsatser om så skall standardavvikelsen för medelvärden, dvs medelfelet beräknas (se avsnitt 10.1.2). m = Ô n = 10 Ô 50 1, 4 (10.19) Om vi gör upprepade stickprov av storleken 50 från N(175,10) så skulle stickprovens medelvärden fördela sig enligt N(175, 1.4). Vad är då sannolikheten att få värdet 169? Vi z-transformerar: Z = X µ = 169 175 1, 4 4, 3 (10.20) Vad är sannolikheten att få ett värde som avviker 4,3 (eller mer) från medelvärdet i standardnormalfördelningen. Jo, 0,00002, vilket blir testets p-värde. Mer om hur datorn kan vara behjälplig i avsnitt 15.7.1. 69
10.2 t-fördelningen Denna fördelning är närbesläktad med standardnormalfördelningen N(0,1). Skillnaden är att t-fördelningen har något tyngre svansar, dvs fler värden som avviker längre från medel. Figur 10.10 I figur 10.10 har jag plottat en t-kurva (heldragen blå linje) och en N(0,1)-kurva (streckad linje). Som ni kan ana så finns en liten men tydlig skillnad där t-fördelningen är något större i kanterna ( tyngre svansar ). Användningen för t-kurvan är primärt i situationer där populationen kan antas vara normalfördelad men dess standardavvikelse,, är okänd och behöver approximeras med stickprovets standardavvikelse, s. I och med det har vi ökat osäkerheten vilket gör det något felaktigt att påstå att variabeln är normalfördelad med standardavvikelse s. Desto fler individer vi har i vårt stickprov, desto bättre blir dock approximationen s. t-fördelningen är därför inte en kurva, utan många olika, man talar om tfördelningen med df antal frihetsgrader (där df står för degrees of freedom ). Därför måste man ange antalet frihetsgrader som parameter, i normalfallet är df = n 1. Desto fler frihetsgrader t-fördelningen har desto mer lik N(0,1) blir den. Detta innebär att det i praktiken inte spelar så stor roll ifall man använder normalfördelningen eller t-fördelningen om n>30. t-kurvan i figur 10.10 har åtta frihetsgrader, om jag istället hade ritat en t-kurva med minst 30 frihetsgrader så hade den i princip helt överlappat standardnormalkurvan. 10.2.1 Konfidensintervall Att beräkna ett konfidensintervall med hjälp av t-fördelningen är på många sätt analogt med det som beskrevs i avsnittet om normalfördelningen. Från ekvation 10.8 byter vi bara mot t så att: µ œ x ± SE x ú t 1 /2 (df ) (10.21) 70
Där t 1 /2 (df ) på motsvarande sätt beskriver det värde vilket andelen /2 överstiger t-fördelningen med df frihetsgrader. Detta värde kan man lätt få fram genom att använda en dator, se avsnitt 15.7.2. Det går även att utläsa ur tabeller över t-fördelningen. Exempel 10.2.1. Man har utfört ett IQ test på 100 slumpmässigt utvalda svenskar och frågar sig vad medelvärdet för hela befolkningen kan tänkas vara. Vi börjar med ett spridningsdiagram för att se att data verkar korrekt: Figur 10.11 Detta ser rimligt ut, så vi går vidare! Metodväljaren i kapitel 14 hjälper oss att hitta rätt metod, där finner vi att flödesschema A passar vår frågeställning. IQ kan antas vara (ungefär) normalfördelat och populationens standardavvikelse är okänd. Därför använder vi t-fördelningen och börjar med att beräkna några av stickprovets egenskaper: Medelvärdet för stickprovet är x = 102 Standardavvikelsen för stickprovet är s = 10, 7 räknat enligt ekvation 6.2 och 6.3. Eftersom vi inte vet något om populationens standardavvikelse,, så skattas den med s. För att finna ett konfidensintervall behöver vi dels bestämma oss för konfidensgrad ( =0,05) och dels beräkna medelfelet: SE x = s x Ô = Ô 10.7 =1, 07 (10.22) n 100 Det sista vi behöver är antalet frihetsgrader, vilket beräknas till n 1 = 99. µ œ x ± SE x ú t 1 /2 (df ) = 102 ± 1, 07 ú 1, 98 = 102 ± 2, 1. Värdet 1,98 fås alltså ur tabeller eller med hjälp av en dator. Dvs med 95 % sannolikhet ligger medelvärdet för hela folkets IQ mellan 99,9 och 104,1. Lite om hur detta beräknas med dator står skrivet i avsnitt 15.7.2, exempel 15.7.5. Skillnader i medelvärden Att bedöma skillnader mellan gruppers medelvärden med hjälp av t-fördelningen är vanligt. En typisk situation är att man vill bedöma om medelvärdet på ett blodprov hos friska människor skiljer mellan 71
kvinnor och män. De två populationernas (okända) medelvärden är µ 1 och µ 2. Finns det någon skillnad mellan dessa? Frågan kan egentligen angripas på 2 sätt: Konstruera ett konfidensintervall för µ M = µ 1 µ 2 Formulera nollhypotesen att medelvärden är lika, dvs µ 1 µ 2 =0och utför en hypotesprövning. När skall t-fördelningen användas för att undersöka skillnader mellan grupper? Variabeln kan antas vara normalfördelad i bägge grupperna. De sanna standardavvikelserna ( 1 och 2 ) är okända. Hur skall t-fördelningen användas? Det kräver att man gör vissa antaganden för att slutgiltigt bestämma medelfelet och antal frihetsgrader. Fall 1. Detta alternativ kan användas om man INTE säkert kan göra uppskattningen 1 = 2. Man talar här om un-pooled variance. Û s 2 1 SE M = + s2 2 (10.23) n 1 n 2 df = ( s2 1 n 1 + s2 2 n 2 ) 2 (s 2 1 /n1)2 n 1 1 + (s2 2 /n2)2 n 2 1 (10.24) SE M är medelfelet för skillnaden mellan medelvärden. Uttrycket för antalet frihetsgrader ser krångligt ut, men med insatta si ror blir det ofta lite bättre! Fall 2. Om man gör bedömningen att stadardavvikelsen är lika i bägge grupperna ( 1 = 2 ) så kan man använda pooled variance, vilket innebär följande formler: Û (n 1 1)s 2 1 SE M = +(n Ú 2 1)s 2 2 1 ú + 1 (10.25) n 1 + n 2 2 n 1 n 2 df = n 1 + n 2 2 (10.26) Fall 2b: Ett specialfall om man förutsätter att 1 = 2 är om stickprovet dessutom är lika stort i bägge grupperna, n = n 1 = n 2. Û s 2 grupp1 SE M = + s2 grupp2, antalet frihetsgrader är 2n 2 (10.27) n Här rekommenderar jag starkt att man använder fall 1 om man inte helt säkert kan motivera annat. De flesta datorprogrammen använder detta som standard. Exempel 10.2.2. Vi har mätt IQ hos 100 personer varav 65 kategoriseras som unga och 35 som gamla. Medelvärdena för respektive grupp blev x 1 = 103, 2 för de gamla och x 2 = 101, 4 för de unga. Hur stor kan skillnaden mellan medelvärderna tänkas vara i hela befolkningen? Vi vill ange detta i form av ett 95-procentigt konfidensintervall. Först av allt gör vi en box-plot för att bilda oss en grov uppfattning: 72
Figur 10.12 Återigen konsulterar vi metodväljaren i kapitel 14 och finner att flödesschema B passar bra. IQ kan fortfarande antas vara normalfördelat och populationens standardavvikelse är okänd. Kan variansen tänkas vara samma i bägge grupperna? Nja, kanske är den något större i den äldre genereationen där några blivit väldigt visa av livet och andra börjar märka mer av ålderdomen. Här är det säkrast att inte göra antagandet om lika varians. Vårt slutgiltiga val faller på t-fördelningen med unpooled variance. Vi följer teorin som tidigare beskrivits i kapitlet och beräknar medelfel samt antalet frihetsgrader enligt ekvation 10.23 och 10.24. Stickprovens standardavvikelse beräknas enligt ekvation 6.2 och 6.3 till s 1 = 13, 3 och s 2 = 10, 2. Detta ger: Û Ú s 2 1 SE M = + s2 2 13, 3 2 10, 22 = + =2, 6 (10.28) n 1 n 2 35 65 df = ( s2 1 n 1 + s2 2 n 2 ) 2 (s 2 1 /n1)2 n 1 1 + (s2 2 /n2)2 n 2 1 = ( 13,32 35 + 10,22 65 )2 (13,3 2 /35) 2 35 1 + (10,22 /65) 2 65 1 Nu kan vi skapa vårt 95-procentiga konfidensintervall! = 56 (10.29) µ 1 µ 2 œ x 1 x 2 ± SE M ú t 1 /2 (df ) = (103, 2 101, 4) ± 2, 6 ú 2=1, 8 ± 5, 2 (10.30) Där t 0.975 (56) = 2 kommer ifrån en t-tabell eller med hjälp av dator. Ett förlag på hur detta problem skulle kunna lösas med datorns hjälp finns i exempel 15.7.6 på sidan 123. 10.2.2 t-test Detta är ett klassiskt test inom statistiken, man kan prata om ensampeltest och tvåsampeltest. För att använda t-test gäller generellt: Variabeln skall vara approximativt normalfördelad. Populationsvariansen är okänd (annars används normalfördelningen). Vissa skulle dessutom kunna lägga till en punkt angående stickprovets storlek. Om n > 30 så kan man istället använda centrala gränsvärdessatsen och normalfördelningen, varför t-testet bara behöver 73
användas om stickprovet är mindre. Vid stora stickprov är dock valet mellan de bägge fördelningarna en smaksak, t-fördelningen med fler än 30 frihetsgrader är mycket lik normalfördelningen. Enligt min algoritm i kapitel 14 så kommer t-test att utföras i dessa fall. Ensampeltest Man har mätt en variabel i ett stickprov omfattande n personer och fått medelvärdet x. Frågan man ställer sig är huruvida populationens medelvärde kan anses vara signifikant skilt från ett specifikt värde y. Kommer ni ihåg z-transformationen från avsnitt 10.1.1? Där visades att om en variabel X är N(µ, ) så är Z =(X µ)/ N(0,1). Nu har vi ett analogt fall men är okänd. Vi skattar den med vår allra bästa gissning, vilket är stickprovets standaravvikelse, s. Denna approximation leder till en viss ökad osäkerhet, vilket gör t-fördelningen, med sina tyngre svansar, till ett bättre val än normalfördelningen. Vidare så minns vi att medelfelet, dvs standardavvikelsen för medelvärdet kan skattas som: SE x = s Ô n (10.31) Vi gör exakt samma procedur som vid z-transformationen, men istället för att utfallet blir standardnormalfördelat så blir det t-fördelat med n-1 frihetsgrader. Dvs om X N(µ, SE x ) (approximativt), så är: t = X µ SE x t(n 1) (10.32) Om vi skulle förutsätta att µ = y (dvs den hypotes vi vill motbevisa) samt att vi i undersöknigen fått ett utfall av X som är x, så blir formeln: t =( x y)/se x. Den transformation vi gjort innebär: att få detta stickprov (antal n, medelvärde x och standardavvikelse s) från en population med medelvärde y är lika sannolikt som att få värdet t =( x y)/se x ur t- fördelningen med n-1 frihetsgrader. Om det visar sig att detta är en osannolik händelse så beror det troligen på att µ = y Exempel 10.2.3. Man har mätt längden hos 14 personer och formulerat sina hypoteser: H 0 : Medellängden är 178 cm, dvs µ = 178. H 1 : Medelängden är kortare (ensidigt test). Beslutsnivå =0, 05 De 14 personerna mätte: (182, 163, 161, 177, 157, 170, 167, 186, 178, 171, 175, 177, 189, 169). Vi beräknar medelvärdet till x = 173 och stickprovsvariansen till: s 2 = 1 n 1 nÿ i=1 (x i x) 2 = (182 173)2 + (163 173) 2 +... + (169 173) 2 14 1 = 87 (10.33) Standardavvikelsen är kvadratroten ur detta, dvs 9, 3, vilket ger medelfelet: SE x = Ô s = Ô 9, 3 =2, 5 (10.34) n 14 t = x µ 173 178 = = 2 (10.35) SE x 2, 5 Så slutligen, hur sannolikt är det att få ett tal lägre än -2 ur t-fördelningen med n-1=13 frihetsgrader? Eftersom det är ett ensidigt test så formulerar vi frågan så, annars hade vi efterfrågat sannolikheten att komma mer än 2 enheter bort från noll (dvs även inkludera sannolikheten att få ett tal högre än 2). Tänk på symmetrin! 74
Figur 10.13 I figuren ser vi att drygt 3 % befinner sig nedom -2 i denna fördelning. Vårt p-värde är alltså 0,033<0.05, vilket leder till att nollhypotrsen förkastas. Med stor sannolikhet är befolkningens medellängd kortare än 178 cm. Se exempel 15.7.7 på sidan 124 för att se hur detta beräknas med R. Tvåsampeltest Detta är troligen den vanligaste tillämpningen av t-test. Man mäter en kontinuerlig variabel och vill veta om det finns en medelvärdesskillnad mellan två grupper. I avsnittet om konfidensitervall med t-fördelningen presenterades ett resonemang om hur variansen för de bägge grupperna skall hanteras (se ekvation 10.23 till 10.27). Exakt samma övervägande och formler gäller även för t-test där två grupper är inblandade. Det som där beskrevs som fall 1 (ekvation 10.23) har flera olika namn när det handlar om t-test, de vanligaste är un-pooled variance t-test eller Welsch s t-test. Detta är standard i datoriserade uträkningar och det som rekommenderas om man inte kan göra ett säkert antagande om att variansen är lika i bägge grupperna. Beräkningen av t liknar den i föregående avsnitt: t = ( x 1 x 2 ) y SE M (10.36) Där SE M får ur ekvation 10.23 till 10.27 och y beskriver den di erens mellan gruppmedelvärderna man är intresserad av. Vanligen är nollhypotesen x 1 x 2 =0, då är y noll. Man om man skulle ha nollhypotesen att män röker 5 cigaretter mer än kvinnor i snitt, dvs x 1 x 2 =5, då skall y vara 5 i ekvationen för t. Exempel 10.2.4. Man mäter ett blodprov (kontinuerlig variabel) och frågar om patienten röker (ja/nej). H 0 : Det finns ingen skillnad mellan gruppernas medelvärden µ 1 = µ 2. H 1 : µ 1 = µ 2 (tvåsidigt test). =0.05 I studien ingick 70 personer varav 40 var rökare, resultatet utfaller som: n 1 = 40, x 1 = 717 och s 1 = 135 n 2 = 30, x 2 = 685 och s 2 = 134 75
Vi ögnar igenom metodväljaren (kapitel 14) och bestämmer oss för ett tvåsidigt t-test (Welch s typ). I detta gjordes avvägandet om att variabeln är approximativt normalfördelad i bägge grupperna. Med ett så pass stort urval är detta dock inte jätteviktigt. Att använda CGS och normalfördelningen skulle ge ungefär samma resultat som ett t-test om n>30 i bägge grupperna. Jag beräknar: t = ( x 1 x 2 ) y = ( x 1 x 2 ) 0 Ò == SE M s 2 1 n 1 + s2 2 n 2 df = ( s2 1 n 1 + s2 2 n 2 ) 2 (s 2 1 /n1)2 n 1 1 + (s2 2 /n2)2 n 2 1 = 717 685 Ò 135 2 40 + 1342 30 ( 1352 40 + 1342 30 )2 (135 2 /40) 2 40 1 + (1342 /30) 2 30 1 =0, 99 (10.37) = 63 (10.38) Hur sannolikt är värdet 0,99 i en t-fördelning med 63 frihetsgrader? Vi tittar på en bild! Figur 10.14 Eftersom det är ett tvåsidigt test så frågar vi oss hur stor sannolikheten är att hamna så långt eller längre ifrån noll. Vi måste alltså addera bägge svansarna och får därmed p 0.33. Vi kan inte förkasta nollhypotesen. Vi har därmed inte lyckats bevisa att det finns någon skillnad mellan rökare och ickerökare. Som övning får ni gärna beräkna samma exempel med CGS och normalfördelningen för att se hur lika svaren blir. Parat test Detta är ett test som i viss mån kan ses som en kombination av ensampel- och tvåsampeltestet. I detta test har varje individ lämnat två mätvärden, t.ex. före och efter intag av läkemedel. Det som tidigare var en jämförelse mellan två grupper blir nu istället en jämförelse mellan två mätningar. Finns det en signifikant skillnad mellan de bägge mättillfällena/mätomständigheterna? Man beräknar skillnaden mellan de bägge mätningarna för varje individ och använder sedan dessa i beräkningen. Man kan säga att di erensen i mätparen betraktas som en parameter och att man sedan gör ett ensampeltest för alla individers värde på denna parameter. Observera att det blir helt felaktigt om detta hanteras som ett tvåsampeltest. En förändring hos samma individ ger tyngre information än en skillnad mellan två olika individer. Exempel 10.2.5. Man mäter blodtrycket på 10 personer, en gång liggande och en gång stående. Nollhypotesen formuleras. 76
H 0 : Det finns ingen skillnad mellan liggande och sittande systoliskt blodtryck. µ 1 µ 2 =0 H 1 : Det finns en skillnad, µ 1 µ 2 =0(tvåsidigt test). Beslutsgräns =0.05 Resultaten av mätningarna framgår i tabell 10.3: Vi kommer nu att utföra ett ensampeltest för di eren- Liggande (x 1) Stående (x 2) Di erens (y) 155 140 15 115 110 5 125 130-5 170 155 15 180 170 10 135 135 0 110 110 0 100 105-5 130 115 15 135 130 5 Tabell 10.3: Systoliskt blodtryck liggande och stående för 10 personer sen. Vi omformulerar nollhypotesen: H 0 : Medelvärdet för di erenserna är noll. µ =0. H 1 : µ = 0 Beslutsgräns =0.05 Medelvärdet för di erenserna i stickprovet är ȳ =5, 5 Standardavvikelsen för di erenserna är: s y 8. Medelfelet är: SEȳ = s y / Ô n =8/ Ô 10 2, 5 Antalet frihetsgrader är n 1=9. t = ȳ 0 SEȳ = 5, 5 =2, 2 (10.39) 2, 5 Nu använder vi t-fördelningen! Hur sannolikt är det att få ett värde som avviker 2,2 (eller mer) från noll i t-fördelningen med 9 frihetsgrader? Figur 10.15 77
Som framgår av bilden så avviker knappt 6 % av alla observationer med mer än 2,2 från noll. Vårt p-värde blir alltså p =0.056. Vi kan därför inte förkasta nollhypotesen. Vår studie tyder dock på att det systoliska blodtrycket är lägre i stående position men vi kan inte dra några slutsatser om att detta gäller för hela populationen. Med ett större stickprov (högre power) skulle resultatet troligen bli signifikant. Notera! Om vi från början varit säkra på att blodtrycket antingen är lägre eller lika i stående så hade vi formulerat mothypotesen som att y<0. Då hade vi bara betraktat den ena svansen och fått p=0.028, dvs signifikant. Det är viktigt att skilja på ensidiga och tvåsidiga test! 10.3 2 -fördelningen 2 uttalas tji-två och kan ibland bokstaveras som t.ex. chi-squared. Detta är en skev fördelning (inte symmetrisk kring ett medelvärde som normal- och t-fördelningen) som är mycket användbar när man vill jämföra kategorivariabler såsom grupptillhörigheter. 10.3.1 Pearson s Chi Square Test Tänk er att vi har n personer som fått välja ett av k alternativ. Frågan är om alla alternativen är lika populära bland hela befolkningens N individer? Detta är ett perfekt upplägg för ett chi-test! Den formel som beräknas är: kÿ 2 (O i E i ) 2 = i=1 E i (10.40) Där O i är det observerade antalet för alternativ i och E i är det förväntade antalet givet nollhypotesen att alla kategorier är lika populära. 2 skall då vara fördelat enligt chi-2-fördelningen med k-1 frihetsgrader, dvs 2 2 (k 1). Observera den något opedagogiska notationen där både variabeln och fördelningen heter 2, variabeln skulle kunna döpas till vad som helst. Vi kan därefter göra ett kontroll och bedöma hur sannolikt det är att vårt observerade 2 kommer ifrån fördelningen 2 (k 1). Exempel 10.3.1. 100 personer har svarat på frågan om vilket administrationssätt de föredrar när det gäller läkemedel. Tablett, oral lösning, injektion eller stolpiller? Resultatet anges i en frekvenstabell, se tabell 10.4. Det är såklart lätt att säga att tabletter stickprovets favorit, men frågan är om denna tolkning med statistisk säkerhet kan generaliseras till hela befolkningen. Stolpiller Injektion Tablett Oral lösning 18 24 31 27 Tabell 10.4: Preferenser för läkemedelsadministration Vi startar med nollhypotesen att det INTE finns några skillnader i vad populationen tycker. H 0 : Alla former är lika populära. H 1 : Det finns skillnader, alla är inte lika populära. Beslutsgräns =0.05 Om nollhypotesen vore sann, vilken svarsfrekvens skulle vi då förvänta oss för varje svarsalternativ? Jo, då skulle varje administrationssätt få 25 röster, vilket framgår i tabell 10.5. Stolpiller Injektion Tablett Oral lösning 25 25 25 25 Tabell 10.5: Förväntade svar om nollhypotesen vore sann och deltagarna perfekt representativa för populationen. 78
Nu beräknar vi hur stor kvadraten av di erensen är i varje ruta och dividerar denna med rutans förväntade värde. Detta motsvarar (Oi Ei)2 E i i ekvation 10.40. Stolpiller Injektion Tablett Oral lösning (18 25) 2 /25 = 1, 96 (24 25) 2 /25 = 0, 04 (31 25) 2 /25 = 1, 44 (27 25) 2 /25 = 0, 16 Tabell 10.6: Kvadrerade di erenser dividerade med förväntat värde. Slutligen summerar vi rutornas värden: 2 =1, 96 + 0, 04 + 1, 44 + 0, 16 = 3, 6 Matematiskt kan allt detta skrivas som: 2 = kÿ i=1 (O i E i ) 2 (18 25)2 (24 25)2 (31 25)2 (27 25)2 = + + + =3, 6 (10.41) E i 25 25 25 25 Eftersom vi har 4 alternativ så blir antalet frihetsgrader df = k 1=4 1=3. Frågan vi ställer oss då blir hur sannolikt är det att få värdet 3,6 (eller högre) om man drar ett stickprov ur 2 (3)? Vi tittar på hur denna fördelning ser ut och drar en gränslinje vid x=3,6: Figur 10.16 Vi ser att 31 % av alla observationer ur denna fördelning kommer att vara högre än 3,6. Vi kan därför inte motbesvisa nollhypotesen att alla administrationssätt är lika populära. Exempel 10.3.2. Finns det någon attitydsskillnad mellan män och kvinnor vad gäller läkemedelsadministration? Detta är ett exempel med två kategorivariabler, vilket ger oss en tvådimesionell frekvenstabell. 2 har fortfarande samma formel men antalet frihetsgrader är nu df=(antal rader - 1)ú(antal kolumner - 1). Bland deltagarna fanns n=100 personer varav 60 var kvinnor och 40 var män. Vi presenterar resultatet i en frekvenstabell: Stolpiller Injektion Tablett Oral lösning Totalt Kvinnor 6 13 21 20 60 Män 12 11 10 7 40 Totalt 18 24 31 27 100 Tabell 10.7 H 0 : Det finns ingen skillnad mellan kvinnors och mäns attityder. 79
H 1 : Det finns en skillnad. Beslutsgräns =0.05 Återigen frågar vi oss vilka frekvenser vi skulle få ifall nollhypotesen var sann. Notera att vi nu endast undersöker huruvida det finns en skillnad mellan kvinnors och mäns attityder. Nu bryr vi oss inte om ifall det finns en generella preferenser till fördel för något administrationssätt (såsom i föregående exempel). Vi utgår därför ifrån de olika alternativens totala svarsfrekvensen när vi beräknar de förväntade. T.ex. har 18 personer svarat att de föredrar stolpiller. Eftersom deltagarandelen kvinnor var 60 % så blir det förväntade värdet i stolpillerskolumnen 0,6*18=10,8 för kvinnor och 0,4*18=7,2 för män. Alla förväntade frekvenser framgår av tabell 10.8. Stolpiller Injektion Tablett Oral lösning Totalt Kvinnor 10,8 14,4 18,6 16,2 60 Män 7,2 9,6 12,4 10,8 40 Totalt 18 24 31 27 100 Tabell 10.8: Förväntade frekvenser Precis som i exempel 10.3.1 utför vi en beräkning för varje ruta i tabellen och adderar dessa värden. Detta kan matematiskt nu skrivas som. I formeln beskriver j de olika grupperna (j =1för kvinnorna och j =2för männen) och g är antalet grupper, dvs 2 i detta fall. Som tidigare så är k antalet alternativ, dvs 4 i detta fall. 2 = gÿ kÿ j=1 i=1 (O ij E ij ) 2 (6 10, 8)2 (12 7, 2)2 (7 10, 8)2 = + +... + =8, 7 (10.42) E ij 10, 8 7, 2 10, 8 Analet frihetsgrader är (rader-1) ú (kolumner-1) =(g 1)(k 1) = (2 1) ú (4 1) = 3 Vi kan återigen titta på figur 10.16 som beskriver just 2 -fördelningen med 3 frihetsgrader. Hur stor del av arean tror ni ligger till höger om 8,7? Svaret är 0,03. Dvs, sannolikheten att vi av en slump skulle få denna skillnad mellan män och kvinnor är 3 %. Eftersom p-värdet 0,03 understiger beslutsgränsen 0,05 så förkastas nollhypotesen. Det finns alltså en skillnad mellan kvinnors och mäns preferenser, beräkningen säger dock inget om HUR skillnaden ser ut. Genom att titta i frekvenstabellen kan man dock bilda sig en god uppfattning om detta. 10.4 Statistisk power Med statistisk power så syftar man på undersökningens förmåga att upptäcka en eventuell skillnad. Exempel 10.4.1. I en dubbelblind randomiserad läkemedelsstudie har man mätt en specifik sjukdomsmarkör i blodet hos 200 patienter varav hälften har fått läkemedel och hälften har fått placebo. H 0 : Det finns ingen skillnad mellan grupperna, läkemedlet är verkningslöst. µ 1 = µ 2 (µ 1 är medelvärdet i läkemedelsgruppen och µ 2 är medelvärdet i placebogruppen). H 1 : Läkemedlet sänker värdet av sjukdomsmarkören (ensidigt test), µ 1 <µ 2. Beslutsgräns =0.01 Innan vi resonerar kring power så repeterar vi metodiken för hur hypotesprövningen går till. Vi använder vår metodväljare i kapitel 14 och valet faller på ett Welch s t-test. I nedanstående punktlista framgår även stickprovets medelvärden och varianser. x = x 2 x 1 = 541, 7 538, 8=2, 9 s 1 = 11, 9 s 2 = 10, 7 Medelfelet för medelvärdesskillnaden SE x1 x 2 =1, 6 80
Antalet frihetsgrader: df = 196 För att beräkna ovanstående värden användes ekvation 4.1, 6.2, 6.3, 10.23 och 10.24. t = ( x 2 x 1 ) y = 2, 9 0 =1, 8 (10.43) SE M 1, 6 Vad är den kritiska gränsen för att nollhypotesen skall förkastas i detta fall (dvs det värde på t som skulle ge p=0.01)? Jo, 1 % av t-fördelningen med 196 frihetsgrader överstiger 2,35. Alla värden på t som överstiger detta kommer ge p<0,01 och alla värden som är lägre ger p>0,01. Vi kommer alltså att förkasta nollhypotesen om t>2,35. I vårt fall blev t=1,8 vilket innebär att nollhypotesen inte kan förkastas. P-värdet var 0,07, vilket är större än vår beslutsgräns 0,01. Detta betyder som vanligt inte att vi har bevisat att nollhypotesen är sann, bara att vi inte lyckats motbevisa den. I vår studie så framkom trots allt en skillnad på 2,9 mellan grupperna. Denna skillnad i stickprovet kan tolkas på tre olika sätt: 1. Den verkliga skillnaden är 2,9 och vi har dragit ett perfekt representativt stickprov. 2. Skillnaden är egentligen mindre än 2,9 (eller kanske helt obefintlig), slumpen har gett oss den uppmätta skillnaden. 3. Den verkliga skillnaden är större än 2,9 och slumpen har gett oss ett resultat där grupperna är missvisande nära varandra, vilket gör att vi inte kan motbevisa nollhypotesen. Tidigare har vi pratat väldigt mycket om punkt 2. Vi vill absolut inte dra några slutsatser om skillnader som egentligen inte finns (typ-1-fel), därför garderar vi oss och säger att vi bara kommer att göra detta ifall risken för att den uppmätta skillnaden är slumpens verk är mindre än. Nu skall vi istället fokusera på punkt 3, tänk om vi faktiskt utvecklat ett riktigt bra läkemedel men sen råkar slumpen ge oss ett så missvisande urval att vi inte kan förkasta nollhypotesen, detta är inte heller bra! Att behålla en nollhypotes trots att den egentligen inte är sann brukar kallas för typ-2-fel, den risk vi är beredda att ta för detta betecknas. Power är testets sensitivitet, dvs förmågan att upptäcka reella skillnader, denna blir 1. OM det finns en verklig skillnad, hur stor är då sannolikheten att testet lycka motbevisa nollhypotesen? Det är testets styrka (power). Figur 10.17 För att analysera testets power måste man bestämma hur stor skillnaden måste vara för att anses som intressant, detta kan kallas för minsta intressanta skillnad. Om skillnaden mellan grupperna är så liten att den inte anses vara kliniskt relevant så har vi heller inget behov av att förkasta nollhypotesen. I vårt exempel kan man t.ex. fråga sig om en verklig skillnad på µ 2 µ 1 < 1 är intressant. Svaret blir kanske nej. För en så liten skillnad är det helt enkelt inte värt att lansera läkemedlet. Men om den verkliga skillnaden vore t.ex. µ 2 µ 1 > 5 så hade vi utvecklat ett riktigt bra läkemedel. Då vill vi inte att slumpen ska få ge oss ett stickprov där nollhypotesen inte kunde motbevisas. Vi skall nu beräkna power för testet i vårt exempel. Vi börjar med att bestämma oss för att minsta intressanta skillnad är 5 och betraktar situationen där den verkliga skillnaden är just µ 2 µ 1 =5, hur skulle då t-värdet fördela sig om vi upprepade studien många gånger? 81
Figur 10.18: Fördelning för t-värdet om medelvärdesskkillnaden vore 5. För att försäkra mig om att alla har förstått så vill jag ge ytterligare en förklaring till figur 10.18. Om vi har en verklig skillnad i populationen på µ 2 µ 1 =5(dvs den medelvärdesskillnad man skulle få ifall alla patienter i landet fick antingen läkemedel eller placebo) och man gjorde upprepade stickprover med 200 patienter så skulle medelvärdesskillnaden i dessa stickprov fördela sig på detta sätt. Minns ni det kritiska värdet? Om vi gör ett ensidigt t-test med beslutsgränsen = 0.01 så är det kritiska värdet 2,35. Så, OM vi har en verklig skillnad på 5 hur ofta kommer vi då få ett test som understiger detta värde? Jo, det framgår ur figuren att vid 22 % av fallen så skulle vi få ett värde som innebär att nollhypotesn inte kan förkastas. Risken för ett typ-2 fel är alltså 22 % ifall den verkliga skillnaden är 5. Testets power är 0,78. Vilka parametrar var egentligen inblandade i beräkningen av power? För att förenkla teorin förutsätter vi nu att stickprovet är lika stort i bägge grupperna (n = n 1 = n 2 ) och att variansen kan anses likvärdig i bägge grupperna ( 1 2 ). Stickprovsstorleken n: Ett större n kommer att påverka kurvan i figur 10.18 så att den blir smalare (eftersom SE M minskar). Det medför att en mindre andel kommer understiga det kritiska värdet. Power går upp! Beslutsgränsen för att förkasta nollhypotesen. I exemplet var =0, 01, vilket gav det kritiska värdet 2,35. Om vi istället hade haft beslutsgränsen = 0.05 så hade det kritiska värdet varit 1,65. Som vi ser i figur 10.18 så hade en betydligt mindre andel då blivit rödmarkerad ( 7%), vilket hade gett en högre power (0,93). Stickprovsvariansen. En lägre varians mellan observationerna kommer, liksom ett förstorat n, att minska SE M vilket ger en smalare kurva. Skillnaden från de föregående punkterna är dock att stickprovsvariansen inte kan påverkas av forskaren på samma sätt. Minsta intressanta skillnad (betecknad ). Med detta menar jag den avvikelse man utgår ifrån när power beräknas. I exemplet använde jag =5. Dvs, den skillnad jag vill att testet skall kunna upptäcka. Desto större avvikelse som vi tillåter testet att missa, desto högre blir power. Man kan se det som att uppgiften blir enklare och därmed ökar testets styrka att klara av den. De två senaste punkterna brukar ofta slås ihop till e ektstorlek, e = /s. I specialfallet med skillnaden mellan 2 medelvärden dividerat med standardavvikelsen kan denna kallas för Cohen s d. d = x 2 x 1 s (10.44) 82
Det minsta intressanta värdet på Cohen s d blir då /s.om är den minsta intressanta skillnaden i absoluta tal så blir d den minsta intressanta skillnaden uttryckt i antal standardavvikelser. 10.4.1 Stickprovsstorlek Ett viktigt praktiskt användningsområde för statistisk power är att det kan användas för att uppskatta vilken stickprovsstorlek studien bör ha. För att göra beräkningen krävs: Att man uppskattar de risker man är beredd att ta. Detta innebär att man fastställer (vanligen 0,01-0,05), (vanligen 0,1-0,2). Man bestämmer minsta intressanta skillnad,. En uppskattad standardavvikelse mellan individerna. Detta kan vara en välgrundad gissning eller standardavvikelsen i en liten pilotstudie. För att sedan beräkna n kan vi antingen använda R eller en approximativ manuell metod. För det sistnämnda alternativet används följande formler: n =( /2 + ) 2, En-sample (10.45) / n =2ú ( /2 + ) 2, Två-sample, n är då antalet i varje grupp. (10.46) / Exempel 10.4.2. Vi vill undersöka om en sjukdomsmarkör skiljer sig mellan två grupper (rökare och icke-rökare). Våra förutsättningar är: =0, 05. Risken att vi drar en felaktig slutsats om att värdet skiljer sig mellan grupperna får vara maximalt 5 %. =3och =0, 2. Om det finns en skillnad mellan grupperna som är 3 så vill vi att testet med 80 % sannolikhet ger ett signifikant utfall. Om power är 80 % så blir =0, 2. 15. I en pilotstudie har det visat sig att standardavvikelsen mellan individerna är ungefär 15. Detta är ett två-sample-test (eftersom vi har två grupper) och vi använder därför ekvation 10.46. n =2ú ( /2 + ) 2 =2ú ( / 0,025 + 0,2 ) 2 (1, 96 + 0, 84) =2ú ( ) 2 = 392 3/15 0, 2 Enligt denna beräkning bör vi alltså inkludera 392 rökare och lika många icke-rökare för att uppfylla våra krav på statistisk säkerhet. Detta kan även beräknas av R som använder en lite mer precis beräkningsmetod, vilket medför att svaret kan skilja en aning från det manuellt uträknade. Hur kan power användas i praktiken? Jo, genom att man uppskattar variansen och bestämmer vilka risker man vill ta för typ-1 respektive typ-2-fel så kan man på förhand uppskatta vilken stickprovsstorlek som behövs. Låt säga att man: 1. Uppskattar variabelns varians och bestämmer den avvikelse vi vill att testet upptäcker. Detta kan sammanfattas som uppskattar e ektstorleken, e. 2. Bästämmer sin beslutsgräns för att förkasta sin nollhypotes. 3. Bestämmer vilken power, man vill ha. Då kan man med hjälp av ekvationerna ovan och tabeller beräkna vilken stickprovsstorlek som behövs. Detta kommer jag dock inte beräkna manuellt utan hänvisar till avsnittet om power i R. 83
Kapitel 11 Icke-parametriska test De test som hittills beskrivits har krävt stora stickprov eller antaganden om att parametrarna är normalfördelade. Om man har en situation där detta inte uppfylls så finns dock fortfarande hopp om att en analys skall kunna genomföras. Då kan man istället använda icke-parametriska test som baseras på att observationerna på olika sätt rangordnas. Nu kommer jag att beskriva några av de vanligaste testen. Uträkningarna kräver ofta att man hittar p-värdet i olika tabeller eller med hjälp av datorer. Dessa finns inte inkluderade i denna bok men kan t.ex. hittas genom en enkel sökning på internet. 11.1 Mann Whitney U-test Test för att undersöka om det finns en skillnad på en kontinuerlig (ordinalskala räcker) variabel mellan två olika grupper. Det är en situation där vi normalt vill utföra ett t-test, vilket dock kräver antagandet om att variabeln är approximativt normalfördelad. Om detta antagande inte kan göras så är detta U- test ett bra alternativ. Kom ihåg att vi kan använda centrala gränsvärdessatsen om både n 1 > 30 och n 2 > 30, vilket innebär att vi inte behöver använda ett icke-parametriskt test. Sammanfattningsvis bör Mann Whitneys test användas om följande 3 punkter är uppfyllda: Den beroende variabeln är på minst ordinalskalenivå (observationerna kan rangordnas) Antagande om normafördelning kan inte göras. Stickprovet är relativt litet (överstiger inte 30 i bägge grupperna) Notera att testet naturligtvis kan utföras även om data är normalfördelat, resultatet blir nästan lika bra som om t-testet används. Vi formulerar en nollhypotes: H 0 : Det finns ingen skillnad mellan grupperna. Detta kan uttryckas som att ifall jag på måfå tar en observation ur varje grupp så sannolikheten att a är större än b, lika stor som sannolikheten att b är större än a. Sedan sorterar vi alla observationer i storleksordning och beräknar ranksummorna. Dessa används sedan för att beräkna testets U-värde som i nästa steg kan användas för att bestämma ett p-värde. Exempel 11.1.1. Vi har frågat 5 unga och 7 gamla personer hur många förkylningar de haft under de senaste 5 åren. Vår nollhypotes är att unga och gamla människor får lika många förkylningar och beslutsgränsen är 5 %. Antalet förkylningar är inte en normalfördelad variabel och vi har för få svar för att använda centrala gränsvärdessatsen. Vi testar Mann Whitneys U-test! Svaren presenteras i tabell 11.1. För att göra det enkelt har jag redan rangordnat dem. Notera att personer med lika många förkylningar får dela på rankingpoängen. Vi räknar nu ut ranksummorna: Unga: R 1 =2, 5+5+8, 5 + 10 + 12 = 38 Gamla: R 2 =1+2, 5+4+6+7+8, 5 + 11 = 40 84
Antal förkylningar Grupp Rank 0 Gammal 1 1 Ung 2,5 1 Gammal 2,5 4 Gammal 4 5 Ung 5 7 Gammal 6 8 Gammal 7 10 Gammal 8,5 10 Ung 8,5 12 Ung 10 14 Gammal 11 15 Ung 12 Tabell 11.1 Man kan kontrollera att den totala ranksumman blir: n(n + 1)/2 = 12 ú 13/2 = 78. Sedan beräknas gruppernas U-värden: U 1 = n 1 n 2 + n 1(n 1 + 1) 2 R 1 =5ú 7+5ú 6/2 38 = 12 (11.1) U 2 = n 1 n 2 + n 2(n 2 + 1) R 2 =5ú7+7ú8/2 40 = 23 (11.2) 2 Här kan man kontrollera att U 1 + U 2 = n 1 n 2. Det lägsta värdet av U 1 och U 2 väljs som testets U-värde, dvs 12. Ur en tabell för kritiska U-värden kan man se att U skall vara mindre än 5 för att nollhypotesen skall förkastas på beslutsnivån 5 % ifall stickproven är 5 respektive 7 stora. För att se en lösning med R, se avsnitt 15.12.1. Till sist kan vi konstatera att om n = n 1 +n 2 > 20 så är U approximativt normalfördelad med medelvärde n 1 n 2 /2 och standardavvikelse: apple n 1 n 2 (n 1 + n 2 + 1)/12. Man kan då utföra en z-transformation (avsnitt 10.1.1) och z-test. 11.2 Wilcoxon signed rank test Detta är den icke-parametriska motsvarigheten till parat t-test. Vi har alltså en situation där varje individ mäts två gånger (t.ex. före och efter ett läkemedel). Man vill veta om det varit någon signifikant skillnad mellan mätningarna. Nollhypotesen lyder: H 0 : Fördelningen är densamma i bägge situationerna, det finns alltså ingen skillnad mellan före och efter. Proceduren är därefter ganska enkel: 1. Rangordna paren efter di erensens absoluta storlek. Med detta menar jag att man inte skall ta hänsyn till om det skett en ökning eller minskning när di erenserna rangordnas. 2. Par där di erensen är noll stryks ur beräkningen. Om det finns relativt många sådana par kan resultatet dock bli otillförlitligt och andra metoder får då övervägas. 3. För varje par noteras även sgn, vilket innebär + om di erensen är positiv och - om di erensen är negativ. 4. Parets rank blir platsen i rangordningen. 5. Ranken multipliceras sedan med sgn så att man återigen ser skillnad på par med positiv och negativ di erens. 85
Vikt innan Vikt efter Förändring sgn rank sgn*rank 75 72 3-5,5-5,5 86 88 2 + 3,5 +3,5 71 70 1-1,5-1,5 91 92 1 + 1,5 +1,5 76 76 0 0 0 102 96 6-9 -9 76 79 3 + 5,5 +5,5 86 90 4 + 7 +7 80 78 2-3,5-3,5 90 85 5-8 -8 Tabell 11.2 Exempel 11.2.1. Vi har en nollhypotes om att ett viktreduceringsmedel är verkningslöst. Mothypotesen är att bantningsmedlet ger en signifikant viktminskning (ensidigt test!). 10 personer har vägts före och efter intag av substansen. Resultatet presenteras i tabell 11.2. Notera att personen som hade 0 i förändring stryks från vidare analys, härmed reduceras även deltagarantalet till 9. Vi rankar förändringarna efter absolut förändring (bryr oss ej om det är en ökning eller minskning). Efter att rankpoängen är utdelade återkommer förändringens tecken (plus/minus). Vi summerar rank-summan för de positiva respektive negativa: W =5, 5+1, 5+9+3, 5 + 8 = 27, 5 och W + =3, 5+1, 5+5, 5 + 7 = 17, 5. Jag väljer det lägsta av dessa värden och jämför det med tabellvärden. För ett test med 9 personer är det kritiska värdet för ett ensidigt test på beslutsnivån 5 % 11. Eftersom 17, 5 > 11 kan vi inte förkasta nollhypotesen. Uträkning med R finns i avsnitt 15.12.2. 11.3 Kruskal Wallis test Detta är en generalisering av Mann Whitneys U test som bara kan jämföra 2 grupper. Kruskal Wallis kan jämföra en parameter i flera grupper och är därför analogt med ANOVA (se kapitel 12). För att använda ANOVA krävs att variabeln är approximalt normalfördelad eller att stickprovet är stort (n >30 för alla grupper). Dessutom skall variansen antas vara likvärdig i alla grupper. Om dessa krav inte är uppfyllda är Kruskal Wallis ett bra icke-parametriskt alternativ. Testet fungerar ungefär som de andra icke-parametriska testen. Värdena rankas så att varje grupp får en ranksumma. 1. Alla mätvärden rangordnas och får en rankpoäng. 2. Beräkna medelrankpoängen för varje grupp. Detta skrivs matematiskt som: r i = n. Medelrankpoängen i grupp i är alltså summan av gruppens rankpoäng dividerat med antalet i gruppen. 3. Beräkna därefter medelrankpoängen för alla mätvärden. Detta blir: r = 1 2 (N + 1), där N är det totala antalet värden. 4. Beräkna sedan K. q g i=1 K =(N 1) n i( r i r) q 2 g q ni i=1 j=1 (r (11.3) ij r) 2 Detta ser såklart krångligt ut, men i exemplet nedan sätter vi in si ror och då blir det förhoppningsvis lättare. 5. Med hjälp av tabeller kan man sedan värdera K. Om det finns minst fem observationer i varje grupp så är H approximativt 2 -fördelad med g 1 frihetsgrader, där g är antalet grupper. Notera! Om det inte finns några delade placeringar (dvs upprepade mätvärden) så kan nämnaren i uttrycket för K förenklas till: (N 1) ú N ú (N + 1), vilket ger 12 86 q ri
12 gÿ K = n i ( r i r) 2 (11.4) N(N + 1) i=1 Exempel 11.3.1. Man har mätt en specifik sjukdomsmarkör hos personer som fått ett av tre olika läkemedel. I testet ingår 5 personer i varje grupp och detta blodprov kan inte anses vara normalfördelat. Vi använder Kruskal Wallis för att svara på vår hypotes: H 0 : Medianen är samma i alla grupper. H 1 : Medianen skiljer åtminstone mellan 2 av grupperna. Beslutsnivå 5 %. Resultatet framgår av tabell 11.3 (för enkelhetens skull har jag redan rangordnat dem): Rangsumman fär Resultat Grupp Rank 155 A 1 161 A 2 170 B 3 172 B 4 180 C 5 185 A 6 198 B 7 200 C 8 205 A 9 217 C 10 220 B 11 221 A 12 225 C 13 229 B 14 235 C 15 Tabell 11.3 varje grupp blir R A = 1+2+6+9+12 = 30, R B = 3+4+7+11+14 = 39, R C = 5+8+10+13+15 = 51. Detta ger medelranksummorna: r A = 30/5 =6, r B = 39/5 =7, 8, r C = 51/5 = 10, 2. Den totala medelranksumman är r = 1 2 (15 + 1) = 8. Nu utvecklar vi ekvation 11.3 och sätter sedan in våra si ror: n A ( r A r) 2 + n B ( r B r) 2 + n C ( r C r) 2 K =(N 1) (r A1 r) 2 +... +(r A5 r) 2 +(r B1 r) 2 +... +(r B5 r) 2 +(r C1 r) 2 +... +(r C5 r) 2 5(6 8) 2 + 5(7, 8 8) 2 + 5(10, 2 8) 2 = (15 1) (1 8) 2 +... + (12 8) 2 +(3 8) 2 +... + (14 8) 2 +(5 8) 2 +... + (15 8) 2 20 + 0, 2 + 24, 2 44, 4 = 14 ú = 14 ú =2, 22 49 + 36 + 4 + 1 + 16 + 25 + 16 + 1 + 9 + 36 + 9 + 0 + 4 + 25 + 49 280 Eftersom det i exemplet inte fanns några delade placeringar kunde vi lika gära ha använt den enklare formeln i ekvation 11.4: K = 12 N(N + 1) gÿ i=1 n i ( r i r) 2 = 12 ú 44, 4 ú 20 + 0, 2 + 24, 2=12 = 532, 8 =2, 22 15 ú 16 240 240 Eftersom det finns minst fem observationer i varje grupp så kan vi använda 2 -fördelningen med g 1 =2 frihetsgrader. Så hur stor är sannolikheten att få värdet 2,22 om H är 2 (2)-fördelad? Jo, p=0.33. Vi kan inte förkasta nollhypotesen. Lösning med R finns i avsnitt 15.12.3. 87
Kapitel 12 Variansanalys (ANOVA=Analysis Of Variance) Variansanalys används när man vill undersöka huruvida en kontinuerlig variabel skiljer sig mellan olika grupper. Vi har tidigare gått igenom specialfallet där man analyserar en variablel mellan TVÅ grupper, då kan man använda ett t-test. Ifall populationen är uppdelad i fler än 2 grupper måste man använda variansanalys. Variansanalys kan utföras på flera olika nivåer: Envägs-anova: En variabel analyseras med avseende på en kategorivariabel med valfritt antal grupper. Tvåvägs-anova: En variabel analyseras med avseende på 2 kategorivariabler. Det kan handla om att man är rökare/icke rökare samt får ett av 4 möjliga läkemedel. Man vill undersöka om det finns någon skillnad i ett värde på ett blodprov (kontinuerlig variabel). Varje individ tillhör då en kombination av 2 kategorivariabler (rökare ja/nej och läkemedel a/b/c/d). Flervägs-anova. Varje individ tillhör en kombination av k kategorivariabler. I detta material kommer jag försöka ge en ingående bild av envägs-anovan. För de övriga hänvisas till mer avancerad literatur. 12.1 Envägs-anova Envägs-anova innebär att man har mätt en kontinuerlig variabel hos individer som tillhör olika grupper. Man frågar sig om medelvärdet mellan grupperna skiljer sig i hela populationen. Tänk er att man har en total varians i ett stickprov. I figur 12.1a visas hur värdet på ett blodprov utfallit för 9 personer. I figuren är det totala medelvärdet utritat och de vertikala linjerna symboliserar varje individs residual (avståndet till medelvärdet). Variansen är som bekant summan av dessa residualer i kvadrat dividerat men n (eller n-1 om den skall verka som skattning av populationsvariansen). Summan av residualerna i kvadrat benämns sum of squares, SS. SS Total = nÿ (x i x) 2 (12.1) i=1 88
(a) (b) (c) Figur 12.1 Nu delar vi in de 9 personerna i 3 grupper (t.ex efter användning av 3 olika läkemedel). Uppdelningen framgår i figur 12.1b och 12.1c. Nu skall vi även försöka att dela upp variansen! Tänk att den totala variansen är den mellan individer och totalt medelvärde. Denna kan delas upp i varians mellan grupper och det totala medelvärdet, samt varians mellan grupper och individer. Lite schematiskt kan man säga: Individer - totalmedel = (individer - grupper) + (grupper - totalmedel). Så, vi ritar in varje grupps egna medelvärde i figuren och därtill en residual mellan gruppmedel och totalmedel för varje individ (se figur 12.1b). SS mellan = kÿ n j ( x j x) 2 (12.2) j=1 Där k är antalet grupper, n j är antalet individer i grupp j och x j är medelvärdet för grupp j. Då återstår endast residualerna inom grupperna. Dessa kan ses som de residualer som man inte ens kan förklara genom vetskapen om individens grupptillhörighet. I figur 12.1c syns dessa som vertikala linjer mellan individens värde och gruppens medelvärde. Dessa kvadreras och summeras, vilket matematiskt kan skrivas som: SS inom = n kÿ ÿ j (x i x j ) 2 (12.3) j=1 i=1 Notationen SS mellan står för sum of squares mellan grupper och SS inom står för sum of squares inom grupper. Vi vet att: SS Total = SS mellan + SS inom (12.4) Nu går vi vidare och bildar mean squares : MS = SS df (12.5) Hur många är då frihetsgraderna? df mellan (mellan grupper) = k 1 df inom (inom grupper) = n k df totalt = n 1 Detta ger: MS Totalt = SS Totalt df Totalt (12.6) 89
MS mellan = SS mellan df mellan (12.7) MS inom = SS inom df inom (12.8) Hur skulle det bli om utfallsvariabeln var helt oberoende av grupptillhörigheten? I så fall skulle MS mellan MS inom om försöket upprepades. Med hjälp av denna kunskap så bildar vi en kvot och kallar denna för F. F = MS mellan MS inom (12.9) F bör alltså vara ungefär ett om det INTE finns någon skillnad mellan grupperna. Nu kan vi använda F-förelningen med (df mellan, df inom ) frihetsgrader (för F-fördelningen skall man ange 2 värden på frihetsgrader). Exempel 12.1.1. Vi har gjort en liten pilotstudie där 9 personer fått testa 3 olika läkemedel varpå vi mätt antalet trombocyter. Frågan är om det finns en signifikant skillnad mellan läkemedelsgrupperna vad gäller medelvärdet på trombocyter. I detta fall får man tänka att hela populationen är en framtidsvision där många kommer att använda dessa läkemedel. H 0 : Det finns ingen skillnad mellan grupperna. H 1 : H 0 är falsk. Beslutsgräns =0.05 Utfallet från blodproverna råkar vara exakt som i figur 12.1. De 9 indiverdernas testresultat är (500, 700, 650, 300, 450, 350, 500, 500, 550). Det totala medelvärdet är x = 500 och de 3 gruppmedelvärdena är ˆx 1 = 617, ˆx 2 = 367, ˆx 3 = 517. Nu börjar vi att räkna sum of squares! SS Total = SS mellan = SS inom = nÿ (x i x) 2 = (500 500) 2 + (700 500) 2 +... + (550 500) 2 = 130000 (12.10) i=1 kÿ n j (ˆx j x) 2 = 3(617 500) 2 + 3(367 500) 2 + 3(517 500) 2 = 95000 (12.11) j=1 n kÿ ÿ j (x i ˆx j ) 2 = (500 617) 2 + (700 617) 2 +... + (550 517) 2 = 35000 (12.12) j=1 i=1 Bara som kontroll så ser vi att: SS Total = SS mellan + SS inom = 95000 + 35000 = 130000 (12.13) Antalet frihetsgrader är df mellan = k 1=3 1=2och df inom = n k =9 3=6 Vi bildar vår F-kvot: F = MS mellan MS inom = SS mellan/df mellan = 95000/2 =8, 14 (12.14) SS inom /df inom 35000/6 Vi plottar F-fördelningen med 2 respektive 6 frihetsgrader och bildar oss en uppfattning huruvida 8,14 är ett osannolikt värde. 90
Figur 12.2 Som man kan se på bilden så är sannolikheten endast ca 2 % att få ett så högt värde ifall nollhypotesen stämmer (p=0.0195). Vi kan därför förkasta nollhypotesen ifall vår beslutsgräns är 5 %. Det säger oss att det finns en signifikant skillnad mellan minst två av grupperna, men säger inget om hur stor den är eller mellan vilka grupper den finns. Ifall man har fått en signifikant anova så måste man gå vidare för att försöka beskriva den signifikanta skilnad som föreligger. Det kan vi bl.a. göra genom att utföra ett post hoc test och beräkna e ektstorleken. Post Hoc test Ett test man gör för att ta reda på mellan vilka grupper skillnaden är betydelsefull. Det finns flera olika test att välja på bl.a. Tukey s HSD och Fischer s LSD. För den intresserade läsaren hänvisar jag till andra källor för närmare information. E ektstorlek E ektstorleken säger hur stor e ekt vetskapen om grupptillhörigheten har på vår förklaringsgrad. Om modellen är perfekt (grupptillhörigheten förklarar all varians) blir e ektstorleken 1. Om grupptillhörghten inte alls förklarar utfallet blir e ektstorleken 0. Ê 2 = SS mellan (k 1) ú MS inom SS totalt + MS inom (12.15) I vårt exempel blir denna: Ê 2 = 95000 2 ú 35000/6 130000 + 35000/6 =0, 61 (12.16) Vilket kan tolkas som att grupptillhörigheten faktiskt har ganska stor inverkan. Det enklaste sättet att ska a sig en bild av hur skillnaderna mellan grupperna ser ut är att titta på sina data. Vi vet från uträkningarna att det finns en signifikant skillnad mellan minst 2 grupper. Våra data antyder att grupp 1 har betydligt högre värden än grupp 2. Detta skall dock inte ses som ett matematiskt bevis för att det finns en skillnad mellan just dessa grupper, men det är en god utgångspunkt för vidare analyser. 91
Kapitel 13 Regressionsanalys 13.1 Enkel regression I detta avsnitt ska vi gå igenom matematiken bakom linjär regression. I avsnitt 8 nöjde vi oss med att rita ett spridningsdiagram, låta datorn anpassa en regressionslinje och därefter tolka linjens allra mest basala egenskaper. Nu skall vi förstå vad datorn gjorde! Vid en enkel regression så kommer linjens lutning, b, att vara: b = r xy ú s y s x (13.1) Där r xy är korrelationskoe cienten och s är respektive variabels stickprovsstandardavvikelse. För vårt exempel (8.1.1) beräknas dessa enligt ekvation 4.13 och 6.3 till r =0, 66, s x =9, 47 och s y =8, 14. Detta ger: b = r xy ú s y =0, 66 ú 8.14 =0, 57 (13.2) s x 9, 47 Interceptet beräknas med hjälp av kunskapen om att regressionslinjen alltid går genom punkten (medel x,medel y ), dvs ( x,ȳ): a =ȳ b ú x = 67 0, 57 ú 171 31 (13.3) Vilket stämmer med de värden vi fick i figur 8.2. Nu vill vi veta hur säker linjens lutning egentligen är. Kan man säga att den är signifikant skild från noll (dvs kan vi förkasta nollhypotesen om att inget samband finns)? Nu får vi minnas sektion 10.1.2 där vi lärde oss om medelfelet. Nu ställer vi oss en analog fråga, hur blir standardavvikelsen för regressionslinjens lutning ifall man skulle göra många stickprov och beräkna en regression för varje stickprov? Nu behövs definitivt en bild och några förklaringar innan vi återgår till resonemanget! I figur 8.1 plottade vi utfallet från studien om längd och vikt. Nu ritar vi även in regressionslinjen, medelvärden samt vissa väl valda avstånd, kallade residualer. Vi börjar med att tänka oss situationen utan regressionslinje. Då är vår bäst gissning av personernas vikt att chansa på medelvikten, i detta fall 67 kg. Hur långt ifrån sanningen kommer vi då för varje individ? Dessa avstånd kan kallas för residualer och symboliseras i figuren av de blåa staplarna som löper mellan varje individs mätvärde och det totala medelvärdet. Om dessa skulle summeras skulle summan bli 0 (lika mycket finns ovanför medelvärdet som under). Genom att kvadrera avstånden så kommer de bidra lika mycket ovavsett om de ligger under eller över medelvärdet. Vi summerar dessa kvadrerade avstånd och får något som kallas sum of squares, SS. Vi läger även till ett T för total eftersom detta beskriver de ursprungliga avvikelserna då vi inte vet något annat än personernas mätvärden. I det följande stycket kommer jag även att beräkna de aktuella värdena för vårt exempel. SS T = nÿ (x i x) 2 = (77 67) 2 + (58 67) 2 +... + (65 67) 2 = 596 (13.4) i=1 92
Figur 13.1 Nu fokuserar vi istället på regressionslinjen. Alla individer får nu en predicerad vikt, ŷ i, som vore sann ifall regressionslinjen var perfekt. De totala avvikelserna kan nu delas i 2 delar: En del som regressionslinjen kan förklara, ungefär: hur mycket närmare rätt svar kommer vi om vi använder de predicerade värdet som gissning istället för medelvärdet?. Detta symboliseras av de gröna linjerna som löper mellan medelvärdet och de predicerade värdena. Summan av dessa i kvadrat kallas för förklarad sum of squares : SS F = nÿ (ŷ i x) 2 = 263 (13.5) i=1 Den del av avvikelserna som inte ens regressionslinjen kan förklara. vilken osäkerhet kvarstår trots att vi anpassat en regressionslinje?. Dessa symboliseras av de röda linjerna som löper mellan individernas mätvärden och predicerade värden. Summan av dessa avvikelser kallas för oförklarad sum of squares. SS O = nÿ (x i ŷ i ) 2 = 333 (13.6) i=1 Denna uppdelning är fullständig så att (alla avvikelser är antingen förklarade eller oförklarade): SS T = SS F + SS O = 263 + 333 = 596 (13.7) Nu återgår vi till resonemanget om regressionslinjens medelfel. Om vi skulle göra många stickprov, hur skulle då värdena på linjens lutning variera? Vi börjar med att betänka standardavvikelsen för hur mycket varje enskild person avviker ifrån regressionslinjen (detta är analogt med stickprovsstandardavvikelsen som beskriver hur mycket varje enskild person avviker från medelvärdet). Ú SSO s m = (13.8) n 2 För att få standard error of the estimate, dvs standardavvikelsen för linjens lutning, b, måste vi dividera enligt följande: s b = s m s x ú Ô n 1 (13.9) 93
Alla dessa värden har vi beräknat tidigare i exemplet. s b = Ò SS O s m s x ú Ô n 1 = n 2 s x ú Ô n 1 = Vi har vår nollhypotes: Ò 333 8 9, 47 ú Ô =0, 23 (13.10) 9 H 0 : Det finns inget samband mellan vikt och längd, dvs linjens lutning är 0 (b=0). Frågan är därmed: Förutsatt att nollhypotesen är sann (b=0), hur stor är sannolikheten att man av slumpen skulle få b=0,57 (vilket vi fick i vårt exempel)? t = b s b = 0, 57 =2, 48 (13.11) 0, 23 Vi har alltså avvikit med 2,48 standardavvikelser, hur sannolikt är det? Den sista pusselbiten vi behöver är vetskapen om att t följer t-fördelningen med n-2 frihetsgrader, dvs 8 i vårt exempel. Vi kikar på denna fördelning: Figur 13.2 I figuren ser vi att 96,2 % ligger närmare än 2,48. P-värdet är alltså 0,038 och vi kan förkasta nollhypotesen om beslutsgränsen är 0,05. Vi konstaterar att regressionslinjen för hela befolkningen med stor sannolikhet har en lutning som är större än 0, vilket betyder att det finns ett samband mellan vikt och längd. Nu kan vi titta i datorutskriften, figur 8.2, fokusera på raden som handlar om längdens inverkan på vikten. Där kan vi hitta standard error, t-value och p-värde. Samma si ror som vi nu fått manuellt! (Jag har avrundat lite under beräkningarna, därav små skillnader). 13.1.1 F-värde Om vi vill kan man använda variansanalys och även beräkna ett F-värde. Det är inte så meningsfullt vid enkel regression men jag passar på att förklara principen: Vi har en nollhypotes: H 0 Vikt är oberoende av alla prediktorer (i vårt exempel har vi bara en prediktor, nämligen längden). Detta är samma sak som att alla regressionskoe cienter är noll. H 1 Vikt är beroende av åtminstone en prediktor. Beslutsgräns =0.05 94
Från sum of squares kan vi beräkna mean squares som är sum of squares dividerat med antalet frihetsgrader. Här gäller: df total = n 1, df förklarad = p, df oförklarad = n p 1 där p är antalet prediktorer vilket alltid är 1 vid enkel regression. MS T = SS T df T = q n i=1 (x i x) 2 n 1 = 596 9 = 66, 2 (13.12) MS F = SS q n F i=1 = (ŷ i x) 2 df F 1 MS O = SS q n O i=1 = (x i ŷ i ) 2 df O n 2 Ur detta kan vi bilda en F-kvot: = 263 (13.13) = 333 8 = 41, 6 (13.14) F = MS F = 263 =6, 3, (13.15) MS O 41, 6 Om det inte fanns någon korrelation mellan variablerna så skulle F bli ungefär ett. Men precis som med allt annat i statistikens värld så finns det en slumpmässig variation som gör att vi ibland får andra värden. Vi vet att F-kvoten följer en specifik fördelning, nämligen F-fördelningen med (df F,df O ) frihetsgrader. Vi tittar på F-fördelningen med 1 respektive 8 frihetsgrader: Figur 13.3 P-värdet för ett så stort F-värde är 0,035. Vi kan därmed förkasta nollhypotesen och konstatera att vikt med stor sannolikhet är beroende av någon av prediktorerna. I detta fall har vi ju bara en prediktor, nämligen längd. Så påståendet borde vara analogt med att vikt är beroende av längd. Och se, det är samma p-värde! (bortsett avrundningsfel). F-kvoten och p-värdet finns också angivet längst ner i figur 8.2. 13.2 Multipel regression Nu börjar matematiken bli så avancerad att jag väljer att utelämna större delar av beräkningarna. För er som själva vill utföra en god multipel regressionsanalys vill jag dock berätta lite mer om principerna och hur man tolkar datorns resultat. Denna del är en fördjupning av avsnitt 8.2 och jag fortsätter att referera till exempel 8.2.1. Precis som vid enkel regression så är regressionsmodellen den kombination av koe cienter som minimerar 95
sum of squares. Trots att vi har fler parametrar i modellen så kommer varje individ att ha ett mätvärde på y och ett predicerat värde på y (från regressionen). Om man kvadrerar denna skillnad och summerar för alla individer så får man residual sum of squares, eller oförklarad SS som jag tidigare kallat det. Alltså den skillnad mellan utfall och prediktion som trots vår modell kvarstår. Alla beräkningar utförs nu med hjälp av R, mer om de kommandon som används finns i avsnitt 15.10.2. 13.2.1 F-värde Tidigare diskuterade vi F-värdet för enkel regression i avsnitt 13.1.1. I multipel regressionsanalys spelar detta en större roll. Vi testar nollhypotesen: H 0 : Modellen ger ingen extra information. Alla koe cienter är noll. Om vi tittar i figur 8.3 så ser vi att p-värdet för F är 0,08. Det innebär att vi inte kan förkasta nollhypotesen. Denna modell är alltså inte särskilt stark. I detta fall beror det främst på att den är baserad på alldeles för få individer. Om stickprovet ökas så kommer detta p-värde troligen sjunka till signifikanta nivåer. 13.2.2 Förklarad varians R 2 Precis som tidigare så har vi en total varians som kan delas upp i en (av modellen) förklarad del och en fortfarande oförklarad del. R 2 är ett mått på hur stor del av den initiala variansen som vår modell lyckas förklara. R 2 = SS förklarad SS Totalt (13.16) Om denna är nära ett så betyder det att vi har en bra modell som förklarar en stor del av den initiala variationen. Varför behövs detta värde? Har inte F-värdet (och dess p-värde) redan berättat för oss huruvida modellen är bra eller inte? Svaret är nja. F-testet har berättat för oss att modellen inte är signifikant, vi kan inte dra så stora slutsatser om populationen. R 2 berättar hur bra modellen passar för det aktuella stickprovet. Om man får ett högt R 2 (0,61 i vårt exempel få betraktas som ganska högt), men ändå inte ett signifikant F-test så beror detta med stor sannolikhet på att man har ett för litet stickprov. Om R 2 däremot också är litet så är risken större för att vi har en dålig modell (den passar inte ens på vårt stickprov). F-värdet handlar alltså om inferensstatistik och ger en bild av hur väl modellen förväntas passa för hela populationen medan R 2 ger en bild av hur väl man lyckats anpassa en regression i det aktuella stickprovet. Justerat R 2 Vår modell är ju optimerad för just vårt stickprov. Det gör att R 2 förmodligen överskattar modellens förmåga att förklara varians i befolkningen. Därför kan man justera värdet för att få en bild av hur stor andel av variansen som kan tänkas förklaras av vår modell om man drog ett annat stickprov av samma population. Desto större stickprovet är, desto mindre förväntas skilja, därav kommer R 2 adj R2 om n är stort. Både R 2 och även justerat R 2 framgår i figur 8.3. 13.2.3 Kurvlinearitet När vi gör en vanlig multipel regression så får vi ett utfall som bygger på linjära samband, t.ex: y = a + b 1 ú x 1 + b 2 ú x 2 Som ni ser så förväntas både x 1 och x 2 ha linjära samband md y. Detta är självfallet sällan helt sant men det är något vi oftast kan acceptera. Men det gäller att hitta de fall där denna förenkling är oacceptabel. Om t.ex. x 1 har en tydlig kvadratisk relation till y så skulle följande modell vara bättre: y = a + b 1 ú x 2 1 + b 2 ú x 2 96
Det enklaste är kanske att gå igenom alla prediktorer och fråga sig om någon annan relation än den linjära känns uppenbart bättre. Om man t.ex. har en prediktor där man tror att lagom är bäst så kanske man skall överväga att även inkludera x 2 i sin modell. Detta kan handla om antalet kilokalorier man skall äta varje dag för att må bra. Om man äter noll så kommer man garanterat inte må bra, men detta gäller även om man äter väldigt mycket. Här finns inget linjärt samband mellan intag och välmående! Om man inte nöjer sig med denna metod som kräver lite känsla så kan man använda avancerade matematiska verktyg. Jag kommer inte att beskriva dessa men kan rekommendera det intresserade läsaren att fördjupa sig i fractional polynomials och splines. Man kan även kategorisera variabler för att hantera icke-lineariteter. 13.2.4 Dummy-variabler Om man har kategorivariabler som man vill inkludera i sin analys så krävs ett trick, nämligen att man introducerar dummy-variabler. I sin allra enkalste form har variablen två möjliga utfall och ett klassiskt exempel är en enkät där deltagaren fått kryssa i om hen är kvinna eller man. I detta fall kan man enkelt införa en variabel x som kodas som t.ex. 0 för kvinnor och 1 för män. Denna variabel går utmärkt att inkludera i en multipel regression. Svårare blir det om variabeln har tre eller fler möjliga utfall. Här kan man inte introducera en variabel som kodas med t.ex. 0 för blå, 1 för grön och 2 för brun efter en fråga om ögonfärg. Då blir inte analysen bra! Man måste införa en dummy-variabel mindre än man har antal möjliga utfall. I exemplet med kvinna/man finns två utfall och därför används en dummy-variabel. I exemplet med ögonfärg finns tre möjliga utfall och därför behövs två dummy-variabler, d 1 och d 2. Varje utfall kodas som en unik kombination: blå: d 1 =0 och d 2 =0. grön: d 1 =1 och d 2 =0. brun: d 1 =0 och d 2 =1. Om vi skulle ha en variablel med k utfall krävs k 1 dikotoma dummy-variabler. Ett alternativ kodas som att alla dummy-variabler är noll. Alla andra utfall kodas så att en dummy-variablel är ett och övriga noll. 13.2.5 Interaktioner Nu börjar det bli lite knepigt. Vid en multipel regressionsanalys så analyserar man hur en prediktor påverkar utfallet under förutsättning att de andra prediktorerna hålls konstant. I en enkel regressionsanalys skulle upplevd livskvalitet framstå som starkt korrelerat till livslängden, men i en multipel analys så har detta samband försvunnit. Det visade sig i exemplet att motion förlänger livet och eftersom männskor som motionerar tenderar att uppleva en högre livskvalitet så ledde detta till att den upplevda livskvaliteten gav skenet av att förlänga livet. För människor med likvärdiga motionsvanor betydde alltså den upplevda livskvaliteten ingenting för livslängden. Sambandet mellan upplevd livskvalitet och livslängd var alltså en sekundär e ekt av att motionerande människor tenderar att vara glada. Detta är viktigt att förstå, annars finns risken att man kommer att dra många förhastade slutsatser om liknande sekundära e ekter. Repetera gärna avsnitt 9.2 om missledande faktorer. Men vi har fortfarande inte tagit hänsyn till eventuella interaktioner. En interaktion kan formuleras som att e ekten av en prediktor är beroende av nivån på en annan prediktor. Tänk er att motion förlänger livet men att denna faktor är beroende av hur mycket man röker: Om man inte röker så ökar en motionstimme i veckan livet med 5 år. Om man röker lite så ökar den fortfarande livet, men med 4 år. Men om man röker mer än ett paket om dagen så kommer motionen inte alls att förmå förlänga livet. Denna typ av interaktion mellan variabler kommer inte man inte kunna utläsa ur figur 8.3. Här behövs ett knep! Om man lägger till produkten av 2 prediktorer som en egen prediktor så kommer denna 97
att motsvara interaktion mellan prediktorerna. I vårt exempel har vi tre prediktorer, men om vi vill undersöka alla möjliga interaktioner så måste vi lägga till ytterligare tre prediktorer: x 1 = Rök. x 2 = Motion x 3 = Livskval. x 4 = x 1 ú x 2 x 5 = x 1 ú x 3 x 6 = x 2 ú x 3 y 1 30 2 3 60 90 6 70 2 50 6 4 300 200 24 68 3 20 10 6 200 120 60 85 4 0 5 7 0 0 35 75 5 0 4 4 0 0 16 80 6 10 0 2 0 20 0 76 7 0 6 4 0 0 24 94 8 25 2 2 50 50 4 55 9 25 8 9 200 225 72 85 10 30 3 7 90 210 21 62 Tabell 13.1 Vi anpassar en regression! Figur 13.4 Vad kan vi säga om detta? R 2 har ökat. Vi förklarar mer av variansen nu än innan interaktionerna inkluderades. Notera dock att R 2 aldrig kan bli mindre när fler parametrar adderas. Ytterligare information kan förvisso vara meningslös men den kan inte bidra till att mindre varians förklaras. Ingen av termerna är signifikant. Under förutsättning att alla övriga 5 parametrar hålls konstant så kan vi inte säkert säga att någon koe cient är säkert skild från noll. Betyder detta att modellen är värdelös? Nej! Men vi måste trimma den. Parametrar som inte bidrar bör plockas bort. Detta har främst två anledningar: Överflödiga parametrar kan störa modellen. Genom att inkludera för många parametrar undertrycks e ekten av parametrar som faktiskt har betydelse. Tänk på vad målet med modellen är. Om vi t.ex. vill att vår modell skall användas kliniskt för att sjukvårdspersonal skall motivera patienter till rökstopp och ökad motion genom att beräkna deras 98
förväntade livslängd. Då vill vi ha en så enkel formel som möjligt. Att behöva beräka 6 parametrar är helt onödigt om flera av dem ändå inte bidrar. 13.2.6 Selektionsmetoder Man skall vara medveten om att metoderna som beskrivs i detta avsnitt är kontroversiella. Kritiker menar att avancerade metoder som ridge och lasso är bättre. Man måste fundera på vad modellen ska användas till. För estimeringsmodeller är det rätt absurt att låta datorn bestämma modellen, eftersom men därigenom också bestämmer vad som estimeras. Detta är intimt förknippat med forskningsfrågan, och bör bestämmas av experten, d.v.s. forskaren. För prediktionsmodeller är det mer rimligt, även om biologisk sakkunskap även där bör väga tungt. Nu är det dags att trimma modellen så att vi får den absolut mest e ektiva lösningen. Vi vill få en slutgiltig modell där alla parametrar har någon form av betydelse, antingen statistisk signifikans eller att de de kliniskt bedöms som betydesefulla. Det finns flera olika modeller för detta: enter, forward selection, backward selection, stepwise selection m.fl. Enter: Manuell metod där man själv prövar sig fram genom att lägga till och ta bort parametrar tills man är nöjd med utfallet. Forward selection är en datoriserad metod som innebär att man utgår ifrån en modell helt utan parametrar. Datorn beräknar hur bra modellen skulle bli om en av parametrarna lades till, denna beräkning görs för samtliga tillgängliga parametrar. Om någon av modellerna är bättre så väljs den bästa modellen med en parameter. Hur datorn värderar vilken modell som är bäst kan skilja något beroende på vilken mjukvara man använder. Därefter görs samma procedur där datorn undersöker hur det skulle bli om ännu en parameter inkluderas. Detta upprepas tills ingen ytterligare parameter som gör modellen signifikant bättre kan läggas till. Backward selection: Liknande metod där man istället utgår ifrån en modell som inkluderar alla möjliga parametetrar. Datorn jämför vad som skulle hända om en tas bort. Parametrar ellimineras till ingen mer kan tas bort utan att modellen signifikant försämras. Stepwise selection: En blandning av forward och backward. Datorn jämför både vad som händer om en parameter tas bort eller om en läggs till. Detta pågår tills ingen förändring kan göras utan att modellen försämras. Man kan börja antingen med att alla eller ingen parameter ingår i utgångsläget. Vi gör en stepwise på vårt material. Resultatet blir: Figur 13.5 Datorn har alltså föreslagit att den allra bästa formeln för att förespå livslängd är: Livslängd = 90 1, 2úcigaretter+2, 9úmotion 4, 6úlivskvalitet+0.18úcigaretterúlivskvalitet (13.17) Vi kan notera att p-värdet för F är 0,08. Det betyder att modellen inte är signifikant. Alla koe center skulle kunna vara 0. Denna modell bör därför inte få något större nyhetsvärde. Men återigen kan vi konstatera att R 2 är hög. Modellen har goda förutsättningar att bli riktigt bra om vi baserar den på ett större stickprov. Notera att datorn endast kan avgöra vilken modell som är matematiskt bäst, det är därför jätteviktigt 99
att granska resultatet ur ett kliniskt perspektiv. Om vi skulle elliminera ytterligare parametrar från modellen så skulle den bli matematiskt sämre, men det innebär inte att den nödvändigtvis är mycket sämre. Ibland kan den kliniska vinsten med en lättanvänd modell vara betydligt mer värd än att ha en fullständigt matematiskt optimerad modell. 13.3 Logistisk regression De regressionsmodeller som hittills har beskrivits kräver att utfallvariabeln är kontinuerlig. Vi har frågat oss hur olika kombinationer av värden på prediktorer påverkar ett utfall och detta utfall har alltså hittills varit ett numeriskt värde på en kontinuerlig skala. Men vad händer om utfallet är en kategorivariablel med två möjliga utfall? Vi kanske har efterfrågat ett flertal prediktorer (ålder, kön, antal cigaretter per dag samt månadslön) och sedan noterat ifall personen drabbas av en sjukdom eller inte. I detta exempel finns två möjliga utfall; antingen har man cancer eller så har man det inte. Detta kan kodas som y =0 för friska och y =1för sjuka. Om man nu försöker att utföra en regression som det tidigare beskrivits så blir resultatet uselt, försök t.ex. att anpassa en regressionslinje till figur 13.6. Det kommer bli enorma residualer. Figur 13.6 Knepet för att lösa detta är att använda logistisk regression! Jag kommer inte att gå igenom hela teorin bakom detta men jag kommer att rent praktiskt förklara vad det innebär. Vid vanlig regression så skapas en modell där värden kan stoppas in för att predicera ett utfall. I kapitel 8 fanns ett exempel där modellen kunde ge oss en förväntad vikt utifrån vetskapen om en persons längd. Med logistisk regression så vill vi inte bara förutspå huruvida personen blir sjuk utan det modellen slutligen ger oss är logaritmen för oddset att personen blir sjuk. Så när vår modell är klar och alla parametrar (t.ex. ålder, kön, antal cigaretter per dag samt månadslön) för en person stoppas in i denna så får vi kanske utfallet y. Hur ska detta tolkas? Jo, logaritmen för oddset att personen är sjuk är y. Detta kan sedan räknas om men enkla matematiska formler. Vi vet: e log(x) = x och från avsnitt 4.4: P = O O +1 Så om y är logaritmen av oddset för att drabbas så är: x = ey e y +1 Där x är sannolikheten att personen drabbas. (13.18) (13.19) (13.20) 100
Sammantaget har vi alltså en studie med ett antal prediktorer och en dikotom utfallsvariabel (två möjliga utfall). Vi utför sedan en logistisk regression, exempelvis med R (se avsnitt 15.10.3), och får en formel av typen: y = a + b 1 x 1 +...b k x k När vi sedan vill predicera risken för att en person är sjuk (eller det som utfallet kodat med 1 beskriver) så stoppas personens värden på parametrarna x 1 till x k i formeln och ger ett värde på y. Därefter krävs en transformation genom ekvation 13.20 för att man skall få den predicerade sannolikheten för att personen är sjuk. Detta påminner på många sätt om vanlig regression men det är viktigt att inte glömma det sista steget där värdet transformeras till en sannolikhet! På vägen fram till den slutgiltiga modeller gäller samma avväganden som vid multipel regression. Man får på samma sätt inför dummy-variabler, tänka på kurvlinearitet och trimma sin modell. Exempel 13.3.1. Tänk er samma studie som i exempel 8.1.1 men istället för att undersöka förväntad livslängd så frågar vi oss om parametrarna har någon samband med cancer. x 1 = Rökning x 2 = Motion Livskvalitet = x 3 Cancer (ja=1) = y 1 30 2 3 1 2 50 6 4 1 3 20 10 6 0 4 0 5 7 0 5 0 4 4 1 6 10 0 2 0 7 0 6 4 0 8 25 2 2 0 9 25 8 9 1 10 20 3 7 0 Tabell 13.2 Vi utför en logistisk regression med interaktionstermer och stepwise selection, för kommandon se avsnitt 15.10.3. Den slutgiltiga utskriften blir följande: Figur 13.7 Efter en stepwise selection är det alltså bara rökningen som återstår och den regressionsekvation som föreslås är: y =0, 07 ú rökning Om en person då röker 30 cigaretter dagligen blir y=2,1. Men kom ihåg att detta är logaritmen för oddset att få cancer. Vi vi behöver transformera detta. x = ey e y +1 = e2,1 e 2,1 =0, 89 +1 Enligt vår modell är sannolikheten för att denna person utvecklar cancer 89 %. Men kom ihåg från figur 13.7 att resultatet inte var signifikant, så vi bör inte dra några stora slutsatser kring personens cancerrisk. 101
Kapitel 14 Metodväljaren Inom statistiken finns många olika test och metoder för att angripa olika frågeställningar. Några av dessa har beskrivits i denna bok. Större delen av materialet är dock uppdelat så att varje metod beskrivs i ett eget avsnitt med exempel. I verkligheten vill man ofta gå åt andra hållet då man utgår ifrån en frågeställning och därefter väljer test. Denna del är tänkt som ett överskådligt och grafiskt hjälpmedel för att välja rätt metod utifrån problemets natur. Notera dock att detta inte ger någon heltäckande bild. Ibland finns fler alternativ än de som anges här. Jag har också förskt att placera in bokens olika exempel och därför gör jag ibland inkonsekventa metodval i situationer där skillnaden är marginell. Vad vill du göra? Testa om en individ hör till en population med sedan tidigare känd normalfördelning. Använd Z-transformation (avsnitt 10.1.1) och därefter z-test (avsnitt 10.1.4). Detta kan utföras ensidigt eller tvåsidigt (se avsnitt 6.8.2). Se exempel 10.1.9 på sidan 68. Testa om ett stickprov kan antas komma ifrån en population med känd fördelning. Exempelvis att vi vet hur fördelningen för friska människor ser och och frågar oss om en subgrupp, t.ex. rökare kan antas följa samma fördelning. Använd medelfelet (ekvation 10.3), z-transformation (avsnitt 10.1.1) och därefter z-test (avsnitt 10.1.4). Detta kan utföras ensidigt eller tvåsidigt (se avsnitt 6.8.2). Se exempel 10.1.10 på sidan 69. Skapa ett konfidensintervall för populationsmedelvärdet utifrån ett stickprov. Gå till flödesschema A. Skapa ett konfidensintervall för skillnaden i medelvärdet mellan 2 grupper. Gå till flödesschema B. Testa om medelvärdet i en population är skilt från y. Gå till flödesschema C. Testa om det finns en skillnad mellan parade observationer, t.ex. före/efter. Gå till flödesschema D. Testa om det finns en skillnad för en kontinuerlig parameter mellan 2 grupper. Gå till flödesschema E. Testa om det finns en skillnad mellan fler än 2 grupper för en kontinuerlig variabel. Gå till flödesschema F. Skapa en regressionsmodell Gå till flödesschema G. 102
14.1 Flödesscheman A Bestämma ett konfidensintervall för hela populationens medelvärde. Se avsnitt 6.2.1 Använd normalfördelningen, se avsnitt 10.1.3 Vet ej Ja Kan populationen antas vara approximativt normalfördelad? Ja Är populationens standardavvikelse känd? Nej Nej Är stickprovet stort (åtminstone n>30) Ja Använd CGS och normalfördelningen, se avsnitt 10.1.2 och exempel 10.1.6, sid. 65 Nej Utöka stickprovet Använd t- fördelningen med n 1 frihetsgrader, se avsnitt 10.2 och exempel 10.2.1. B Bestämma ett konfidensintervall för skillnaden mellan 2 gruppers medelvärden. Se avsnitt 6.2.1 Använd t- fördelningen med pooled variance, se fall 2 på sidan 72. Vet ej Ja Kan variabeln tänkas vara approximativt normalfördelad i bägge grupperna? Ja Kan variansen antas vara lika i bägge grupperna? Nej Använd t- fördelningen med un-pooled variance, se fall 1 på sidan 72 samt exempel 10.2.2. Nej Är stickprovet stort (åtminstone n 1 > 30 och n 2 > 30) Ja Använd CGS och normalfördelningen, se avsnitt 10.1.2 och exempel 10.1.7, sid. 66 Nej Utöka stickprovet 103
C Testa om medelvärdet för en population är skilt från y Se avsnitt 6.2.1 Vet ej Kan variabeln antas vara approximativt normalfördelad? Nej Är stickprovet stort? (åtminstone n > 30) Nej Utöka stickprovet Ja Använd normalfördelningen, se avsnitt 10.1.3 Ja Är populationens standardavvikelse känd? Ja Nej Utför ett ensampel t-test. Se avsnitt 10.2.2 och exempel 10.2.3 D Testa om det finns en skillnad mellan parade observationer, t.ex. före/efter. Se avsnitt 6.2.1 Vet ej Kan skillnaderna antas vara approximativt normalfördelade? Nej Är stickprovet stort? (åtminstone n > 30) Nej Utför Wilcoxon s signed rank test, se avsnitt 11.2 och exempel 11.2.1 Ja Utför ett parat t-test. Se avsnitt 10.2.2 och exempel 10.2.5 Ja 104
E Testa om det finns en skillnad mellan 2 grupper Se avsnitt 6.2.1 Vet ej Kan variabeln tänkas vara approximativt normalfördelad i bägge grupperna? Nej Är stickprovet stort (åtminstone n 1 > 30 och n 2 > 30) Nej Mann Whitney U- test, se avsnitt 11.1 och exempel 11.1.1 Utför t-test, se avsnitt 10.2.2. Använd pooled variance, se fall 2 på sidan 72. Ja Ja Kan variansen antas vara lika i bägge grupperna? Nej Utför t-test, se avsnitt 10.2.2 och exempel 10.2.4. Använd un-pooled variance, se fall 1 på sidan 72. Ja F Testa om det finns en skillnad mellan fler än 2 grupper Se avsnitt 6.2.1 Vet ej Kan variabeln tänkas vara approximativt normalfördelad och ha likvärdig varians i alla grupperna? Ja ANOVA. Se avsnitt 12.1 och exempel 12.1.1 Nej Är stickprovet stort (åtminstone n > 30 i alla grupper) Ja Nej Kruskal Wallis test, se avsnitt 11.3 och exempel 11.3.1 105
G Skapa en regressionsmodell Är utfallet en kontinuerlig variabel? Nej Är utfallsvariabeln dikotom (två möjliga utfall) Ja Logistisk regression, avsnitt 13.3 Ja Är det mer än en prediktor? Nej Enkel regression, avsnitt 8.1 & 13.1 Ja Multipel regression, avsnitt 8.2 & 13.2 106
Del III Datorn som hjälpmedel 107
Kapitel 15 Statistik med R 15.1 Kom igång med R R är en kostnadsfri mjukvara för statistiska beräkningar. Nedladdning och information om hur man kommer igång finns på internetsidan: https://www.r-project.org/ Väl inne i programmet kan man skriva sina kommandon direkt i fönstret R Console eller skapa ett script (File -> New script i menyn). Fördelen med att skapa ett script är att man enkelt kan spara sitt arbete för att kunna köra samma kommandon igen. När man är inne i en script-fil kan man markera en eller flera rader och trycka på knappen Run line or selection för att köra dessa kommandon. Figur 15.1: Script där tre rader/kommandon körs samtidigt. Alla basala kommandon finns inbygda i den mjukvara som ingår när R installeras. Ibland vill man dock använda andra kommandon som inte ingår i grundutbudet. Dessa finns i paket som man laddar hem och installerar genom kommandot: install.packages( paketets namn ) För att kunna använda innehållet måste man därefter starta paketet genom kommandot: library( paketets namn ) Om man startar om programmet så behöver man inte installera paketet igen, men det måste startas. 15.1.1 R commander (Rcmdr) Om man vill ha ett annat interface som kan upplevas som mer användarvänligt kan man ladda ner och starta Rcmdr genom följande kommandon: install.packages( Rcmdr ) library(rcmdr) 108
15.2 Basal matematik Trots att R är en kraftfull mjukvara så är det i grund och botten en miniräknare. Man kan antingen få svaret utskrivet ett spara det i en variabel för senare användning (detta gäller genomgående för det mesta i R). Kvadraten av ett tal fås genom 4ˆ2 och kvadratroten får genom sqrt(16). Kommandot round() används för att avrunda. > 2+7+6 [1] 15 > sqrt(16) #Beräknar kvadratroten ur 16. [1] 4 > 6^2 #Beräknar 6 upphöjt i 2 [1] 36 > x1=5+5 #Sparar värdet 10 i variabeln x1 > x2=sqrt(25) #Sparar värdet 5 i variabeln x2 > x1+x2 [1] 15 > x=4.52738 > round(x,2) #Avrundar x till två decimaler. [1] 4.53 15.3 Förvaring av data 15.3.1 Vektorer Ett vanligt sätt att lagra data är i form av vektorer. Det kan ses som en lista av mätvärden. En vektor kan skapas på flera olika sätt. Man använder c() ifall man vill ange varje vektor separat, rep() om den skall innehålla repeterade värden och seq() ifall den skall innehålla en sekvens. > c(2,6.5,9,8) #Vektor med fyra element. [1] 2.0 6.5 9.0 8.0 > rep(4,3) #Vektor med tre fyror, samma som c(4,4,4) [1] 4 4 4 > seq(1,7,2) #Sekvens av tal mellan ett och sju, två steg mellan varje. Som c(1,3,5,7) [1] 1 3 5 7 > seq(1,4) #Ger en vektor med 1,2,3,4. Steget är alltså ett om inget annat anges. [1] 1 2 3 4 > 1:4 #Snabbare sätt att skriva samma sak. [1] 1 2 3 4 Notera att man för decimaltal använder punkt istället för kommatecken (som alltid på engelska). Man kan även skapa kombinationer av ovanstående. > rep(c(2,4),3) #Repeterar hela vektorn (2,4) tre gånger. [1] 2 4 2 4 2 4 > rep(c(2,4),c(3,5)) #Upprepar första elementet tre gånger och andra elementet fem gånger. [1] 2 2 2 4 4 4 4 4 > c(rep(4,2),7,seq(5,2,-1)) [1] 4 4 7 5 4 3 2 Om man vill lagra ord eller bokstäver i en vektor måste varje element omslutas av citationstecken. x=c("längd","vikt") En logisk vektor är en vektor som innehåller TRUE eller FALSE. Den kan skapas med hjälp av c. Oftast är dock en logisk vektor ett utfall av en annan operation. 109
y=c(true,true,false) #Logisk vektor anges med versaler och utan citationstecken. x=c(2,13,5,11,16) t=x>10 #Ger en logisk vektor FALSE,TRUE,FALSE,TRUE,TRUE (ger TRUE där x>10) Hakparanteser används för att få fram ett specifikt element ur en vektor. Om inget annat angett betecknas vektorns första element med en etta, den andra med en två osv. x=c(2,13,5,11,16) x[2] #Skriver ut vektorns andra element, dvs 13. När man skapar en vektor så kan man välja att ge varje element ett namn, vilket därefter verkar som elementets index. 15.3.2 Factors x=c(sommar=2,vinter=5,vår=7,höst=9) y=x["sommar"] #Sparar värdet 2 i variabeln y, dvs samma som y=2. Factors är ett lämpligt sätt att försvara kategorivariabler. Genom att placera data i en factor så har man berättat för R att detta är en kategorivariabel med ett begränsat antal olika utfall (grupper). Detta är särskilt bra när man sedan vill tillämpa statistiska metoder eftersom man då försäkrar sig om att man inte råkar använda variabeln i en metod som egentligen är lämpad för kontinuerliga variabler. > x=c("bra","dåligt","bra","bra","medel","bra") > y=factor(x) #Gör y till en "faktorversion" av x. > y [1] bra dåligt bra bra medel bra Levels: bra dåligt medel Vid utskriften ser man att R även berättar vilka olika grupper/kategorier ( levels ) som finns. Många gånger kanske man från början har si erkodade vektorer där man istället för bra, medel och dåligt använder si rorna 3,2 och 1. Då kan man enkelt uppdatera sin factor genom att lägga till kategoriernas namn (lägsta si ran först). > x=c(3,1,3,3,2,3) > y=factor(x) > levels(y)<-c("dåligt","medel","bra") #Ersätter siffror med kategorinamn, > y [1] bra dåligt bra bra medel bra Levels: dåligt medel bra Nu har vi fått en lista med alla kategorier istället för si erkodningar. 15.3.3 Listor En list i R kan ses som en lista av vektorer eller något annat (t.ex. andra listor). Det finns inga större krav på hur det ska se ut. Vektorerna kan vara av olika typ och längd. Precis som att varje element i en vektor kan namnges så kan varje vektor i en lista namnges. > x1=c(2,5,3,8) > x2=c("hans","greta") > y=list(a=x1,b=x2) #Skapar en lista där vektorn x1 får namnet a (och x2 b). > y $a [1] 2 5 3 8 $b [1] "Hans" "Greta" 110
För att återår en enskild vektor ur en lista så kan man använda antingen hakparanteser eller dollartecken. Inom hakparanteser anger man numret på den vektorn man vill ha och efter dollartecken anger man namnet på den vektor man efterfrågar. 15.3.4 Matriser > y$a #Ger vektorn med namnet a i listan y. [1] 2 5 3 8 > y[2] #Ger den andra vektorn i listan y. $b [1] "Hans" "Greta" En matris kan ses som en flerdimensionell vektor. Den kräver att alla ingående element har samma datatyp (t.ex. alla numeriska). En matris kan skapas från grunden eller genom att flera vektorer sammansvetsas. > x=c(seq(2,24,2)) > x [1] 2 4 6 8 10 12 14 16 18 20 22 24 > matrix(x,nrow=3,byrow=true) [,1] [,2] [,3] [,4] [1,] 2 4 6 8 [2,] 10 12 14 16 [3,] 18 20 22 24 > matrix(x,nrow=3,byrow=false) [,1] [,2] [,3] [,4] [1,] 2 8 14 20 [2,] 4 10 16 22 [3,] 6 12 18 24 Dessa kommandon kan tolkas som att man läser elementen i vektorn x och använder dem för att fylla en matris. Som parametrar anger man hur många rader matrisen skall ha och om det skall fyllas rad för rad eller kolumn för kolumn. Man kan även namnge både rader och kolumner. > y=matrix(x,nrow=3,byrow=true) > rownames(y)=c("tripp","trapp","trull") > colnames(y)=c("arg","glad","snäll","rolig") > y Arg Glad Snäll Rolig Tripp 2 4 6 8 Trapp 10 12 14 16 Trull 18 20 22 24 För att få fram ett specikt värde, rad eller kolumn så kan man återgen använda hakparanteser, men denna gång med två parametrar. Den första anger rad och den andra kolunm. > y[2,3] #Ger värdet på rad 2 i kolumn 3. [1] 14 > y[2,] #Ger hela rad 2. Arg Glad Snäll Rolig 10 12 14 16 > y[,1] #Ger hela kolumn 1. Tripp Trapp Trull 2 10 18 Ett annat sätt är som sagt att sammansvetsa vektorer till matriser, vilket kan vara väldigt användbart. > längd=c(170,174,180,168,185) > vikt=c(65,79,80,60,92) 111
> y=rbind(längd,vikt) #Gör vektorerna längd och vikt till varsin rad i matrisen y. > colnames(y)=c("person 1","person 2","person 3","person 4","person 5") > y person 1 person 2 person 3 person 4 person 5 längd 170 174 180 168 185 vikt 65 79 80 60 92 > cbind(längd,vikt) #Gör vektorerna längd och vikt till varsin kolumn i en matris. längd vikt [1,] 170 65 [2,] 174 79 [3,] 180 80 [4,] 168 60 [5,] 185 92 15.3.5 Data frames Data frames är ett specialfall av list som på många sätt liknar en matris. Likt andra listor så är data frames en samling av vektorer och likt en matris finns det ett samband mellan vektorernas element. Om de två vektorerna x1 och x2 utgör en data frame så medför det exempelvis att element 2 i de bägge vektorerna har ett samband, kanske beskriver de längd och vikt för samma person. Detta innebär att alla vektorer i en data frame måste ha samma längd. Däremot finns inga krav på att alla vektorer måste ha samma datatyp (vilket det gör i matriser). > längd=c(170,174,180,168,185) > vikt=c(65,70,80,52,98) > bedömning=c("normal","normal","normal","underviktig","överviktig") > y=data.frame(längd,vikt,bedömning) > y längd vikt bedömning 1 170 65 normal 2 174 70 normal 3 180 80 normal 4 168 52 underviktig 5 185 98 överviktig Så istället för att ha flera olika vektorer (en för parameter 1, en för parameter 2 osv) så finns nu allt samlat i en enda data frame. Praktiskt! Återigen kan vi använda dollartecken och hakparanteser för att återfå vektorerna eller specifika värden. > y$vikt #Ger vektorn men alla deltagares vikt [1] 65 70 80 52 98 > y$längd[3] #Ger det trejde elementet i vektorn längd, dvs längden för person 3. [1] 180 > y[3,] #Ger alla värden för person 3. längd vikt bedömning 3 180 80 normal Om man har en stor data frame så kan man använda head() respektive tail() för att bara titta på de första eller sista raderna. > tail(d) #D är en data frame med 100 rader. x y 95 53 4 96 15 9 97 73 8 98 13 7 99 39 3 100 38 7 112
15.3.6 Vilken typ skall man välja? I många studier mäts flera parametrar hos ett antal individer, då kan vi slå fast att en två-dimensionell struktur är att fördra, alltså matriser eller data frames. Ofta är valet inte så betydelsefullt, men bägge har sina fördelar. Om man skall använda avancerad matematisk matrisalgebra så måste data förvaras i en matris, detta är dock bortom den matematik som de flesta läsare av denna bok behöver. En data frame har fördelen att den även kan lagra en blandning av datatyper. Om individer har både numeriska data (som längd och vikt) samt en kategorivariabel (som bedömning i exemplet) så krävs en data frame. Men det viktigaste är att man själv vet i vilken form man lagrat sina data eftersom det påverkar vilka kommandon vi sedan använder i våra beräkningar. Om man är osäker på vilken typ man har så kan det enkelt testas. > is.vector(y) #Testar om y är en vektor. [1] FALSE > is.list(y) [1] TRUE > is.factor(y) [1] FALSE > is.matrix(y) [1] FALSE > is.data.frame(y) [1] TRUE Man kan även transformera en matris till en data frame och, förutsatt att alla vektorer har samma datatyp, transformera en data frame till en matris. > y [,1] [,2] [,3] [,4] [1,] 2 4 6 8 [2,] 10 12 14 16 [3,] 18 20 22 24 > is.matrix(y) [1] TRUE > z=as.data.frame(y) > z V1 V2 V3 V4 1 2 4 6 8 2 10 12 14 16 3 18 20 22 24 > is.data.frame(z) [1] TRUE > u=as.matrix(z) > u V1 V2 V3 V4 [1,] 2 4 6 8 [2,] 10 12 14 16 [3,] 18 20 22 24 > is.matrix(u) [1] TRUE 15.4 Importera data I det föregående avsnittet lärde vi oss mycket om hur man skapar och lagrar data i R. Men om vi har stora studier så kan det vara jobbigt, och en potentiell felkälla, att manuellt skriva in alla data i vektorer och data frames. Innan det är dags att analysera sina data kan man lagra all information som en tabell, exempelvis i Microsoft Excel. Lyckligtvis finns det metoder för att enkelt låta datorn flytta över tabellen 113
till en data frame i R. Detta kan göras genom att data sparas i en csv-fil. Om man t.ex. har tabellen i Microsoft Excel kan man välja spara som och filformat csv. Därefter skrivs följande kommandon i R: > setwd("c:/statistik") #Samma mapp som csv-filen sparades i. > t=read.csv("statistik.csv", header = TRUE, sep = ";") > t a b c 1 1 4 6 2 2 3 6 3 3 2 7 > is.data.frame(t) [1] TRUE Om den översta raden i tabellen innehåller rubriker för varje kolumn så skall header=true användas. Om första raden också är en del av data skall man istället ange header=false. Ett annat sätt är att markera hela tabellen och välja kopiera i menyn (eller ctrl C) och därefter i R: > t=read.table("clipboard",header=true) > t a b c 1 1 4 6 2 2 3 6 3 3 2 7 Observera att den senaste metoden troligen inte fungerar för MAC. Där kan man istället testa: t=read.table(pipe( pbpaste ),header=t) t=read.delim(pipe( pbpaste ),header=t) 15.5 Vektoroperationer Om man utför vanliga metematiska operationer på vektorer så hanteras varje element separat. Detsamma gäller vid operationer mellan 2 vektorer. > x [1] 4 9 16 4 25 > y [1] 1 2 3 4 5 > x+5 #Adderar 5 till varje element i x. [1] 9 14 21 9 30 > x*2 #Multiplicerar varje element i x med 2. [1] 8 18 32 8 50 > x^2 #Kvadraten av varje element i x. [1] 16 81 256 16 625 > sqrt(x) #Kvadratroten ur varje element i x. [1] 2 3 4 2 5 > x+y #Addition för varje element i x och y. [1] 5 11 19 8 30 > x*y #Multiplikation för varje element i x och y. [1] 4 18 48 16 125 Operationerna mellan vektorer kräver att de är lika långa. Förutom de vanliga matematiska operationerna finns flera andra intressanta funktioner, inte minst för oss som vill lära oss statistik! > length(x) #Ger antalet element i vektorn. [1] 5 > sum(x) #Ger summan av alla element i x. 114
[1] 58 > mean(x) #Ger medelvärdet. Som sum(x)/length(x). [1] 11.6 > summary(x) #Skriver ut kvartiler och medelvärde Min. 1st Qu. Median Mean 3rd Qu. Max. 4.0 4.0 9.0 11.6 16.0 25.0 > sd(x) #Standaravvikelsen. Som sqrt(sum((x-mean(x))^2)/(length(x)-1)) [1] 8.961027 > var(x) #Variansen [1] 80.3 > cor(x,y) [1] 0.6528508 Notera att sd() och var() ger stickprovsstandardavvikelsen och stickprovsvariansen, dvs s och s 2 enligt ekvation 6.2 och 6.3. Om x innehåller hela populationen och man är intresserad av den absoluta standardavvikelsen/variansen bland vektorns element måste man göra en korrigering. > n=length(x) > var(x)*(n-1)/n #Populationsvariansen [1] 64.24 > sd(x)*(n-1)/n #Eller sqrt(var) [1] 7.168821 Det är också möjligt att dra stickprov ur en vektor. > x=1:1000 > y=sample(x,5,replace=true) > y [1] 215 543 241 250 747 I detta fall drog vi alltså ett stickprov om n=5 ur vektorn som innehåller sekvensen 1 till 1000. Genom att ange replace=true så kan samma värde dras mer än en gång. Om parametern inte anges så kan varje element endast väljas en gång. 15.5.1 Frekvenstabell En frekvenstabell beskriver hur många observationer man har av varje värde. > x [1] 2 4 3 3 2 3 3 5 4 3 3 1 3 4 5 2 2 2 3 4 3 2 1 1 5 4 2 4 3 5 3 2 3 2 1 2 2 3 [39] 4 5 2 4 4 3 4 3 5 4 4 4 > t=table(x) > t x 1 2 3 4 5 4 12 15 13 6 Visar en vektor med 50 värden mellan 1 och 5. När vi skapar en frekvenstabell ser vi att data innehåller 4 ettor, 12 tvåor, 15 treor, 13 fyror och 5 sexor. En frekvenstabell kan även vara flerdimensionell. Låt säga att vektorn x i föregående exempel egentligen var en del av en data frame som även innehåller kön. > head(d) kön x 1 kvinna 2 2 man 4 3 kvinna 3 4 man 3 5 kvinna 2 115
6 man 3 > table(d$kön,d$x) 1 2 3 4 5 kvinna 2 6 9 5 3 man 2 6 6 8 3 På detta sätt ser alltså 2 kvinnor svarade ett, 8 män svarade 4 osv. En frekvenstabell kan innehålla fler dimensioner men blir då betyligt mer svåröverskådlig. 15.6 Grafisk presentation 15.6.1 Scatter plot Grundkommandot för att göra ett spridningsdiagram är plot(x). Om man har två parametrar som man vill plotta i samma bild så skriver man istället plot(x,y). Utöver detta finns en rad tilläggsparametrar som är frivilliga: xlim=c(a,b) innebär att man bestämmer att skalan på x-axeln skall löpa från a till b. Motsvarigheten för y-axeln är ylim(). xlab= Rubrik på x-axeln. Motsvarande för y-axeln är ylab. main=plottens huvudrubrik. pch: Detta är ett sätt att bestämma punkternas utseende. Figur 15.2 visar några av alternativen. col= blue bestämmer färgen på punkterna. Figur 15.2 Efter att man ritat sitt diagram kan man lägga till text och linjer om man vill: Text läggs till genom text(x,y, text ), där x och y är önskade koordinater för textens mittpunkt. segments(x1,y1,x2,y2,lty=1) lägger till en rät linje mellan punkterna (x1,y1) och (x2,y2). lty beskriver linjens utseende. lty=2 ger t.ex. en streckad linje. Exempel: > x=c(5,7,9,10,12,13) > y=c(120,120,135,140,155,160) > plot(x,y,xlab="ålder",ylab="längd",main="titel",xlim=c(5,15),ylim=c(120,180), pch=17,col="blue") > text(8,170,"hej") > segments(7,165,9,165,lty=2,col="red") 116
Figur 15.3 15.6.2 Histogram Ett histogram används för att presentera fördelningen av en kontinuerlig variabel. Grundkommandot hist(x) men även här finns frivilliga parametrar: breaks anger hur många staplar man vill ha. freq sätts som FALSE om man hellre vill ha täthet än frekvens på y-axeln. I övrigt gäller samma parametrar som för scatter plots. Exempel: > hist(x,breaks=20,col="green",freq=false,xlab="x",ylab="y",main="histogram") Figur 15.4 117
15.6.3 Stapeldiagram Stapeldiagram är ett sätt att visa kategoridata och det som skall anges är en vektor med antalet i varje kategori. Detta ordnas enkelt genom att en frekvenstabell skapas (se avsnitt 15.5.1). > x #Vektor med alla mätvärden [1] 5 3 4 4 2 1 4 5 4 4 4 3 4 2 5 2 3 3 3 2 5 1 5 2 2 2 2 3 5 1 4 4 3 2 2 5 2 2 [39] 4 3 4 2 2 4 4 4 4 3 4 4 > t=table(x) #Frekvenstabell skapas > t x 1 2 3 4 5 3 14 9 17 7 > barplot(t,xlab="omdöme",ylab="antal") Figur 15.5 Om vi har en tvådimensionell tabell så kan vi välja att att visa gruppernas staplar som aggregerade eller bredvid varandra (genom beside=true/false). I exemplet nedan har jag dessutom skapat en factor (se avsnitt 15.3.2) samt lagt till en legend som visar färgkodningen i diagramet. > head(d) kön x 1 kvinna 5 2 man 3 3 kvinna 4 4 man 4 5 kvinna 2 6 man 1 > omd=factor(d$x,labels=c("usel","dålig","ok","bra","toppen")) > t=table(d$kön,omd) > t omd Usel Dålig Ok Bra Toppen kvinna 0 6 3 11 5 man 3 8 6 6 2 > barplot(t,xlab="omdöme",ylab="antal",col=c("blue","red"),legend=rownames(t)) > barplot(t,xlab="omdöme",ylab="antal",col=c("blue","red"),legend=rownames(t),beside=true) 118
(a) (b) Figur 15.6 15.6.4 Cirkeldiagram Att skapa ett cirkeldiagram ( pie chart ) är ett simpelt sätt att presentera kategoridata. > x [1] 4 2 4 2 3 2 5 3 3 3 4 3 2 4 5 3 2 5 3 4 3 1 1 2 3 3 4 4 2 4 3 1 1 1 4 5 4 [38] 5 2 2 4 5 5 3 4 2 2 2 5 2 > omd=factor(x,labels=c("usel","dålig","ok","bra","toppen")) > t=table(omd) > pie(t,col=rainbow(length(t))) Ger figur 15.7a. Om man vill använda valfria färger kan man istället skriva: > pie(t,col=c("red","green","blue","yellow","pink")) Om man dessutom vill addera t.ex. procentandelarna på bilden så går det att använda paste() för att klistra ihop egna etiketter. > proc=100*t/sum(t) #Ger procentandelen i varje grupp. > proc omd Usel Dålig Ok Bra Toppen 10 26 24 24 16 > lbs=paste(rownames(t),proc,"%",sep=" ") > lbs [1] "Usel 10 %" "Dålig 26 %" "Ok 24 %" "Bra 24 %" "Toppen 16 %" > pie(t,labels=lbs,col=rainbow(length(t))) Ger figur 15.7b. Funktionen paste() klistrar i detta fall ihop kategorinamnen med procentsumman och ett procenttecken. De tre komponenterna separeras med ett blanksteg. 119
(a) (b) Figur 15.7 15.6.5 Box plot Boxplot är ett trevligt sätt att presentera kontinuerliga datavariabler. Kommandot boxplot(x) ger enkel boxplot av innehållet i vektorn y. Än bättre blir det om man vill dela upp den kontinuerliga variabeln utifrån en kategorivariabel. Tänk er att vi mätt ett specifikt värde hos 100 personer och vill jämföra kvinnornas och männens resultat. All data finns i en data frame. > head(d) x sex 1 40.4 kvinna 2 30.2 man 3 21.4 man 4 43.6 kvinna 5 41.2 kvinna 6 35.4 kvinna > boxplot(d$x~d$sex,ylab="x-värde") Figur 15.8 I kommandot kan symbolen tilde ( ) kan läsas som beskrivs av. d$x d$sex betyder då att variabeln x kommer att delas upp efter de grupper som finns i vektorn sex. 120