Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012

Relevanta dokument
Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Multilevel Modeling med SPSS Kimmo Sorjonen ( )

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Intro till SPSS Kimmo Sorjonen (0811)

Variansanalys med SPSS Kimmo Sorjonen ( )

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Mata in data i Excel och bearbeta i SPSS

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Överlevnadsanalys. 732G34 Statistisk analys av komplexa data

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Kort manual till SPSS 10.0 för Mac/PC

InStat Exempel 4 Korrelation och Regression

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Marknadsinformationsmetodik Inlämningsuppgift

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

JMG. En introduktion till logistisk regressionsanalys. Arbetsrapport nr 62. Johannes Bjerling Jonas Ohlsson

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Instruktioner till Examinationen Kursen Metoder för Statistisk Analys Karolinska Institutet

a) Facit till räkneseminarium 3

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

DATORÖVNING 3: MER OM STATISTISK INFERENS.

*****************************************************************************

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Uppgift 1. Produktmomentkorrelationskoefficienten

Grundläggande matematisk statistik

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Uppgift 1. Deskripitiv statistik. Lön

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Sänkningen av parasitnivåerna i blodet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Marknadsinformationsmetodik Inlämningsuppgift

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Datorövning 1 Enkel linjär regressionsanalys

Statistik 1 för biologer, logopeder och psykologer

Multipel regression och Partiella korrelationer

Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Till ampad statistik (A5) Förläsning 13: Logistisk regression

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

En introduktion till och första övning for Excel

Multipel Regressionsmodellen

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor

Laboration: Att inhägna ett rektangulärt område

Obligatorisk uppgift, del 1

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Höftledsdysplasi hos dansk-svensk gårdshund

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Faktoranalys - Som en god cigarr

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Lösningar till SPSS-övning: Analytisk statistik

Statistiska metoder för säkerhetsanalys

Svensk Dialysdatabas. Blodtryck och blodtrycksbehandling PD. Klinikdata hösten 2005 Översikt åren

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

ÖVNINGSUPPGIFTER KAPITEL 13

import totalt, mkr index 85,23 100,00 107,36 103,76

Medicinsk statistik II

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Blodtrycksfall, pulstryck och lindriga kognitiva symptom

F3 Introduktion Stickprov

HELT NY VERSION. Uppgradera till version 13. Statistica förvandlar data till information

Laboration 2 multipel linjär regression

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

TVM-Matematik Adam Jonsson

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Transkript:

Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012 1. Risk Ratio & Odds Ratio Risk- och odds ratio beräknar sambandet mellan två dikotoma variabler. Inom forskning handlar det ofta om att man vill testa om en grupp som exponerats för någonting, t.ex. svåra barndomsförhållanden, har en högre risk/odds för ett visst utfall, t.ex. missbruk, jämfört med en icke-exponerad grupp. I det aktuella datasetet finns en variabel som anger ifall respondenten är kvinna (female = 1) eller man (female = 0) och en annan variabel som anger ifall personen dött (death = 1) eller inte (death = 0) under uppföljningsperioden. För att beräkna risk- och odds ratio: Analyze Descriptive Statistics Crosstabs. Kör in variabeln som skall betraktas som oberoende (om någon) i rutan Row(s) och den andra variabeln (utfallsvariabeln) i rutan Column(s). Programmet ger inte automatiskt odds- eller riskkvoter, så vi klickar på Statistics och väljer Risk samt Cochran s and Mantel- Haenszel statistics. Klicka på Continue och sedan på OK. 1.1Output 1. Risk att inte ha dött om man är man = 192 / 233 = 0,824 (= 82,4 %) 2. Risk att ha dött om man är man = 41 / 233 = 0,176 (= 17,6 %) 3. Risk att inte ha dött om man är kvinna = 433 / 464 = 0,933 (= 93,3 %) 4. Risk att ha dött om man är kvinna= 31 / 464 = 0,067 (= 6,7 %) 1. Odds att inte ha dött om man är man = 192 / 41 = 4,683 2. Odds att ha dött om man är man = 41 / 192 = 0,214 3. Odds att inte ha dött om man är kvinna = 433 / 31 = 13,968 4. Odds att ha dött om man är kvinna= 31 / 433 = 0,072

2 Risken att inte ha dött om man är man dividerat med risken att inte ha dött om man är kvinna = 0,824 / 0,933 = 0,883. Konfidensintervallet (0,824-0,942) innehåller inte värdet 1. Vi kan alltså med tillräckligt hög säkerhet säga att risken för att inte leva (= sannolikheten för att överleva) är lägre bland män jämfört med kvinnor i den aktuella populationen. Risken ha dött om man är man dividerat med risken ha dött om man är kvinna = 0,176 / 0,067 = 2,634 (om man inte avrundar på vägen). Konfidensintervallet (1,698-4,086) innehåller inte värdet 1. Vi kan alltså med tillräckligt hög säkerhet säga att risken för att dö är högre bland män jämfört med kvinnor i den aktuella populationen. Odds att inte ha dött om man är man dividerat med odds att inte ha dött om man är kvinna = 4,683 / 13,968 = 0,335. Samma kvot får vi om vi dividerar kvinnornas odds för att ha dött (0,072) dividerat med männens odds för att ha dött (0,214). Konfidensintervallet för oddskvoten går från 0,204 till 0,551. Detta intervall inkluderar inte värdet 1. Detta innebär att vi kan utesluta att oddskvoten i populationen är lika med 1 med 95% säkerhet. Vi skulle alltså påstå att i den aktuella populationen är oddsen för att överleva lägre bland män jämfört med kvinnor. Här ser vi, återigen, att vår oddskvot skiljet sig signifikant från värdet 1 (p < 0,001) 2. Logistisk Regression (Binär) Vid logistisk regression prediceras värdena (eller egentligen: logaritmen för oddsen för det ena utfallet) på en dikotom variabel utifrån en eller flera prediktorer. Prediktorerna kan vara kontinuerliga, dikotoma eller kategorivariabler (görs om till dummy-variabler). För att utföra en logistisk regression: Analyze Regression Binary Logistic. Kör in den dikotoma beroende variabeln i rutan Dependent och prediktorerna i rutan Covariates. Klicka på OK. Nedan ses exempel på output där det prediceras ifall folk har dött under

3 uppföljningsperioden (death = 1) utifrån ålder, kön, systoliskt (sbp0) och diastoliskt blodtryck (dbp0) samt om de äter antihypertensiva läkemedel (antihyp0, 1 för ja och 0 för nej) vid periodens början. 2.1 Output Analysen börjar med en s.k. nollmodell som inte tar hänsyn till prediktorerna. Eftersom 72 av personerna dött och 625 inte dött så predicerar den att oddsen att ha dött är lika med 72 / 625 = 0,115 för varje person. Tar man den naturliga logaritmen av 0,115 får vi vårt intercept på -2,161. Vi ser att interceptet skiljer sig signifikant från noll (p <.001), vilket innebär att vi med hög säkerhet kan påstå att oddsen för att överleva (under en likvärdig uppföljningsperiod) är högre än oddsen för att dö i den aktuella populationen. Här ser vi modellens grad av anpassning till data (= dess förmåga att predicera hur folk ligger till på den beroende variabeln) efter att prediktorerna inkluderats i modellen. Ett lågt värde på -2 Log Likelihood indikerar god anpassning mellan modell och data. Cox & Snell samt Nagelkerke är pseudo-mått på hur mycket av variationen i den beroende variabeln som kan förklaras av den aktuella modellen. Cox & Snell har den otrevliga egenskapen att den inte kan bli 1 (vilket Nagelkerke kompenserar för). Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 411,934 a,071,146 a. Estimation terminated at iteration number 6 because parameter estimates changed by less than,001. Här ser vi att modellens -2LL sjunkit med 51,255 från nollmodellen. Eftersom vi lagt till fem prediktorer så tappar vi 5 frihetsgrader. Eftersom -2LL och skillnaden mellan två -2LL-värden har en chi2-fördelning kan vi testa om vår modell är signifikant bättre på att predicera odds för död jämfört med nollmodellen, med hänsyn tagen till tappet av frihetsgrader. Eftersom ett chi2- värde på 51,255 är jättesignifikant med fem frihetsgrader (p <.001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds för död jämfört med nollmodellen. Detta kan också tas som indikation på att åtminstone en av de fem prediktorerna har en effekt på odds för död i den population som stickprovet representerar.

4 Här ser vi att den formel som ger bäst prediktioner av Ln(Odds för död) är: -3,066 + 0,025 * Ålder 1,202 * Kvinna + 0,009 * Systoliskt BT 0,029 * Diastoliskt BT + 1,337 * Antihypertensiva. Kontrollerat för effekten av de andra prediktorerna är det endast Kön och användningen av Antihypertensiva som med tillräckligt hög säkerhet kan antas påverka odds för död i populationen som stickprovet representerar. Om vi kontrollerar för effekten av de andra prediktorerna så är Ln(Odds för död) 1,202 lägre bland kvinnor jämfört med män. Tar vi e -1,202 så får vi 0,301, vilket innebär att odds för död bland kvinnor endast är 30,1 % av vad odds för död är bland män. Kontrollerat för effekten av de andra prediktorerna är odds för död bland dem som använder antihypertensiva medel 3,808 gånger högre jämfört med dem som inte använder sådana medel. Kontrollerat för effekten av de andra prediktorerna är en ökning i diastoliskt blodtryck med ett steg associerad med en sänkning i odds för död med 2,9 %, men effekten är endast marginellt signifikant (p =.077) 2.2 Hierarkisk analys samt interaktion Ofta lägger man till prediktorer i en modell i ett andra eller tredje steg, för att på så sätt se om dessa prediktorer bidrar till att förbättra modellen prediktiva förmåga efter att man kontrollerat för effekten av vissa standardprediktorer. I det aktuella fallet lägger vi till ålder i steg 1, kön i steg 2 och interaktionen ålder kön i steg 3. För att köra analysen: Analyze Regression Binary Logistic. Kör in death i rutan Dependent och age i rutan Covariates. För att lägga till prediktorer på lägre hierarkisk nivå: Klicka på Next ovanför rutan Covariates. Kör nu in female i rutan Covariates och klicka på Next. För att speca en interaktion: Markera de två prediktorerna i listan till vänster (klicka på dem medan du håller ner Ctrltangenten ) och klicka sedan på knappen >a*b>. Nu har vi specat våra interaktioner med tre hierarkiska nivåer klicka på OK för att köra analysen.

5 Block 1: Method = Enter Tabell 1 visar att inkluderandet av ålder som prediktor gör modellen signifikant (p =.046) bättre på att predicera odds för död jämfört med nollmodellen. Modellens - 2LL sjunker med 3.993, till 459.197 (tabell 2) och enligt Nagelkerke förklarar ålder 1.2 % av variansen i odds för död. Den understa tabellen visar att för varje års ökning i ålder ökar Ln(odds för död) med 0,046, vilket innebär att för varje års ökning i ålder ökar odds för död med 4.7 %, vilket är en signifikant effekt (p =.043). Interceptet säger oss att om ålder = 0 år så är odds för död endast 0,004. Block 2: Method = Enter Vi behåller ålder som en prediktor men inkluderar även kön. Vi ser att modellens -2LL sjunker med 19.192 (från 459.197 till 440.005) och att detta är en signifikant förbättring (p <.001). Ålder och kön förklarar tillsammans 6.7 % av variansen i odds för död. I den undre tabellen ser vi att om vi konstanthåller kön så leder en ökning i ålder med ett år till en ökning i odds för död med 5 %, vilket är en signifikant effekt (p =.033). Om vi konstanthåller ålder så är odds för död bland kvinnor endast 32.9% av vad den är bland män, vilket är en signifikant skillnad ( p <.001).

6 Block 3: Method = Enter När ålder och kön redan är med som prediktorer i modellen, leder inkluderandet av deras interaktion till en sänkning av modellens -2LL med 2.625, vilket inte är någon signifikant förbättring (p =.105). I den nedre tabellen ser vi att om female = 0 (alltså bland manliga försökspersoner) är en ökning i ålder med ett år associerad med en ökning i odds för död med 1.4 %. Vi kan räkna fram att bland kvinnliga försökspersoner är effekten av ålder på ln(odds för död) = 0.014 + 0.074 = 0.088, vilket innebär att bland kvinnor är en ökning i ålder med ett associerad med en ökning i odds för död med e 0.088 = 1.092, alltså 9.2%. Att interaktionen inte är signifikant säger oss att denna skillnad i effekten av ålder på odds för död mellan kvinnor och män inte är signifikant. 2.3 Diagnostik Under Options-knappen kan man be programmet plocka fram lite extra godis. T. ex. skulle vi kanske vilja veta om modellens prediktiva förmåga ser OK ut över hela skalan. Då kan man be programmet att köra ett s.k. Hosmer and Lemeshow Test. Detta test delar in personerna i tio grupper (från lägst till högst) utifrån estimerad sannolikhet för att de skall ha värdet 1 (snarare än 0) på den beroende variabeln. I varje grupp beräknas, utifrån gruppmedelemmarnas individuella sannolikhet för värdet 1, antalet personer som förväntas ha värdet 1 respektive 0 på den beroende variabeln. Dessa förväntade frekvenser jämförs sedan med faktiskt antal personer med värdet 1 respektive 0. Om modellen funkar på ett bra sätt skall skillnaderna mellan dessa förväntade och faktiskt observerade frekvenser vara små över hela

7 skalan. Utifrån skillnaderna mellan förväntade och observerade frekvenser beräknas ett chi2- värde, som helst skall vara lågt och icke-signifikant eftersom detta indikerar en väl fungerande modell. I det aktuella fallet har odds för död estimerats utifrån ålder, kön, systoliskt och diastoliskt blodtryck samt om man äter antihypertensiva läkemedel. I gruppen med lägst odds för död har vi 70 personer, av dessa förväntas 1.512 ha dött och 68.488 vara vid livet medan det faktiska antalet är 1 respektive 69. Vi ser över hela skala att skillnaderna mellan förväntade och faktiska frekvenser inte är så stora, vilket resulterar i ett ickesignifikant chi2-värde (7.552, p =.478). Under Save-knappen kan man be programmet att spara olika värden för de enskilda personerna som sedan kan användas för att diagnostisera om data lämpar sig för en logistisk regression. I det aktuella fallet ber jag programmet att spara standardiserade residualer (= differensen mellan personens värde på den beroende variabeln (0 eller 1) och enligt modellen predicerad sannolikhet för att personen skall ha värdet 1) samt DfBeta(s) (= hur individens värden påverkar de framräknade koefficienterna. Ett sätt att titta på residualerna är att plotta dem mot personernas identifikationsnummer. Nedan till vänster ser vi att residualerna tenderar att vara större på den positiva sidan (= personer som har dött) än på den negativa (= personer som lever). Detta skulle kanske kunna tas som en indikation på att vår modell har bättre specificitet än sensitivitet. På samma sätt kan vi plotta DfBeta(s) mot id-nummer och se efter så att inga värden sticker iväg. Nedan till höger visas DfBeta för koefficienten för effekten av systoliskt blodtryck. Det ser bra ut de flesta värden grupperar sig kring noll och avvikelserna i positiv och negativ riktning ser ut på ett liknande sätt. 3. Survival Analys med Cox Regression I analyserna ovan med logistisk regression tog vi inte hänsyn hur lång tid det tog för dem som dog att dö, vilket givetvis är en brist i analysen. Med survival analys, t.ex. Cox regression, kan vi ta hänsyn till denna information och estimera hur olika faktorer påverkar risken att dö per tidsenhet ( hazard).

8 3.1 Fixa till tiden Det är nog rätt vanligt att man i sitt dataset har olika kolumner som anger datum för de olika mätningarna och händelserna. I det aktuella fallet har vi t.ex. en kolumn (date0) som anger datum för uppföljningsperiodens början (olika för olika personer) samt en kolumn (date_event) som anger datum man dött (för de som dött) alternativt datum för sista mätningen (för de som ej dött). För att räkna fram tiden mellan dessa två datum: Transform Compute Variable. I rutan Target Variable anger du den nya variabelns namn (t.ex. levtid ) och i rutan Numeric Expression kör man in variabeln date_event genom att klicka i listan till vänster, man skriver ett minustecken, och så kör man in variabeln date0. Den nya variabeln skulle nu vara i sekunder, för att få det i dagar kan vi dividera skillnaden mellan de två datumen med 60*60*24 (= antalet sekunder per dag). Klicka på OK och den nya variabeln levtid dyker upp längst ut till höger i datasetet. 3.2 En första körning Vi börjar med en analys av hur patienternas ålder vid början av uppföljningsperioden påverkar hazard för att de skall dö. För att köra en Cox regression med tids-oberoende prediktorer: Analyze Survival Cox Regression. Kör in variabeln som anger tid från baseline till död alternativt periodens slut i rutan Time och den dikotoma variabeln som anger om man upplevt händelsen av intresse (i vårt fall död) i rutan Status, klicka på Define Event och ange vilket värde som anger att man upplevt händelsen (i vårt fall 1). Klicka på Continue. Tillbaka i huvudrutan kör vi in vår oberoende variabel (= prediktor) i rutan Covariates:. Nu är vi redo att köra, klicka på OK. Här ser vi att 72 patienter dött under uppföljningsperioden. 625 personer har inte konstaterats döda, antingen för att de överlevt hela perioden eller för att de försvunnit ur studien. Patienter blir även censurerade om de dör av fel anledning, t.ex. om man skall analysera dödlighet i cancer och en patient dör i en bilolycka (inte aktuellt i detta fall där det handlar om ospecifik dödlighet).

9 Den s.k. nollmodellen, där hazard för utfall (i vårt fall död) endast antas påverkas av tid, har en -2LL på 928.143. När vi inkluderar även ålder som prediktor sjunker -2LL med 4.133 (från 928.143 till 924.010) och detta är en signifikant förbättring av modellens förmåga att predicera hazard för död (p =.042, lågt -2LL indikerar bra prediktiv förmåga). Här ser vi att ln(hazard för död) ökar med 0.044 för varje års ökning i ålder, vilket innebär att för varje års ökning i ålder ökar hazard för död med 4.5% (eftersom e 0.044 = 1.045). Wald = (B/SE) 2 = (0.044/0.021) 2 = 4.313. Med stora stickprov har Wald en chi2-fördelning. Vi ser att vårt Waldvärde är signifikant (p =.038) vilket säger oss att effekten av ålder på hazard är signifikant (vi kan anta att det finns en sådan effekt i populationen som stickprovet representerar). Det verkar vara en relativt allmän uppfattning av sänkningen i -2LL är ett bättre signifikansmått än Wald, men oftast indikerar de nog samma sak. 3.3 En andra körning (med hierarki, kategoriprediktor samt interaktion) I den här analysen stoppar vi in prediktorer i tre steg (1) I vilken utsträckning patienten bedöms efterfölja sin behandling (skala 1-5); (2) Vilken av fyra olika behandlingar patienten erhåller (A-D, kategoriprediktor); (3) Interaktionen mellan Efterlevnad och Behandling. Kör in Efterlevnad i rutan Covariates: Klicka på Next ovanför rutan Kör in Behandling Klicka på Next Markera både Efterlevnad och Behandling i rutan till vänster (klicka på den ena och sedan på den andra medan du håller ner Ctrl-tangenten) Klicka på >a*b>. För att speca en kategori-prediktor: Klicka på Categorial Kör in kategori-prediktorn (i vårt fall Behandling) i rutan Categorial Covariates:. Vi ser att behandling D blir vår referenskategori (Last) och effekten av de andra behandlingarna kommer att jämföras med effekten av behandling D. Klicka på Continue. Vi är redo att köra klicka på OK.

10 Block 1: Method = Enter Jämfört med nollmodellen sjunker -2LL med 1.153 när vi tar med Efterlevnad som en prediktor av hazard för död, men denna förbättring är inte signifikant (p =.283). En ökning i Efterlevnad med ett är associerad med en sänkning i hazard för död med 0.109, men även Wald visar att effekten inte är signifikant. Block 2: Method = Enter Inkluderandet av behandling leder till ensignifikant förbättring i modellens förmåga att predicera hazard för död (-2LL sjunker med 50.156, p <.001). I den undre tabellen ser vi att kontrollerat för effekten av Efterlevnad har vi en signifikant huvudeffekt av Behandling (Wald = 34.961, p <.001). Vi ser att kontrollerat för effekten av Efterlevnad och jämfört med behandling D (vår referenskategori) är hazard för död 2.388 gånger så hög bland dem som får behandling B (p =.001) och 1 0.137 = 86.3% lägre bland dem som får behandling C (p <.001). Hazard för död är 16.8% lägre bland dem som får behandling A jämfört med behandling D, men denna skillnad är inte signifikant (p =.597). Block 3: Method = Enter Nedan ser vi att inkluderandet av interaktionen mellan Behandling och Efterlevnad ytterligare förbättrar modellens förmåga att predicera hazard för död (-2LL sjunker med 21.457, p <.001). Vi kan alltså anta att effekten av Efterlevnad på hazard för död ser olika ut för de olika behandlingarna. Detta ser vi även i den undre tabellen (Wald för interaktionen = 11.794, p =.008). Den undre tabellen säger oss att i referenskategorin (= behandling D) är en ökning i Efterlevnad med ett associerad med en sänkning i hazard för död med 6%, men att denna effekt inte är signifikant (p =.709). Jämfört med behandling D (referenskategorin) estimeras effekten av Efterlevnad vara signifikant mer negativ bland dem som får behandling A (p =.015) och signifikant mer positiv bland dem som får behandling C (p =.027). Effekten av Efterlevnad på hazard för död estimeras inte vara annorlunda bland dem som får behandling B jämfört med dem som får behandling D (p =.027).

11 Eftersom analysen ovan visade en signifikant interaktion mellan Behandling och Efterlevnad vad gäller effekten på hazard för död är det en bra idé att kika på effekten av Efterlevnad separat för de olika behandlingarna. Vi splittar alltså filen utifrån Behandling och analyserar sedan den enkla effekten av Efterlevnad på hazard för död. Här ser vi att för behandling A är en ökning i efterlevnad med ett associerad med en sänkning i hazard för död med 1 0.358 = 64.2%. Bra så. För behandling C är dock en ökning i efterlevnad med ett associerad med en drygt sjufaldig ÖKNING i hazard för död (verkar inte vara någon vidare behandling). För behandling B och D har efterlevnad inget signifikant samband med hazard för död (p =.332 respektive.713). 3.4 Tids-beroende prediktor Ibland mäter man folks värden på en eller flera prediktorer vid flera tillfällen. Då kan man utnyttja denna information genom att se om den senaste mätningen av prediktorn (snarare än mätningen vid baseline) har något samband med hazard för händelse fram till nästa mätning. Detta gör vi genom att köra en Cox regression med en (vi kan endast ha en åt gången) tidsberoende prediktor. I det aktuella fallet har jag beräknat antalet dagar från baseline till första uppföljningen (time1) samt från baseline till den andra uppföljningen (time2). Dessa avstånd varierar från individ till individ. Här skall vi kika på effekten av systoliskt blodtryck (mätt tre gånger per person) på hazard för död.

12 För att köra analysen: Analyze Survival Cox Regression w/ Time-Dep Cov. I den första rutan skall vi speca vår tids-beroende prediktor. Vi ser att längst upp i den vänstra rutan har det dykt upp en ny variabel som anger tiden (från baseline). Vi kan köra in denna variabel (liksom de andra variablerna) i rutan Expression for T_COV: genom att markera variabeln och klicka på pilen mellan rutorna. I det aktuella fallet skriver vi så här i rutan Expression for T_COV: : (T_ < time1) * sbp0 + (T_ >= time1 & T_ < time2) * sbp1 + (T_ >= time2) * sbp2 Uttrycken inom parentes är logiska argument som antar värdet 1 (= sant) eller 0 (= falskt). Så om vi befinner oss i tid mellan baseline och uppföljning 1 så antar argumentet följande värde: 1 * sbp0 + 0 * sbp1 + 0 * sbp2 Och detta blir ju det samma som det systoliska blodtrycket vid baseline. På samma sätt antar argumentet samma värde som sbp1 (=systoliskt blodtryck vid den första uppföljningen) om tidpunkten är mellan den första och den andra uppföljningen och samma värde som sbp2 om vi befinner oss efter den andra uppföljningen. På detta sätt får vi ett mer finjusterat mått på patienternas blodtryck och med stor sannolikhet högre power i vår analys av effekten av blodtryck på hazard för död. När vi specat vår tids-beroende prediktor klickar vi på Model. Vi kommer till en identisk Cox Regression-ruta som tidigare. Längst upp i rutan till vänster står vår ny-specade tids-beroende prediktor (kallas för T_COV_). Vi kan använda denna som en prediktor av hazard för händelse på samma sätt som övriga prediktorer. I det aktuella fallet har jag kört en hierarkisk analys där jag lägger in systoliskt blodtryck (= T_COV_) efter ålder och så lägger jag till interaktionen i steg tre. Här ser vi att kontrollerat för effekten av ålder har systoliskt BT en nästan signifikant (p =.053) association med hazard för död. För varje ökning i BT med ett ökar hazard för död med 1.1%. Vi ser att interaktionen inte heller är långt ifrån att vara signifikant (p =.100). Bland nyfödda (??) är en ökning i BT med ett associerad med en ökning i hazard för död med 31.2%. Denna association blir dock svagare och svagare ju äldre patienterna är.

13 3.5 Diagnostik Cox fullständiga namn är ju Cox proportional hazard model vilket innebär att kvoten mellan olika gruppers hazard antas vara den samma över hela tidsspannet (vissa menar dock att man inte behöver vara alltför neurotisk över detta antagande). Ett sätt att diagnostisera detta är att under Plots i Cox-rutan be programmet skapa ett s.k. Log minus log -diagram. Kör man in sin grupperingsvariabel i rutan Separate Lines for: så får man en linje för varje grupp (funkar endast med kategoriprediktorer). I det aktuella fallet visas separata linjer för de fyra olika behandlingsgrupperna. Vad vi vill att dessa linjer skall vara hyfsat parallella, avståndet mellan dem skall alltså vara ungefär lika stort över hela tidsspannet och de bör absolut inte korsa varandra. I det aktuella fallet ser det väldigt bra ut (kanske för att data är konstruerade). För kontinuerliga prediktorer kan man be programmet plocka fram s.k. partiella residualer (görs under Save -knappen, här kan man även be om DfBeta(s)). Till skillnad från linjär regression får vi ett residualmått per prediktor. I det aktuella fallet inkluderas endast ålder som en prediktor av hazard för död. Vi plottar (Graphs Legacy Dialogs Scatter/Dot Simple Scatter; kör in överlevnadstid på X-axeln och residualerna på Y-axeln). Vi vill att residualerna skall vara slumpmässigt fördelade omkring noll över hela tidsspannet det ser OK ut i det aktuella fallet.

14 Ytterligare ett sätt för att testa om hazard är proportionell över hela tidsspannet är att inkludera en term för interaktion mellan den aktuella prediktorn och tid: Analyze Survival Cox Regression w/ Time-Dep Cov. Kör in Time i rutan Expression for T_COV:, inget mer. Klicka på OK. I det aktuella fallet har jag en modell där hazard för död prediceras utifrån behandling (A-D, kategoriprediktor) samt interaktionen mellan behandling och T_COV_ (= tid). I tabellen ovan ser vi att interaktionen inte är signifikant (p =.213) vilket indikerar att effekten av behandling på hazard för död inte ändras över tid gott så eftersom detta visar på en proportionell effekt. På samma sätt kan man testa hypoteser om att effekten av en prediktor på hazard för händelse varierar över tid, men då kanske man önskar sig att interaktionen blir signifikant. Precis som vid linjär och logistisk regression kan det vara bra att kika även på DfBetas för att se så att framräknade koefficienter inte påverkats otillbörligt mycket av värden från några få personer. Vi kan be programmet att spara de olika individernas DfBeta under Saveknappen. Här har jag plottat DfBeta för effekten av ålder på hazard för död mot id-nummer. Vi ser att värdena grupperar sig runt noll och att inget värde sticker iväg, samt att vi har ungefär lika många moderata avvikare åt det positiva och det negativa hållet gott så.