Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3 Data, SPSS 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) 4.3 Data, SPSS 4.4 SPSS Output 4.5 Diagnostik 4.6 Interaktion 4.7 Tids beroende prediktor
1. Risk & Odds Risk Odds 1 Odds Odds Risk 1 Risk Risk = Antal med utfall dividerat med totalt antal (kan variera mellan 0 och 1) Odds = Antal med utfall dividerat med antal utan utfall (kan variera mellan 0 och ) Kvinnor Män Risk(kvinna) Odds(kvinna) 2 8 2/(2+8)=0,2 2/8=0,25 5 5 5/(5+5)=0,5 5/5=1 8 2 8/(8+2)=0,8 8/2=4
1.1 Risk Ratio Ej missbruk Missbruk Ej demens Demens 34 43 51 122 85 165 77 173 Risk för demens om man har missbrukat jämfört med inte missbrukat: RR = (122 / 173) / (43 / 77) = 0,705 / 0,558 = 1,263 26% riskökning för demens om man har missbrukat jämfört med om man inte har missbrukat.
1.1 Risk Ratio Ej missbrukat 34 Estimering av populationens RR för demens om man har missbrukat jämfört med om man inte har missbrukat. RR(sample = 1.263) Missbrukat Ej demens Demens 43 51 122 85 165 77 173 SEln( RR ) 1 p1 N p 1 1 1 p0 N p 0 0 1 0.705 1730.705 1 0.558 770.558 0.113 Formeln ger medelfel för ln(rr); p1 = andel med utfall (demens) i exponerad grupp (missbrukat); N1 = antal exponerade p0 = andel med utfall (demens) i icke exponerad grupp (ej missbrukat); N0 = antal icke exponerade 95% CI RR e ln( RR) 1.96SEln( RR ) e 0.2331.960.113 1.012 1.575 Med 95% säkerhet ligger populationens RR någonstans mellan 1.012 och 1.575
Ej demens Demens 1.2 Odds Ratio Ej missbrukat 34 Missbrukat 43 51 122 77 173 85 165 OR p q (1 /(1 p) q) p = risk för utfall i grupp 1 q = risk för utfall i grupp 2 Odds för demens om man har missbrukat jämfört med inte missbrukat : OR = (122 / 51) / (43 / 34) = 2,392 / 1,265 = 1,891 Oddsen att ha demens är 1,9 gånger så hög om man har missbrukat jämfört med om man inte har missbrukat.
Ej demens Demens 1.2 Odds Ratio Ej missbrukat 34 (n11) 43 (n12) 77 Estimering av populationens OR för demens om man har missbrukat jämfört med om man inte har missbrukat. OR(sample) = 1.891 Missbrukat 51 (n21) 122 (n22) 85 165 173 SEln( OR ) 1 n 11 1 n 12 1 n 21 1 n 22 1 34 1 43 1 51 1 122 0.284 Formeln ger medelfel för ln(or). 95% CI e ln( OR) 1.96SEln( OR ) e 0.6371.960.284 1.084 3.299 Med 95% säkerhet ligger populationens OR någonstans mellan 1.084 och 3.299
1.2 Odds Ratio OR skiljer sig signifikant från 1.
2. Logistisk regression Används när man skall predicera värden på en dikotom variabel. Använder sig av den naturliga logaritmen av oddskvoter (eftersom dessa tenderar att vara linjära även med en dikotom beroende variabel). Undviker problem med orimliga predicerade värden.
2.1 Logistisk regression Det fina med Ln Odds Odds(man) 45 40 35 30 25 20 15 10 5 0 Vikt Ln(Odds(man)) 5 4 3 2 1 0 1 2 3 4 5 Vikt
2.2 Logistisk regression, SPSS Output Alltså: Ln Odds (man) = 0,103 x Vikt 7,221 När vikt ökar med ett kilo ökar odds för man med 10.9%.
2.2 Logistisk regression Exempelberäkning Ln Odds (man) = 0,103 x Vikt 7,221 Vikt = 70 Ln Odds (man) = 0,011 Odds (man) = e 0,011 = 0,989 P (man) = 0,989 / (1 + 0,989) = 49,7% Vikt = 80 Ln Odds (man) = 1,019 Odds (man) = e 1,019 = 2,770 P (man) = 2,770 / (1 + 2,770) = 73,5%
2.3 Logistisk regression Estimering Logistisk regression (liksom många andra metoder) använder sig av Maximum Likelihood estimering. För olika parametervärden beräknar ML sannolikheten för att få de data vi har, givet att dessa parametervärden gäller i populationen. Vi presenteras med de parameterestimat som ger högst sannolikhet för att ge upphov till de data som vi har. ML går ut på att maximera den s.k. Likelihood funktionen: LF Y { P i *(1 P i i ) 1Yi } Excel Kalkylblad Π = produkten av P i = sannolikhet för individ i att ha värdet 1 på den beroende variabeln Y i = individens värde på den beroende variabeln (0 eller 1)
2.4 Logistisk regression Multipel, SPSS
3. Survival Analys Används när den beroende variabeln innehåller två olika bitar information: (1) Har händelsen av intresse inträffat för försökspersonen (ja/nej)?; (2) Om ja, hur lång tid tog det innan händelsen inträffade? Logistisk regression skulle inte ta hänsyn till det senare. Oftast är data censurerade. Survival = Det har inte skett någon förändring, t.ex. man har inte dött, men kan också vara att man inte blivit frisk.
3.1 Survival Analys, vs. Logistisk Logistisk Regression Cox Regression
3.2 Survival Analys, Censurerade data Exempel: Överlevnad hos cancerpatienter (händelse = död i cancer). 1. Ocensurerade data: Riskperiodens början är känd samt tidpunkt för händelse. 2. Höger censurerade: Tidpunkt för händelse är okänd (t.ex. för att den ännu inte inträffat). 3. Vänster censurerade: Tidpunkt för riskperiodens början är okänd. 4. Slumpmässig censurering: Riskperioden avslutas, men inte p.g.a. att händelsen inträffar. Vänster censurerade data är svårare att hantera än de två övriga. 0 1 2 3 4 5 Tid (år)
3.3 Survival Analys, Data, SPSS Tid = Dagar från Diagnos till Dödtid (om död) alternativt från Diagnos till Uppföljning (om ej död). Tid kan ses som tid under risk. Om vi t.ex. skall predicera hazard för död i cancer och en patient dör i en bilolycka skall tid vara tid från baseline till död, men utfalls variabeln död i cancer skall vara lika med noll (vi har ett fall av s.k. slumpmässig censurering).
3.4 Survival Analys, Parametriskt eller inte Icke parametriska metoder: Gör inga antaganden om överlevnadsfunktionens utformning i populationen. Ex: Life Tables, Kaplan Meier Parametriska metoder: Gör antaganden om överlevnadsfunktionens utformning i populationen. Ex: Weibull modeller. Semi parametriska metoder: Gör antaganden om Hazard rate, men inga övriga antagenden om överlevnadsfunktionens utformning i populationen. Ex: Cox regression
3.5 Survival Analys, Life Table Används kanske framför allt för att ge en deskriptiv beskrivning av hur överlevnaden utvecklas (minskar) över tid.
3.6 Survival Analys, Kaplan Meier Till skillnad från Life Tables går tidsperioderna från en händelse till nästa istället för att vara lika långa.
3.6 Survival Analys, Kaplan Meier Man kan jämföra överlevnaden i olika grupper. Kontinuerliga prediktorer måste kategoriseras. Problematiskt om gruppernas överlevnadslinjer korsar varandra (= skillnaden i överlevnad mellan grupperna interagerar med tid).
4. Cox Proportional Hazard Model Kräver inte information om överlevnadsfunktionens utformning. Modellen antar att förhållandet mellan två individers h är den samma över hela tidsperioden (= proportionell). Beräknade parametrar påverkas av överlevnadstidernas rangordning, men inte av de absoluta värdena. Tillåter inkluderandet av prediktorer som förändras över tid.
4.1 Cox, Hazard Function Den villkorade sannolikheten för att händelsen skall ha inträffat vid tidpunkt t + dt, givet att den inte inträffat vid tidpunkt t. Funktionen är ett gränsvärde beräknat på a dt 0. Ju längre tid det tar för händelsen att inträffa, desto lägre är sannolikheten (hazard) för att händelsen inträffar inom tidsperioden dt. Hazard funktionen kan tolkas som ett mått på förändringshastighet (eller kanske som death rate per tidsenhet ).
Andra funktioner Probability Density Function (PDF): Som hazard, men inte villkorad (sannolikheten för att händelsen skall inträffa under dt). Cumulative Distribution Function (CDF): Sannolikheten för att dt ett visst bestämt värde. Survivor Function: Sannolikheten för att händelsen INTE skall ha inträffat vid en viss bestämd tidpunkt (1 CDF). Cumulative Hazard Function: Förväntat antal personer som upplevt händelsen vid en viss tidpunkt.
Cox Proportional Hazard Model Hazard h för händelse för en individ i vid en tidpunkt t ges av formeln: Ln h i (t) = β 0 + β 1 x i1 + β 2 x i2 + β 0 = intercept = hazard om alla prediktorer = 0 β 1 = effekt av prediktor 1 på hazard för händelse x i1 = individens värde på prediktor 1 osv Modellen antar att förhållandet mellan två individers h är den samma över hela tidsperioden (= proportional)
4.2 Cox, Estimering Cox an vänder sig av s.k. Partial Likelihood estimering, som går ut på att maximera följande funktion: Estimerad hazard för individen i PL n i1 n j1 e Y x ij i e x i i Antar värdet 1 för ickecensurerade personer och 0 för censurerade Summan av hazard för de andra individerna som inte upplevt händelsen vid den aktuella tidpunkten.
4.3 Cox, Data, SPSS
4.4 Cox, SPSS Output 2LL för nollmodellen, där hazard för död antas bero endast på tiden. Modellens 2LL sjunker med 223.935 när vi inkluderar intelligens som en prediktor (från 65971.225 till 65747.289) vilket är en signifikant förbättring (p <.001). En ökning i intelligens med ett stanine steg är associerad med en sänkning i Ln(hazard för död) med 0.13. Detta motsvarar en sänkning i hazard med 1 e 0.13 = 1 0.878 = 12.2% och effekten är signifikant (p <.001).
4.5 Cox, Diagnostik Proportionaliteten i hazard kan t.ex. diagnostiseras genom att man tittar på ett s.k. Log minus log diagram. Linjerna bör vara parallella.
4.6 Cox, Interaktion På samma sätt som i anna regression (linjär, logistisk) kan man testa om prediktorer interagerar i sin effekt på hazard för händelse. I det aktuella fallet finne vi att: Effekt av Intelligens på Ln(hazard för död) = 0.193 + 0.034 * Emotionell kontroll; ju lägre man ligger i Emotionell kontroll, desto starkare negativ association mellan Intelligens och hazard för död. Effekt Emotionell kontroll på Ln(hazard för död) = 0.422 + 0.034 * Intelligens; ju lägre man ligger i Intelligens, desto starkare negativ association mellan Emotionell kontroll och hazard för död.
Höga värden i Intelligens eller Emotionell kontroll skyddar mot eventuella låga värden i den andra variabeln. 4.6 Cox, Interaktion
4.7 Cox, Tids beroende prediktorer Ibland har man upprepade mätningar av en eller flera prediktorer. I så fall bör man specificera prediktorerna som tids beroende och estimera hur värdet från den senaste mätningen av prediktorn påverkar hazard för utfall. Alternativt, om man tror att effekten av prediktorn är fördröjd, kan man beräkna hur hazard för utfall vid tidpunkten t påverkas av värdet i prediktorn vid tidpunkten t c.
4.7 Cox, Tids beroende prediktorer Formeln nedan ger att: SBP = SBP0 om Tid < Tid1; SBP = SBP1 om Tid Tid1 och < Tid2; SBP = SBP2 om Tid Tid2
4.7 Cox, Tids beroende prediktorer Hade vi inte tagit hänsyn till att SBP varierar mellan de olika mättillfällena, och endast använt oss av SBP0 som prediktor, hade vi fått en svagare effekt av SBP på hazard för död.
Sammanfattning: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3 Data, SPSS 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) 4.3 Data, SPSS 4.4 SPSS Output 4.5 Diagnostik 4.6 Interaktion 4.7 Tids beroende prediktor