Survival analysis (Dag 1) Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor Henrik Källberg, 2012
Survival analysis (Dag 1) Mål - Kunna grundläggande begrepp och koncept inom överlevnadsanalys - Förstå skillnad mellan händelse och censurering - Utföra enklare beräkningar - Förstå vad överlevnadsfunktionen beskriver - Kunna skatta överlevnadssannolikhet genom parametrisk metod med hjälp av exponentialfördelningen - Kunna jämföra olika överlevnadskurvor mha. Logrank-test
Survivalanalysis (studietyper) Kohortstudier Oexponerade Exponerade Oexp. fall Exp. fall Randomiserade studier, Kliniska prövningar Randomisering Behandling Alla individer Placebo Studietid
Survival analysis (exempel)
Survival Analysis Tid till händelse kan vara tid till sjukdom från studiestart, Tid till händelse (Time to event) Tid (t) Studie start Studie slut
Survival analysis - Censurering Censurering innebär att man har ofullständig information om vad som hänt en individ. Censurering är icke informativ om orsaken inte har med händelsen (sjukdom) som man studerar Höger censurering: En individ följs upp över en tid utan att någon händelse inträffar under uppföljningstiden Höger censurering kan bero på: - Att individen avlider på grund av en annan orsak än den som studeras. - Studien avslutas innan en händelse uppstår (tex. Sjukdom). Uppföljningstiden är för kort. - En individ hoppar av studien innan studien avslutas (loss to follow up)
Survival analysis - Censurering Vänstersidig censurering: Innebär att en händelse inträffat men man vet inte när. Vänstersidig censurering är ovanligare och är ofta relaterat till att man har en ställtid där individen inte vet när händelsen inträffade. Tex. - Insjuknande innan symptomdebut tex. Cancer, HIV Sjudomsdebut Uppfölj. tid Ställtid Start studie Symptom Viktigt att tänka på eventuell ställtid i samband med studiedesignen
Survival Analysis Uppgift Vilka individer är censurerade? Time to event Time (t) Study start Study end
Survival analysis (Livslängdstabeller) Ålder vid start vid Dekaden Sannolikhet för död under dekad 0 0.0105 100000 10 0.00660 98950 20 0.01458 98297 30 0.01964 96864 40 0.03791 94962 50 0.08286???? 60 0.19825 83792 70 0.40089 67180 80???? 40248 90 0.95709 10837 100 0.99963 465 110 1.0 1 Antal levande vid dekadens början
Survival analysis Day 1 Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av en händelse före en given tidpunkt (t). S(t) 0.5 0.2 0.1
Survival analysis Utfallsvariabeln är tid till händelse (time to event) Denna utfallsvariabel är oftast inte normalfördelad Fördelningsfunktionen för tid till händelse (time to event) betecknas f(t)
Survival analysis Day 1 Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av en händelse före en given tidpunkt (t). Fråga: Vad är sannolikheten att inte drabbas av en händelse före tidpunkt = 80?
Survival analysis (Överkurs) Sambandet mellan fördelningsfunktionen för tiden f(t) och överlevnadsfunktionen är ser ut på följande sätt: S( t) f ( t) dt 1 F( t) eller f ( t) S'( t) t
Survival analysis (Kaplan Meier) Hur beräknar man sannolikheten för överlevnad med hjälp av överlevnadsfunktionen S(t)? Kaplan-Meier - För att överleva t antal tidpunkter måste man överleva t-1 tidpunkter och den sista tidpunkten i intervallet. - Betecknas: S(t)=S(t-1)*P(överleva tidpunkten t) STATA: Definiera variabler: stset survt, failure(event==1), sts list (för skattningar), sts graph (för plot av kurva) sts grap,by(group) (plot uppdelat på grupper)
Survival analysis (Kaplan Meier) Kaplan Meier - Icke parametrisk metod (vi antar inte att överlevnadsfunktionen har en speciell form) Antaganden: - Observationerna är oberoende av varandra - Censureringen är oberoende av händelserna vi studerar t.ex. att sjukdomen som vi studerar inte är kopplad till att censurering uppkommer - Att vi vet den exakta tiden till en händelse
Survival analysis (Kaplan Meier) Tidpunkt (t) minuter Antal friska vid t. a t Sjuka under interv. d t Antal förlorade individer c t Antal indiv. under risk n t =a t -c t Risk sjuk vid t r t =d t /n t Frisk vid t s t =1-r t Kumulat. Överlev. I s(t)=s(t-1) s(t) 1 21 0 0 0 0/21 21/21 1*21/21 29 21 1 0 21 1/21 1-1/21= 0.95 30 20 0 0 20 0/20 1-0/20 = 1 1*0.95= 0.95 1*0.95 31 20 2 0 20 2/20 = 0.10 49 18 1 1 18-1 = 17 1/17 = 0.059 52 17 2 1 16 2/16 = 0.125 1-0.10 = 0.9 1-0.059 = 0.941 1-0.125 = 0.875 0.9*0.95 = 0.857 0.941*0.8 57 = 0.806 0.806*0.8 75 = 0.705
Survival analysis (Kaplan Meier) 1 s(t) 0,8 0,6 0,4 0,2 0 1 11 21 31 41 51 t
Survival analysis (Kaplan Meier) Konfidensintervall för överlevnadsfunktionen S(t) Standard Error (SE) skattas med hjälp av följande formel: SE S t = S(t) d t a t (a t d t ) 95% Konfidensintervall vid tidpunkten Där d t är antal event vid tidpunkt t och a t är antalet friska individer vid t Denna formel kallas Greenwoods formel
Survival analysis (Kaplan Meier) Uppgift! Beräkna 95 procentigt Konfidensintervall Tidpunkt (t) minuter Antal friska vid t. a t Sjuka under interv. d t Antal förlorade individer c t Antal indiv. under risk n t =a t -c t Risk sjuk vid t r t =d t /n t Frisk vid t s t =1-r t Kumulat. Överlev. I s(t)=s(t-1) s t 31 20 2 0 20 2/20 = 0.10 1-0.10 = 0.9 0.9*0.95 = 0.857 SE S t = S(t) d t a t (a t d t )
Survival analysis Ibland har man inte exakta tidpunkter Vi har bara information för vissa tidsintervall!! Data är grupperat Tidsintervall
Survival analysis ( life table ) Det är ingen större skillnad mellan beräkningarna för överlevnadsfunktionen för en Life-table jämfört med Kaplan Meier Skillnaden består i huvudsak av att man antar att de censurerade personerna bidrar med information under halva tidsperioden där de försvinner. Antalet individer under risk för en särskild period är antalet individer i början av perioden minus halva antalet individer som faller bort (loss to follow up) Låt oss titta på exempel
Survival analysis ( life table uppgift!!) Intervall (månader sedan start) i Antal levande i början av i. a i Döda under interv. d i Antal förlorade individer c i Antal indiv. under risk n i =a i -c i /2 Risk att dö under i r i =d i /n i P överleva i s i =1-r i 0 100 0 0 100 0 1 1 2 100 10 0 100 10/100 = 0.10 4 90 4 4 90 4/2 = 88 4/88 = 0.045 1-0.10 = 0.90 1-0.045 = 0.955 Kumulat. Överlev. I s(i)=s(i-1) s i 0.90 0.90 0.95 5 = 0.8595 6 88 8 0 88 0.0909 0.909 0.7814 8 80 0 10 75 0 1 0.7814 10 75 7 10??????????? 12 58 20 0 58 20/58 = 0.345 1-0.345 = 0.655 0.703 0.655 = 0.46 14 38 0 0 38 0 1 0.46
Survival analysis ( life table ) Intervall (månader sedan start) i Antal levande i början av i. a i Döda under interv. d i Antal förlorade individer c i Antal indiv. under risk n i =a i -c i /2 Risk att dö under i r i =d i /n i P överleva i s i =1-r i 0 100 0 0 100 0 1 1 2 100 10 0 100 10/100 = 0.10 4 90 4 4 90 4/2 = 88 4/88 = 0.045 1-0.10 = 0.90 1-0.045 = 0.955 Kumulat. Överlev. I s(i)=s(i-1) s i 0.90 0.90 0.95 5 = 0.8595 6 88 8 0 88 0.0909 0.909 0.7814 8 80 0 10 75 0 1 0.7814 10 75 7 10 75-10/2 = 70 7/70= 0.10 12 58 20 0 58 20/58 = 0.345 1-0.10 = 0.90 1-0.345 = 0.655 0.90 0.78 14 = 0.703 0.703 0.655 = 0.46 14 38 0 0 38 0 1 0.46
Survival analysis (Parametrisk Skattning) Parametrisk skattning av S(t) Om vi kan anta en fördelning för tiden T~Exponential: S t = exp λt Man måste skatta λ för att kunna skatta S(t) Hastigheten λ skattas med λ = d t Vi antar att λ är konstant över tid.
Survival analysis (Parametrisk Skattning Uppgift) Antal individer (a) Tid (t) Tid*a Antal Händelser 1 29 29 1 2 31 62 2 2 49 98 1 17 52 884 2 Summa 1073 6 Uppgift! λ = d t = 6 1073 0.0056 S t = e 0.0056 t S t = 52 =?
Survival analysis (Jämföra kurvor) Olika grupper t.ex. - Behandlade och obehandlade, - Exponerade och oexponerade Logrank test - Chi-Två - Wilcoxon-Gehan
Survival analysis (Jämföra kurvor) ex.
Survival analysis (Jämföra kurvor) Två olika Kurvor, olika behandlingar Logrank Test Icke Parametriskt test H 0 : S A (t) = S B (t) (Överlevnadsfunktionen är likadan i båda grupperna) H 1 : S A (t) S B (t) (Överlevnadsfunktionerna är olika) Bakomliggande ide: Beräkna förväntat antal händelser och jämföra med observerat antal händelser.
Survival analysis (Jämföra kurvor) Konstruera följande tabell för alla!!! tidpunkter där händelse(r) inträffar: Grupp Antal friska vid t. a t Antal händelser d t Förväntat antal händelser (A) A t,a d t,a E t,a =d t *(A t,a /A t ) (B) A t,b d t,b E t,b =d t *(A t,b /A t ) Totalt A t d t E t = d t Variansen för d t,a = d t,b, V t,k = d t A t,a A t,b (A t d t ) A 2 (A t 1)
Survival analysis (Jämföra kurvor) Grupp A Behandling Grupp B Obehandlade Tid Antal friska vid t. a t Antal händelser d t Förväntat antal händelser Antal friska vid t. a t Antal händelser d t Förväntat antal händelser 1 A 1,A d 1A E 1A =d t *(A 1A /A t ) A 1,B d 1B E 1B =d t *(A 1B /A t ) 2 A 2,A d 2,A E 2,A =d t *(A 2A /A t ) A 2,B d 2,B E 2,B =d t *(A 2B /A t ) 3 A 3,A d 3,A E 3,A =d t *(A 3A /A t ) A 3,B d 3,B E 3,B =d t *(A 3B /A t ) k A k,a D k,a E K,A =d t *(A KA /A t ) A k,b D k,b E K,B =d t *(A KB /A t ) Totalt D +,A E +,A D +,B E +,B Ideen bakom är att jämföra observerat antal händelser mot förväntat antal om det inte var någon skillnad d t =d ta +d tb och A t =A ta + A tb
Survival analysis (Jämföra kurvor) Teststatistika är χ 2 fördelad och beräknas genom: U L = k (d t,k E t,k ), V L = k V t,k, χ 2 = U2 V L med 1 frihetsgrad (antal grupper-1), vilket innebär att P(χ 2 3.84)=0.05 (signifikansnivån) Det finns en snabbversion som utgår från: χ 2 (D +A E +A ) 2 E +A + (D +B E +B ) 2 E +B STATA: sts test group, sts test group,wilcoxon
Survival analysis (Jämföra kurvor) Ex. Här är data från en fiktiv studie som jämför två olika behandlingar
Survival analysis (Jämföra kurvor) ex. Exempel beräkning förväntat antal döda i behandlingsgrupp 2
Survival analysis (Jämföra kurvor) ex. I föregående slide visades hur man beräknar förväntat antal döda för behandling 2. Nästa steg är att göra samma sak för behandling 1. Beräkna Chi-två värde: χ 2 (D +1 E +1 ) 2 E +1 + (D +2 E +2 ) 2 E +2 = (4 7.08)2 7.08 + (6 2.92)2 =4.59 (1 fg) 2.92
Survival analysis (Jämföra kurvor) Logrank testet är känsligt för sena skillnader mellan överlevnadskurvorna. Om man vet att tidiga skillnader är av särskilt intresse så kan man med hjälp av Wilcoxon-Gehan test vikta för tidiga skillnader med hjälp av antal personer under risk vid t. U L = k A t,k (d t,k E t,k ), V L = k A 2 t,k V t,k Val av test bör göras innan man ser data (annars väljer man det som passar data bäst inte apriori teori)
Survival analysis (Jämföra kurvor) Fler grupper! Logrank-testet går att generalisera till fler än två grupper. Viktigt att tänka på antal frihetsgrader (antal grupper-1).
Survival analysis (Jämföra kurvor) Uppgift Grupp Obs. Antal händelser (D) 1 5 13.25 2 7 15.82 3 37 19.93 Totalt 49 49 Ledtråd: χ 2 (D +A E +A ) 2 E +A + (D +B E +B ) 2 E +B +???? Förväntade antal händelser (E) χ 2 -tabell:
Survival Analysis (Logrank test) Styrkor Inga modellantaganden => kan användas på de flesta data Kan användas på kategoridata. Svagheter Kan inte användas för att modellera tiden. Ingen möjlighet att testa hur variabler påverkar modellen Konfidensintervall är modelloberoende. Variablers effekt kan bara undersökas genom att stratifiera (dela upp data) Omöjligt att använda kontinuerliga variabler
Survival analysis (Dag 2) Upplägg Dag 2 Hazard-funktionen Proportional Hazard model (Cox-model) Olika variabler Statistiska test
Survival analysis (Dag 2) Mål - Veta hur Hazardfunktionen är relaterad till överlevnadsfunktionen (S(t)) - Veta hur Cox-regressionsmodellen ser ut - Förstå Proportional Hazard assumption - Beräkna Hazard Ratio för olika variabler - Avgöra om en variabel är signifikant i en Coxmodell
Survival analysis (Hazardfunktionen) Fördelning tid till händelse, f(t): Överlevnadsfunktionen S(t): t S ( t) f ( t) dt 1 F( t) Hazardfunktionen h(t): f ( t) d h( t) log( S( t)) S( t) dt
Survival analysis (Hazardfunktionen) Hazardfunktionen h(t) beskriver antal händelser per tidsenhet ( hastighet för att händelse(r) inträffar) Den kumulativa Hazardfunktionen (lättare att plotta eftersom Hazardfunktionen återger den momentana risken. ges av: -log(s(t))=h 0 (T) Hazardfunktionen beskriver sannolikhet att sjukdom (händelse) inträffar strax efter tiden t givet att sjukdom inte inträffat före t. Vi håller oss till det enkla exemplet med att Hazardfunktionen är konstant (exponentiell fördelning). Det finns dock andra fördelningar där hazardfunktionen ökar eller minskar över tid (t.ex. Weibullfördelningen)
Survival analysis (Hazardfunktionen) Kom ihåg: f ( t) S'( t) f ( t) d Och: h( t) log( S( t)) S( t) dt f(t)= e - t =S (t) Kvoten blir då: h( t) f ( t) S( t) e e t t S(t)=e - t h(t)=
Survival analysis (Hazardfunktionen) Föregående exempel utgår från att tiden till händelse är exponentialfördelad (Dag1) T ~ exp (λ) P(T=t) = λe -λt där λ är en konstant hastighet. Låt oss anta att alla individer har konstant risk för att drabbas av sjukdom och att det som skiljer är en specifik variabel (t.ex. rökning, kön, ålder)
Survival analysis (Cox regression) Man behöver inte välja en speciell sannolikhetsfördelning för överlevnadstiden och är därför säker. Semi-parametrisk (Kaplan-Meier är icke-parametrisk; exponential och Weibull är parametriska) Man kan använda diskreta och kontinuerliga variabler. Lätt att använda tidsberoende variabler (variabler som ändras över tid)
Survival analysis (Cox regression) Vi utvecklar Hazardfunktionen så att den ser ut på följande sätt: h t, x = h 0 t exp(β x) Obs! (exp(β x) = e β*x ) e = talet 2.72 Nu består vår Hazardfunktion (h(t,x)) av två delar: h 0 t och exp β x där h 0 t är baseline Hazard och exp β x är en konstant som påverkar Hazardfunktionen (kan bero på en variabel) jmf. Med h( t) f ( t) S( t) e e t t Överlevnadsfunktionen ser ut på följande sätt: S t, x = e (H 0 t exp β x ) = [S 0 (t)] exp(β x)
Survival analysis (Cox regression) Nu kan vi beräkna Hazard Ratio (HR) HR tolkas ofta som en relativ risk (RR) trots att vi inte vet absolut risk. HR skattar i detta fall en incidens kvot Hazard för person i (eg en rökare) Hazard ratio HR i, j h h 1xi1... k xik i ( t) 0 ( t) e 1( xi1 x j1)... 1( xik x jk ) e 1x j1... k x jk j ( t) 0 ( t) e 0 ( t) h0 ( t Hazard för person j (eg en icke rökare) Obs!! )
Survival analysis (Cox regression) Antaganden Proportional Hazard Assumption - Hazardfunktionerna för respektive grupp är proportionella gentemot varandra. Det som skiljer dom åt är exp(β*x). Detta innebär att HR ( RR ) inte beror av tiden - Risken är multiplikativ h t, x = h 0 t exp(β x)
Survival analysis (Cox regression) Data-exmpel (Dikotom variabel) Individ Rökare (1=ja,0=nej) Tid till event Event (1=ja, 0=nej) 1 0 10 0 2 0 10 0 3 1 2 1 4 1 1 1 5 1 4 1 6 0 8 1 7 1 10 0 8 1 6 1 9 0 6 1
Survival analysis (Cox regression) Kategorisk variabel (Dikotom) HR lung cancer / smoking h h i j ( t) ( t) ( t) e 0 ( t) e 0 smoking smoking (1) (0) e smoking (1 0) HR lung cancer / smoking e smoking Detta är Hazard ratio för rökning, lägg märke till att rökning är i detta fall oberoende av tid.
Survival analysis (Cox regression) ex.
Survival analysis (Cox regression) Data-exempel (Flera grupper, tex. Ålderskategorier, storlek), Ordinaldata Individ Ålder Ålder1 ( 30 år,<40) Ålder2 ( 40 år, <50) Ålder3 ( 50 år) 1 20 0 0 0 10 2 30 1 0 0 10 3 42 0 1 0 2 4 40 0 1 0 1 5 63 0 0 1 4 6 30 1 0 0 8 7 55 0 0 1 10 8 25 0 0 0 6 9 70 0 0 1 6 Tid till event
Survival analysis (Cox regression) Flera grupper, Ordinal data HR lung cancer / Ålderskategori, ålder2 vs.ålder 0 h h i j ( t) ( t) ( t) e 0 ( t) e 0 Ålder1(0) Ålder1(0) Ålder 2 Ålder 2 (1) (0) Ålder 3 Ålder 3 (0) (0) e ålder 2 (1) HR lung cancer / ålder2 vs.ålder 0 e ålder 2(1) Detta är Hazard ratio för ålder 2 (30-40 år) jmf med <30 år STATA: stcox group alder stcox group alder, nohr (Om du vill ha beta-koefficienter och ej HR)
Survival analysis (Cox regression) Uppgift Kategorisk variabel (Dikotom) I en studie beträffande risk för lungcancer och rökning erhölls följande resultat β = 1.6, SE(β)=0.5 Skatta den relativa risken och ett 95%-igt konfidensintervall för att drabbas av lungcancer om man röker Svar: RR=HR=e 1.6*1(rökare=1) = 4.95, Undre gräns 95%-igt RR= e 1.6-1.96*0.5 =1.85 Övre gräns 95%-igt RR=e 1.6+1.96*0.5 =13.2
Survival analysis (Cox regression) Kontinuerlig variabel (tex. Ålder, Koncentration av ämne, temperatur) Individ Ålder 1 20 10 2 30 10 3 42 2 4 40 1 5 63 4 6 30 8 7 55 10 8 25 6 9 70 6 Tid till event
Survival analysis (Cox regression) Kontinuerlig Variabel HR lung cancer /10 years increase in age h h i j ( t) ( t) ( t) e 0 ( t) e 0 age age (70) (60) e age (70 60) HR lung cancer /10 years increase in age e age (10) Detta är Hazard ratio för tio år åldersökning
Survival analysis (Cox regression) Uppgift Kontinuerlig Variabel I en studie beträffande ålder och risk för lungcancer erhölls följande resultat β = 0.05, SE(β)=0.05 Skatta den relativa risken och ett 95%-igt konfidensintervall för att drabbas av lungcancer från 55 års ålder till 60 års ålder Svar: RR=HR=e 0.05*(60-55) = 1.28 Undre gräns 95%-igt RR= e 0.05*(60-55)-1.96*5*0.05 =0.77 Övre gräns 95%-igt RR= e 0.05*(60-55)-1.96*5*0.05 = 2.10
Survival analysis (Cox regression) Uppgift I denna artikel om Cadmium och risk för CVD så har man kategoriserat en kontinuerlig variabel
Survival analysis (Cox regression) För att avgöra om en variabel (tex. Rökning, Asbest eller behandling) medför en signifikant ökad eller minskad RR (eg. Hazard ratio (HR)) så måste den testas. En vanlig metod för att testa signifikans kallas Wald test Andra vanliga test är Likelihood ratio och Score test
Survival analysis (Cox regression) Walds test ges av följande formel: Där ˆ 0 Z SE ( ˆ) ˆ h t, x = h 0 t exp(β x) är en regressionskoefficient från Cox-modellen Och SE(β) är standard error för β Z är det standardiserade normalvärdet från normalfördelningen (Använd normalfördelningstabell)
Survival analysis (Cox regression) ˆ Walds test testar om är skiljt från 0. (om är 0 så innebär det att exp(β=0) är 1 vilket ger en HR (RR) som är 1 (mao. Det är ingen ökad eller minskad risk för sjukdom för den variabeln) ˆ H 0 : β = 0 H 1 : β 0
Survival analysis (Cox regression) Uppgift Beräkna z-värde med hjälp av Walds test med hjälp av följande uppgifter (Regressionskoefficient för rökning från lungcancer): β = 1.6, SE(β)=0.5 Signifikansnivå=0.05 z(gräns)=1.96 Avgör om koefficienten är skild från 0.
Survival analysis (Cox regression) Uppgift Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1.9 0.9713 0.975 3.0 3.1 3.2 0.99931 Exempel Normalfördelningstabell observera att endast några sannolikheter ges i tabellen I detta fall blir z=1.6/0.5 = 3.2 vilket ger ett p- värde på 1-0.99931 = 0.00069 Slutsats: denna koefficient är mycket signifikant, det finns en association mellan rökning och risk för lungcancer
Survival analysis (Cox regression) Uppgift Utför Walds test för den kontinuerliga variabeln ålder i tidigare exempel β = 0.05, SE(β)=0.05 Signifikansnivå=0.05 z(gräns)=1.96 Avgör om koefficienten är skild från 0. Hur förhåller sig Walds test till HR och dess 95%-iga konfidensintervall?
Survival analysis (Cox regression) Uppgift Beräkna Z-värde med hjälp av Walds test för behandling och ålder. Tolka resultat.
Survival analysis (Dag 3) Upplägg Dag 3 Fortsättning Cox-modellen Flera variabler Confounding Interaktion Test av proportional Hazard assumption Ytterliggare modeller
Survival analysis (Dag 3) Mål - Veta hur man infogar fler variabler i en cox modell - Förstå hur man kontrollerar för Confounding - Interaktion mellan variabler - Undersöka, testa proportional hazard assumption - Veta om att det finns ytterligare modeller
Survival analysis (Kort repetition) Hazardfunktionen h t, x = h 0 t exp(β x) Obs! (exp(β x) = e β*x ) e = talet 2.72 * h 0 t är baseline Hazard och exp β x är en konstant som påverkar Hazardfunktionen (kan bero på en variabel)
Survival analysis (Kort repetition) Hazard ratio (HR, RR ) Obs!! t) h ( ) 0( 0 t Hazard för person i (eg en rökare) Hazard ratio HR i, j h h 1xi1... k xik i ( t) 0( t) e 1( xi1 x j1)... 1( xik x jk ) e 1x j1... k x jk j ( t) 0( t) e Hazard för person j (eg en icke rökare)
Survival analysis (Kort repetition) Walds test (för att avgöra om variabel är signifikant i modell) : Z ˆ 0 SE ( ˆ)
Survival analysis (Flera variabler) Från Dag 2: HR lungcancer/10 years increase in age h h i j ( t) ( t) ( t) e 0 ( t) e 0 smoking smoking (0) (0) age age (70) (60) e age (70 60) HR lungcancer/10 years increase in age e age (10) Nu har vi utökat modellen så att både rökning och ålder finns med.
Survival analysis (Flera variabler, confounding) Confounding är ett stort problem i observationsbaserade studier (läs ej randomiserade studier) Confounding är när ett samband mellan två variabler kan förklaras av en tredje variabel. Kaffe och risk för lungcancer: Rökning Kaffe Lungcancer
Survival analysis (Flera variabler, confounding) Ej rökning rökning Rökning + Edu. Etnic. Emfys. Alc. Phys.
Survival analysis (Flera variabler, confounding) här är ett exempel på en Cox-modellen för HR i föregående tabell. h t, x = h 0 t exp(+β Age_study x Age_study + β BMI1 x BMI1 + β BMI1 x BMI1 + β BMI2 x BMI2 +β BMI4 x BMI4 +β BMI5 x BMI5 + β Smoke x smoke )
Survival analysis (Flera variabler, confounding) Uppgift! Skriv upp en cox-modell som avser att undersöka risk för CVD om man röker (fyra kategorier av rökningsklassificering: aldrig (referensgrupp), Låg (L), Mellan (M) och hög (H)). Modellen skall justeras för ålder vid inklusion i studien. Tänk också på hur variablerna skulle vara kodade.
Survival analysis (interaktion) Interaktion - Interaktion i statistisk mening innebär att effekten av en variabel beror på en eller flera andra variabler. - En Cox-modell med interaktionsterm har följande utseende: h t, x = h 0 t exp(β BMI x BMI + β Smoke x smoke + β Smoke BMI x smoke x BMI ) - Interaktion enligt ovan nämns ofta som multiplikativ - Interaktion kan också vara additativ
Survival analysis (interaktion)
Survival analysis (interaktion) Hur avgör man om det finns interaktionseffekter? - Walds test för interaktionskoefficienten! H 0 : β Smoke*BMI = 0 H 1 : β Smoke*BMI 0 Additativ interaktion är en annan historia
Survival analysis (interaktion) Uppgift Avgör om interaktionskoefficienten är signifikant skild från 0 β GenHLA =1.7, SE=0.2 β Smoke = 0.6, SE=0.15 β Smoke GenHLA =0.8, SE=0.2 Beräkna HR om man har den genetiska riskfaktorn (GenHLA) och är rökare. HR=exp(1.7*1 + 0.6*1+ 0.8*1) = exp(3.1) = 22.2
Survival analysis (proprotional hazard assumption) Ett viktigt antagande vi gör när vi använder cox-regression är att våra oberoende variabler ej varierar med tiden. Till exempel: Vi antar att riskökningen om man är rökare är konstant över tid. Om rökning ej skulle vara konstant över tid så skulle det i extrema fall innebära att rökning är farligt fram till en viss tidpunkt. Efter denna tidpunkten så är rökning skyddande mot sjukdom.
Survival analysis (proprotional hazard assumption) Plotta överlevnadskurvorna för respektive grupp (exponerade, oexponerade) Residualer - Martingaler - Schoenfeld Stratifiering, Bra att dela upp analysen för variabeln som medför bekymmer t.ex. dela upp analysen för icke rökare respektive rökare
Survival analysis (proprotional hazard assumption) Plotta överlevnadsfunktionen för de olika exponeringsgrupperna. Korsar kurvorna varandra = problem (ej proprotionell hazard över tid)
Survival analysis (proprotional hazard assumption) Vanligt att plotta log(hazardfunktion) mot log(tid) för att undersöka om de olika grupperna är parallella Jmf med linjär regression.
Survival analysis (proprotional hazard assumption) Metod 2: Residualer Residualer används för att skatta hur bra en modell (Cox regressionsmodell) passar observerade data För Cox-modeller finns ingen direkt motsvarighet till linjär regression (residual=observerat-skattat värde) Två olika typer av residualer - Martingaler - Schoenfeld
Survival analysis (proprotional hazard assumption) Martingaler beräknas genom att ta utfallet för en person (0=censurerad, 1=händelse) minus (-) den kumulativa hazardfunktionen baserat på cox-modellen) t.ex. - Exempel 1: En person är censurerad vid 2 månader, Den beräknade kumulativa hazarden är 20 % (0.2). Martingalresidualen blir då: 0-0.2 = -0.2 - Exempel 2: En annan person blir sjuk vid 13 månader (en händelse), Den beräknade kumulativa hazarden är 50 % (0.5). Martingalresidualen blir då: 1-0.5 = 0.5 Osv. för alla individer STATA: stcox group var1 var2, mgale(mgaleres)
Survival analysis (proprotional hazard assumption) Martingaler måste transformeras (göras om) till deviance residualer Deviance-residualer skall ha ett medelvärde runt 0 och en standardavvikelse runt 1 om modellen stämmer Här är värdet på residualen plottat (y-axel) vs. Värdet på en kovariat (x-axel)
Survival analysis (proprotional hazard assumption) Schoenfelds residualer Bra för att undersöka olika variabler. Här får varje individ ett residualvärde för varje variabel (jmf. Med martingalresidualer) Schoenfelds residualer definieras som skillnaden mellan en persons observerade och förväntade värde för en viss variabel
Survival analysis (proprotional hazard assumption) Schoenfelds residualer Exempel (förväntad sannolikhet=skattad sannolikhet från coxmodell, vid en specifik tidpunkt): Kvinna 55-år rökare (förväntad sannolikhet =0.1) Man 45-år icke rökare (förväntad sannolikhet=0.05) Kvinna 67-år rökare (förväntad sannolikhet=0.2) Man 58-år rökare (förväntad sannolikhet=0.30) Man 70-år icke rökare (förväntad sannolikhet=0.20) I detta fall så råkar den 55-åriga kvinnan ut för sjukdom. Förväntad ålder: 0.1*55 + 0.05*45 + 0.2*67 + 0.30*58 + 0.20*70=60 Residual=observerat värde skattat värde=55-60=-5
Survival analysis (proprotional hazard assumption) Schoenfelds residualer Schoenfelds residualer är i princip oberoende av tid. Detta medför att om residualerna inte är slumpmässigt fördelade runt 0 så är det ett tecken på att proportional hazard assumption inte håller. STATA: stcox group var1 var2, schoenfeld(schoen*) scaledsch(scaled*) Plot: stphtest, rank plot(group)
Survival analysis Uppgift (proprotional hazard assumption) Vad är tolkning av denna residualplot?
Survival analysis (proprotional hazard assumption) Övriga modeller Om tiden är viktig i analysen t.ex. att risken varierar över tid. Parametriska metoder där tiden modelleras Accelerated time failure models (AFT) Högre precision, kräver att man specificerar rätt föredelning