Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk Idag: AstraZeneca i Lund I morgon: Statistik-konsulterna
Innehåll Risker på individ- och populationsnivå Preliminaria Logrank test/cox Regression
Det fundamentala sambandet Låt X representera allt som påverkar vilken risk en individ har för något och låt p(x) vara risken då X = x. Låt vidare F(x) vara CDF:en för X i en population Då ges populationsrisken av p = p(x)df(x). Hur stor populationsrisken är bestäms alltså av fördelningen av risk-faktorerna i populationen Till höger ses att 1. Risken p(x) för Mb Down som funktion av mammans ålder 2. Fördelningen df(x) för mammans ålder vid graviditeten för två år i Sverige 3. Klart att det produceras fler barn med Mb Down 2007 and 1993. 4. Men den individuella risken är densamma! 10 8 6 % 4 2 0 1973 2007 Risk for Mb Down 20 30 40 Age of Mother
Odds ratio och studiedesign O(A) = P(A)/P(A c ) odds för A, S delpopulation vi samplar from. Bayes sats ger att O(A S) = P(A S) P(A c S) = P(S A)P(A) P(S A c )P(A c ) = R O(A). Alltså är O(A E,S) = R(E)O(A E) där R(E) är den relativa risken i en exponerad delpopulation. Om R(E)/R(E c ) inte beror av om man är exponerad eller ej, så får vi samma odds ratio som i hela populationen Odds ratio är parametern som förenar kohort och fall-kontroll studier. Med varierande grad av exponering, x, kan vi anta att O(A x) = e α+xβ. Vi kan därför använda logistisk regression på båda typer av studier, så länge det bara är β som är av intresse. α ersätts av α+ln(r) för fall-kontroll studien och är en nuisance parameter. Kan elimineras av att mangör en conditional logistic regression istället.
Hodgkins lymfom och tonsillektom En rimlig hypotes är att tar man bort tonsillerna på barn, så försämrar man immunförsvaret med en påföljande riskökning för t.ex. Hodgkin s lymfom. En case-control studie designades som addresserade denna fråga. (E = tonsillektomerad, C = Hodgkins lymfom). Resultatet kan uttryckas i odds-ratio: skattningen är 2.93 med 95% CI (1.82,4.71). Det enda vettiga i case-control studier starkt stöd för ett beroende mellan E och C. E E c Total C 67 34 101 C c 43 64 107 Total 110 98 208 Uppmuntrad av detta gjordes en ny studie, med en lite annorlunda design Man startade med 175 lymfon-patienter, och letade upp syskon av samma kön med en ålder inom 5 år Resultatet blev 85 par med följande resultat: (H,S) = 26, (H,S c ) = 15, (H c,s) = 7, (H c,s c ) = 37. (H = Hodgkin, S = Syskon)
fortsättning Det första man gjorde var att omorganisera dessa data till samma typ av tabell som ovan Denna gång blev odds ratiot bara 1.4, och konfidens-intervallet innehåller 1 (90% CI är (0.88,2.46)) E E c Total C 41 44 85 C c 33 52 85 Total 74 96 170 Men har vi använt data rätt? Vi kan inte reproducera ursprungsdata från denna tabell, så vi måste ha missat något Den rätta tabellen är den till höger Men den kan inte analyseras på samma sätt Det vi odds ratio vi skattar från detta är 15/7 = 2.14, vilket har 90% CI (1.03, 4.47) Inte starkt stöd, men ett resultat i samma riktning som ovan S S c Total H 26 15 41 H c 7 37 46 Total 33 52 85
fortsättning Förklaring: Controls (C c ) E E c Cases E P(E C)P(E C c ) P(E C)P(E c C c ) (C) E c P(E c C)P(E C c ) P(E c C)P(E c C c ) och odds ratio:t är θ = P(E C)P(Ec C c ) P(E c C)P(E C c ). Den intressanta frågan är varför den första tabellen ger skattning 1.4, och den senare 2.14......och vilket samband det är mellan dessa två skattningar Det handlar om hetereogenecitet i populationen.
Det allmänna miss-specifikationsproblemet Antag att det gäller att där Z har CDF G(z) i populationen. E(Y X = x,z = z) = h(βx +z) Vi har bara mätt X. Antagandena betyder att E(Y X = x) = b(βx +z)dg(z) Antag att vi antar E(Y X = x) = h(β x). Vilken är då relationen mellan β (individuella känsligheten för X) och β (populations-känslighet)? För en vanlig varians-analys h(u) = u blir β = β. Vad gäller för en logistisk regression, där h(u) = 1/(1+e u ) eller en Probit-modell där h(u) = Φ(u)?
Logistisk regression För en probit-modell med Z N(0,σ 2 ) har vi E(Y X = x) = xβ Φ(xβ +σz)dφ(z) = Φ( ). 1+σ 2 Det följer attt β = β/ 1+σ 2, så alla koefficienter regredierar mot noll. För att översätta detta till en logistisk regression använder man att till bra approximation är h(u) = Φ(au) a = 0.59. Det följer att β β/ 1+a 2 σ 2. Egentligen ska Z vara γz och att det är γ 2 σ 2 som dyker upp ovan. Effekten är alltså resultatet av kombinationen heterogeneitet i Z (variansen) och den prediktiva styrkan (γ).
Fyrfälts-tabeller Betrakta en 2 2-tabell som beskriver en exponering-fall relation. Modell: logit(p(x,ξ)) = ξ +βx, där x = 1 för exponerade och x = 0 för kontroller. θ = e β är odds ratio och ξ varierar mellan individer med en CDF P(ξ). Odds ratio för populationen blir då ψ = P1(1 P0) e ξ+βx, där P x = (1 P 1)P 0 1+e ξ+βxdp(ξ). Med ξ N(α,σ 2 ), har vi approximativt ln(p x/(1 P x)) = (α+βx)/ 1+a 2 σ 2...... så ψ θ ν med ν = 1/ 1+a 2 σ 2 < 1. Odds ratio beräknat från populationsdata (ψ) förväntas vara biased mot ett, jämfört med det odds ratio som är relevant för individen (θ).
Matchade fall-kontroll data För en 1:1-matchad studie har vi sannolikhetstabellen till höger ξ är gemensam för fall och kontroll. P 10/P 01 = θ, oberörd av heterogenitet. För den andra Hodgkin studien har vi 1.47 = 2.14 ν, från vilket vi kan få en indikation på heterogeniteten genom att lösa ut ν. Controls(C c ) E E c Cases E P 11 P 10 (C) E c P 01 P 00 P xy = e βx där e (x+y)ξ (1+e ξ+β )(1+e ξ ) dp(ξ).
Preliminaria Logrank test/cox Regression Proportionella hazards - lite noteringar Låt T vara en tid-till-händelse variabel med kumulativ hazard Λ(t). Cox proportionella hazard (PH) modell innebär då att vi antar att om en individ beskrivs av kovariatvärdena x, så gäller att hans cumulativa hazard är e βx Λ(t). Konkurerande modell är Accelerated Failure Time (AFT) modellen, som antar att individens kumulativa hazard istället är Λ(t/e βx ). En parametrisk fördelning kan skrivas både som PH och AFT modell: Weibull-fördelningen med Λ(t) = λt γ. En enkel modell för hetereogeneitet är att hazarden varierar mellan individer endast genom en proportionalitetsfaktor, som har en viss fördelning i populationen. Kallas frailty modellen och innebär att Λ(t η) = ηe zβ Λ 0(t) Låt T vara en tid-till-händelse variabel med kumulativ hazard Λ(t). där η betecknar frailty och har fördelningen G(η) i populationen.
Preliminaria Logrank test/cox Regression Heuristiskt kring Weibull fördelningen Antag att vi har en Weibull fördelning med frailty, där frailty-fördelningen är lognormal med medelvärde ett. En AFT modell kan då skrivas lnt = γ 1 ( lnλ zβ +X +Y), där X har en SEV fördelning och Y = lnη. Det följer att varians av lnt är (α 2 +σ 2 )/γ 2, där α 2 är SEV-variansen. Om ignorerar frailty och antar Λ 0(t) = µt ν gäller and variancen av lnt ar α 2 /ν 2. lnt = ν 1 ( lnµ xβ +X), Löser vi ut ν får vi ν 2 = γ 2 α 2 /(α 2 +σ 2 ). Med en linjär regression bör vi få β/γ = β /ν, alltså β β = 1+σ2 /α 2. Ungefär som för logistisk regression!
Preliminaria Logrank test/cox Regression Frailty och logrank test Studera överlevnadstid efter påbörjad behandling i en ny drog mot lungcancer. Randomiserad, 2:1, dubbel-blind etc Tabell nedan beskriver data Group N Observed Expected Active 1129 634 654.4 Placebo 563 342 321.6 Logrank test: hazard ratio estimate 0.91, 95% confidence interval (0.80, 1.04), p = 0.16 Detta är en hazard ratio på populationsnivå. Vad kan vi då säga om det som intresserar patienten, effekten på individnivå.
Preliminaria Logrank test/cox Regression Frailty och logrank test Modell: frailty modell med frailty-fördelning som har variance α. Individ-nivås parameter betecknas θ, den vi får ur logrank testet ovan θ. Hazard ratio θ 0.95 Utan några censoreringar kan vi 0.85 räkna ut sambandet till höger mellan α och θ, givet att θ = 0.91. 0.8 0.9 0 1 2 3 Variance of gamma distribution Om nu den individuella risken är större än θ, hur ska vi göra för att komma närmare den? Svar: leta prediktiva covariater! Det reducerar variansen av återstående frailty och skillnaden mellan den sanna individuella risken och det vi ser på populationsnivå minskar.
Preliminaria Logrank test/cox Regression Korrigera för prediktiva kovariater Så vi letar efter prediktiva kovariater genom att analysera dessa ensamma. Välj sedan ut den mest prediktiva, vilket visar sig vara en dichotom variabel som har med en WHO scala för sjukdomsstatus att göra. Gör vi nu en Cox regression med denna och behandling som kovariater får vi nya behandlingsskattningar: HR = 0.855, 95% CI (0.75,0.98), p = 0.020. Plötsligt har vi bevisat behandlingens värde! Vi har fem fler covariater att beakta - inkluderar vi dem ändrar sig resultatet i praktiken inte.
Epilog: var försiktig med stratifiering Ett alternativ till en additiv Cox Regression för att hantera de sex kovariaterna är att stratifiera på dem Stratifiering på endast WHO variabeln ändra inte resultatet mycket Stratifiering på alla ger HR skattning 0.89 med 95% CI (0.77, 1.02) och p = 0.087. Studien fallerar! Varför? Stratifieringen delar upp data i 2 6 = 64 celler. Fyra tomma, 23% har 3 patienter. Hazard ratio P.g.a. 2:1 randomiseringen drabbar detta den aktiva 0.8 behandlingen mest 0.7 1.1 1 0.9 0 1 2 3 4 5 6 7 No of covariates added Vi tappar 27 patienter (14 dödsfall) på aktiv, 2 (1 dödsfall) på placebo. Den sista kovariaten vi justerar för är inte prediktiv i sig själv!
Konsekvenser Resultatet ses till höger Så tro inte att det inte spelar någon roll vilken statistiker du arbetar med Statistik är inte en räknekonst, det är en vetenskap!