Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland
Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera mätningar per individ och en endpoint (Mediering) (Tidsberoende confounding) (Anscombs Kvartett)
Disclaimer Statistisk modellering av upprepade mätningar och tidsberoende data är svårt Viktiga detaljer saknas Rådfråga en statistiker!
Krossektionella data
Upprepade mätningar
Upprepade mätningar och utfall
Simpsons paradox Vi har ett antal observationer på BMI från ett register BMI Det ser ut som om BMI minskar över tid Kalendertid
Simpsons paradox Vi har ett antal observationer på BMI från ett register BMI Det ser ut som om BMI minskar över tid Men vi hade glömt att vi har två mätningar per individ BMI ökar för alla individer! Kalendertid Vem kommer med i registret?
Modeller för variation inom och mellan individer En mätning per individ utfall = Systematisk modell mellan individer + Slumpmodell mellan individer Flera mätningar per individ utfall = Systematisk modell mellan individer Slumpmodell mellan individer Systematisk modell inom individ + + + Slumpmodell inom individ
En observation per individ En grupp: Flera grupper: Regression: log y i = μ + ε i ε ij ~N 0, σ 2 i = 1,, n y ij = μ j + ε ij ε ij ~N 0, σ 2 i = 1,, n j = 1, 2 y i = α + βx i + ε i ε ij ~N 0, σ 2 i = 1,, n
Varför ha flera observationer på en individ? Man vill precisionen Medelvärde per individer Skillnad innom individer Man vill följan en individ över tid Uppföljning Övervakning Tid till händelse
Flera observationer per individ 10 patienter 1 mätning innan behandling 4 mätningar under behandling Analysstrategier: Ldl vid 4v. Förändring från baseline vid 4 v. Med baseline som kovariat Linjär regression Individuella regressioner Icke linjär modell Mixad ickelinjär modell Mixed repeated measures models 3 2,5 2 1,5 1 0,5 0 LDL (mg/dl) baseline 1 week 2 weeks 3 weeks 4 weeks G.E.P. Box: All models are wrong, but some models are useful
Förenkla till 2 observationer per individ Mätning av ldl före och efter behandling baseline 4 veckor 2,5 2.84 2.08 2.54 1.32 2 1.94 1.49 1.4 1.22 1,5 2.1 1.35 2.42 1.94 1 2.47 2.61 2.53 1.82 0,5 1.99 1.92 1.85 1.99 0 3 baseline LDL (mg/dl) 4 weeks
Om variation Vi kan dela upp variationen inom och mellan individer Individ 1 Individ 2 Y ij = μ + ξ i + ε ij ε ij ~N 0, σ 2 i=1,2 : individ j=1,2 : mätning oberoende ξ 1 ε 11 μ Fix effekt ξ 1, ξ 2 fixed Random effekt ξ i ~N 0, τ 2 1 vecka 2 veckor Det finns en korrelation på samma individ τ 2 σ 2 +τ 2 mellan mätningar
2 observationer per individ 3 2,5 2 1,5 1 0,5 0 LDL (mg/dl) baseline 4 weeks När lönar det sig att beräkna differenser inom individer? X ij = μ + γ T + ξ i + ε ij modellfel ~N 0, σ 2 Varians för ett värde efter behandling Var X i2 = τ 2 + σ 2 Individeffekt ~N 0, τ 2 Varians för skillnaden efter jämfört med före behandling Var X i2 X i1 = 2 σ 2 Skillnad inom individ är bra om variansen inom individer är större än variansen mellan individer
Förenkla till 2 observationer per individ Mätning av ldl före och efter behandling baseline 4 veckor difference 2,5 2.84 2.08-0.76 2.54 1.32-1.22 2 1.94 1.49-0.45 1.4 1.22-0.18 1,5 2.1 1.35-0.75 2.42 1.94-0.48 1 2.47 2.61 0.14 2.53 1.82-0.71 0,5 1.99 1.92-0.07 1.85 1.99 0.14 0 σ = 0.43 σ = 0.44 3 baseline LDL (mg/dl) 4 weeks Här vinner man inget på att räkna differenser!
Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 t En linje per grupp Modell: Y ij = α + β T t + ε ij Samma intercept Olika lutning ε ij ~N 0, σ 2
Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 t En linje per grupp Modell: Y ij = α T + β T t + ε Olika intercept ij Olika lutning ε ij ~N 0, σ 2
Flera observationer per individ LDL (mg/dl) μ + ξ ii 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 Modell: Y ij = μ + ξ i + β T t + ε ij t En linje per individ
Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 Modell: Y ij = μ + ξ i + β T t + ε ij ξ i ~N 0, τ 2 t En linje per individ Individuella intercept Lutning per behandling ε ij ~N 0, σ 2
Exempel på modeller
Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 Modell: Y ij = y 0 e A α 1 e αt t + ε ij En linje per individ Olika parametrar Tolkningsbarhet! ε ij ~N 0, σ 2
Mixade generaliserade linjära modeller Exempel: Upprepade mätningar på fysisk aktivitet Y ij 0,1 logit P Y ij = 1 = μ + ξ i + τ + ε ij ε ij ~N 0, σ 2 ξ i ~N 0, τ 2 Funkar kanske inte så bra på rökning. eftersom variationen inom en individ ofta är mycket liten.
Mixade ickelinjära modeller Ibland är det inte realistiskt att ha linjära modeller Tillväxt av en tumör Det finns en undre (noll) övre gräns för tumörens storlek y ij = b 1 + μ 1i + ε ij 1 + exp t ij b 2 b 3 μ 1i ~N 0, σ u 2 ε ij ~N 0, σ ε 2 Mixade ickelinjära modeller är notoriskt besvärliga. Man måste nog kontrollera att beräkningen konvergerat. Kan vara känsligt för startvärden
Mixed repeated measure model Korrelationen inom en individ kan se olika ut Individ i Korrelationen är samma mellan alla värden de kommer från samma individ Individ i Korrelationen är mellan näraliggande värden är stark Man kan modellera korrelationsstrukturen!
Upprepade mätningar och tid till händelse
Patienter Tid-till-händelse-data Vi mäter tiden till en händelse för att kunna uttala oss om risk Observationerna är inte alltid kompletta - censurering Censurering Händelse Oobserverad händelse Tid
Ett exempel från NDR 33168 njursjuka NDR-patienter Median uppföljning: 5.15 år SBP, DBP, HbA1c, Hdl, Ldl, BMI Endpoint: Död Frågeställning: hur påverkar SBP (exempelvis) risken att dö?
Upprepade mätningar på SBP
Upprepade mätningar på SBP
Enkel analys, Kaplan-Meier Ofta ignorerar man alla mätningar på den förklarande variabeln, utom den första Vi har tid till död eller censurering och baseline blodtryck De med högt (>140) SBP verkar ha högst risk att dö
Hur modellera sambandet? Ibland jämför man värde för de med event med värdena för de som inte fick event under uppföljningen Problematiskt pga censurering prediktorer utfall Utfall=f(prediktorer)
Hur modellera sambandet? Hur beror risken för död på de förklarande variablerna? Coxregression! Lättast: Första mätningen lite knepigare: Senaste mätningen Fel: Genomsnitt av alla mätningar!! får ej se framåt i tiden!!
SBP Eller Coxregression λ t = λ 0 t exp β X När någon dör så jämförs dennes värde (här vid baseline) med värdena för de (andra) som fortfarande lever Oftas har den som dör högt SBP i förhållande till de andra som ännu lever Tid från index
Tids uppdaterade värden på SBP I stället för att använda värdet på SBP vid index kan vi använda senaste värdet λ t = λ 0 t exp β X t Vi försöker förklara risken att dö med det nuvarande värdet på SBP Vi skulle kunna använda det tidsuppdaterade medelvärdet
Det tiduppdaterade värdet är inte alltid aktuellt Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal
Det tiduppdaterade värdet är inte alltid aktuellt Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal Det blir lätt LVCF
Senaste värdet kan var problematiskt Den senaste mätningen av en förklarande variabel i en Coxregression kan vara påverkad av confounding Exempel Vi vill studera BMI som riskfaktor för cancer Cancer kan leda till hastig viktnedgång Ett BMI tätt innan en diagnos kan var påverkat av cancern Vi kan skippa senaste värdet, men hur blir det för individer vid risk?
Man får inte använda framtida värden Ibland används medelvärdet av samtliga mätningar av en förklarande variabel i en Coxregression Det kan leda till systematiska fel. Man får bara titta bakåt i tiden!
Varför är det fel att använda medelvärdet av alla mätnignar? Vid varje händelse fås ett bidrag till analysen där den aktuella personens värde jämförs med alla som ännu är vid risk Om det finns en underliggande trend (ex BMI ökar med ålder) så påverkas analysen av framtida värden Kan ge systematiska fel!
Att justera för confounders En Coxregression används ofta för att justera en jämförelse för potentiella confounders Man antar då en viss specifik loglinjär relation mellan varje confounder och utfallet. Så är inte alltid fallet
Allt är inte som man tror Ålder BMI SBP HbA1c Kreatinin Diabetesduration
Post index medierande variabler Exponering Utfall Mediering Exempel: Exponering: gastric bypass Mediering : BMI över tid Utfall: (tid till) död Analysmodell: coxregression Vad händer om vi har med post index BMI i en analysmodell?
Causal mediation analysis M X Y Y(x,M(x)) = utfallet* som observeras om vi sätter X=x och den mediatorn tar vädet M(x) dom den naturligt tar om X sätts till x Naturlig Direkt effekt: = Y(x,M(x)) Y(x*,M(x)) Naturlig Indirekt effekt: = Y(x*,M(x)) Y(x*,M(x*)) Total effekt: = Y(x,M(x)) Y(x*,M(x*)) Teori, SAS och R-kod finns (T Lange)
Exponering som ändras över tid - tidsberoende confounding Exponering Utfall Mediering Exempel: Exponering: behandling för blodtryck Mediering: blodtryck Utfall: (tid till) död En behandling ger ett tryck som i sin tur leder till en ändring av behandling
Summering Modellera variation mellan och inom individer Överlevnadsanalys kopplar förklarande variabler till risk Man kan bara se bakåt Enkelt är bra!
Backup
Om vikten av att plotta data Anscoms kvartett X1 Y1 X2 Y2 X3 Y3 X4 Y4 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91 5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89 Abscombe Graphs in statistical analysis The American Statistician 1973
Om vikten av att plotta data Anscoms kvartett X1 Y1 X2 Y2 X3 Y3 X4 Y4 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91 5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89 9.0 7.5 9.0 7.5 9.0 7.5 9.0 7.5 medelvärde
Om vikten av att plotta data Anpassa en regression per individ Y 1 =3+0.5X 1 Y 2 =3+0.5X 2 Y 3 =3+0.5X 3 Sum of squares x-x=110.0 Regression of of squares=27.5 Residual sum of squares=13.75 Degrees of freedom=9 Estimated standard error=0.118 R 2 =0.677 Y 4 =3+0.5X 4 Ingen skillnad!
Om vikten av att plotta data Y 1 mot X 1 Y 2 mot X 2 12 10 8 6 4 10 8 6 4 2 2 0 0 2 4 6 8 10 12 14 16 0 0 2 4 6 8 10 12 14 16 Y 3 mot X 3 Y 4 mot X 4 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 14 12 10 8 6 4 2 0 0 5 10 15 20