Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland



Relevanta dokument
Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Föreläsning 12: Regression

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

STATISTISK ANALYS AV KOMPLEXA DATA

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Multipel Regressionsmodellen

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Grundläggande matematisk statistik

Medicinsk statistik II

Statistiska samband: regression och korrelation

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Regressions- och Tidsserieanalys - F1

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor

Hur skriver man statistikavsnittet i en ansökan?

Höftledsdysplasi hos dansk-svensk gårdshund

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012

Sänkningen av parasitnivåerna i blodet

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

10.1 Enkel linjär regression

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

7.5 Experiment with a single factor having more than two levels

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Medicinsk statistik II

InStat Exempel 4 Korrelation och Regression

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Regressions- och Tidsserieanalys - F1

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

Att välja statistisk metod

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Uppgift 1. Deskripitiv statistik. Lön

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Exempel på tentamensuppgifter

Matematisk statistik för B, K, N, BME och Kemister

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

F9 SAMPLINGFÖRDELNINGAR (NCT

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Överlevnadsanalys. 732G34 Statistisk analys av komplexa data

Föreläsning 12: Linjär regression

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F13 Regression och problemlösning

Tentamen för kursen. Linjära statistiska modeller. 17 februari

F11. Kvantitativa prognostekniker

Svensk Dialysdatabas. Blodtryck och blodtrycksbehandling PD. Klinikdata hösten 2005 Översikt åren

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

MVE051/MSG Föreläsning 7

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Grunderna i epidemiologi Felkällor.

STATISTISK ANALYS AV KOMPLEXA DATA

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

STATISTISK ANALYS AV KOMPLEXA DATA

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Överlevnadsanalys. Överlevnadsanalys med tidsberoende kovariater. Tid till en händelse: observationer i kalendertid och som tid från start.

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Valresultat Riksdagen 2018

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Statistik 1 för biologer, logopeder och psykologer

Ekonomisk statistik 2 Economic statistics 2. Imputering

Följande resultat erhålls (enhet: 1000psi):

Hypotestestning och repetition

Transkript:

Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland

Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera mätningar per individ och en endpoint (Mediering) (Tidsberoende confounding) (Anscombs Kvartett)

Disclaimer Statistisk modellering av upprepade mätningar och tidsberoende data är svårt Viktiga detaljer saknas Rådfråga en statistiker!

Krossektionella data

Upprepade mätningar

Upprepade mätningar och utfall

Simpsons paradox Vi har ett antal observationer på BMI från ett register BMI Det ser ut som om BMI minskar över tid Kalendertid

Simpsons paradox Vi har ett antal observationer på BMI från ett register BMI Det ser ut som om BMI minskar över tid Men vi hade glömt att vi har två mätningar per individ BMI ökar för alla individer! Kalendertid Vem kommer med i registret?

Modeller för variation inom och mellan individer En mätning per individ utfall = Systematisk modell mellan individer + Slumpmodell mellan individer Flera mätningar per individ utfall = Systematisk modell mellan individer Slumpmodell mellan individer Systematisk modell inom individ + + + Slumpmodell inom individ

En observation per individ En grupp: Flera grupper: Regression: log y i = μ + ε i ε ij ~N 0, σ 2 i = 1,, n y ij = μ j + ε ij ε ij ~N 0, σ 2 i = 1,, n j = 1, 2 y i = α + βx i + ε i ε ij ~N 0, σ 2 i = 1,, n

Varför ha flera observationer på en individ? Man vill precisionen Medelvärde per individer Skillnad innom individer Man vill följan en individ över tid Uppföljning Övervakning Tid till händelse

Flera observationer per individ 10 patienter 1 mätning innan behandling 4 mätningar under behandling Analysstrategier: Ldl vid 4v. Förändring från baseline vid 4 v. Med baseline som kovariat Linjär regression Individuella regressioner Icke linjär modell Mixad ickelinjär modell Mixed repeated measures models 3 2,5 2 1,5 1 0,5 0 LDL (mg/dl) baseline 1 week 2 weeks 3 weeks 4 weeks G.E.P. Box: All models are wrong, but some models are useful

Förenkla till 2 observationer per individ Mätning av ldl före och efter behandling baseline 4 veckor 2,5 2.84 2.08 2.54 1.32 2 1.94 1.49 1.4 1.22 1,5 2.1 1.35 2.42 1.94 1 2.47 2.61 2.53 1.82 0,5 1.99 1.92 1.85 1.99 0 3 baseline LDL (mg/dl) 4 weeks

Om variation Vi kan dela upp variationen inom och mellan individer Individ 1 Individ 2 Y ij = μ + ξ i + ε ij ε ij ~N 0, σ 2 i=1,2 : individ j=1,2 : mätning oberoende ξ 1 ε 11 μ Fix effekt ξ 1, ξ 2 fixed Random effekt ξ i ~N 0, τ 2 1 vecka 2 veckor Det finns en korrelation på samma individ τ 2 σ 2 +τ 2 mellan mätningar

2 observationer per individ 3 2,5 2 1,5 1 0,5 0 LDL (mg/dl) baseline 4 weeks När lönar det sig att beräkna differenser inom individer? X ij = μ + γ T + ξ i + ε ij modellfel ~N 0, σ 2 Varians för ett värde efter behandling Var X i2 = τ 2 + σ 2 Individeffekt ~N 0, τ 2 Varians för skillnaden efter jämfört med före behandling Var X i2 X i1 = 2 σ 2 Skillnad inom individ är bra om variansen inom individer är större än variansen mellan individer

Förenkla till 2 observationer per individ Mätning av ldl före och efter behandling baseline 4 veckor difference 2,5 2.84 2.08-0.76 2.54 1.32-1.22 2 1.94 1.49-0.45 1.4 1.22-0.18 1,5 2.1 1.35-0.75 2.42 1.94-0.48 1 2.47 2.61 0.14 2.53 1.82-0.71 0,5 1.99 1.92-0.07 1.85 1.99 0.14 0 σ = 0.43 σ = 0.44 3 baseline LDL (mg/dl) 4 weeks Här vinner man inget på att räkna differenser!

Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 t En linje per grupp Modell: Y ij = α + β T t + ε ij Samma intercept Olika lutning ε ij ~N 0, σ 2

Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 t En linje per grupp Modell: Y ij = α T + β T t + ε Olika intercept ij Olika lutning ε ij ~N 0, σ 2

Flera observationer per individ LDL (mg/dl) μ + ξ ii 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 Modell: Y ij = μ + ξ i + β T t + ε ij t En linje per individ

Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 Modell: Y ij = μ + ξ i + β T t + ε ij ξ i ~N 0, τ 2 t En linje per individ Individuella intercept Lutning per behandling ε ij ~N 0, σ 2

Exempel på modeller

Flera observationer per individ LDL (mg/dl) 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 Modell: Y ij = y 0 e A α 1 e αt t + ε ij En linje per individ Olika parametrar Tolkningsbarhet! ε ij ~N 0, σ 2

Mixade generaliserade linjära modeller Exempel: Upprepade mätningar på fysisk aktivitet Y ij 0,1 logit P Y ij = 1 = μ + ξ i + τ + ε ij ε ij ~N 0, σ 2 ξ i ~N 0, τ 2 Funkar kanske inte så bra på rökning. eftersom variationen inom en individ ofta är mycket liten.

Mixade ickelinjära modeller Ibland är det inte realistiskt att ha linjära modeller Tillväxt av en tumör Det finns en undre (noll) övre gräns för tumörens storlek y ij = b 1 + μ 1i + ε ij 1 + exp t ij b 2 b 3 μ 1i ~N 0, σ u 2 ε ij ~N 0, σ ε 2 Mixade ickelinjära modeller är notoriskt besvärliga. Man måste nog kontrollera att beräkningen konvergerat. Kan vara känsligt för startvärden

Mixed repeated measure model Korrelationen inom en individ kan se olika ut Individ i Korrelationen är samma mellan alla värden de kommer från samma individ Individ i Korrelationen är mellan näraliggande värden är stark Man kan modellera korrelationsstrukturen!

Upprepade mätningar och tid till händelse

Patienter Tid-till-händelse-data Vi mäter tiden till en händelse för att kunna uttala oss om risk Observationerna är inte alltid kompletta - censurering Censurering Händelse Oobserverad händelse Tid

Ett exempel från NDR 33168 njursjuka NDR-patienter Median uppföljning: 5.15 år SBP, DBP, HbA1c, Hdl, Ldl, BMI Endpoint: Död Frågeställning: hur påverkar SBP (exempelvis) risken att dö?

Upprepade mätningar på SBP

Upprepade mätningar på SBP

Enkel analys, Kaplan-Meier Ofta ignorerar man alla mätningar på den förklarande variabeln, utom den första Vi har tid till död eller censurering och baseline blodtryck De med högt (>140) SBP verkar ha högst risk att dö

Hur modellera sambandet? Ibland jämför man värde för de med event med värdena för de som inte fick event under uppföljningen Problematiskt pga censurering prediktorer utfall Utfall=f(prediktorer)

Hur modellera sambandet? Hur beror risken för död på de förklarande variablerna? Coxregression! Lättast: Första mätningen lite knepigare: Senaste mätningen Fel: Genomsnitt av alla mätningar!! får ej se framåt i tiden!!

SBP Eller Coxregression λ t = λ 0 t exp β X När någon dör så jämförs dennes värde (här vid baseline) med värdena för de (andra) som fortfarande lever Oftas har den som dör högt SBP i förhållande till de andra som ännu lever Tid från index

Tids uppdaterade värden på SBP I stället för att använda värdet på SBP vid index kan vi använda senaste värdet λ t = λ 0 t exp β X t Vi försöker förklara risken att dö med det nuvarande värdet på SBP Vi skulle kunna använda det tidsuppdaterade medelvärdet

Det tiduppdaterade värdet är inte alltid aktuellt Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal

Det tiduppdaterade värdet är inte alltid aktuellt Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal Det blir lätt LVCF

Senaste värdet kan var problematiskt Den senaste mätningen av en förklarande variabel i en Coxregression kan vara påverkad av confounding Exempel Vi vill studera BMI som riskfaktor för cancer Cancer kan leda till hastig viktnedgång Ett BMI tätt innan en diagnos kan var påverkat av cancern Vi kan skippa senaste värdet, men hur blir det för individer vid risk?

Man får inte använda framtida värden Ibland används medelvärdet av samtliga mätningar av en förklarande variabel i en Coxregression Det kan leda till systematiska fel. Man får bara titta bakåt i tiden!

Varför är det fel att använda medelvärdet av alla mätnignar? Vid varje händelse fås ett bidrag till analysen där den aktuella personens värde jämförs med alla som ännu är vid risk Om det finns en underliggande trend (ex BMI ökar med ålder) så påverkas analysen av framtida värden Kan ge systematiska fel!

Att justera för confounders En Coxregression används ofta för att justera en jämförelse för potentiella confounders Man antar då en viss specifik loglinjär relation mellan varje confounder och utfallet. Så är inte alltid fallet

Allt är inte som man tror Ålder BMI SBP HbA1c Kreatinin Diabetesduration

Post index medierande variabler Exponering Utfall Mediering Exempel: Exponering: gastric bypass Mediering : BMI över tid Utfall: (tid till) död Analysmodell: coxregression Vad händer om vi har med post index BMI i en analysmodell?

Causal mediation analysis M X Y Y(x,M(x)) = utfallet* som observeras om vi sätter X=x och den mediatorn tar vädet M(x) dom den naturligt tar om X sätts till x Naturlig Direkt effekt: = Y(x,M(x)) Y(x*,M(x)) Naturlig Indirekt effekt: = Y(x*,M(x)) Y(x*,M(x*)) Total effekt: = Y(x,M(x)) Y(x*,M(x*)) Teori, SAS och R-kod finns (T Lange)

Exponering som ändras över tid - tidsberoende confounding Exponering Utfall Mediering Exempel: Exponering: behandling för blodtryck Mediering: blodtryck Utfall: (tid till) död En behandling ger ett tryck som i sin tur leder till en ändring av behandling

Summering Modellera variation mellan och inom individer Överlevnadsanalys kopplar förklarande variabler till risk Man kan bara se bakåt Enkelt är bra!

Backup

Om vikten av att plotta data Anscoms kvartett X1 Y1 X2 Y2 X3 Y3 X4 Y4 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91 5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89 Abscombe Graphs in statistical analysis The American Statistician 1973

Om vikten av att plotta data Anscoms kvartett X1 Y1 X2 Y2 X3 Y3 X4 Y4 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91 5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89 9.0 7.5 9.0 7.5 9.0 7.5 9.0 7.5 medelvärde

Om vikten av att plotta data Anpassa en regression per individ Y 1 =3+0.5X 1 Y 2 =3+0.5X 2 Y 3 =3+0.5X 3 Sum of squares x-x=110.0 Regression of of squares=27.5 Residual sum of squares=13.75 Degrees of freedom=9 Estimated standard error=0.118 R 2 =0.677 Y 4 =3+0.5X 4 Ingen skillnad!

Om vikten av att plotta data Y 1 mot X 1 Y 2 mot X 2 12 10 8 6 4 10 8 6 4 2 2 0 0 2 4 6 8 10 12 14 16 0 0 2 4 6 8 10 12 14 16 Y 3 mot X 3 Y 4 mot X 4 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 14 12 10 8 6 4 2 0 0 5 10 15 20