STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA

STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Mattias Villani Statistik Institutionen för Datavetenskap Linköpings Universitet MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 1 / 44

MOMENTETS INNEHÅLL Introduktion till longitudinella data Modeller för väntevärdesprofiler Modeller för kovariansmatriser Modeller med fixed och random effects R-paket för analys av longitudinella data MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 2 / 44

TVÄRSNITTSDATA (CROSS-SECTIONAL DATA) En mätning per individ/subjekt (blodtryck för individ i) Mätningen kan vara fler-dimensionell (blodtryck och kroppstemperatur för individ i) De olika mätvariablerna (blocktryck och temp) kan vara beroende/korrelerade Ingen tidsdimension Kan jämföra olika delpopulationer som råkar ha skilda åldrar, men ingen info om hur en given individ utvecklas över tiden Mellan-individ effekter, men inga inom-individ effekter Oparat t-test Vanlig modell: regression MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 3 / 44

EXEMPEL LUNGFUNKTION MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 4 / 44

TIDSSERIEDATA En mätvariabel som observeras över tid Oftast många mätningar över tiden (lång tidsserie med > 100 observationer) Beroende mellan mätningar vid olika tidpunkter Starkast beroende mellan närliggande tidpunkter Mätvariabeln kan vara fler-dimensionell Vanlig modell: ARIMA eller state-space modeller MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 5 / 44

LONGITUDINELLA DATA Samma individer observeras vid flera olika tidpunkter Ger information om en individs förändring över tiden Tänk parat t-test Kombo av tvärsnitts- och tidsseriedata Ofta få mätningar per individ (5-20 st) Longitudinella data är i princip korta tidsserier, men har egna modeller och metoder Mätningar mellan olika individer antas ofta vara oberoende Mätningarna för en individ tenderar att vara beroende Autokorrelation MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 7 / 44

VARFÖR ÄR DEN LONGITUDINELLA ASPEKTEN VIKTIG? MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 9 / 44

LONGITUDINELLA DATA, FORTS Egenskaper för autokorrelation i longitudinella data: Positiv Minskar med tidsavståndet mellan två observationer Korrelation mellan mycket långa tidsavstånd är ofta skild från noll Korrelation mellan mycket korta tidsavstånd är sällan nära ett Vanligt med missing data: Saknade mättillfällen Drop-outs Överlevare Besläktade datatyper: hierarkiska data (skolor med skolklasser med elever) spatiala (rumsliga) data (huspriser i olika städer, miljödata) tempo-spatiala data (månatliga mätningar av huspriser i olika städer) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 12 / 44

HUR MAN ORGANISERAR LONGITUDINELLA DATA fev <- readtable("/data/lungfunctiongrowthdat", header = TRUE) fev[1:18, ] ID Height Age InitialHeight InitialAge LogFEV1 1 1 120 9341 120 9341 02151 2 1 128 10393 120 9341 03716 3 1 133 11452 120 9341 04886 4 1 142 12460 120 9341 07514 5 1 148 13418 120 9341 08329 6 1 150 15474 120 9341 08920 7 1 152 16372 120 9341 08713 8 2 113 6587 113 6587 03075 9 2 119 7650 113 6587 03507 10 2 149 12739 113 6587 07561 11 2 153 13774 113 6587 08671 12 2 155 14694 113 6587 10473 13 2 156 15822 113 6587 11537 14 2 157 16668 113 6587 09243 15 2 157 17632 113 6587 11346 16 3 118 6913 118 6913 04318 17 3 123 7975 118 6913 03853 18 3 130 8966 118 6913 05988 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 13 / 44

BLYMÄNGDER HOS SMÅ BARN - KONTROLLGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 14 / 44

BLYMÄNGDER HOS SMÅ BARN - BEHANDLINGSGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 15 / 44

LONGITUDINELLA DATA ÄR MULTIVARIATA DATA Y i = n i 1 Y i1 Y i2 Y ini, i = 1, 2,, N Kan modelleras med multivariate normalfördelning, och multivariat regression Blymängder, kontrollgrupp: Corr(Y ) = 1 0829 0839 0755 1 0860 0759 1 0869 1 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 16 / 44

LONGITUDINELLA DATA ÄR MULTIVARIATA DATA MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 17 / 44

PROBLEM MED DIREKT MULTIVARIAT ANALYS Cov(Y ) innehåller T (T + 1)/2 fria parametrar, dvs många parametrar när T är stort Missing data och drop-outs Y 11 Y 1 = Y 12 Y 13 Y 14, Y 2 = Y 21 NA NA NA, Y 3 = Olika individer kan observeras vid olika tidpunkter Y 31 Y 32 NA Y 34 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 18 / 44

Var( ˆθ) = σ2 1 + σ2 2 2ρ 12σ 1 σ 2 N MATTIASvilken VILLANI är (STATISTIK, liten vid LIU) stark positiv LONGITUDINELLA (auto)korrelation DATA 19 / 44 AUTOKORRELERADE MÄTNINGAR ÄR BRA Intresse: förändringen mellan två tidpunkter θ = µ 2 µ 1 Modell för tidpunkt 1 och 2 Notera: Y 1 N(µ 1, σ 2 1 ) Y 2 N(µ 2, σ 2 2 ) E (Y 2 Y 1 ) = µ 2 µ 1 Var(Y 2 Y 1 ) = σ 2 1 + σ 2 2 2ρ 12 σ 1 σ 2 Estimator av förändringen mellan tidpunkterna: Samplingvarians för ˆθ ˆθ = 1 N N i=1 (Y i2 Y i1 )

MODELL FÖR VÄNTEVÄRDESPROFILER Väntevärdesprofilen, mean response profile, över tiden för individ i: E (Y ij ) = β 0 + β 1 t ij + β 2 t 2 ij, i = 1,, N och j = 1,, n i Andra parametriska kurvor går också bra, t ex splines Vi kan även ha en annan förklarande variabel X 1 som är konstant över tiden (tidsinvariant): E (Y ij X i ) = β 0 + β 1 t ij + β 2 t 2 ij + β 3 X i,1 Och vi kan ha en förklarande variabel som varierar över tid (tidsvariant) E (Y ij X i ) = β 0 + β 1 t ij + β 2 t 2 ij + β 3 X i,1 + β 4 X ij,2 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 20 / 44

HUR MAN ORGANISERAR LONGITUDINELLA DATA fev <- readtable("/data/lungfunctiongrowthdat", header = TRUE) fev[1:18, ] ID Height Age InitialHeight InitialAge LogFEV1 1 1 120 9341 120 9341 02151 2 1 128 10393 120 9341 03716 3 1 133 11452 120 9341 04886 4 1 142 12460 120 9341 07514 5 1 148 13418 120 9341 08329 6 1 150 15474 120 9341 08920 7 1 152 16372 120 9341 08713 8 2 113 6587 113 6587 03075 9 2 119 7650 113 6587 03507 10 2 149 12739 113 6587 07561 11 2 153 13774 113 6587 08671 12 2 155 14694 113 6587 10473 13 2 156 15822 113 6587 11537 14 2 157 16668 113 6587 09243 15 2 157 17632 113 6587 11346 16 3 118 6913 118 6913 04318 17 3 123 7975 118 6913 03853 18 3 130 8966 118 6913 05988 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 21 / 44

MODELLER FÖR VÄNTEVÄRDESPROFILER, FORTS Vi kan skriva modellen in matrisform för Y i = (Y i1, Y i2,, Y in ) E (Y i X i ) = µ i = X i β Exempel: för modellen har vi E (y ij x) = β 0 + β 1 t + β 2 t 2 + β 3 x 1,i + β 4 x 2,ij 1 t i1 t 2 i1 x 1,i x 2,i1 1 t i2 ti2 2 x 1,i x 2,i1 X i = 1 t ini tin 2 i x 1,i x 2,ini Notera: multivariat regression (multivariat respons) = Multipel regression (en respons, flera förklarande variabler) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 22 / 44

VÄNTEVÄRDESPROFILER MED TVÅ GRUPPER Kontrollgruppens väntevärdesprofil E (y ij x i ) = β 0 + β 1 t + β 2 t 2 Behandlingsgruppens väntevärdesprofil: E (y ij x i ) = (β 0 + β 3 ) + (β 1 + β 4 ) t + (β 2 + β 5 ) t 2 Testa om behandlingen har någon som helst effekt: H 0 : β 3 = β 4 = β 5 = 0 Vanligt F-test MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 23 / 44

VÄNTEVÄRDESPROFILER MED TVÅ GRUPPER, FORTS Datamatris Första personen kontroll, andra personen behandlad X i = 1 t 11 t 2 11 0 0 0 1 t 12 t 2 12 0 0 0 1 t 1n1 t 2 i1n 1 0 0 0 1 t 21 t 2 21 1 t 21 t 2 21 1 t 22 t 2 22 1 t 22 t 2 22 1 t 2n2 t 2 2n 2 1 t 2n2 t 2 2n 2 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 24 / 44

VÄNTEVÄRDESPROFILER MED TVÅ GRUPPER, FORTS R sätter upp X i åt oss utifrån följande datamatris 1 Y 11 t 11 T 1 Y 12 t 12 T 1 Y 1n1 t 1n1 T Data = 2 Y 21 t 21 C 2 Y 22 t 22 C 2 Y 2n2 t 2n2 C där den första kolumnen indikerar individ och sista kolumnen är en faktor-variabel som indikerar behandling (T) eller kontroll (C) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 25 / 44

ESTIMATION Modell Y i = X i n i 1 β n i pp 1 + ɛ i n i 1 iid där ɛ i N(0, Ri ) Antag att R i är kända Generalized Least Squares (GLS) ˆβ = [ N X i=1 i Ri 1 X i ] 1 N (X i Ri 1 y i ) i=1 Notera: att n i kan variera över individerna X i R 1 i X i är alltid en p p matris ocjh X i R 1 i y i är en p dimensional vektor När R i är okänd kan den ersättas med en skattning Fortfarande konsistent skattning av β Vi kan faktiskt sätta R i = σ 2 I och ändå få konsistenta skattningar Men standardfelen för ˆβ blir inte rätt Sandwich MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 26 / 44

FUNKTIONEN GLS I R-PAKETET NLME - ALLMÄN # Fitting quadratic mean response profiles with GLS model using different # covariance structures Child lead data - GLS library(nlme) # Reading data from file leaddata <- readtable("/data/leaddatapp") # General symmetric covariance structure modelsym <- gls(lead ~ 1 + time * group + I(time^2) * group, data = leaddata, correlation = corsymm(form = ~1 id)) summary(modelsym) Generalized least squares fit by REML Model: lead ~ 1 + time * group + I(time^2) * group Data: leaddata AIC BIC loglik 2562 2614-1268 Correlation Structure: General Formula: ~1 id Parameter estimate(s): Correlation: 1 2 3 2 0236 3 0592 0615 4 0427 0529 0526 Coefficients: Value StdError t-value p-value (Intercept) 22458 07831 28677 00000 time -6194 05610-11040 00000 groupp 3333 11075 3009 00028 MATTIAS I(time^2) VILLANI (STATISTIK, 1017 00965 LIU) 10536 00000 LONGITUDINELLA DATA 27 / 44

FUNKTIONEN GLS I R-PAKETET NLME - EQUI # Fitting quadratic mean response profiles with GLS model using different # covariance structures Child lead data - GLS library(nlme) # Reading data from file leaddata <- readtable("/data/leaddatapp") # General symmetric covariance structure modelsym <- gls(lead ~ 1 + time * group + I(time^2) * group, data = leaddata, correlation = corcompsymm(form = ~1 id)) summary(modelsym) Generalized least squares fit by REML Model: lead ~ 1 + time * group + I(time^2) * group Data: leaddata AIC BIC loglik 2573 2605-1279 Correlation Structure: Compound symmetry Formula: ~1 id Parameter estimate(s): Rho 05196 Coefficients: Value StdError t-value p-value (Intercept) 23973 09267 25870 00000 time -7541 06066-12432 00000 groupp 1996 13105 1523 01285 I(time^2) 1196 00992 12059 00000 time:groupp 6624 08578 7722 00000 groupp:i(time^2) -1104 01403-7873 00000 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 28 / 44

FUNKTIONEN GLS I R-PAKETET NLME - AR1 # Fitting quadratic mean response profiles with GLS model using different # covariance structures Child lead data - GLS library(nlme) # Reading data from file leaddata <- readtable("/data/leaddatapp") # General symmetric covariance structure modelsym <- gls(lead ~ 1 + time * group + I(time^2) * group, data = leaddata, correlation = corar1(form = ~1 id)) summary(modelsym) Generalized least squares fit by REML Model: lead ~ 1 + time * group + I(time^2) * group Data: leaddata AIC BIC loglik 2612 2643-1298 Correlation Structure: AR(1) Formula: ~1 id Parameter estimate(s): Phi 04914 Coefficients: Value StdError t-value p-value (Intercept) 23911 09297 25718 00000 time -6878 06746-10195 00000 groupp 2051 13149 1560 01196 I(time^2) 1090 01062 10266 00000 time:groupp 6039 09540 6330 00000 groupp:i(time^2) -1011 01502-6732 00000 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 29 / 44

BLYMÄNGDER - FITTED VALUES FRÅN GLS EQUICORR MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 30 / 44

BLYMÄNGDER HOS SMÅ BARN - KONTROLLGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 31 / 44

BLYMÄNGDER HOS SMÅ BARN - BEHANDLINGSGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 32 / 44

MODELLER FÖR KOVARIANSMATRISEN R i = σ 2 i I n Oberoende observationer med olika varians för varje individ Specialfall: σ i = σ 2 för alla i Equikorrelationsmodell R = σ1 2 ρσ 1 σ 2 ρσ 1 σ n ρσ 1 σ 2 σ2 2 ρσ 2 σ n ρσ 1 σ n ρσ 2 σ n σn 2 med korrelationsmatris P = 1 ρ ρ ρ 1 ρ ρ ρ 1 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 33 / 44

MODELLER FÖR KOVARIANSMATRISEN, FORTS Autoregressiv struktur P = 1 ρ 1 ρ n 1 ρ 1 1 ρ n 2 ρ n 1 ρ n 2 1 där autokorrelationen avtar med tidsavståndet, t ex Corr(Y i1, Y i4 ) = ρ 3 Autoregressiv struktur för data med olika tid mellan observationstillfällen: Corr(Y ij, Y ik ) = ρ t ij t ik MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 34 / 44

VARIOGRAM Variogram beskriver det temporala beroendet för en stokastisk process med oregelbundna observationstider γ(u) = 1 2 E {[Y (t) Y (t u)] 2}, u 0 Om processen är stationär gäller följande relation mellan variogram och autokorrelationsfunktion γ(u) = σ 2 [1 ρ(u)], där σ 2 är variansen för Y (t) Sample variogram anpassar en mjuk kurva genom punkterna v ijk = 1 2 (e ij e ik ) där e ij är residualen vid tidpunkt t ij och u ijk = t ij t ik Funktionen Variogram i R-paketet nlme beräknar variogrammet på gls-objekt och lme-objekt MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 35 / 44

FIXED EFFECTS OCH RANDOM EFFECTS Den vanliga linjära modellen (Fixed effects) Random intercept model: Y ij = β 0 + β 1 X ij + ɛ ij Y ij = (β 0 + b i ) + β 1 X ij + ɛ ij där b i N(0, σb 2 ) är den individ-specifika delen av interceptet Slumpmässigt Marginell väntevärdesprofil Betingad väntevärdesprofil E (Y ij X ij ) = β 0 + β 1 X ij E (Y ij X ij, b i ) = (β 0 + b i ) + β 1 X ij MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 36 / 44

KOVARIANSSTRUKTUR FRÅN RANDOM INTERCEPT Kovariansen för en random intercept modell är σb 2 σb 2 σb 2 σb 2 σb 2 σb 2 Cov(Y i ) = σb 2 σb 2 σb 2 + R i Om R i = σ 2 I n ger detta en ekvi-korrelationsmatris med korrelationskoefficienten ρ = σ2 b σ 2 +σ 2 b Ett slumpmässigt intercept ger varje individ dess eget intercept innebär: observationerna är oberoende kring den betingade väntevärdesprofilen (β 0 + b i ) + β 1 X ij observationerna för en individ är beroende kring det marginella väntevärdet β 0 + β 1 X ij Autokorrelation genom random intercept MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 37 / 44

FIXED EFFECTS OCH RANDOM EFFECTS Random slope Y ij = (β 0 + b 0i ) + (β 1 + b 1i )X ij + ɛ ij där (b 0i, b 1i ) N 2 (0, D) är den individ-specifika delen Slumpmässigt General Linear Mixed Model (GLMM) Y i = X i β + Z i b i + ɛ i b i iid Nq (0, D) ε i iid Np (0, R i ) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 38 / 44

VÄNTEVÄRDE OCH COVARIANS - GLMM Marginell väntevärdesprofil Betingad väntevärdesprofil Kovariansmatris E (Y i X ij ) = X i β E (Y i X i, b i ) = X i β + Z i b i Σ 1 = Cov(Y i ) = Z i GZ i + R i Notera 1: Cov(Y i ) visar tydligt att variationen i data kan delas upp i mellan-individsvariation (Z i GZ i ) och inom-individsvariation (R i ) Notera 2: varianser och kovarianser för Y i kan nu bero på förklarande variabler (Z i ) Linjär tidstrend i Z i ger kvadratisk tidstrend i variansen Notera 3: variablerna i Z i bör även ingå i X i Notera 4: R i kan parametriseras som tidigare, t ex via equi-korrelationmatris eller autoregressive struktur MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 39 / 44

KRYMPNING - LÅNA STYRKA GLMM modellen: Y i = X i β + Z i b i + ɛ i Responsprofilen för den ite individen är Ŷ i = W i (X i ˆβ) + (I W i ) Y i där ˆβ är GLS skattning på populationsnivå och viktmatrisen W i är Intuition: W i = ˆR i (Z i ĜZ i + ˆR i ) 1 p p Ŷ i = Vikt Populationsprofil + (1-Vikt) Observerad profil Variation inom individ Vikt = Variation mellan individer + Variation inom individ Individer med svaga observationer (stort R i ) lånar styrka från populationen MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 40 / 44

MODELLVAL Hur väljer man bland modeller? vilken modell för vänteväntevärdesprofilen? vilken struktur på kovariansmatrisen? Fixed eller random effects? Vilka förklarande variabler? etc etc Strategi: välj den modell som minimerar ett informationskriterium AIC: 2 MaxLogLik + 2 (#antal parametrar i modellen) BIC 2 MaxLogLik + ln N (#antal parametrar i modellen) där MaxLogLik är log-likelihoodfunktionens maximum (ln L( ˆθ)) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 41 / 44

LONGITUDINELL ANALYS I R Flera paket att välja på, framförallt: nlme och lme4 nlme kan skatta linear mixed models med normalfördelade störningar (ɛ) och normalfördelade random effects (b i ) Många options, t ex olika strukturer på R i = Cov(ɛ ij ) och D = Cov(b i ) T o m heteroscedastiska modeller för variansen är möjliga lme4 liknar nlme, men har inte lika många kovarianstrukturer att välja på Men lme4 kan skatta linear mixed models för data där responsen t ex är räknedata eller binär lme4 kan alltså skatta en logistisk regression med fixed och random effects SAS har PROC MIXED Se Lindas föreläsningar om hierarkiska data MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 42 / 44

EXEMPEL - LONGITUDINELL ANALYS MED NLME # installpackages('nlme') # install package uncomment if not installed library(nlme) # load package fev <- readtable("/data/lungfunctiongrowthdat", header = TRUE) modelrandomslopear1 <- lme(fixed = LogFEV1 ~ 1 + Age + log(height) + InitialAge + log(initialheight), random = ~1 + Age ID, data = fev, correlation = corar1()) summary(modelrandomslopear1) Linear mixed-effects model fit by REML Data: fev AIC BIC loglik -4588-4532 2304 Random effects: Formula: ~1 + Age ID Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 0102919 (Intr) Age 0004731-0294 Residual 0067148 Correlation Structure: AR(1) Formula: ~1 ID Parameter estimate(s): Phi 03473 Fixed effects: LogFEV1 ~ 1 + Age + log(height) + InitialAge + log(initialheight) Value StdError DF t-value p-value (Intercept) -02719 004248 1692-640 00000 Age 00225 000164 1692 1371 00000 log(height) 22546 005328 1692 4231 00000 InitialAge -00217 000819 297-266 00083 log(initialheight) 03350 016040 297 209 00376 MATTIAS Correlation: VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 43 / 44

BLYMÄNGD - RANDOM INTERCEPT MODELL # installpackages('nlme') # install package uncomment if not installed library(nlme) # load package leaddata <- readtable("/data/leaddatapp") # Fitting a random intercept model modelrandomintercept <- lme(fixed = lead ~ 1 + time * group + I(time^2) * group, random = ~1 id, data = leaddata, correlation = NULL) modelrandomintercept$coef$fixed (Intercept) time groupp I(time^2) 23973-7541 1996 1196 time:groupp groupp:i(time^2) 6624-1104 var(modelrandomintercept$coef$random[[1]]) (Intercept) (Intercept) 1997 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 44 / 44