STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA

Relevanta dokument
TVÄRSNITTSDATA (CROSS-SECTIONAL DATA)

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

Stokastiska processer med diskret tid

Finansiell statistik. Multipel regression. 4 maj 2011

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Bayesiansk statistik, 732g43, 7.5 hp

TRE TYPER AV SPATIALA DATA

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

STATISTISK ANALYS AV KOMPLEXA DATA SPATIALA DATA

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Stokastiska processer med diskret tid

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Tentamen MVE301 Sannolikhet, statistik och risk

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 7: Punktskattningar

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Formler och tabeller till kursen MSG830

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Föreläsning 12: Linjär regression

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning 7: Punktskattningar

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

MVE051/MSG Föreläsning 14

Stokastiska vektorer

3 Maximum Likelihoodestimering

Regressions- och Tidsserieanalys - F7

Föreläsning 11: Mer om jämförelser och inferens

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

7.5 Experiment with a single factor having more than two levels

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 13: Multipel Regression

STATISTISK ANALYS AV KOMPLEXA DATA SPATIALA DATA

Tentamen MVE301 Sannolikhet, statistik och risk

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Kossor, tallsteklar och sockerärter Statistik vid Sveriges Lantbruksuniversitet

Stokastiska vektorer och multivariat normalfördelning

Statistisk analys av komplexa data

S0005M, Föreläsning 2

F13 Regression och problemlösning

Grundläggande matematisk statistik

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

oberoende av varandra så observationerna är

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Tentamen MVE301 Sannolikhet, statistik och risk

Något om val mellan olika metoder

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Skrivning i ekonometri lördagen den 25 augusti 2007

10.1 Enkel linjär regression

Föreläsning 7: Stokastiska vektorer

Regressions- och Tidsserieanalys - F1

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tidsserier och Prognoser

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Föreläsning 7. Statistikens grunder.

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Enkel och multipel linjär regression

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Korrelation och autokorrelation

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

SF1901 Sannolikhetsteori och statistik I

TRE TYPER AV SPATIALA DATA

Metod och teori. Statistik för naturvetare Umeå universitet

Statistiska metoder för säkerhetsanalys

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen MVE302 Sannolikhet och statistik

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Matematisk statistik för B, K, N, BME och Kemister

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

GMM och Estimationsfunktioner

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen MVE302 Sannolikhet och statistik

Transkript:

STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Mattias Villani Statistik Institutionen för Datavetenskap Linköpings Universitet MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 1 / 44

MOMENTETS INNEHÅLL Introduktion till longitudinella data Modeller för väntevärdesprofiler Modeller för kovariansmatriser Modeller med fixed och random effects R-paket för analys av longitudinella data MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 2 / 44

TVÄRSNITTSDATA (CROSS-SECTIONAL DATA) En mätning per individ/subjekt (blodtryck för individ i) Mätningen kan vara fler-dimensionell (blodtryck och kroppstemperatur för individ i) De olika mätvariablerna (blocktryck och temp) kan vara beroende/korrelerade Ingen tidsdimension Kan jämföra olika delpopulationer som råkar ha skilda åldrar, men ingen info om hur en given individ utvecklas över tiden Mellan-individ effekter, men inga inom-individ effekter Oparat t-test Vanlig modell: regression MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 3 / 44

EXEMPEL LUNGFUNKTION MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 4 / 44

TIDSSERIEDATA En mätvariabel som observeras över tid Oftast många mätningar över tiden (lång tidsserie med > 100 observationer) Beroende mellan mätningar vid olika tidpunkter Starkast beroende mellan närliggande tidpunkter Mätvariabeln kan vara fler-dimensionell Vanlig modell: ARIMA eller state-space modeller MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 5 / 44

EXEMPEL LUNGFUNKTION MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 6 / 44

LONGITUDINELLA DATA Samma individer observeras vid flera olika tidpunkter Ger information om en individs förändring över tiden Tänk parat t-test Kombo av tvärsnitts- och tidsseriedata Ofta få mätningar per individ (5-20 st) Longitudinella data är i princip korta tidsserier, men har egna modeller och metoder Mätningar mellan olika individer antas ofta vara oberoende Mätningarna för en individ tenderar att vara beroende Autokorrelation MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 7 / 44

EXEMPEL LUNGFUNKTION MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 8 / 44

VARFÖR ÄR DEN LONGITUDINELLA ASPEKTEN VIKTIG? MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 9 / 44

VARFÖR ÄR DEN LONGITUDINELLA ASPEKTEN VIKTIG? MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 10 / 44

VARFÖR ÄR DEN LONGITUDINELLA ASPEKTEN VIKTIG? MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 11 / 44

LONGITUDINELLA DATA, FORTS Egenskaper för autokorrelation i longitudinella data: Positiv Minskar med tidsavståndet mellan två observationer Korrelation mellan mycket långa tidsavstånd är ofta skild från noll Korrelation mellan mycket korta tidsavstånd är sällan nära ett Vanligt med missing data: Saknade mättillfällen Drop-outs Överlevare Besläktade datatyper: hierarkiska data (skolor med skolklasser med elever) spatiala (rumsliga) data (huspriser i olika städer, miljödata) tempo-spatiala data (månatliga mätningar av huspriser i olika städer) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 12 / 44

HUR MAN ORGANISERAR LONGITUDINELLA DATA fev <- readtable("/data/lungfunctiongrowthdat", header = TRUE) fev[1:18, ] ID Height Age InitialHeight InitialAge LogFEV1 1 1 120 9341 120 9341 02151 2 1 128 10393 120 9341 03716 3 1 133 11452 120 9341 04886 4 1 142 12460 120 9341 07514 5 1 148 13418 120 9341 08329 6 1 150 15474 120 9341 08920 7 1 152 16372 120 9341 08713 8 2 113 6587 113 6587 03075 9 2 119 7650 113 6587 03507 10 2 149 12739 113 6587 07561 11 2 153 13774 113 6587 08671 12 2 155 14694 113 6587 10473 13 2 156 15822 113 6587 11537 14 2 157 16668 113 6587 09243 15 2 157 17632 113 6587 11346 16 3 118 6913 118 6913 04318 17 3 123 7975 118 6913 03853 18 3 130 8966 118 6913 05988 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 13 / 44

BLYMÄNGDER HOS SMÅ BARN - KONTROLLGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 14 / 44

BLYMÄNGDER HOS SMÅ BARN - BEHANDLINGSGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 15 / 44

LONGITUDINELLA DATA ÄR MULTIVARIATA DATA Y i = n i 1 Y i1 Y i2 Y ini, i = 1, 2,, N Kan modelleras med multivariate normalfördelning, och multivariat regression Blymängder, kontrollgrupp: Corr(Y ) = 1 0829 0839 0755 1 0860 0759 1 0869 1 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 16 / 44

LONGITUDINELLA DATA ÄR MULTIVARIATA DATA MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 17 / 44

PROBLEM MED DIREKT MULTIVARIAT ANALYS Cov(Y ) innehåller T (T + 1)/2 fria parametrar, dvs många parametrar när T är stort Missing data och drop-outs Y 11 Y 1 = Y 12 Y 13 Y 14, Y 2 = Y 21 NA NA NA, Y 3 = Olika individer kan observeras vid olika tidpunkter Y 31 Y 32 NA Y 34 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 18 / 44

Var( ˆθ) = σ2 1 + σ2 2 2ρ 12σ 1 σ 2 N MATTIASvilken VILLANI är (STATISTIK, liten vid LIU) stark positiv LONGITUDINELLA (auto)korrelation DATA 19 / 44 AUTOKORRELERADE MÄTNINGAR ÄR BRA Intresse: förändringen mellan två tidpunkter θ = µ 2 µ 1 Modell för tidpunkt 1 och 2 Notera: Y 1 N(µ 1, σ 2 1 ) Y 2 N(µ 2, σ 2 2 ) E (Y 2 Y 1 ) = µ 2 µ 1 Var(Y 2 Y 1 ) = σ 2 1 + σ 2 2 2ρ 12 σ 1 σ 2 Estimator av förändringen mellan tidpunkterna: Samplingvarians för ˆθ ˆθ = 1 N N i=1 (Y i2 Y i1 )

MODELL FÖR VÄNTEVÄRDESPROFILER Väntevärdesprofilen, mean response profile, över tiden för individ i: E (Y ij ) = β 0 + β 1 t ij + β 2 t 2 ij, i = 1,, N och j = 1,, n i Andra parametriska kurvor går också bra, t ex splines Vi kan även ha en annan förklarande variabel X 1 som är konstant över tiden (tidsinvariant): E (Y ij X i ) = β 0 + β 1 t ij + β 2 t 2 ij + β 3 X i,1 Och vi kan ha en förklarande variabel som varierar över tid (tidsvariant) E (Y ij X i ) = β 0 + β 1 t ij + β 2 t 2 ij + β 3 X i,1 + β 4 X ij,2 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 20 / 44

HUR MAN ORGANISERAR LONGITUDINELLA DATA fev <- readtable("/data/lungfunctiongrowthdat", header = TRUE) fev[1:18, ] ID Height Age InitialHeight InitialAge LogFEV1 1 1 120 9341 120 9341 02151 2 1 128 10393 120 9341 03716 3 1 133 11452 120 9341 04886 4 1 142 12460 120 9341 07514 5 1 148 13418 120 9341 08329 6 1 150 15474 120 9341 08920 7 1 152 16372 120 9341 08713 8 2 113 6587 113 6587 03075 9 2 119 7650 113 6587 03507 10 2 149 12739 113 6587 07561 11 2 153 13774 113 6587 08671 12 2 155 14694 113 6587 10473 13 2 156 15822 113 6587 11537 14 2 157 16668 113 6587 09243 15 2 157 17632 113 6587 11346 16 3 118 6913 118 6913 04318 17 3 123 7975 118 6913 03853 18 3 130 8966 118 6913 05988 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 21 / 44

MODELLER FÖR VÄNTEVÄRDESPROFILER, FORTS Vi kan skriva modellen in matrisform för Y i = (Y i1, Y i2,, Y in ) E (Y i X i ) = µ i = X i β Exempel: för modellen har vi E (y ij x) = β 0 + β 1 t + β 2 t 2 + β 3 x 1,i + β 4 x 2,ij 1 t i1 t 2 i1 x 1,i x 2,i1 1 t i2 ti2 2 x 1,i x 2,i1 X i = 1 t ini tin 2 i x 1,i x 2,ini Notera: multivariat regression (multivariat respons) = Multipel regression (en respons, flera förklarande variabler) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 22 / 44

VÄNTEVÄRDESPROFILER MED TVÅ GRUPPER Kontrollgruppens väntevärdesprofil E (y ij x i ) = β 0 + β 1 t + β 2 t 2 Behandlingsgruppens väntevärdesprofil: E (y ij x i ) = (β 0 + β 3 ) + (β 1 + β 4 ) t + (β 2 + β 5 ) t 2 Testa om behandlingen har någon som helst effekt: H 0 : β 3 = β 4 = β 5 = 0 Vanligt F-test MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 23 / 44

VÄNTEVÄRDESPROFILER MED TVÅ GRUPPER, FORTS Datamatris Första personen kontroll, andra personen behandlad X i = 1 t 11 t 2 11 0 0 0 1 t 12 t 2 12 0 0 0 1 t 1n1 t 2 i1n 1 0 0 0 1 t 21 t 2 21 1 t 21 t 2 21 1 t 22 t 2 22 1 t 22 t 2 22 1 t 2n2 t 2 2n 2 1 t 2n2 t 2 2n 2 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 24 / 44

VÄNTEVÄRDESPROFILER MED TVÅ GRUPPER, FORTS R sätter upp X i åt oss utifrån följande datamatris 1 Y 11 t 11 T 1 Y 12 t 12 T 1 Y 1n1 t 1n1 T Data = 2 Y 21 t 21 C 2 Y 22 t 22 C 2 Y 2n2 t 2n2 C där den första kolumnen indikerar individ och sista kolumnen är en faktor-variabel som indikerar behandling (T) eller kontroll (C) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 25 / 44

ESTIMATION Modell Y i = X i n i 1 β n i pp 1 + ɛ i n i 1 iid där ɛ i N(0, Ri ) Antag att R i är kända Generalized Least Squares (GLS) ˆβ = [ N X i=1 i Ri 1 X i ] 1 N (X i Ri 1 y i ) i=1 Notera: att n i kan variera över individerna X i R 1 i X i är alltid en p p matris ocjh X i R 1 i y i är en p dimensional vektor När R i är okänd kan den ersättas med en skattning Fortfarande konsistent skattning av β Vi kan faktiskt sätta R i = σ 2 I och ändå få konsistenta skattningar Men standardfelen för ˆβ blir inte rätt Sandwich MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 26 / 44

FUNKTIONEN GLS I R-PAKETET NLME - ALLMÄN # Fitting quadratic mean response profiles with GLS model using different # covariance structures Child lead data - GLS library(nlme) # Reading data from file leaddata <- readtable("/data/leaddatapp") # General symmetric covariance structure modelsym <- gls(lead ~ 1 + time * group + I(time^2) * group, data = leaddata, correlation = corsymm(form = ~1 id)) summary(modelsym) Generalized least squares fit by REML Model: lead ~ 1 + time * group + I(time^2) * group Data: leaddata AIC BIC loglik 2562 2614-1268 Correlation Structure: General Formula: ~1 id Parameter estimate(s): Correlation: 1 2 3 2 0236 3 0592 0615 4 0427 0529 0526 Coefficients: Value StdError t-value p-value (Intercept) 22458 07831 28677 00000 time -6194 05610-11040 00000 groupp 3333 11075 3009 00028 MATTIAS I(time^2) VILLANI (STATISTIK, 1017 00965 LIU) 10536 00000 LONGITUDINELLA DATA 27 / 44

FUNKTIONEN GLS I R-PAKETET NLME - EQUI # Fitting quadratic mean response profiles with GLS model using different # covariance structures Child lead data - GLS library(nlme) # Reading data from file leaddata <- readtable("/data/leaddatapp") # General symmetric covariance structure modelsym <- gls(lead ~ 1 + time * group + I(time^2) * group, data = leaddata, correlation = corcompsymm(form = ~1 id)) summary(modelsym) Generalized least squares fit by REML Model: lead ~ 1 + time * group + I(time^2) * group Data: leaddata AIC BIC loglik 2573 2605-1279 Correlation Structure: Compound symmetry Formula: ~1 id Parameter estimate(s): Rho 05196 Coefficients: Value StdError t-value p-value (Intercept) 23973 09267 25870 00000 time -7541 06066-12432 00000 groupp 1996 13105 1523 01285 I(time^2) 1196 00992 12059 00000 time:groupp 6624 08578 7722 00000 groupp:i(time^2) -1104 01403-7873 00000 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 28 / 44

FUNKTIONEN GLS I R-PAKETET NLME - AR1 # Fitting quadratic mean response profiles with GLS model using different # covariance structures Child lead data - GLS library(nlme) # Reading data from file leaddata <- readtable("/data/leaddatapp") # General symmetric covariance structure modelsym <- gls(lead ~ 1 + time * group + I(time^2) * group, data = leaddata, correlation = corar1(form = ~1 id)) summary(modelsym) Generalized least squares fit by REML Model: lead ~ 1 + time * group + I(time^2) * group Data: leaddata AIC BIC loglik 2612 2643-1298 Correlation Structure: AR(1) Formula: ~1 id Parameter estimate(s): Phi 04914 Coefficients: Value StdError t-value p-value (Intercept) 23911 09297 25718 00000 time -6878 06746-10195 00000 groupp 2051 13149 1560 01196 I(time^2) 1090 01062 10266 00000 time:groupp 6039 09540 6330 00000 groupp:i(time^2) -1011 01502-6732 00000 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 29 / 44

BLYMÄNGDER - FITTED VALUES FRÅN GLS EQUICORR MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 30 / 44

BLYMÄNGDER HOS SMÅ BARN - KONTROLLGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 31 / 44

BLYMÄNGDER HOS SMÅ BARN - BEHANDLINGSGRUPP MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 32 / 44

MODELLER FÖR KOVARIANSMATRISEN R i = σ 2 i I n Oberoende observationer med olika varians för varje individ Specialfall: σ i = σ 2 för alla i Equikorrelationsmodell R = σ1 2 ρσ 1 σ 2 ρσ 1 σ n ρσ 1 σ 2 σ2 2 ρσ 2 σ n ρσ 1 σ n ρσ 2 σ n σn 2 med korrelationsmatris P = 1 ρ ρ ρ 1 ρ ρ ρ 1 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 33 / 44

MODELLER FÖR KOVARIANSMATRISEN, FORTS Autoregressiv struktur P = 1 ρ 1 ρ n 1 ρ 1 1 ρ n 2 ρ n 1 ρ n 2 1 där autokorrelationen avtar med tidsavståndet, t ex Corr(Y i1, Y i4 ) = ρ 3 Autoregressiv struktur för data med olika tid mellan observationstillfällen: Corr(Y ij, Y ik ) = ρ t ij t ik MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 34 / 44

VARIOGRAM Variogram beskriver det temporala beroendet för en stokastisk process med oregelbundna observationstider γ(u) = 1 2 E {[Y (t) Y (t u)] 2}, u 0 Om processen är stationär gäller följande relation mellan variogram och autokorrelationsfunktion γ(u) = σ 2 [1 ρ(u)], där σ 2 är variansen för Y (t) Sample variogram anpassar en mjuk kurva genom punkterna v ijk = 1 2 (e ij e ik ) där e ij är residualen vid tidpunkt t ij och u ijk = t ij t ik Funktionen Variogram i R-paketet nlme beräknar variogrammet på gls-objekt och lme-objekt MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 35 / 44

FIXED EFFECTS OCH RANDOM EFFECTS Den vanliga linjära modellen (Fixed effects) Random intercept model: Y ij = β 0 + β 1 X ij + ɛ ij Y ij = (β 0 + b i ) + β 1 X ij + ɛ ij där b i N(0, σb 2 ) är den individ-specifika delen av interceptet Slumpmässigt Marginell väntevärdesprofil Betingad väntevärdesprofil E (Y ij X ij ) = β 0 + β 1 X ij E (Y ij X ij, b i ) = (β 0 + b i ) + β 1 X ij MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 36 / 44

KOVARIANSSTRUKTUR FRÅN RANDOM INTERCEPT Kovariansen för en random intercept modell är σb 2 σb 2 σb 2 σb 2 σb 2 σb 2 Cov(Y i ) = σb 2 σb 2 σb 2 + R i Om R i = σ 2 I n ger detta en ekvi-korrelationsmatris med korrelationskoefficienten ρ = σ2 b σ 2 +σ 2 b Ett slumpmässigt intercept ger varje individ dess eget intercept innebär: observationerna är oberoende kring den betingade väntevärdesprofilen (β 0 + b i ) + β 1 X ij observationerna för en individ är beroende kring det marginella väntevärdet β 0 + β 1 X ij Autokorrelation genom random intercept MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 37 / 44

FIXED EFFECTS OCH RANDOM EFFECTS Random slope Y ij = (β 0 + b 0i ) + (β 1 + b 1i )X ij + ɛ ij där (b 0i, b 1i ) N 2 (0, D) är den individ-specifika delen Slumpmässigt General Linear Mixed Model (GLMM) Y i = X i β + Z i b i + ɛ i b i iid Nq (0, D) ε i iid Np (0, R i ) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 38 / 44

VÄNTEVÄRDE OCH COVARIANS - GLMM Marginell väntevärdesprofil Betingad väntevärdesprofil Kovariansmatris E (Y i X ij ) = X i β E (Y i X i, b i ) = X i β + Z i b i Σ 1 = Cov(Y i ) = Z i GZ i + R i Notera 1: Cov(Y i ) visar tydligt att variationen i data kan delas upp i mellan-individsvariation (Z i GZ i ) och inom-individsvariation (R i ) Notera 2: varianser och kovarianser för Y i kan nu bero på förklarande variabler (Z i ) Linjär tidstrend i Z i ger kvadratisk tidstrend i variansen Notera 3: variablerna i Z i bör även ingå i X i Notera 4: R i kan parametriseras som tidigare, t ex via equi-korrelationmatris eller autoregressive struktur MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 39 / 44

KRYMPNING - LÅNA STYRKA GLMM modellen: Y i = X i β + Z i b i + ɛ i Responsprofilen för den ite individen är Ŷ i = W i (X i ˆβ) + (I W i ) Y i där ˆβ är GLS skattning på populationsnivå och viktmatrisen W i är Intuition: W i = ˆR i (Z i ĜZ i + ˆR i ) 1 p p Ŷ i = Vikt Populationsprofil + (1-Vikt) Observerad profil Variation inom individ Vikt = Variation mellan individer + Variation inom individ Individer med svaga observationer (stort R i ) lånar styrka från populationen MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 40 / 44

MODELLVAL Hur väljer man bland modeller? vilken modell för vänteväntevärdesprofilen? vilken struktur på kovariansmatrisen? Fixed eller random effects? Vilka förklarande variabler? etc etc Strategi: välj den modell som minimerar ett informationskriterium AIC: 2 MaxLogLik + 2 (#antal parametrar i modellen) BIC 2 MaxLogLik + ln N (#antal parametrar i modellen) där MaxLogLik är log-likelihoodfunktionens maximum (ln L( ˆθ)) MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 41 / 44

LONGITUDINELL ANALYS I R Flera paket att välja på, framförallt: nlme och lme4 nlme kan skatta linear mixed models med normalfördelade störningar (ɛ) och normalfördelade random effects (b i ) Många options, t ex olika strukturer på R i = Cov(ɛ ij ) och D = Cov(b i ) T o m heteroscedastiska modeller för variansen är möjliga lme4 liknar nlme, men har inte lika många kovarianstrukturer att välja på Men lme4 kan skatta linear mixed models för data där responsen t ex är räknedata eller binär lme4 kan alltså skatta en logistisk regression med fixed och random effects SAS har PROC MIXED Se Lindas föreläsningar om hierarkiska data MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 42 / 44

EXEMPEL - LONGITUDINELL ANALYS MED NLME # installpackages('nlme') # install package uncomment if not installed library(nlme) # load package fev <- readtable("/data/lungfunctiongrowthdat", header = TRUE) modelrandomslopear1 <- lme(fixed = LogFEV1 ~ 1 + Age + log(height) + InitialAge + log(initialheight), random = ~1 + Age ID, data = fev, correlation = corar1()) summary(modelrandomslopear1) Linear mixed-effects model fit by REML Data: fev AIC BIC loglik -4588-4532 2304 Random effects: Formula: ~1 + Age ID Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 0102919 (Intr) Age 0004731-0294 Residual 0067148 Correlation Structure: AR(1) Formula: ~1 ID Parameter estimate(s): Phi 03473 Fixed effects: LogFEV1 ~ 1 + Age + log(height) + InitialAge + log(initialheight) Value StdError DF t-value p-value (Intercept) -02719 004248 1692-640 00000 Age 00225 000164 1692 1371 00000 log(height) 22546 005328 1692 4231 00000 InitialAge -00217 000819 297-266 00083 log(initialheight) 03350 016040 297 209 00376 MATTIAS Correlation: VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 43 / 44

BLYMÄNGD - RANDOM INTERCEPT MODELL # installpackages('nlme') # install package uncomment if not installed library(nlme) # load package leaddata <- readtable("/data/leaddatapp") # Fitting a random intercept model modelrandomintercept <- lme(fixed = lead ~ 1 + time * group + I(time^2) * group, random = ~1 id, data = leaddata, correlation = NULL) modelrandomintercept$coef$fixed (Intercept) time groupp I(time^2) 23973-7541 1996 1196 time:groupp groupp:i(time^2) 6624-1104 var(modelrandomintercept$coef$random[[1]]) (Intercept) (Intercept) 1997 MATTIAS VILLANI (STATISTIK, LIU) LONGITUDINELLA DATA 44 / 44