STATISTISK ANALYS AV KOMPLEXA DATA

Transkript

1 STATISTISK ANALYS AV KOMPLEXA DATA HIERARKISKA DATA Linda Wänström Linköpings universitet 25 November Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 1 / 53

2 Regressionsmodell för icke-hierarkiska data (repetition) Antag att vi observerar n oberoende värden y 1,..., y n och vill förklara dem med n värden på p förklarande variabler x 11,...x 1p, x 21,..., x 2p, x n1,..., x np. Standardregressionsmodellen är, för individ i, y i = β 0 + β 1 x i β p x ip + ɛ i där ɛ i N(0, σ 2 ɛ). I matrisform kan modellen skrivas som där e N(0, σ 2 ɛi). Y = Xβ + e Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 2 / 53

3 Hierarkiska data Hierarkiska data, "Clustered" data, fler-nivå data, grupperade data Enheter grupperade i olika nivåer Vi har ett urval av skolor - inom varje skola har vi ett antal klasser - inom varje klass har vi ett urval av elever Nivå 1: elever Nivå 2: klasser Nivå 3: skolor Vi har ett urval av familjer - inom varje familj undersöker vi alla/några barn Nivå 1: barn Nivå 2: familjer Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 3 / 53

4 Exempel: Samband mellan medelbetyg och poäng på prov Inritad regressionslinje Score Grade 4 5 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 4 / 53

5 Exempel: Samband mellan medelbetyg och poäng på prov Inritad regressionslinje för varje skola School Score Grade 4 5 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 5 / 53

6 Varför ska vi ta hänsyn till den hierarkiska strukturen på data? Vi kan väl bara använda den lägsta nivån (tex elev) som enhet och använda vanliga analysmetoder? Eller - vi kan väl använda den högre nivån (tex klass / skola) som enhet och använda vanliga metoder? Individer (observationer) inom en grupp tenderar att vara lika varandra Familjer: syskon (samma föräldrar, samma miljöpåverkan) Skolor: klasser: elever (påverkar varandra, mer lika från början?) Ignorerar vi grupperingar kan vi missa viktiga gruppeffekter Ignorerar vi korrelationen mellan observationer inom grupper får vi missvisande skattningar på varianser Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 6 / 53

7 Exempel: Studie om läsinlärning i skolan (Bennet, 1976) Slutsats: Barn som lär sig läsa enligt den "traditionella tekniken" lär sig fortare än de som inte gör det Multipel regressionsmodell med elever som enheter (inga grupperingar) Statistisk signifikant skillnad Aitkin et el (1981) analyserade om datamaterialet och tog hänsyn till att eleverna var grupperade i klasser Inte längre statistiskt signifikant skillnad Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 7 / 53

8 Exempel: Mean PIAT Scores Data från Rodgers, J.L., Cleveland, H.H., van den Oord, E., & Rowe, D.C. (2000). Resolving the debate over birth order, family size and intelligence. American Psychologist, 55, Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 8 / 53

9 Mean Piat Score uppdelat på familjestorlek Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 9 / 53

10 Fixed effects modeller Definiera dummyvariabler för att skatta skillnader mellan skolor, klasser, familjer... Detta fungerar om vi har ett mindre antal skolor, klasser, familjer... och endast vill generalisera till dem Vill vi generalisera resultaten till ett större antal skolor, klasser, familjer - använd inte fixed effects modeller Fungerar inte heller bra om vi har få observationer (tex elever) i några av grupperna (tex klasser) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 10 / 53

11 General linear mixed model Multilevel model (Goldstein) Hierarchical linear model (Raudenbush & Bryk) Variance component model (Longford) Random coeffi cient model (De Leeuw & Kreft, Longford) Random effects model, mixed effects model etc... Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 11 / 53

12 Notation Antag att vi har ett urval av klasser - inom varje klass har vi ett urval av elever där vi har observerat en respons. För den j:te klassen kan vi skriva responsvektorn y j1 Y j = y j2..., j = 1, 2,..., n y jkj där n är antalet klasser och k j är antalet elever i klass j. Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 12 / 53

13 Har vi även observerat oberoende variabler kan vi skriva Klass(j) Elev(i) y ij x ij1 x ij2... x ijp 1 1 y 11 x 111 x x 11p 1 2 y 21 x 211 x x 21p k 1 y k1 1 x k1 11 x k x k1 1p j 1 y 1j x 1j1 x 1j2... x 1jp j 2 y 2j x 2j1 x 2j2... x 2jp j k j y kj j x kj j1 x kj j2... x kj jp n 1 y 1n x 1n1 x 1n2... x 1np n 2 y 2n x 2n1 x 2n2... x 2np n k n y kn n x kn n1 x kn n2... x kn np Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 13 / 53

14 General linear mixed model (GLMM) Y = Xβ + Zu + e e N (0, R) u N (0, G) Cov [u, e] = 0 Modellens parametrar består av fixa effekter i vektorn β och alla okända parametrar i matriserna G och R. De slumpmässiga effekterna u och e är inte parametrar utan består av slumpmässiga variabler. Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 14 / 53

15 General linear mixed model Betingade fördelningen Y u och marginalfödelningen för Y är Y u N (Xβ + Zu, R) Y N (Xβ, V) V = Var [Y] = ZGZ + R Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 15 / 53

16 Skattning av parametrar 2LL för GLMM är 2l(θ, β; y) = log V + (y Xβ) V 1 (y Xβ) + c ML-skattningen av fix effekt-parametrarna är ( θ) 1 β = (X V( θ) 1 X) 1 X V y Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 16 / 53

17 Skattning av parametrar Vid känd varians V är GLS-skattning av fixa parametrar β = (X T V 1 X) 1 X T V 1 y V( β) = (X T V 1 X) 1 Vanliga startvärden för fixa parametrar: OLS Vektor med residualer skapas, och används för att uttryckas som funktion av varianser för slumptermerna och dessa skattas (krävs att dessa är normalfördelade) Skattad V används för att ta fram nya GLS-skattningar, och nya varianser för slumptermerna skattas osv till konvergens Om slumptermerna (residualerna) är normalfördelade är skattningarna ML-skattningar Skattningarna för varianserna för slumptermerna är inte VVR (tar inte hänsyn till samplingvariation av fixa parametrar) En modifikation ger REML - VVR skattningar (används i SAS) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 17 / 53

18 Multilevelmodell - enklaste fallet: Varianskomponentmodell y ij = β 0j + ɛ ij β 0j = β 0 + u 0j y ij = β 0 + u 0j + ɛ ij y ij = (β 0 ) + (u 0j + ɛ ij ) ɛ ij N ( 0, σ 2 ) e u 0j N ( 0, σ 2 ) u0 En fix (intercept) och två slumpmässiga parametrar (två varianser) att skatta Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 18 / 53

19 Multilevelmodell: Varianskomponentmodell y ij = β 0 + (u 0j + ɛ ij ) ɛ ij N ( 0, σ 2 ) e u 0j N ( 0, σ 2 ) u0 var(y ij ) = var(u 0j + ɛ ij ) = σ 2 u0 + σ2 e cov(y 1j, y 2j ) = cov(u 0j + ɛ 1j, u 0j + ɛ 2j ) = σ 2 u0 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 19 / 53

20 Intraklass-korrelation Varianskomponentmodell ρ = σ2 u0 σ 2 u0 +σ2 e Andelen av variationen som är mellan grupper (klasser) Om den är större än noll bör vi inte använda vanliga metoder (som tex OLS) som inte tar hänsyn till varianser på flera nivåer Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 20 / 53

21 Multilevelmodell: "random coeffi cent"-modell y ij = β 0j + β 1j x ij + ɛ ij β 0j = β 0 + u 0j β 1j = β 1 + u 1j y ij = β 0 + u 0j + β 1 x ij + u 1j x ij + ɛ ij y ij = (β 0 + β 1 x ij ) + (u 0j + u 1j x ij + ɛ ij ) ɛ ij N ( 0, σ 2 ) [ ] e([ u0j 0 N 0 u 1j ] [ σ 2, u0 σ u01 σ u10 σ 2 u1 Två fixa (intercept och slope) och fyra slumpmässiga parametrar (tre varianser och en kovarians) att skatta ]) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 21 / 53

22 Hypotestest Test för fixa parametrar "Vanliga" hypotestest / konfidensintervall baserade på skattningarna och standradavvikleserna för skattningarna från IGLS (REML) Test för slumpmässiga parametrar (varianser och kovarianser) Z-test (vid stora stickprov) Bättre med Likelhood ratio test D 01 = 2LL(λ 0 /λ 1 ) där λ 0, λ 1 är likelihood under noll respektive alternativhypotesen. D 01 är χ 2 fördelad med q frihetsgrader, där q är skillnaden i antalet skattade parametrar under de två modellerna. Vid REML-skattning bör likelihood ratio-testet endast användas vid jämförande av modeller som skiljer sig åt endast genom slumpmässiga parametrar (ej fixa). Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 22 / 53

23 Exempel (data från Hox (2010). Multilevel Analysis) 2000 elever från 100 olika klasser (skolor) Popularity (skala 0-10, elevnivå) Sex (elevnivå) Extraversion (skala 0-10, elevnivå) Teacher experience (År, klassnivå) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 23 / 53

24 Spridningsdiagram mellan popularity-scores och extraversion för eleverna i de två första klasserna Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 24 / 53

25 Uppdelat på de två klasserna Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 25 / 53

26 Varianskomponent-modell Basmodell popular ij = β 0j + ɛ ij, β 0j = β 0 + u 0j popular ij = β 0 + u 0j + ɛ ij ɛ 0ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 26 / 53

27 Data Z p Z p p o Z p o C e o p e o p e c p x p t x Z p t x C l u c t t u e t Z t u e t t C O a p o r s e l a r s e l a r e s b s i n a e x a c a e x a c a x e s s l s v x p r h v x p r h v p x Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 27 / 53

28 Varianskomponent-modell SAS proc mixed data=popdata covtest; class class; model popular= /solution; random intercept / subject=class; run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 28 / 53

29 The Mixed Procedure Model Information Data Set Dependent Variable Covariance Structure Subject Effect Estimation Method Residual Variance Method Fixed Effects SE Method Degrees of Freedom Method WORK.POPDATA popular Variance Components class REML Profile Model Based Containment Class Level Information Class Levels Values class Dimensions Covariance Parameters 2 Columns in X 1 Columns in Z Per Subject 1 Subjects 100 Max Obs Per Subject 26 Number of Observations Number of Observations Read 2000 Number of Observations Used 2000 Number of Observations Not Used 0 Iteration History Iteration Evaluations 2 Res Log Like Criterion Convergence criteria met. Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 29 / 53

30 Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr > Z UN(1,1) class <.0001 Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 30 / 53

31 Resultat: skattning och test β 0 = ( ), p <.0001 σ 2 e = ( ), p <.0001 σ 2 u0 = (0.1086), p <.0001 Intraklass-korrelation: ρ = = Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 31 / 53

32 Varianskomponent-modell med kön (sex) på individnivå - fix effekt Vi lägger till kön (sex) som fix effekt popularity ij = β 0j + β 1 sex ij + ɛ ij β 0j = β 0 + u 0j popularity ij = β 0 + u 0j + β 1 sex ij + ɛ ij ɛ 0ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 32 / 53

33 Varianskomponent-modell med kön (sex) på individnivå - fix effekt SAS proc mixed data=popdata covtest; class class; model popular = Csex / solution; random intercept / subject=class; run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 33 / 53

34 Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr > Z UN(1,1) class <.0001 Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 Csex <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 34 / 53

35 Resultat: skattning och test β 0 = ( ), p <.0001 β 1 = ( ), p <.0001 σ 2 e = ( ), p <.0001 σ 2 u0 = ( ), p <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 35 / 53

36 Multilevel-modell med kön (sex) på individnivå - fix och slumpmässig effekt Vi lägger till kön (sex) också som slumpmässig effekt popularity ij = β 0j + β 1j sex ij + ɛ ij β 0j = β 0 + u 0j β 1j = β 1 + u 1j popularity ij = β 0 + u 0j + β 1 sex ij + u 1j sex ij + ɛ ij ɛ ij N ( 0, σ 2 ) [ ] e([ u0j 0 N 0 u 1j ] [ σ 2, u0 σ u01 σ u10 σ 2 u1 ]) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 36 / 53

37 Multilevel-modell med kön (sex) på individnivå - fix och slumpmässig effekt SAS proc mixed data=popdata covtest; class class; model popular = Csex / solution; random intercept Csex/ subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 37 / 53

38 Covariance Parameter Estimates Standard Cov Parm Subject Estimate Error Value Pr Z Z UN(1,1) class <.0001 UN(2,1) class UN(2,2) class Covariance Parameter Estimates Standard Cov Parm Subject Estimate Error Value Pr Z Z Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 Csex <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 38 / 53

39 Resultat: skattning och test β 0 = ( ), p <.0001 β 1 = ( ), p <.0001 σ 2 e = ( ), p <.0001 σ 2 u0 = ( ), p <.0001 σ 2 u1 = ( ), p =.0621 σ u01 = ( ), p =.2194 D 01 = = 5 q = 2 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 39 / 53

40 Varianskomponent-modell med individnivåvariabler - fixa effekter Vi lägger till extraversion som fix effekt popularity ij = β 0j + β 1 sex ij + β 2 extra ij + ɛ ij β 0j = β 0 + u 0j popularity ij = β 0 + u 0j + β 1 sex ij + β 2 extra ij + ɛ ij ɛ 0ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 40 / 53

41 Varianskomponent-modell med individnivåvariabler - fixa effekter SAS proc mixed data=popdata covtest; class class; model popular = Csex Cextrav / solution; random intercept / subject=class; run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 41 / 53

42 Covariance Parameter Estimates Cov Parm Subject Estimate Standard Error Z Value Pr > Z UN(1,1) class <.0001 Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq <.0001 Solution for Fixed Effects Effect Estimate Standard Error DF t Value Pr > t Intercept <.0001 Csex <.0001 Cextrav <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 42 / 53

43 Resultat: skattning och test β 0 = ( ), p <.0001 β 1 = ( ), p <.0001 β 2 = ( ), p <.0001 σ 2 e = ( ), p <.0001 σ 2 u0 = ( ), p <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 43 / 53

44 Multilevel-modell med individnivåvariabler: kön (fix) och extraversion (fix och slumpmässig) Vi lägger till extraversion också som slumpmässig effekt popularity ij = β 0j + β 1 sex ij + β 2j extra ij + ɛ ij β 0j = β 0 + u 0j β 2j = β 2 + u 2j popularity ij = β 0 + u 0j + β 1 sex ij + β 2 extra ij + u 2j extra ij + ɛ ij ɛ ij N ( 0, σ 2 ) [ ] e([ u0j 0 N 0 u 2j ] [ σ 2, u0 σ u02 σ u20 σ 2 u2 ]) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 44 / 53

45 Multilevel-modell med individnivåvariabler: kön (fix) och extraversion (fix och slumpmässig) SAS proc mixed data=popdata covtest; class class; model popular = Csex Cextrav / solution; random intercept Cextrav/ subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 45 / 53

46 Covariance Parameter Estimates Cov Parm Subject Estimate Standard Error Z Value Pr Z UN(1,1) class <.0001 UN(2,1) class <.0001 UN(2,2) class <.0001 Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq <.0001 Solution for Fixed Effects Effect Estimate Standard Error DF t Value Pr > t Intercept <.0001 Csex <.0001 Cextrav <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 46 / 53

47 Resultat: skattning och test β 0 = ( ), p <.0001 β 1 = ( ), p <.0001 β 2 = ( ), p <.0001 σ 2 e = ( ), p <.0001 σ 2 u0 = (0.1020), p <.0001 σ 2 u2 = ( ), p <.0001 σ u02 = ( ), p <.0001 D 01 = = 75.2 q = 2 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 47 / 53

48 Multilevel-modell med individnivåvariabler kön (fix), extraversion (fix, random) och teacher experience (klassnivå) Vi lägger till teacher experience på klassnivå popularity ij = β 0j + β 1 sex ij + β 2j extra ij + ɛ ij β 0j = β 0 + β 3 tex j + u 0j β 2j = β 2 + β 4 tex j + u 2j popularity ij = β 0 + β 3 tex j + u 0j + β 1 sex ij + β 2 extra ij + β 4 tex j extra ij + u 2j extra ij + ɛ ij ɛ ij N ( 0, σ 2 ) [ ] e([ u0j 0 N 0 u 2j ] [ σ 2, u0 σ u02 σ u20 σ 2 u2 ]) Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 48 / 53

49 Multilevel-modell med individnivåvariabler kön (fix), extraversion (fix, random) och teacher experience (klassnivå) SAS proc mixed data=popdata covtest; class class; model popular = Csex Ctexp Cextrav Ctexp*Cextrav/ solution; random intercept Cextrav / subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 49 / 53

50 Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) class <.0001 UN(2,1) class UN(2,2) class Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 Csex <.0001 Ctexp <.0001 Cextrav <.0001 Ctexp*Cextrav <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 50 / 53

51 Resultat: skattning och test av parametrar β 0 = ( ), p <.0001 β 1 = ( ), p <.0001 β 2 = ( ), p <.0001 β 3 = ( ), p <.0001 β 4 = ( ), p <.0001 σ 2 e = ( ), p <.0001 σ 2 u0 = ( ), p <.0001 σ 2 u2 = ( ), p =.1101 σ u02 = ( ), p =.6531 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 51 / 53

52 Fler än två nivåer: föregående modeller kan enkelt utvecklas till fler nivåer Y ijh = β 0jh + β 1jh x ijh + ɛ ijh β 0jh = β 0h + u 0jh β 1jh = β 1h + u 1jh β 0h = β 0 + v 0h β 1h = β 1 + v 1h ijh är tex i:te eleven i j:te klassen i h:te området. y ijh = β 0 + β 1 x ijh + v 0h + v 1h x ijh + u 0jh + u 1jh x ijh + ɛ ijh ɛ ijh N ( 0, σ 2 ) [ ] e([ ] [ ]) u0jh 0 σ 2 N, u0 σ u01 u 1jh 0 σ u10 σ [ ] ([ ] [ 2 u1 ]) v0h 0 σ 2 N, v 0 σ v 01 v 1h 0 σ v 10 σ 2 v 1 Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 52 / 53

53 Exempel på SAS-kod 3 nivåer, varianskomponentmodell proc mixed data=popdata2 covtest; class class area; model popular = / solution; random intercept / subject=area; random intercept / subject=class(area); run; Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 53 / 53