STATISTISK ANALYS AV KOMPLEXA DATA

Relevanta dokument
STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Multivariata metoder

STATISTISK ANALYS AV KOMPLEXA DATA

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

7.5 Experiment with a single factor having more than two levels

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Regressions- och Tidsserieanalys - F1

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Regressions- och Tidsserieanalys - F1

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Lösningar till SPSS-övning: Analytisk statistik

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Multivariata metoder

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F3

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

7.5 Experiment with a single factor having more than two levels

Regressions- och Tidsserieanalys - F3

Metod och teori. Statistik för naturvetare Umeå universitet

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Regressions- och Tidsserieanalys - F3

Multipel Regressionsmodellen

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Tentamen MVE301 Sannolikhet, statistik och risk

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Kurskod: TAMS24 / Provkod: TEN (8:00-12:00) English Version

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen för kursen. Linjära statistiska modeller. 13 januari

STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen MVE301 Sannolikhet, statistik och risk

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F4

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i matematisk statistik

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Samband mellan elevers motivationer och åskådarbeteenden vid mobbningssituationer. - En jämförelse av resultat från multilevel- och faktoranalyser

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen Tillämpad statistik A5 (15hp)

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Formler och tabeller till kursen MSG830

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

OBS! Vi har nya rutiner.

Multilevel Modeling med SPSS Kimmo Sorjonen ( )

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Examinationsuppgifter del 2

Matematisk statistik för D, I, Π och Fysiker

Ht Patientupplevd vårdkvalité utifrån. olika bakgrunder. Författare: Åsa Hjort Hedenberg

Tentamen Tillämpad statistik A5 (15hp)

Bayesiansk statistik, 732g43, 7.5 hp

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

English Version. Number of sold cakes Number of days

Tentamen MVE302 Sannolikhet och statistik

10.1 Enkel linjär regression

Skrivning i ekonometri lördagen den 29 mars 2008

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

Föreläsning 12: Linjär regression

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Tentamen MVE301 Sannolikhet, statistik och risk

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

FACIT!!! (bara facit,

OBS! Vi har nya rutiner.

Skrivning i ekonometri lördagen den 25 augusti 2007

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

Bayesiansk statistik, 732g43, 7.5 hp

Transkript:

STATISTISK ANALYS AV KOMPLEXA DATA HIERARKISKA DATA Linda Wänström Linköpings universitet 14-15 November Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 1 / 59

Hierarkiska data Hierarkiska data, "Clustered" data, er-nivå data, grupperade data Enheter grupperade i olika nivåer Vi har ett urval av skolor - inom varje skola har vi ett urval av elever Nivå 1: elever Nivå 2: skolor Vi har ett urval av familjer - inom varje familj undersöker vi alla/några barn Nivå 1: barn Nivå 2: familjer Vi har ett urval av familjer - inom varje familj undersöker vi alla/några barn - för varje barn gör vi upprepade mätningar Nivå 1: mättidpunkter Nivå 2: barn Nivå 3: familjer Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 2 / 59

Exempel: Samband mellan medelbetyg och poäng på prov Inritad regressionslinje 90 80 70 Score 60 50 40 30 20 1 2 3 Grade 4 5 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 3 / 59

Exempel: Samband mellan medelbetyg och poäng på prov Inritad regressionslinje för varje skola 90 80 70 School 1 2 4 5 6 60 Score 50 40 30 20 1 2 3 Grade 4 5 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 4 / 59

Varför ska vi ta hänsyn till den hierarkiska strukturen på data? Vi kan väl bara använda den lägsta nivån (tex elev) som enhet och använda vanliga analysmetoder? Eller - vi kan väl använda den högre nivån (tex klass / skola) som enhet och använda vanliga metoder? Individer (observationer) inom en grupp tenderar att vara lika varandra Familjer: syskon (samma föräldrar, samma miljöpåverkan) Skolor: klasser: elever (påverkar varandra, mer lika från början?) Ignorerar vi grupperingar kan vi missa viktiga gruppe ekter Ignorerar vi korrelationen mellan observationer inom grupper får vi missvisande skattningar på varianser Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 5 / 59

Exempel: Studie om läsinlärning i skolan (Bennet, 1976) Slutsats: Barn som lär sig läsa enligt den "traditionella tekniken" lär sig fortare än de som inte gör det Multipel regressionsmodell med elever som enheter (inga grupperingar) Statistisk signi kant skillnad Aitkin et el (1981) analyserade om datamaterialet och tog hänsyn till att eleverna var grupperade i klasser Inte längre statistiskt signi kant skillnad Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 6 / 59

Exempel: Mean PIAT Scores Data från Rodgers, J.L., Cleveland, H.H., van den Oord, E., & Rowe, D.C. (2000). Resolving the debate over birth order, family size and intelligence. American Psychologist, 55, 599-612. Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 7 / 59

Mean Piat Score uppdelat på familjestorlek Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 8 / 59

Fixed e ects modeller De niera dummyvariabler för att skatta skillnader mellan skolor, klasser, familjer... Detta fungerar om vi har ett mindre antal skolor, klasser, familjer... och endast vill generalisera till dem Vill vi generalisera resultaten till ett större antal skolor, klasser, familjer - använd inte xed e ects modeller Fungerar inte heller bra om vi har få observationer (tex elever) i några av grupperna (tex klasser) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 9 / 59

Multilevel regressionsmodell Multilevel model (Goldstein) Hierarchical linear model (Raudenbush & Bryk) Variance component model (Longford) Random coe cient model (De Leeuw & Kreft, Longford) Latent growth curve model (Tucker, Rao) Random e ects model, mixed e ects model etc... Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 10 / 59

Multilevel regressionsmodell ("random coe cent" modell) Y ij = β 0j + β 1j x ij + ɛ ij β 0j = β 0 + u 0j β 1j = β 1 + u 1j Y ij = β 0 + u 0j + β 1 x ij + u 1j x ij + ɛ ij Y ij = β 0 + β 1 x ij + (u 0j + u 1j x ij + ɛ ij ) Där ij står för, tex, den i:te eleven i den j:te klassen. ɛ ij N 0, σ 2 e u0j 0 N 0 u 1j σ 2, u0 σ u10 σ u01 σ 2 u1 Två xa (intercept och slope) och tre slumpmässiga parametrar (två varianser och en kovarians) att skatta Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 11 / 59

Enklaste fallet: Varianskomponentmodell y ij = β 0j + β 1 x ij + ɛ 0ij β 0j = β 0 + u 0j y ij = β 0 + u 0j + β 1 x ij + ɛ 0ij y ij = β 0 + β 1 x ij + (u 0j + ɛ 0ij ) ɛ ij N 0, σ 2 e u 0j N 0, σ 2 u0 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 12 / 59

Varianskomponentmodell y ij = β 0 + β 1 x ij + (u 0j + ɛ 0ij ) ɛ ij N 0, σ 2 e u 0j N 0, σ 2 u0 var(y ij jβ 0, β 1, x ij ) = var(u 0j + ɛ ij ) = σ 2 u0 + σ2 e cov(y ij jβ 0, β 1, x ij ) = cov(u 0j + ɛ 1j, u 0j + ɛ 2j ) = σ 2 u0, för i = 1, 2 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 13 / 59

Intraklass-korrelation Varianskomponentmodell ρ = σ2 u0 σ 2 u0 +σ2 e Andelen av den oförklarade variationen som är mellan grupper (klasser) Om den är större än noll bör vi inte använda vanliga metoder (som tex OLS) som inte tar hänsyn till varianser på era nivåer Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 14 / 59

Kovariansmatris Varianskomponentmodell Kovariansmatris för värdena för tre individer i en grupp och två individer i en annan grupp: 0 σ 2 A 0 u0 + σ2 e σ 2 u0 σ 2 1 u0, där A = @ σ 0 B 2 u0 σ 2 u0 + σ2 e σ 2 A u0 och σ 2 u0 σ 2 u0 σ 2 u0 + σ2 e σ 2 B = u0 + σ 2 e σ 2 u0 σ 2 u0 σ 2 u0 + σ2 e Variansen i y-värden för en given individ är σ 2 u0 + σ2 e. Kovariansen mellan y värden för två individer i samma klass är σ 2 u0. Kovariansen mellan y värden för två individer i olika klasser är 0. Variansen inom en klass är σ 2 e. σ 2 Mer generellt: V = u0 J (3) + σ 2 ei (3) 0 0 σ 2 u0 J (2) + σ 2 ei (2) där I (n) är (n n) identitetsmatris, J (n) är (n n) matris med ettor. Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 15 / 59

Generell multilevel-modell Y = X β + Zu + e e N (0, Ω e ) u N (0, Ω u ) V (Y ) = Z Ω u Z T + Ω e där Ω u är kovariansmatrisen för de slumpmässiga e ekterna u och Ω e är kovariansmatrisen för e. 0 σ 2 u0 σ 2 u01... σ 2 1 u0k Exempel Ω u(kk) = B σ 2 u10 σ 2 u1... σ 2 u1k C @............ A, Ω e(nn) = σ 2 uk0 σ 2 uk1 σ 2 uk 0 B @ σ 2 e 0... 0 0 σ 2 e... 0............ 0 0... σ 2 e 1 C A Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 16 / 59

Skattning av parametrar ( xa och slumpmässiga) Vid känd varians V är GLS-skattning av xa parametrar bβ = (X T V 1 X ) 1 X T V 1 Y V (bβ) = (X T V 1 X ) 1 Vanliga startvärden för xa parametrar: OLS Vektor med residualer skapas, och används för att uttryckas som funktion av varianser för slumptermerna och dessa skattas (krävs att dessa är normalfördelade) Skattad V används för att ta fram nya GLS-skattningar, och nya varianser för slumptermerna skattas osv till konvergens Om slumptermerna (residualerna) är normalfördelade är skattningarna ML-skattningar Skattningarna för varianserna för slumptermerna är inte VVR (tar inte hänsyn till samplingvariation av xa parametrar) En modi kation ger REML - VVR skattningar (används i SAS) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 17 / 59

Hypotestest Test för xa parametrar "Vanliga" hypotestest / kon densintervall baserade på skattningarna och standradavvikleserna för skattningarna från IGLS (REML) Test för slumpmässiga parametrar (varianser och kovarianser) Z-test (vid stora stickprov) Bättre med Likelhood ratio test D 01 = 2 log e (λ 0 /λ 1 ) där λ 0, λ 1 är likelihood under noll respektive alternativhypotesen. D 01 är χ 2 fördelad q frihetsgrader, där q är skillnaden i antalet skattade parametrar under de två modellerna. Vid REML-skattning bör likelihood ratio-testet endast användas vid jämförande av modeller som skiljer sig åt endast genom slumpmässiga parametrar (ej xa). Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 18 / 59

Exempel (data från Hox (2010). Multilevel Analysis) 2000 elever från 100 olika klasser (skolor) Popularity (skala 0-10, elevnivå) Sex (elevnivå) Extraversion (kontinuerlig 0-10, elevnivå) Teacher experience (År, klassnivå) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 19 / 59

Spridningsdiagram mellan popularity-scores och extraversion för eleverna i de två första klasserna Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 20 / 59

Uppdelat på de två klasserna Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 21 / 59

Varianskomponent-modell Basmodell popular ij = β 0j + ɛ ij, β 0j = β 0 + u 0j popular ij = β 0 + u 0j + ɛ ij ɛ 0ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 22 / 59

Data Z p Z p p o Z p o C e o p e o p e c p x p t x Z p t x C l u c t t u e t Z t u e t t C O a p o r s e l a r s e l a r e s b s i n a e x a c a e x a c a x e s s l s v x p r h v x p r h v p x 1 1 1 1 5 1 24 6.3 6 0.17031 0.98881 1.48615 0.88501 0.66906 0.215 9.737 0.4945 2 1 2 1 7 0 24 4.9 5 1.41401 1.01081 1.48615 0.12763 0.04308 1.785 9.737 0.5055 3 1 3 1 4 1 24 5.3 6 0.96248 0.98881 1.48615 0.16170 0.66906 1.215 9.737 0.4945 4 1 4 1 3 1 24 4.7 5 1.75464 0.98881 1.48615 0.27229 0.04308 2.215 9.737 0.4945 5 1 5 1 5 1 24 6.0 6 0.17031 0.98881 1.48615 0.66802 0.66906 0.215 9.737 0.4945 6 1 6 1 4 0 24 4.7 5 0.96248 1.01081 1.48615 0.27229 0.04308 1.215 9.737 0.5055 7 1 7 1 5 0 24 5.9 5 0.17031 1.01081 1.48615 0.59569 0.04308 0.215 9.737 0.5055 8 1 8 1 4 0 24 4.2 5 0.96248 1.01081 1.48615 0.63395 0.04308 1.215 9.737 0.5055 9 1 9 1 5 0 24 5.2 5 0.17031 1.01081 1.48615 0.08937 0.04308 0.215 9.737 0.5055 10 1 10 1 5 0 24 3.9 3 0.17031 1.01081 1.48615 0.85095 1.46737 0.215 9.737 0.5055 11 1 11 1 5 1 24 5.7 5 0.17031 0.98881 1.48615 0.45102 0.04308 0.215 9.737 0.4945 12 1 12 1 5 1 24 4.8 5 0.17031 0.98881 1.48615 0.19996 0.04308 0.215 9.737 0.4945 13 1 13 1 5 0 24 5.0 5 0.17031 1.01081 1.48615 0.05530 0.04308 0.215 9.737 0.5055 14 1 14 1 5 1 24 5.5 6 0.17031 0.98881 1.48615 0.30636 0.66906 0.215 9.737 0.4945 15 1 15 1 5 1 24 6.0 5 0.17031 0.98881 1.48615 0.66802 0.04308 0.215 9.737 0.4945 16 1 16 1 6 1 24 5.7 5 0.62185 0.98881 1.48615 0.45102 0.04308 0.785 9.737 0.4945 17 1 17 1 4 0 24 3.2 2 0.96248 1.01081 1.48615 1.35727 2.17951 1.215 9.737 0.5055 18 1 18 1 4 0 24 3.1 3 0.96248 1.01081 1.48615 1.42960 1.46737 1.215 9.737 0.5055 19 1 19 1 7 1 24 6.6 7 1.41401 0.98881 1.48615 1.10201 1.38120 1.785 9.737 0.4945 20 1 20 1 4 0 24 4.8 4 0.96248 1.01081 1.48615 0.19996 0.75523 1.215 9.737 0.5055 21 2 21 1 8 1 14 6.4 6 2.20617 0.98881 0.04014 0.95734 0.66906 2.785 0.263 0.4945 22 2 22 1 4 0 14 2.4 3 0.96248 1.01081 0.04014 1.93592 1.46737 1.215 0.263 0.5055 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 23 / 59

Varianskomponent-modell SAS proc mixed data=popdata covtest; class class; model popular= /solution; random intercept / subject=class; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 24 / 59

The Mixed Procedure Model Information Data Set Dependent Variable Covariance Structure Subject Effect Estimation Method Residual Variance Method Fixed Effects SE Method Degrees of Freedom Method WORK.POPDATA popular Variance Components class REML Profile Model Based Containment Class Level Information Class Levels Values class 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 Dimensions Covariance Parameters 2 Columns in X 1 Columns in Z Per Subject 1 Subjects 100 Max Obs Per Subject 26 Number of Observations Number of Observations Read 2000 Number of Observations Used 2000 Number of Observations Not Used 0 Iteration History Iteration Evaluations 2 Res Log Like Criterion 0 1 6975.50576364 1 2 6330.50966993 0.00000008 2 1 6330.50956329 0.00000000 Convergence criteria met. Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 25 / 59

Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr > Z UN(1,1) class 0.7021 0.1086 6.46 <.0001 Residual 1.2218 0.03964 30.82 <.0001 Fit Statistics 2 Res Log Likelihood 6330.5 AIC (smaller is better) 6334.5 AICC (smaller is better) 6334.5 BIC (smaller is better) 6339.7 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 1 645.00 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 5.0779 0.08739 99 58.10 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 26 / 59

Resultat: skattning och test cβ 0 = 5.0779(0.07839), p <.0001 cσ 2 e = 1.2218(0.03964), p <.0001 cσ 2 u0 = 0.7021(0.1086), p <.0001 Intraklass-korrelation: bρ =.702.702+1.221 = 0.365 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 27 / 59

Varianskomponent-modell med kön (sex) på individnivå - x e ekt Vi lägger till kön (sex) som x e ekt popularity ij = β 0j + β 1 sex ij + ɛ ij β 0j = β 0 + u 0j popularity ij = β 0 + u 0j + β 1 sex ij + ɛ ij ɛ 0ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 28 / 59

Varianskomponent-modell med kön (sex) på individnivå - x e ekt SAS proc mixed data=popdata covtest; class class; model popular = Csex / solution; random intercept / subject=class; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 29 / 59

Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr > Z UN(1,1) class 0.4838 0.07494 6.46 <.0001 Residual 0.8308 0.02696 30.81 <.0001 Fit Statistics 2 Res Log Likelihood 5564.1 AIC (smaller is better) 5568.1 AICC (smaller is better) 5568.1 BIC (smaller is better) 5573.3 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 1 635.96 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 5.0769 0.07251 99 70.02 <.0001 Csex 1.3501 0.04403 1899 30.66 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 30 / 59

Resultat: skattning och test cβ 0 = 5.0769(0.07251), p <.0001 cβ 1 = 1.3501(0.04403), p <.0001 cσ 2 e = 0.8308(0.02696), p <.0001 cσ 2 u0 = 0.4838(0.07494), p <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 31 / 59

Multilevel-modell med kön (sex) på individnivå - slumpmässig e ekt Vi lägger till kön (sex) också som slumpmässig e ekt popularity ij = β 0j + β 1j sex ij + ɛ ij β 0j = β 0 + u 0j β 1j = β 1 + u 1j popularity ij = β 0 + u 0j + β 1 sex ij + u 1j sex ij + ɛ ij ɛ ij N 0, σ 2 e u0j 0 N 0 u 1j σ 2, u0 σ u10 σ u01 σ 2 u1 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 32 / 59

Multilevel-modell med kön (sex) på individnivå - slumpmässig e ekt SAS proc mixed data=popdata covtest; class class; model popular = Csex / solution; random intercept Csex/ subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 33 / 59

Covariance Parameter Estimates Standard Cov Parm Subject Estimate Error Value Pr Z Z UN(1,1) class 0.4824 0.07554 6.39 <.0001 UN(2,1) class 0.04911 0.03999 1.23 0.2194 UN(2,2) class 0.05461 0.03552 1.54 0.0621 Covariance Parameter Estimates Standard Cov Parm Subject Estimate Error Value Pr Z Z Residual 0.8190 0.02720 30.11 <.0001 Fit Statistics 2 Res Log Likelihood 5559.1 AIC (smaller is better) 5567.1 AICC (smaller is better) 5567.1 BIC (smaller is better) 5577.5 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 3 640.98 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 5.0803 0.07250 99 70.07 <.0001 Csex 1.3522 0.05030 87 26.88 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 34 / 59

Resultat: skattning och test cβ 0 = 5.00803(0.07250), p <.0001 cβ 1 = 1.3522(0.05030), p <.0001 cσ 2 e = 0.8190(0.02720), p <.0001 cσ 2 u0 = 0.4824(0.07554), p <.0001 cσ 2 u1 = 0.05461(0.03552), p =.0621 dσ u01 = 0.04911(0.03999), p =.2194 D 01 = 5564.1 5559.1 = 5 q = 2 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 35 / 59

Varianskomponent-modell med kön (individnivå) och teacher experience (klassnivå) - xa e ekter Vi har kvar kön som x och lägger till teacher experience ( x) popularity ij = β 0j + β 1 sex ij + ɛ ij β 0j = β 0 + β 2 tex j + u 0j popularity ij = β 0 + β 1 sex ij + β 2 tex j + u 0j + ɛ 0ij ɛ 0ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 36 / 59

Varianskomponent-modell med kön (individnivå) och teacher experience (klassnivå) - xa e ekter SAS proc mixed data=popdata covtest; class class; model popular = Csex Ctexp/ solution; random intercept / subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 37 / 59

Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr > Z UN(1,1) class 0.3606 0.05766 6.25 <.0001 Residual 0.8307 0.02696 30.81 <.0001 Fit Statistics 2 Res Log Likelihood 5544.0 AIC (smaller is better) 5548.0 AICC (smaller is better) 5548.0 BIC (smaller is better) 5553.2 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 1 473.63 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 5.0752 0.06344 98 79.99 <.0001 Csex 1.3506 0.04395 1899 30.73 <.0001 Ctexp 0.05406 0.009655 1899 5.60 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 38 / 59

Resultat: skattning och test av parametrar cβ 0 = 5.0752(0.06344), p <.0001 cβ 1 = 1.3506(0.04395), p <.0001 cβ 2 = 0.05406(0.009655), p <.0001 cσ 2 e = 0.8307(0.02696), p <.0001 cσ 2 u0 = 0.3606(0.05766), p <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 39 / 59

Varianskomponent-modell med kön (individnivå), teacher experience (klassnivå) och extraversion (individnivå) - xa e ekter popularity ij = β 0j + β 1 sex ij + +β 3 extra ij + ɛ ij β 0j = β 0 + β 2 tex j + u 0j popularity ij = β 0 + β 1 sex ij + β 2 tex j + β 3 extra ij + u 0j + ɛ ij ɛ ij N(0, σ 2 e) u 0j N(0, σ 2 u0 ) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 40 / 59

Varianskomponent-modell med kön (individnivå), teacher experience (klassnivå) och extraversion (individnivå) - xa e ekter SAS proc mixed data=popdata covtest; class class; model popular = Csex Ctexp Cextrav/ solution; random intercept / subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 41 / 59

Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr > Z UN(1,1) class 0.2954 0.04657 6.34 <.0001 Residual 0.5920 0.01922 30.80 <.0001 Fit Statistics 2 Res Log Likelihood 4885.0 AIC (smaller is better) 4889.0 AICC (smaller is better) 4889.0 BIC (smaller is better) 4894.2 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 1 547.39 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 5.0744 0.05703 98 88.98 <.0001 Csex 1.2538 0.03729 1898 33.62 <.0001 Ctexp 0.08841 0.008764 1898 10.09 <.0001 Cextrav 0.4544 0.01617 1898 28.11 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 42 / 59

Resultat: skattning och test av parametrar cβ 0 = 5.0744(0.05703), p <.0001 cβ 1 = 1.2538(0.03729), p <.0001 cβ 2 = 0.08841(0.008764), p <.0001 cβ 3 = 0.4544(0.01617), p <.0001 cσ 2 e = 0.5920(0.01922), p <.0001 cσ 2 u0 = 0.2954(0.04657), p <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 43 / 59

Multilevel-modell med kön, teacher experience och extraversion (random) Vi lägger till en random e ekt av extraversion popularity ij = β 0j + β 1 sex ij + β 3j extra ij + ɛ ij β 0j = β 0 + β 2 tex j + u 0j β 3j = β 3 + u 3j popularity ij = β 0 + β 2 tex j + u 0j + β 1 sex ij + β 3 extra ij + u 3j extra ij + ɛ ij ɛ ij N 0, σ 2 e u0j 0 N 0 u 3j σ 2, u0 σ u30 σ u03 σ 2 u3 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 44 / 59

Multilevel-modell med kön, teacher experience och extraversion (slumpmässig) SAS proc mixed data=popdata covtest; class class; model popular = Csex Ctexp Cextrav/ solution; random intercept Cextrav / subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 45 / 59

Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) class 0.2831 0.04568 6.20 <.0001 UN(2,1) class 0.00769 0.01916 0.40 0.6879 UN(2,2) class 0.03454 0.008536 4.05 <.0001 Residual 0.5521 0.01840 30.01 <.0001 Fit Statistics 2 Res Log Likelihood 4834.8 AIC (smaller is better) 4842.8 AICC (smaller is better) 4842.8 BIC (smaller is better) 4853.2 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 3 597.65 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 5.0272 0.05632 98 89.27 <.0001 Csex 1.2523 0.03657 1799 34.24 <.0001 Ctexp 0.09098 0.008685 1799 10.48 <.0001 Cextrav 0.4526 0.02461 99 18.39 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 46 / 59

Resultat: skattning och test av parametrar cβ 0 = 5.0744(0.05703), p <.0001 cβ 1 = 1.2538(0.03729), p <.0001 cβ 2 = 0.08841(0.008764), p <.0001 cβ 3 = 0.4544(0.01617), p <.0001 cσ 2 e = 0.5521(0.01840), p <.0001 cσ 2 u0 = 0.2831(0.04568), p <.0001 cσ 2 u3 = 0.03454(0.008536), p <.0001 dσ u03 = 0.00769(0.01916), p =.6879 D 01 = 4885 4834.8 = 50.2 q = 2 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 47 / 59

Multilevel-modell med kön, teacher experience och extraversion (random) och interaktion popularity ij = β 0j + β 1 sex ij + β 3j extra ij + ɛ ij β 0j = β 0 + β 2 tex j + u 0j β 3j = β 3 + +β 4 tex j + u 3j popularity ij = β 0 + β 1 sex ij + β 2 tex j + β 3 extra ij + β 4 tex j extra ij + u 0j + u 3j extra ij + +ɛ ij ɛ ij N 0, σ 2 e u0j 0 N u 3j 0, σ 2 u0 σ u03 σ u30 σ 2 u3 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 48 / 59

Multilevel-modell med kön, teacher experience och extraversion (slumpmässig) och interaktion SAS proc mixed data=popdata covtest; class class; model popular = Csex Ctexp Cextrav Ctexp*Cextrav/ solution; random intercept Cextrav / subject=class type=un; run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 49 / 59

Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) class 0.2859 0.04526 6.32 <.0001 UN(2,1) class 0.00437 0.009726 0.45 0.6531 UN(2,2) class 0.005409 0.004411 1.23 0.1101 Residual 0.5528 0.01842 30.00 <.0001 Fit Statistics 2 Res Log Likelihood 4780.5 AIC (smaller is better) 4788.5 AICC (smaller is better) 4788.5 BIC (smaller is better) 4798.9 Null Model Likelihood Ratio Test DF Chi Square Pr > ChiSq 3 570.55 <.0001 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 4.9952 0.05659 98 88.27 <.0001 Csex 1.2407 0.03623 1799 34.24 <.0001 Ctexp 0.09724 0.008690 1799 11.19 <.0001 Cextrav 0.4509 0.01742 98 25.89 <.0001 Ctexp*Cextrav 0.02473 0.002555 1799 9.68 <.0001 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 50 / 59

Resultat: skattning och test av parametrar cβ 0 = 4.9952(0.05659), p <.0001 cβ 1 = 1.2407(0.03623), p <.0001 cβ 2 = 0.09724(0.008690), p <.0001 cβ 3 = 0.4509(0.01742), p <.0001 cβ 3 = 0.02473(0.002555), p <.0001 cσ 2 e = 0.5528(0.01842), p <.0001 cσ 2 u0 = 0.2859(0.04526), p <.0001 cσ 2 u3 = 0.005409(0.004411), p =.1101 dσ u03 = 0.00437(0.009726), p =.6531 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 51 / 59

Fler än två nivåer: föregående modeller kan enkelt utvecklas till er nivåer Y ijh = β 0jh + β 1jh x ijh + ɛ ijh β 0jh = β 0h + u 0jh β 1jh = β 1h + u 1jh β 0h = β 0 + v 0h β 1h = β 1 + v 1h ijh är tex i:te eleven i j:te klassen i h:te skolan Y ijh = β 0 + β 1 x ijh + v 0h + v 1h x ijh + u 0jh + u 1jh x ijh + ɛ ijh ɛ ijh N 0, σ 2 e u0jh 0 N u 1jh 0 v0jh 0 N 0 v 1jh σ 2, u0 σ u01 σ u10 σ 2 u1 σ 2 v 0 σ v 01, σ v 10 σ 2 v 1 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 52 / 59

Exempel på SAS-kod 3 nivåer, varianskomponentmodell proc mixed data=popdata2 covtest; class class area; model popular = / solution; random intercept / subject=area; random intercept / subject=class(area); run; Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 53 / 59

Exempel: Påverkar syskonstorlek IQ? 3-level-modell (lite andra beteckningar) Piat tij = β 0ij + β 1ij Age tij + β 2 Age 2 tij + β 3 Birth tij + β 4 Father tij + ɛ tij β 0ij = γ 00j + γ 01 Cohort ij + γ 02 Old ij + γ 03 Young ij + r 0ij β 1ij = γ 10j + γ 11 Old ij + γ 12 Young ij + r 1ij γ 00j = π 000 + π 001 M.Age j + π 002 M.IQ j + π 003 Race(1) j + π 004 Race(2) j + u 00j γ 10j = π 100 + π 101 M.Age j + π 102 M.IQ j + π 103 Race(1) j + π 104 Race(2) j + u 10j tij är t:te tidpunkten för i:te barnet i j:te familjen PIAT = Peabody Individual Achievement Test, M = PIAT math, RR = PIAT reading recognition, RC = PIAT reading comprehension, CONS=constant, OLD = number of siblings at birth, YOUNG = number of additional siblings at age 5, BIRTH = number of children born since age 5, M.AGE = maternal age at birth of first child, M.IQ = maternal IQ, RACE(1) = mother Hispanic (1) or not (0), RACE (2) = mother Black (1) or not (0), FATHER = father present in household. Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 54 / 59

Exempel: Påverkar syskonstorlek IQ? Antaganden ɛ tij N 0, σ 2 e r0ij 0 N r 1ij 0 u00j 0 N 0 u 10j σ 2, r 0 σ r 01 σ r 10 σ 2 r 1 σ 2 u0, σ u10 σ u01 σ 2 u1 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 55 / 59

Resultat Table 10. Model IV: Sibship size regression slopes from longitudinal multilevel regression models controlling for AGE, AGE 2, COHORT, and family variables by PIAT score. Effects M RR RC N family =3616 N child =7787 N family =3612 N child =7776 N family = 3604 N child =7747 CONS 38.49 (0.20)*** 40.03 (0.25)*** 37.66 (0.21)*** AGE 0.50 (0.003)*** 0.54 (0.004)*** 0.47 (0.003)*** AGE 2 0.003 (0.00004)*** 0.003 (0.00004)*** 0.003 (0.00004)*** COHORT 0.11 (0.02)*** 0.13 (0.03)*** 0.06 (0.02)** Sibship size OLD 0.57 (0.11)*** 1.05 (0.13)*** 1.24 (0.11)*** YOUNG 0.56 (0.11)*** 0.36 (0.14)** 0.49 (0.12)*** BIRTH 0.32 (0.12)** 0.16 (0.14) 0.23 (0.13) Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 56 / 59

Resultat forts. Family variables M.AGE 0.13 (0.03)*** 0.10 (0.04)** 0.05 (0.03) M.IQ 0.11 (0.004)*** 0.12 (0.005)*** 0.11 (0.004)*** RACE(1) 1.08 (0.25)*** 0.65 (0.32)* 0.12 (0.26) RACE(2) 1.84 (0.23)*** 0.19 (0.30) 0.48 (0.24)* FATHER 0.14 (0.14) 0.60 (0.14)*** 0.54 (0.14)*** Interactions OLD.AGE 0.00005 (0.002) 0.005 (0.002)* 0.01 (0.002)*** YOUNG.AGE 0.002 (0.002) 0.004 (0.003) 0.003 (0.002) M.AGE.AGE 0.002 (0.0004)*** 0.001 (0.0005)** 0.0004 (0.0004) M.IQ.AGE 0.0008 (0.00007)*** 0.001 (0.00009)*** 0.001 (0.00008)*** RACE(1).AGE 0.005 (0.004) 0.02 (0.006)*** 0.004 (0.005) RACE(2).AGE 0.02 (0.004)*** 0.04 (0.005)*** 0.05 (0.004)*** Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 57 / 59

Resultat forts. Residuals 2 σ 17.20 (0.60)*** 29.79 (0.73)*** 15.80 (0.62)*** r 0 σ 0.11 h 0.37 h 0.13 h r 0 r 1 2 σ 0.0007 (0.0002)*** 0.005 (0.0003)*** 0.001 (0.0003)*** r 1 2 σ 12.47 (0.68)*** 22.85 (1.10)*** 13.62 (0.72)*** u 0 σ 0.13 (0.008)*** 0.28 (0.01)*** 0.17 (0.009)*** u 0 u 1 2 σ 0.002 (0.0002)*** 0.005 (0.0003)*** 0.002 (0.0002)*** u 1 2 33.15 (0.40)*** 31.29 (0.39)*** σ 37.82 (0.46)*** ε 2lnL 177670.90 180027.07 175818.57 Note. ***p<.001, ** p<.01, * p<.05 Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 58 / 59

Några Datorprogram HLM MLWin SAS R M-plus Wänström (Linköpings universitet) HIERARKISKA DATA 14-15 November 59 / 59