STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12

Explorativ Faktoranalys (repetition från Multivariata Metoder) Vid explorativ faktoranalys tänker man sig att korrelationer mellan ett antal observerade variabler (exempelvis IQ-test) uppstår pga bakomliggande, latenta faktorer (exempelvis intelligensfaktorer). Faktorerna går inte att mäta direkt, de är latenta, men de går att mäta med indikatorer (exempelvis IQ-tester). Vid explorativ faktoranalys analyserar man korrelationerna mellan de observerade variablerna och utifrån dessa får man fram antal faktorer (tex genom scree plot) samt laddningar. Man kan på så vis uttala sig om hur många faktorer som verkar ligga bakom de observerade variablerna, samt vilka variabler som laddar på vilka faktorer. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 2 / 12

Konfirmativ Faktoranalys "Latent growth curve-modeller" (LGC) härstammar från konfirmativ faktoranalys. Vid konfirmativ faktoranalys är inte syftet att ta reda på hur många faktorer som finns, samt vilka variabler som laddar på vilka faktorer. Man antar i stället en faktorstruktrur, och testar den. Man kan tex anta att det finns två intelligensfaktorer (tex fluid och crystallized intelligence) samt att vissa IQ-tester laddar på den ena av dessa faktorer och vissa andra IQ-tester laddar på den andra faktorn. Vid LGC-analys tänker man sig att det finns latenta faktorer som påverkar värdena på responsvariabeln under de olika tidpunkterna. Det finns likheter med random coeffi cient-modellen som vi har gått igenom, där man har ett slumpmässigt intercept och en slumpmässig lutning (för tid). Vid LGC-analys tänker man sig att interceptet och lutningen är latenta faktorer som påverkar värdena på responsvariabeln. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 3 / 12

Exempel: LGC-modell som antar linjär utveckling för fem tidpunkter 1 1 η1 1 1 1 0 1 2 η2 3 4 Y1 Y2 Y3 Y4 Y5 ε1 ε2 ε3 ε4 ε5 Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 4 / 12

Exempel forts. Fem observerade variabler vid 5 tidpunkter (lika intervall mellan tidpunkter): y 1 y 5 Två latenta faktorer som antas fånga utvecklingen i y 1 y 5 : ett intercept (η 0 ) och en lutning (η 1 ) Laddningarna till interceptet är fixerade till 1 så att interceptet mäter genomsnittliga värdet på y 1 Laddningarna till lutningen är fixerade till 0, 1, 2, 3, 4 så att den mäter den linjära utvecklingen Fem unika faktorer som fångar upp det som inte fångas upp av intercept och lutning (ɛ 1 ɛ 5 ) En pil från en faktor till en observerad variabel innebär att man antar att faktorn påverkar variabeln. Dubbelsidig pil innebär kovarians. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 5 / 12

LGC-modell Om vi har p tidpunkter och m faktorer (intercept, lutning för tid, lutning för tid i kvadrat etc.) kan vi skriva modellen: y = τ + Λη + ε där y är en p 1 vektor av observationer, τ är en p 1 vektor av intercept (ofta fixerad till 0), η är en m 1 vektor av faktorer, Λ är en p m matris med laddningar (ofta fixerade för att definiera intercept och olika typer av lutningar), och ε är en p 1 vektor av unika faktorer som antas normalfördelade. Faktorerna kan uttryckas som avvikelser från faktormedelvärden: η = µ η + ζ där µ η är en m 1 vektor av medelvärden och ζ är en m 1 vektor av residualer. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 6 / 12

LGC-modell Variansen för y kan uttryckas som Σ = ΛΨΛ + Θ ɛ där Σ är en p p kovariansmatris, Ψ är en m m kovariansmatris för faktorer, och Θ ɛ är en p p kovarianmatris för unika faktorer. Förväntade värdet för y kan uttryckas som µ y = τ + Λµ η Observera likheter med multilevelmodeller. Skillnaden är att man använder annan notation för faktoranalys samt andra skattningsmetoder. I många fall får man dock samma resultat oavsett om man skattar modellen som en multilevelmodell eller som en faktormodell (LGC). Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 7 / 12

Exempel forts För exemplet ovan ser vektorerna och matriserna ut som följer: µ η = Λ = [ µη1 µ η2 1 0 1 1 1 2 1 3 1 4, Ψ = ], Θ ɛ = [ ψ11 ψ 21 ψ 22 ] θ ɛ 0 θ ɛ 0 0 θ ɛ 0 0 0 θ ɛ 0 0 0 0 θ ɛ Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 8 / 12

Skattning av de okända parametrarna Okända parametrar i modellen är medelvärden, varianser och kovarianser för faktorer, och varianser för unika faktorer Vid explorativ faktoranalys används ofta principalkomponentanalys som grund för att skatta laddningar, varianser etc. Vid konfirmativ faktoranalys (som är grunden för LGC) används ofta en form av ML. Man har en observerad kovariansmatris och medelvärden för alla y-variabler. Lite förenklat kan man säga att man kan uttrycka de observerade varianserna, kovarianserna och medelvärdena som funktioner av de okända parametrarna. Man kan då räkna ut värden på parametrarna som reproducerar de observerade kovarianserna, varianserna och medelvärdena så bra som möjligt. Det ger en implicerad kovariansmatris och medelvärden. ML-skattningar av parametrarna fås genom att man minimerar en funktion av avvikelser mellan observerade kovariansmatrisen och medelvärden samt implicerade kovariansmatrisen och medelvärden. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 9 / 12

Skattning av de okända parametrarna Okända parametrar i modellen är medelvärden, varianser och kovarianser för faktorer, och varianser för unika faktorer I exemplet ovan har vi 10 observerade kovarianser, 5 observerade varianser och 5 observerade medelvärden. Det ger totalt 20 "kända" bitar av information. Samtidigt vill vi skatta 6 okända parametrar, dvs ett medelvärde och varians för interceptet, ett medelvärde och varians för lutningen, en kovarians mellan intercept och lutning, samt variansen för unika faktorer. Eftersom antalet kända bitar är större än antalet okända parametrar är modellen "identifierbar", dvs den går att skatta och vi kan även utvärdera hur bra modellen passar data med olika anpassningsmått. Ett exempel på ett anpassningsmått är GFI (Goodness of Fit) som man vill ska vara minst 0.9 (gärna >0.95) för att indikera bra anpassning. Ett annat mått är RMSEA (Root Mean Squared Error of Approximation) som man vill ska vara under 0.10 (gärna <0.05) för att indikera bra anpassning. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 10 / 12

Multilevel-modeller eller LGC-modeller för longitudinella data? Om man har balanserade data (dvs alla individer är mätta vid alla tidpunkter) kan bägge metoderna användas Om man inte har balanserade data (eller bortfall) är det lättare med multilevel-modeller Oberoende variabler kan användas vid bägge metoder Kovariansstruktur för feltermer (unika faktorer) kan användas vid bägge metoder Om någon/några variabler är latent, och mätt med flera indikatorer (tex 3 IQ-test som antas mäta intelligens vid varje tidpunkt) kan man använda LGC Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 11 / 12

Multilevel-modeller eller LGC-modeller för longitudinella data? Om man har mer komplicerade modeller, så som att en variabel X 1 påverkar en variabel X 2 som i sin tur antas påverka interceptet och lutningen, kan man använda LGC. Om man har mer komplicerade modeller, så som att en utvecklingskurva (intercept och lutning för exempelvis intelligensutveckling) antas påverka en annan utvecklingskurva (intercept och lutning för exempelvis betygsutveckling) kan man använda LGC Multilevel-modeller används oftare än LGC-modeller, men användningen av LGC-modeller ökar mer och mer! Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 12 / 12