STATISTISK ANALYS AV KOMPLEXA DATA

Relevanta dokument
STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

Grundläggande matematisk statistik

Statistik B Regressions- och tidsserieanalys Föreläsning 1

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

En utvärdering av reliabilitet och mätinvarians hos ett självtest för spelberoende

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Matematisk statistik för D, I, Π och Fysiker

Samband mellan elevers motivationer och åskådarbeteenden vid mobbningssituationer. - En jämförelse av resultat från multilevel- och faktoranalyser

Regressions- och Tidsserieanalys - F4

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

F13 Regression och problemlösning

Tentamen för kursen. Linjära statistiska modeller. 17 februari

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F1

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Stokastiska vektorer och multivariat normalfördelning

Finansiell statistik. Multipel regression. 4 maj 2011

Regressions- och Tidsserieanalys - F1

MVE051/MSG Föreläsning 7

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Stokastiska processer med diskret tid

7.5 Experiment with a single factor having more than two levels

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Bayesiansk statistik, 732g43, 7.5 hp

Stokastiska processer med diskret tid

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Structural Equation Modeling (SEM) Ingenting är omöjligt

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

oberoende av varandra så observationerna är

Föreläsning 12: Linjär regression

SF1901: Medelfel, felfortplantning

Multivariata metoder

Föreläsning 7: Punktskattningar

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F7

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Innehåll. Data. Skillnad SEM & Regression. Exogena & Endogena variabler. Latenta & Manifesta variabler

Föreläsning 11: Mer om jämförelser och inferens

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Härledning av Black-Littermans formel mha allmänna linjära modellen

4 Diskret stokastisk variabel

Faktoranalys - Som en god cigarr

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen MVE301 Sannolikhet, statistik och risk

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Lektionsanteckningar 11-12: Normalfördelningen

Examinationsuppgifter del 2

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Regression

Regressions- och Tidsserieanalys - F3

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Bakgrundsvariablers påverkan på enkätsvaren i en telefonintervju

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen i Matematisk statistik Kurskod S0001M

Granskning av en medarbetarenkät. - En explorativ och konfirmativ faktoranalys

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

2.1 Mikromodul: stokastiska processer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning 7: Punktskattningar

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

7.5 Experiment with a single factor having more than two levels

Matematisk statistik KTH. Formelsamling i matematisk statistik

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Regressions- och Tidsserieanalys - F3

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Stokastiska vektorer

5B Portföljteori och riskvärdering

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Enkel och multipel linjär regression

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Matematisk statistik för B, K, N, BME och Kemister

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsningsanteckningar till kapitel 8, del 2

Regressionsanalys av lägenhetspriser i Spånga

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Kovarians och kriging

Föreläsning 15, FMSF45 Multipel linjär regression

Extrauppgifter - Statistik

Lycka till!

Transkript:

STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12

Explorativ Faktoranalys (repetition från Multivariata Metoder) Vid explorativ faktoranalys tänker man sig att korrelationer mellan ett antal observerade variabler (exempelvis IQ-test) uppstår pga bakomliggande, latenta faktorer (exempelvis intelligensfaktorer). Faktorerna går inte att mäta direkt, de är latenta, men de går att mäta med indikatorer (exempelvis IQ-tester). Vid explorativ faktoranalys analyserar man korrelationerna mellan de observerade variablerna och utifrån dessa får man fram antal faktorer (tex genom scree plot) samt laddningar. Man kan på så vis uttala sig om hur många faktorer som verkar ligga bakom de observerade variablerna, samt vilka variabler som laddar på vilka faktorer. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 2 / 12

Konfirmativ Faktoranalys "Latent growth curve-modeller" (LGC) härstammar från konfirmativ faktoranalys. Vid konfirmativ faktoranalys är inte syftet att ta reda på hur många faktorer som finns, samt vilka variabler som laddar på vilka faktorer. Man antar i stället en faktorstruktrur, och testar den. Man kan tex anta att det finns två intelligensfaktorer (tex fluid och crystallized intelligence) samt att vissa IQ-tester laddar på den ena av dessa faktorer och vissa andra IQ-tester laddar på den andra faktorn. Vid LGC-analys tänker man sig att det finns latenta faktorer som påverkar värdena på responsvariabeln under de olika tidpunkterna. Det finns likheter med random coeffi cient-modellen som vi har gått igenom, där man har ett slumpmässigt intercept och en slumpmässig lutning (för tid). Vid LGC-analys tänker man sig att interceptet och lutningen är latenta faktorer som påverkar värdena på responsvariabeln. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 3 / 12

Exempel: LGC-modell som antar linjär utveckling för fem tidpunkter 1 1 η1 1 1 1 0 1 2 η2 3 4 Y1 Y2 Y3 Y4 Y5 ε1 ε2 ε3 ε4 ε5 Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 4 / 12

Exempel forts. Fem observerade variabler vid 5 tidpunkter (lika intervall mellan tidpunkter): y 1 y 5 Två latenta faktorer som antas fånga utvecklingen i y 1 y 5 : ett intercept (η 0 ) och en lutning (η 1 ) Laddningarna till interceptet är fixerade till 1 så att interceptet mäter genomsnittliga värdet på y 1 Laddningarna till lutningen är fixerade till 0, 1, 2, 3, 4 så att den mäter den linjära utvecklingen Fem unika faktorer som fångar upp det som inte fångas upp av intercept och lutning (ɛ 1 ɛ 5 ) En pil från en faktor till en observerad variabel innebär att man antar att faktorn påverkar variabeln. Dubbelsidig pil innebär kovarians. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 5 / 12

LGC-modell Om vi har p tidpunkter och m faktorer (intercept, lutning för tid, lutning för tid i kvadrat etc.) kan vi skriva modellen: y = τ + Λη + ε där y är en p 1 vektor av observationer, τ är en p 1 vektor av intercept (ofta fixerad till 0), η är en m 1 vektor av faktorer, Λ är en p m matris med laddningar (ofta fixerade för att definiera intercept och olika typer av lutningar), och ε är en p 1 vektor av unika faktorer som antas normalfördelade. Faktorerna kan uttryckas som avvikelser från faktormedelvärden: η = µ η + ζ där µ η är en m 1 vektor av medelvärden och ζ är en m 1 vektor av residualer. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 6 / 12

LGC-modell Variansen för y kan uttryckas som Σ = ΛΨΛ + Θ ɛ där Σ är en p p kovariansmatris, Ψ är en m m kovariansmatris för faktorer, och Θ ɛ är en p p kovarianmatris för unika faktorer. Förväntade värdet för y kan uttryckas som µ y = τ + Λµ η Observera likheter med multilevelmodeller. Skillnaden är att man använder annan notation för faktoranalys samt andra skattningsmetoder. I många fall får man dock samma resultat oavsett om man skattar modellen som en multilevelmodell eller som en faktormodell (LGC). Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 7 / 12

Exempel forts För exemplet ovan ser vektorerna och matriserna ut som följer: µ η = Λ = [ µη1 µ η2 1 0 1 1 1 2 1 3 1 4, Ψ = ], Θ ɛ = [ ψ11 ψ 21 ψ 22 ] θ ɛ 0 θ ɛ 0 0 θ ɛ 0 0 0 θ ɛ 0 0 0 0 θ ɛ Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 8 / 12

Skattning av de okända parametrarna Okända parametrar i modellen är medelvärden, varianser och kovarianser för faktorer, och varianser för unika faktorer Vid explorativ faktoranalys används ofta principalkomponentanalys som grund för att skatta laddningar, varianser etc. Vid konfirmativ faktoranalys (som är grunden för LGC) används ofta en form av ML. Man har en observerad kovariansmatris och medelvärden för alla y-variabler. Lite förenklat kan man säga att man kan uttrycka de observerade varianserna, kovarianserna och medelvärdena som funktioner av de okända parametrarna. Man kan då räkna ut värden på parametrarna som reproducerar de observerade kovarianserna, varianserna och medelvärdena så bra som möjligt. Det ger en implicerad kovariansmatris och medelvärden. ML-skattningar av parametrarna fås genom att man minimerar en funktion av avvikelser mellan observerade kovariansmatrisen och medelvärden samt implicerade kovariansmatrisen och medelvärden. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 9 / 12

Skattning av de okända parametrarna Okända parametrar i modellen är medelvärden, varianser och kovarianser för faktorer, och varianser för unika faktorer I exemplet ovan har vi 10 observerade kovarianser, 5 observerade varianser och 5 observerade medelvärden. Det ger totalt 20 "kända" bitar av information. Samtidigt vill vi skatta 6 okända parametrar, dvs ett medelvärde och varians för interceptet, ett medelvärde och varians för lutningen, en kovarians mellan intercept och lutning, samt variansen för unika faktorer. Eftersom antalet kända bitar är större än antalet okända parametrar är modellen "identifierbar", dvs den går att skatta och vi kan även utvärdera hur bra modellen passar data med olika anpassningsmått. Ett exempel på ett anpassningsmått är GFI (Goodness of Fit) som man vill ska vara minst 0.9 (gärna >0.95) för att indikera bra anpassning. Ett annat mått är RMSEA (Root Mean Squared Error of Approximation) som man vill ska vara under 0.10 (gärna <0.05) för att indikera bra anpassning. Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 10 / 12

Multilevel-modeller eller LGC-modeller för longitudinella data? Om man har balanserade data (dvs alla individer är mätta vid alla tidpunkter) kan bägge metoderna användas Om man inte har balanserade data (eller bortfall) är det lättare med multilevel-modeller Oberoende variabler kan användas vid bägge metoder Kovariansstruktur för feltermer (unika faktorer) kan användas vid bägge metoder Om någon/några variabler är latent, och mätt med flera indikatorer (tex 3 IQ-test som antas mäta intelligens vid varje tidpunkt) kan man använda LGC Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 11 / 12

Multilevel-modeller eller LGC-modeller för longitudinella data? Om man har mer komplicerade modeller, så som att en variabel X 1 påverkar en variabel X 2 som i sin tur antas påverka interceptet och lutningen, kan man använda LGC. Om man har mer komplicerade modeller, så som att en utvecklingskurva (intercept och lutning för exempelvis intelligensutveckling) antas påverka en annan utvecklingskurva (intercept och lutning för exempelvis betygsutveckling) kan man använda LGC Multilevel-modeller används oftare än LGC-modeller, men användningen av LGC-modeller ökar mer och mer! Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 12 / 12