Innehåll. Data. Skillnad SEM & Regression. Exogena & Endogena variabler. Latenta & Manifesta variabler

Relevanta dokument
Structural Equation Modeling (SEM) Ingenting är omöjligt

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

STATISTISK ANALYS AV KOMPLEXA DATA

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Faktoranalys - Som en god cigarr

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Skrivning i multivariata metoder lördagen den 30 augusti 2003

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

F9 SAMPLINGFÖRDELNINGAR (NCT

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Skrivning i multivariata metoder lördagen den 27 augusti 2005

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Linjär regressionsanalys. Wieland Wermke

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Instruktioner till Examinationen Kursen Metoder för Statistisk Analys Karolinska Institutet

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Samband mellan elevers motivationer och åskådarbeteenden vid mobbningssituationer. - En jämförelse av resultat från multilevel- och faktoranalyser

MVE051/MSG Föreläsning 14

Föreläsning 12: Regression

Differentiell psykologi

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Regressions- och Tidsserieanalys - F4

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

7.5 Experiment with a single factor having more than two levels

Följande resultat erhålls (enhet: 1000psi):

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

FÖRELÄSNING 8:

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Multilevel Modeling med SPSS Kimmo Sorjonen ( )

Multipel Regressionsmodellen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Datorlaboration 2 Konfidensintervall & hypotesprövning

STATISTISK ANALYS AV KOMPLEXA DATA

10.1 Enkel linjär regression

En utvärdering av reliabilitet och mätinvarians hos ett självtest för spelberoende

Jämförelse av två populationer

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Analytisk statistik. Tony Pansell, optiker Universitetslektor

MVE051/MSG Föreläsning 7

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Finansiell statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Uppgift 1. Produktmomentkorrelationskoefficienten

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Samplingfördelningar 1

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Lektionsanteckningar 11-12: Normalfördelningen

STATISTISK ANALYS AV KOMPLEXA DATA

Skrivning i ekonometri torsdagen den 8 februari 2007

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Finansiell statistik. Multipel regression. 4 maj 2011

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Korrelation och autokorrelation

Föreläsning 12: Repetition

Hypotestestning och repetition

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Föreläsning 4: Konfidensintervall (forts.)

FACIT (korrekta svar i röd fetstil)

Tentamen Tillämpad statistik A5 (15hp)

Statistisk försöksplanering

Grundläggande matematisk statistik

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

STRUCTURAL EQUATION MODELING

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Matematisk statistik för B, K, N, BME och Kemister

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Regressions- och Tidsserieanalys - F1

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Regressions- och Tidsserieanalys - F3

, s a. , s b. personer från Alingsås och n b

Transkript:

Innehåll Structural Equation Modeling (SEM) Ingenting är omöjligt Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Data Latenta och manifesta variabler Typ av modell (path, CFA, SEM) Specificera modell Parametrar Effekter Jämförelse med medelvärdesmodell Skillnad SEM & Regression Data SEM är ofta mer konfirmatorisk (hypotestestande). Man testar om en bestämd modell passar med data. SEM justerar för mätfel medan reg. utgår från perfekt reliabilitet. Likhet: Används främst med ickeexperimentella data. Data simulerade efter Von Stumm et al. (2010) Latenta & Manifesta variabler Latent variabel (faktor) = Teoretiskt konstrukt som inte observeras direkt utan via manifesta (observerade) variabler. Latenta variabler brukar illustreras med cirklar och manifesta med rektanglar. Enkel pil = orsakar Dubbel pil = korrelerar Exogena & Endogena variabler Exogena variabler är oberoende variabler som orsakar andra variabler (pilarna utgår från dem) medan endogena variabler är beroende (pilarna går till dem) 1

Modelltyper Path modell: Endast manifesta variabler. Specificera modell Dubbelpil = Korrelation SCO=social class of origin (housing tenure, father s and mothers occupational status, car, number of rooms) g=intelligens (verbal reasoning I and II, arithmetic test, English test) SCD=social class of destination (housing tenure, occupational status, income, cars) Konfirmatorisk faktoranalys (CFA): Endast exogena latenta variabler. Full modell: Både exogena och endogena latenta variabler. Varje endogen variabel (både manifest och latent) skall vidhäftas en felterm. Enkel pil = Enkelriktad effekt Varje latent variabel (även feltermer) skall ha en utgående parameter som specificeras till 1. På så sätt specificerar man att den latenta variabeln har samma varians som den manifesta variabeln. Modellens delar Mätmodell: Relationer mellan latenta och manifesta variabler Strukturmodell: Relationer mellan latenta variabler. Identifiering För att en modell skall kunna ges en unik lösning måste den vara identifierad, vilket innebär att man har minst lika mycket information i sitt dataset som parametrar i modellen (effekter, korrelationer och varianser) som skall beräknas. Mängd information i data setet innebär antalet varianser och kovarianser och ges av formeln AV (AV+1) / 2 där AV står för antalet manifesta variabler. Identifiering Antalet parametrar som skall beräknas: Antalet icke specificerade regressionseffekter + antalet korrelationer + antalet exogena latenta variabler (felvarianser medräknade, variansen skall beräknas) Antalet frihetsgrader för modellen är lika med mängd information in minus antalet parametrar som skall beräknas. En modell med df > 0 sägs vara overidentified, en modell med df < 0 sägs vara underidentified, och en modell med df = 0 sägs vara just identified. Identifiering Mängd information in: Modellen innehåller 14 manifesta variabler så vi får (14 15) / 2 = 105 bitar information in. Antalet parametrar som skall beräknas: 15 icke specificerade regressionseffekter 1 korrelation 17 exogena latenta variabler Summa parametrar som skall beräknas: 33 Antal frihetsgrader: 105 33 = 72 2

Korrelation mellan g och SCO =.44 (kontrollerat för reliabilitet) Parametrar Standardiserade effekter eller korrelationer > 1 indikerar att någonting är fel (t.ex. multicollinearitet). Felsökning och åtgärd blir då nästa steg. Parametrar Här kan man se om parametrarna är signifikant skilda från noll. Icke signifikanta parametrar skulle möjligen kunna strykas från modellen Squared Multiple Correlation (R 2 ) = Hur mycket av variansen i en endogen variabel som kan förklaras av dess exogena prediktorer. I det här fallet kan alltså 33% av variansen i Education förklaras utifrån g och SCO När g ökar med en SD så ökar SCD med 0.14 SD (kontrollerat för effekten som SCO och Education har på SCD). Detta värde är kontrollerat för reliabiliteten i den aktuella mätningen av g. Effekter Direkt effekt Hur stor förändring i BV man kan förvänta sig när OV ökar med ett steg. I det aktuella fallet (standardiserat): SCO på Education: 0.17 SCO på SCD: 0.06 g på Education: 0.48 g på SCD: 0.14 Education på SCD: 0.41 Indirekt effekt Hur stor effekt en OV har på BV via medierande OV. I det aktuella fallet (standardiserat): SCO på Education: 0 SCO på SCD: 0.17 0.41 = 0.07 g på Education: 0 g på SCD: 0.48 0.41 = 0.20 Education på SCD: 0 Total effekt Summan av den direkta och de indirekta effekterna som en OV har på BV. I det aktuella fallet (standardiserat): SCO på Education: 0.17 + 0 = 0.17 SCO på SCD: 0.06 + 0.07 = 0.13 g på Education: 0.48 + 0 = 0.48 g på SCD: 0.14 + 0.20 = 0.34 Education på SCD: 0.41 + 0 = 0.41 Jämförelse med medelvärdesmodell Kräver tre steg (förutom att skapa medelvärdesvariablerna): 1. Korrelation: SCO g 2. Reg: SCO + g Education 3. Reg: SCO + g + Education SCD.35 SCO.15 Education SCD.50 R 2 =.32 g.05.36.11 R 2 =.29 R 2 =.20 Exakt samma resultat fås i en Path analys. R 2 =.33 Parametrar ges värden som minimerar skillnaden (residualen) mellan observerade korrelationer mellan manifesta variabler och utifrån den specificerade modellen återskapade korrelationer mellan manifesta variabler. Ju mindre dessa residualer är, desto bättre passar modellen överens med observerade data. Ju mindre skillnad mellan den återskapade korrelationsmatrisen (vänster) och den observerade korrelationsmatrisen (nedan) desto bättre anpassning mellan modell och data. 3

Chi2 statistik, testar om alla residualer kan antas vara lika med noll i populationen (ju lägre desto bättre, min = 0) Specificerad modell P värde (enligt chi2 fördelningen) Ju större skillnad mellan observerade värden och utifrån modellen återskapade värden (ju sämre anpassning) desto högre blir chi2 värdet. Enligt hardliners indikerar ett signifikant chi2 värde (vilket det nästan alltid blir) dålig anpassning. En mer liberal tumregel säger att om chi2 / df < 2 så är anpassningen god. Modell med lika många parametrar som data in (= AV (AV + 1) / 2) (df = 0) as good as it gets Modell utan parametrar (endast felvarianser beräknas) df = AV ((AV + 1) / 2 1) as bad as it gets Antalet parametrar Frihetsgrader Chi2 / df. Ju lägre desto bättre. Bra modell < 2. RMR = Root Mean square Residual. Genomsnittlig residual. Beroende av måttenhet. Ju lägre desto bättre (min = 0). GFI = Goodness of Fit Index. Ett mått på hur mycket av observerade varianser och kovarianser som kan förklaras utifrån återskapade värden. Ju högre desto bättre (max = 1). Bra modell >.90 (.95) AGFI = Adjusted Goodness of Fit Index. Som GFI men tar hänsyn till antalet frihetsgrader (belönar enkla modeller). Bra modell >.90 (.95) PGFI = Parsimony Goodness of Fit Index. Belönar enkelhet. Ju högre desto bättre (max = 1). NFI = Normed Fit Index. Hur mycket chi2 sjunker från independence model till den aktuella modellen. Ju högre desto bättre (max = 1). Bra modell >.90 (.95) RFI =Relative Fit Index. Bygger på NFI. Ju högre desto bättre (max = 1). Bra modell >.90 (.95) IFI = Incremental Fit Index. Som NFI men tar hänsyn till antalet frihetsgrader. Ju högre desto bättre (max = 1). Bra modell >.90 (.95) TLI = Tucker Lewis Index. Ju högre desto bättre (max = 1). Bra modell >.90 (.95) CFI = Comparative Fit Index. Som NFI men tar hänsyn till stickprovsstorlek. Bra modell >.90 (.95) PRATIO = Parsimony RATIO. Df för aktuell modell dividerat med df för independence model. PNFI = NFI PRATIO (oklart vad som anses vara bra) PCFI = CFI PRATIO (oklart vad som anses vara bra) NCP = NonCentrality Parameter. Chi2 minus df. Ju lägre desto bättre. Även 90% konfidensintervall anges. FMIN = Chi2 / (n 1). Belönar stora sample. Ju lägre desto bättre. F0 = NCP / n. Belönar stora sample. Ju lägre desto bättre. Även 90% konfidensintervall anges. RMSEA = Root Mean Square Error of Approximation. Roten ur (F0/df). Ju lägre desto bättre. Bra anpassning <.05; acceptabel anpassning <.08; medioker anpassning <.10. Även ett 90% konfidensintervall anges. P värdet baseras på ett test om det uppmätta värdet skiljer sig signifikant från.05 MECVI = HOELTER = AIC = BCC = BIC = CAIC = Akaike s Information Criterion. Belönar enkelhet (få parametrar), men tar inte hänsyn till N. Ju lägre desto bättre. Browne Cudeck Criterion. Belönar enkelhet ännu lite mer än vad AIC gör. Ju lägre desto bättre. Bayes Information Criterion. Belönar enkla modeller mest av de fyra måtten i denna grupp. Ju lägre desto bättre. Consistent AIC. Tar, till skillnad från AIC, hänsyn även till N. Ju lägre desto bättre. ECVI = Expected Cross Validation Index. AIC / n. Ju lägre desto bättre. Även ett 90% CI ges. Modified ECVI. BCC / n. Ju lägre desto bättre. Anger hur stort sample som behövs för att en modell med de aktuella parametrarna och parametervärdena skall få ett signifikant chi2 värde. Ju högre desto bättre. Ibland anses värden > 200 visa på bra anpassning. Tumregel om TLI (NNFI). < 0.85: unacceptable fit 0.85 0.89: mediocre fit 090094 0.90 0.94: acceptable fit 0.95 0.99: close fit 1.00: exact fit Ungefär samma skulle kanske kunna sägas för de andra anpassningsmåtten där 1 är bäst (e.g. NFI, CFI). Tumregel om RMSEA. > 0.10: unacceptable fit 0.08 0.10: mediocre fit 006008 0.06 0.08: acceptable fit 0.01 0.06: close fit 0.00: exact fit 4

Vilka anpassningsmått skall man ange? Detta är lite av en smaksak, men chi2 värdet (med df och p värde) samt RMSEA anges nog nästan alltid. Nedan ett exempel. Ibland indelas SEM analyser i tre kategorier: 1. Strikt konfirmatorisk: Man testar om en modell (t.ex. baserad på en viss teori) passar tillräckligt bra överens med data (ja/nej). 2. Modelljämförelse: Man testar vilken av ett antal alternativa modeller (teoretiskt baserade) som passar bäst överens med data. 3. Modellgenerering: Efter att ha förkastat en teoretiskt baserad modell testar man om olika post hoc modifieringar kan leda till bättre anpassning. Vid dålig anpassning kan man: Kolla så att parametrarna är signifikanta (om inte kan man fundera på att stryka dem). Göra sin modell till en CFA modell. Har denna dålig anpassning så indikerar detta att felet finns i mätmodellen. Om problem i mätmodellen: Kanske är indikatorerna hierarkiska eller det finns subkategorier. Specificera om modellen. Ta en titt på modification indices Låter man e5 och e1 kovariera med varandra så estimeras kovariationen till ungefär.14 och modellens chi2 värde estimeras sjunka med minst 53.739 Som post hoc analyser generellt, så anses modellmodifikationer lite skumma. Ett sätt att, åtminstone delvis, behålla sin heder är att göra modifieringar i ett dataset och sedan bekräfta den modifierade modellen i ett annat dataset. χ 2 (72) = 523, p <.001, NFI =.932, TLI =.925, CFI =.941, RMSEA =.076 χ 2 (71) = 449, p <.001, NFI =.942, TLI =.936, CFI =.950, RMSEA =.070 5

Ett varnande finger χ 2 (72) = 523, p <.001, NFI =.932, TLI =.925, CFI =.941, RMSEA =.076 Alltså: Beräkningarna bygger på korrelationer. Analysen kommer inte ge svar på vilket håll kausala effekter går (eller om det finns kausalitet överhuvudtaget). 6