Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Relevanta dokument
Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Multilevel Modeling med SPSS Kimmo Sorjonen ( )

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012

STATISTISK ANALYS AV KOMPLEXA DATA

Sänkningen av parasitnivåerna i blodet

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Innehåll. Data. Skillnad SEM & Regression. Exogena & Endogena variabler. Latenta & Manifesta variabler

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

STATISTISK ANALYS AV KOMPLEXA DATA

MVE051/MSG Föreläsning 7

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

STATISTISK ANALYS AV KOMPLEXA DATA

2. Finns samband mellan individbundna faktorer och kontextuella faktorer och skolresultat?

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Structural Equation Modeling (SEM) Ingenting är omöjligt

F9 SAMPLINGFÖRDELNINGAR (NCT

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Multipel Regressionsmodellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Höftledsdysplasi hos dansk-svensk gårdshund

Grundläggande matematisk statistik

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

7.5 Experiment with a single factor having more than two levels

Faktoranalys - Som en god cigarr

Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Instruktioner till Examinationen Kursen Metoder för Statistisk Analys Karolinska Institutet

ANOVA Faktoriell (tvåvägs)

Linjär regressionsanalys. Wieland Wermke

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Regressions- och Tidsserieanalys - F3

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistik B Regressions- och tidsserieanalys Föreläsning 1

OBS! Vi har nya rutiner.

FACIT!!! (bara facit,

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

STATISTISK ANALYS AV KOMPLEXA DATA

Uppgift 1. Produktmomentkorrelationskoefficienten

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Differentiell psykologi

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

7.5 Experiment with a single factor having more than two levels

Föreläsning 12: Regression

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STATISTISK ANALYS AV KOMPLEXA DATA

import totalt, mkr index 85,23 100,00 107,36 103,76

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

MVE051/MSG Föreläsning 14

Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

Bayesiansk statistik, 732g43, 7.5 hp

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Uppgift 1. Deskripitiv statistik. Lön

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Repetitionsföreläsning

kodnr: 2) OO (5p) Klassindelningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Regressions- och Tidsserieanalys - F3

Variansanalys med SPSS Kimmo Sorjonen ( )

Föreläsning 8: Konfidensintervall

Bilaga 6 till rapport 1 (5)

Transkript:

Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3) Multilevel regression models; () Hierarchical linear models; (5) Multilevel covariance structure models; etc. Denna metod används när man skall predicera/förklara individuella värden (t.ex. skolbetyg) utifrån prediktorer som är både på gruppnivå (t.ex. lärarstabens kompetens) och på individnivå (t.ex. hur mycket man pluggar). Data är hierarkiska. Precis som vid vanlig regressionsanalys måste utfallsvariabeln (den beroende variabeln) vara kontinuerlig. (Det finns dock även logistisk multilevel modeling ). Fixed & Random Fixed effects: Effekten av en prediktor (lägre nivå) antas vara den samma i alla subgrupper (högre nivå). Random effects: Effekten av en prediktor (lägre nivå) antas (tillåts) variera mellan olika subgrupper (högre nivå). Fixed & Random Intercept = Värdet i utfallsvariabeln när prediktorerna har värdet noll. Det är vanligt att man centrerar variabler och då är värdet noll = medelvärdet. Fixed intercept: Värdet i utfallsvariabeln antas vara det samma i alla subgrupper (högre nivå) när prediktorerna (lägre nivå) har värdet noll. Random intercept: Värdet i utfallsvariabeln tillåts variera mellan subgrupper (högre nivå) när prediktorerna (lägre nivå) har värdet noll. Fixed & Random Centrering Utfallsvärde Utfallsvärde 1 1 1 1 1 3 5 Prediktorvärde Fixed intercept, Fixed effect 1 1 1 1 1 3 5 Prediktorvärde Fixed intercept, Random effect A B C D E F G H A B C D E F G H Utfallsvärde Utfallsvärde 1 1 1 1 1 3 5 Prediktorvärde Random intercept, Fixed effect 1 1 1 1 1 3 5 Prediktorvärde Random intercept, Random effect A B C D E F G H A B C D E F G H För att intercept skall bli meningsfulla är det vanligt att man centrerar prediktorer. Centreringen kan göras utifrån hela stickprovet eller utifrån subsamples Centrerat värde x ij x.. Intercept = Predicerad vikt om man är cm lång. Intercept = Predicerad vikt om man är av medellängd. 1

Centrering Varför inte OLS? Säg att vi skall predicera elevers betyg i ett visst ämne utifrån lärares estimerade kompetens. Vi samlar in data från 3 elever som har sex olika lärare (alltså 5 elever per lärare). Med OLS analys skulle vi tvingas att antingen: (1) Ge varje elev ett värde i lärarkompetens som motsvarar hans/hennes lärare och sedan predicera de 3 elevernas individuella betyg utifrån lärarkompetens. Problem: Analysen utgår ifrån att vi har 3 av varandra oberoende observerade värden på prediktorn (lärarkompetens) fast vi egentligen bara har estimerad kompetens från sex lärare. Vi får dopade frihetsgrader. () Beräkna genomsnittligt betyg för de sex lärarnas elever och sedan predicera genomsnittligt betyg utifrån de sex lärarnas individuella kompetens. Nu får vi istället endast sex värden i prediktor och utfallsvariabel, trots att vi har data från 3 elever. Analysen får låg power. Dessutom: Båda förfarandena ovan ignorerar det faktum att även värden i utfallsvariabeln (betyg) samt värden i individuella prediktorer tenderar att vara mer lika inom grupper. Dessa problem undviks genom att använda Multilevel Modeling istället för OLS. Estimeringsmetod Estimeringsmetod Maximum Likelihood (ML): För kombinationer av parametervärden estimeras sannolikheten för att erhålla aktuella data om detta är parametervärdena i populationen. Kombinationen av parametervärden som maximerar denna sannolikhet väljs ut. Restricted Maximum Likelihood (REML, RML): ML ger biased estimat i vissa situationer (t.ex. med små sample). REML algoritmen kompenserar för detta. Modellanpassning ML räknar fram en sannolikhet för att få de data vi har om de utvalda parametervärdena gäller i populationen som stickprovet representerar (Likelihood, varierar mellan och 1, ju högre värde desto bättre modell). Man tar den naturliga logaritmen av denna sannolikhet (Log Likelihood, varierar mellan och, ju högre värde desto bättre modell). Sedan multipliceras detta värde med ( LL, varierar mellan och, ju lägre värde desto bä re modell). Varför gör man så? Jo, LL har en chi fördelning och därmed kan man signifikanspröva modellens anpassning samt skillnaden mellan nestade modeller. Modellanpassning, Differens En enklare (färre parametrar) modell A sägs vara nestad i en mer generell (fler parametrar) modell B om alla parametrar som finns i A också finns i B. Anpassningen för B anpassningen för A, men är skillnaden signifikant? Detta kan testas genom att beräkna skillnaden mellan de två modellernas anpassning ( LN(Likelihood)) och se om denna skillnad är signifikant enligt chi fördelningen (df = parametrar i B minus parametrar i A). Detta är möjligt eftersom skillnaden mellan två chi värden också har en chi fördelning. OBS: Detta är möjligt endast om estimeringen gjorts med Maximum Likelihood (ML) och INTE med REML.

Nestning Modell A: Resultat = Intercept + Residual Modell B: Resultat = Intercept + Effekt av pluggande + Residual Modell C: Resultat = Intercept + Effekt av lärarens kompetens + Effekt av skolans ekonomi + Residual Modell D: Resultat = Intercept + Effekt av pluggande + Effekt av lärarens kompetens + Effekt av skolans ekonomi + Residual Två nivåer, Data A är nestad i B, C, och D Bär nestad i D C är nestad i D Där inte nestad i någon Modell 1 (M1), Specifikation Resultat = Grand mean + Residual (för att testa om det finns en variation mellan elevers provresultat. Modell 1 (M1), Specifikation Kan den genomsnittliga avvikelsen (kvadrerade) från medelvärdet vara lika med noll i populationen? M1, Parametrar Modell (M), Specifikation Grand mean = medelvärdet för Prov1 över hela stickprovet Vi lägger till en prediktor på individnivå (nivå 1): Resultat = Grand mean + B1 x Pluggar.cent(n1) + Residual. Enligt modellen är effekten av pluggande den samma över alla lärare (den är fixed)). Det finns en signifikant variation mellan elevernas resultat. 3

Modell (M), Specifikation Kan pluggandet förklara varians i resultat? All varians? M, Anpassning och Parametrar Genom att ta med pluggande som en prediktor sjönk missanpassningen från 5955 till 5, vilket är jättesignifikant, χ (df = 1) = 1375, p <.1 Både interceptet och effekten av pluggande är signifikant skilda från noll Interceptet ( = predicerat resultat om man pluggar genomsnittligt ) är signifikant högre än noll. När pluggandet ökar med en timme så ökar provresultatet med.7 poäng och denna effekt är signifikant högre än noll. M, Random effect Modell 1 (utan pluggande som prediktor) Tar vi med pluggande som prediktor så sjunker residualerna från 1 till 13. Detta innebär att 15% av variationen mellan elevernas resultat kan förklaras av skillnader i pluggande. Nedan ser vi dock att det finns en signifikant andel varians kvar att förklara. Modell 3 (M3), Specifikation Vi lägger till ett random intercept på lärarnivå (nivå ) för att testa om det finns någon signifikant skillnad i det genomsnittliga resultat mellan lärare. Resultat = Grand mean + B1 x Pluggar.cent(n1) + Intercept för lärare(n) + Residual Intercept Modell (med pluggande som prediktor) Modell 3 (M3), Specifikation Får vi en bättre anpassning om varje grupp (klass) får en egen regressionslinje? Dessa linjer skall dock vara parallella och har ett intercept som är lika med gruppens medelvärde på den beroende variabeln. M3, Anpassning och Random Genom att ta låta det genomsnittliga resultatet variera mellan lärare sjönk missanpassningen från 5 till 3, vilket är signifikant, χ (df = 1) = 1, p <.1 Genom att ta låta det genomsnittliga resultatet variera mellan lärare sjönk Residualerna från 135 (M) till 1. Alltså: 5% av variationen mellan elevers resultat som inte kan förklaras av skillnader i pluggande finns mellan lärarna. Variationen i det genomsnittliga resultatet mellan lärare är signifikant.

Modell (M), Specifikation Vi lägger till två prediktorer på lärarnivå (n) för att se om dessa kan förklara variationen i genomsnittligt resultat mellan lärare: Resultat = Grand mean + B1 x Pluggar(n1) + B x Lärarkomp(n) + B3 x Pluggmedel(n) + Intercept för lärare(n) + Residual Intercept M, Anpassning och Parametrar Genom att inkludera de två prediktorerna sjönk missanpassningen från 3 till 39, vilket är signifikant, χ (df = ) = 15, p <.1 Interceptet och alla effekter är signifikant skilda från noll Interceptet = predicerat provresultat om man är genomsnittlig på alla prediktorer Kontrollerat för de andra prediktorerna, associeras ett stegs ökning i eget pluggande med en ökning i resultat med,1 poäng, lärarens kompetens med en ökning med, poäng samt de andra elevernas (med samma lärare) pluggande med en ökning med,5 poäng. M, Random effects M3 Genom att inkludera lärarens kompetens samt genomsnittligt pluggande bland lärarens elever kan vi förklara 3 % av variationen i genomsnittligt provresultat mellan lärare. Residualen är variation mellan elever inom lärare (nivå 1) och påverkas inte av inkluderandet av prediktorer på lärarnivå (nivå ). Modell 5 (M5), Specifikation Vi lägger till en random effekt av pluggande (n1) för att se om effekten av pluggande (n1) skiljer sig åt mellan lärare. Intercept + Pluggar.cent M Modell 5 (M5), Specifikation Vi låter lutningen, såväl som interceptet, på regressionslinjen variera mellan grupper (klasser). M5, Anpassning och Random Genom att ta låta effekten av eget pluggande variera mellan lärare sjönk missanpassningen från 39 till 39, vilket är signifikant, χ (df = 1) =, p <.1. Variationen i effekten av elevens eget pluggande mellan lärare är signifikant. 5

Modell (M), Specifikation Vi lägger till två interaktioner mellan nivåerna, nämligen (a) eget pluggande (n1) x lärarkompetens (n); (b) eget pluggande (n1) x genomsnittligt pluggande (n). Detta görs för att försöka förklara varför effekten av eget pluggande varierar mellan lärare. Intercept + Pluggar.cent M, Anpassning och Parametrar Genom att inkludera de två interaktionstermerna sjönk missanpassningen från 39 till 3, vilket inte riktigt är signifikant, χ (df = ) = 5, p =. Effekten av eget pluggande interagerar signifikant med genomsnittligt pluggande för elever med samma lärare men inte med lärarens kompetens. När det genomsnittliga pluggandet för de andra eleverna med samma lärare ökar med ett, så minskar den positiva effekten av det egna pluggandet på resultatet med, M, Random effects M5 Ungefär 5% av variationen i effekten av eget pluggande som finns mellan lärare kan förklaras med lärarens kompetens och det genomsnittliga pluggandet bland lärarens elever. M, Figur M Tre nivåer, Data M, Figur

Upprepade mätningar Upprepade mätningar Tid (månader) 3 5 15 1 5 1 3 5 7 9 1 Undersökningsdeltagare Första Andra Tredje Fjärde Femte Sjätte Skulle vi jämföra de olika mättillfällena med varandra (vad gäller någon utfallsvariabel) så skulle vi inte ta hänsyn till det faktum att tiden (t.ex. under behandling) är olika vid de olika mättillfällena för olika personer. Data organiseras vertikalt. En fördel med detta är att en person stryks inte helt om han/hon har ett saknat värde på utfallsvariabeln. Modell 7 (M7), Specifikation Vi beräknar om en patients grad av depression vid en viss tidpunkt är en funktion av tid under behandling. Vi testar även om startvärdet (intercept) samt effekten av tid varierar mellan individer (vi specar dem som random). M7, Anpassning och Parametrar Det finns en signifikant effekt av tid på graden av depression. Graden av depression ges av formeln Dep. = 7,99 1,1 Tid. Graden av depression sjunker alltså med tiden. M7, Random effects Varje person får sin egen regressionslinje. M7, Figur Personernas grad av depression kan inte helt förklaras av tid (Residual variansen är signifikant). Det finns en skillnad i startvärde mellan individer (Intercept), samt vad gäller effekten av tid på graden av depression mellan individer. 7

Modell (M), Specifikation Vi lägger till typ av behandling samt interaktionen mellan behandling och tid. M, Anpassning och Parametrar Genom att ta med behandling samt tid behandling sjönk missanpassningen från 9 till 5, vilket är signifikant, χ (df = ) = 1, p <.1. Behandling har fyra kategorier och detta blir tre dummyvariabler Effekten av tid interagerar med behandling. M, Parametrar M, Figur För behandling (= D) sjunker graden av depression med,5 per månad. Behandling 1 (= A): Linjens lutning är.5 +.3 = +.9 (depressionen ökar alltså per månad) Behandling (= B): Linjens lutning är.5 + 1.3 = 1. Behandling 3 (= C): Linjens lutning är.5 + 1.71 =.3 Depressionen sjunker signifikant mer över tid för de med behandling D jämfört med de tre andra behandlingarna. M, Random effects M7 Variansen i effekten av tid på depression som finns mellan individer kan till 7,3 % förklaras av behandling (variansen sjunker från, till 1,7), men det finns fortfarande signifikant med residual variation mellan individer kvar att förklara. Modell 9 (M9), Specifikation Vi backar lite: Varför sjunker graden av depression över tid och varför är sänkningen större för vissa än för andra? Kan det ha att göra med serotonin? Serotonin är en prediktor på nivå 1. M

M9, Parametrar M9, Random effects M7 M7 M9 M9.7 % av förändringen (sänkningen) i depression över tid kan förklaras av förändringen (ökningen) i serotonin (effekten av tid sjunker från 1.97 till.35 när vi kontrollerar för serotonin). 7 % av skillnaden i förändringen i depression över tid mellan patienter kan förklaras av skillnaden i serotonin (variansen i effekten av tid sjunker från. till. när vi kontrollerar för serotonin). Modell 1 (M1), Specifikation Kan det vara så att skillnaden i behandlingars effektivitet kan förklaras av skillnader i serotoninhalter? M1, Parametrar 51,9 % av skillnaden i förändringen över tid mellan behandling D och A kan förklaras av skillnader i serotoninhalter (skillnaden sjunker från.3 till 1. när vi kontrollerar för serotonin). 5 % av skillnaden mellan behandling D och B och % av skillnaden mellan behandling D och C kan förklaras av skillnader i serotoninhalter. M M1 M1, Figur Serotoninhalten ökar signifikant mer för dem med behandling D än för de tre andra behandlingsgrupperna. 9