Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

1 Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet Uppdaterad: 130114 För att bli godkänd på inlämningsuppgiften krävs att man utför uppgiften om variansanalys OCH uppgiften om regressionsanalys på ett godtagbart sätt (se under Bedömning och Betygsättning nedan för den aktuella definitionen av godtagbart ). För att få väl godkänt på inlämningsuppgiften krävs att man utför uppgiften om structural equation modeling OCH uppgiften om multilevel modeling på ett godtagbart sätt. Trots att inlämningsuppgiften alltså består av två deluppgifter så lämnas dessa in i samma dokument. Se under Inlämning för närmare instruktioner. OBS: Undervisningen håller sig kanske till SPSS och AMOS, men det är tillåtet att göra sina beräkningar med vilket statistikprogram som helst (ange dock vilket program ni använt er av). Vill man göra sina beräkningar för hand så är detta också OK. De olika dataseten finns utlagda på kurshemsidan (under Examination ) både som SPSS-filer och som tabbavgränsade textfiler. Uppgiften om Variansanalys (ANOVA) St.Lawrence, J. S., Brasfield, T. L., Shirley, A., Jefferson, K. W., Alleyne, E., O Bannon, R. E. III. (1995). Cognitive-behavioral intervention to reduce African American adolescents risk for HIV infection. Journal of Consulting and Clinical Psychology, 63, 221-237. Analysen utförs på ett dataset som delvis simulerar det som St.Lawrence et al. använt sig av ( Simulering, ANOVA, Kondomanvändning; finns på kurshemsidan; det handlar inte om originaldata). Undersökningens beroende variabel, mätt vid fyra olika tillfällen, är procentuell andel av samlagen under de senaste åtta veckorna då man använt kondom. Eftersom data är simulerade förekommer orimliga värden (< 0 och > 100) men strunta i detta. 1. Ange undersökningens syfte (låtsas, s.a.s., att du är St.Lawrence och att detta är din undersökning). 2. Utför en ANOVA för upprepade mätningar (fyra mättillfällen) och med två oberoende variabler mellan individer. Presentera och tolka resultaten. Kan vi anta att kravet på sfäriskhet är uppfyllt? Motivera dina svar. 3. Eftersom analysen ovan påvisar en signifikant trevägs interaktion utförs följande: Testa effekten av tid på kondomanvändningen separat för de fyra olika grupperna (BST female; BST male; EC female; EC male). I varje grupp testas om kravet på sfäriskhet är uppfyllt samt den specifika förändringen över tid (detta görs genom att sätta Contrasts = Repeated). Presentera och tolka resultaten.

2 4. Utför även följande analys: Fyra separata tvåvägs ANOVOR (en för varje mätning av kondomanvändning, OV = Group och Gender). Om någon interaktion är signifikant går du vidare och analyserar enkla effekter (med hjälp av Split file ). Presentera och tolka resultaten. Texten kan antingen skrivas i samma form som en vetenskaplig artikel (se St.Lawrence et al.s artikel för exempel), men då inkluderas SPSS-output som appendix. Texten kan också skrivas i form av en SPSS-undervisning-handout där man klipper in SPSS output-tabeller och kommentarer till dessa (se kurshemsidan för exempel). Observera att det inte räcker att du bara klipper in Output-tabellerna utan att beskriva och tolka resultaten. Uppgiften om Regressionsanalys Caspi, A., Sugden, K., Moffitt, T. E., Taylor, A., Craig, I. W., Harrington, H., et al. (2003). Influence of life stress on depression: Moderation by a polymorphism in the 5-HTT gene. Science, 301, 386-389. Analysen utförs på ett dataset ( Regression, Gener och depression ; finns på kurshemsidan) som simulerar det som Caspi et al. använt sig av (det handlar alltså inte om originaldata). Följande variabler ingår: (1) IdNum; (2) Allele = kombinationen av 5-HTT gen alleler, med värdena s/s (dubbel uppsättning av korta alleler) s/l (en kort och en lång allele) samt l/l (dubbel uppsättning långa alleler); (3) Number_long = antalet långa alleler i 5-HTT genen, där s/s = 0, s/l = 1 och l/l = 2; (4) Stress_LE = antalet upplevda stressfulla livshändelser, med värdena 0, 1, 2, 3 och 4, där det sista värdet står för fyra eller fler händelser; (5) Dep_Symp = graden av depressiva symptom, variabeln har blivit simulerad och innehåller därmed en del orimliga värdena (t.ex. < 0) men strunta i detta. 1. Estimera den enkla effekten av antalet långa 5-HTT alleler (Number_long) på depressiva symptom (Dep_Symp). Vad blir interceptet respektive regressionskoefficienten? Vad blir beta-koefficienten? Är koefficienten signifikant? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. 2. Estimera den enkla effekten av antalet upplevda stressfulla livshändelser (Stress_LE) på depressiva symptom (Dep_Symp). Vad blir interceptet respektive regressionskoefficienten? Vad blir beta-koefficienten? Är koefficienten signifikant? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. 3. Utför en multipel regressionsanalys där du predicerar antalet depressiva symptom utifrån antalet långa 5-HTT alleler OCH antalet upplevda stressfulla livshändelser. Vad blir interceptet respektive regressionskoefficienterna? Vad blir beta-koefficienterna? Är koefficienterna signifikanta? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. Finns det något problem med kollinaritet? Motivera ditt svar. 4. Standardisera Number_long samt Stress_LE och skapa sedan en interaktionsterm för Number_long * Stress_LE. Utför en analys där depressiva symptom prediceras utifrån antalet långa alleler (standardiserat), antalet upplevda stressfulla livshändelser (standardiserat) samt deras interaktion. Vad blir interceptet respektive

3 regressionskoefficienterna? Vad blir beta-koefficienterna? Är koefficienterna signifikanta? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. Finns det något problem med kollinaritet? Motivera ditt svar. 5. För analysen ovan: Ser sambandet mellan predicerade värden och residualer OK ut? Har någon av försökspersonerna otillbörligt stark påverkan på framräknade parametrar? Motivera dina svar. Texten kan antingen skrivas i samma form som en vetenskaplig artikel (se Caspi et al.s artikel för exempel), men då inkluderas SPSS-output som appendix. Texten kan också skrivas i form av en SPSS-undervisning-handout där man klipper in SPSS output-tabeller och kommentarer till dessa (se kurshemsidan för exempel). Observera att det inte räcker att du bara klipper in Output-tabellerna utan att beskriva och tolka resultaten. Uppgiften om Structural Equation Modeling (SEM) Holahan, C. J., Moos, R. H., Holahan, C. K., & Cronkite, R. C. (1999). Resource loss, resource gain, and depressive symptoms: A 10-year model. Journal of Personality and Social Psychology, 77, 620-629. Analysen utförs på ett dataset som simulerar det som Holahan et al. använt sig av ( Simulering, SEM, Depressive symptoms and resource loss ; finns på kurshemsidan; det handlar alltså inte om originaldata). I detta dataset är korrelationerna mellan variablerna de samma som anges i Tabell 3 i Holahan et al.s artikel, däremot har alla variablerna i det simulerade datasetet ett medelvärde på noll och en standardavvikelse på ett. Mer specifikt skall man utföra följande moment/besvara följande frågor: 1. Ange undersökningens syfte (låtsas, s.a.s., att du är Holahan och att detta är din undersökning). 2. Utför den SEM-analys som presenteras i Figur 2 i Holahan et al.s artikel och presentera dina resultat (gärna i form av en figur). Både parameterestimat och modellens anpassningsmått skall anges. OBS: Resultaten kommer inte att bli exakt de samma som i Holahan et al.s artikel, så det funkar inte att bara skriva av dessa. Beskriv i ord vad resultaten visar. 3. Ange, gärna i en tabell, vilken direkt, indirekt samt total effekt (standardiserade) som de latenta variablerna har på varandra. 4. Ange hur mycket av variansen i de latenta endogena variablerna som kan förklaras av de exogena variablerna. 5. När du skall utföra analysen får du upp ett varningsmeddelande (som du ignorerar genom att välja Proceed with analysis ). Varför? Skriv texten i form av en SPSS-undervisning-handout (se kurshemsidan för exempel).

4 Uppgiften om Multilevel Modeling (MLM) Uppgiften går ut på analysera datasetet som heter MLM, socioekonomisk position. Detta dataset simulerar ett riktigt dataset, men det är alltså inte originaldata. Följande variabler ingår (du får gärna beskriva dessa i din text): 1. Intelligens ju högre värde desto högre uppmätt intelligens i tonåren. 2. Utbildning ju högre värde desto högre uppnådd utbildningsnivå vid 25 års ålder. 3. SEB socioekonomisk bakgrund, ju högre värde desto bättre ställt hade man det i barndomen. 4. USEP25, USEP30, USEP35, och USEP40 uppnådd socioekonomisk position vid 25-40 års ålder, ju högre värde desto bättre ställt har man det. i. Börja med att grand mean centrera variablerna Intelligens, Utbildning och SEB. ii. Omstrukturera data så att varje person får fyra rader (en för varje mätning av USEP). Skapa en tidvariabel som står för antalet år sedan man fyllde 25 (varje person får alltså fyra värden, nämligen 0, 5, 10 och 15). 1. Analysera Modell 1: Fixed intercept, inga prediktorer, USEP som beroende variabel. Presentera och tolka resultaten. 2. Analysera Modell 2: Random intercept, inga prediktorer, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 1? Vad händer med residualerna jämfört med Modell 1? Finns det någon signifikant variation i USEPinterceptet mellan individer? Vad innebär detta? Presentera och tolka resultaten. 3. Analysera Modell 3: Random intercept, fixed effekt av tid, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 2? Vad händer med residualerna jämfört med Modell 2? Hur ser effekten av tid på USEP ut? Presentera och tolka resultaten. 4. Analysera Modell 4: Random intercept, random effekt av tid, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 3? Vad händer med residualerna jämfört med Modell 3? Varierar effekten av tid på USEP signifikant mellan individer? Presentera och tolka resultaten. 5. Analysera Modell 5: Random intercept, random effekt av tid, fixed effekt av intelligens (centrerat) samt interaktionen mellan intelligens (centrerat) och tid, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 4? Hur ser huvudeffekterna av tid och intelligens (centrerat) samt deras interaktion ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 4? Presentera och tolka resultaten. 6. Analysera Modell 6: Upprepa Modell 5 men byt ut intelligens mot utbildning (centrerat). Hur pass bra passar modellen med data jämfört med Modell 4? Hur ser huvudeffekterna av tid och utbildning (centrerat) samt deras interaktion ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 4? Presentera och tolka resultaten. 7. Analysera Modell 7: Upprepa Modell 5 men byt ut intelligens mot socioekonomisk bakgrund (SEB) (centrerat). Hur pass bra passar modellen med data jämfört med Modell 4? Hur ser huvudeffekterna av tid och SEB (centrerat) samt deras interaktion ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 4? Presentera och tolka resultaten. 8. Analysera modell 8: Random intercept, random effekt av tid, fixed effekter av intelligens (centrerat), utbildning (centrerat) och SEB (centrerat) samt alla tre tvåvägs

5 interaktionstermer som involverar effekten av tid. Hur pass bra passar modellen med data jämfört med Modell 7? Hur ser huvudeffekterna och interaktionerna ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 7? Presentera och tolka resultaten. Inlämning Döp din text antingen till Uppgift om regression och ANOVA eller Uppgift om MLM och SEM beroende på vilka uppgifter du utfört. För en viss grad av anonymitet bör du inte ange ditt namn i den text som du skickar in dock skall namnet anges tydligt i det mejl som texten bifogas till. Fördjupningsuppgiften mejlas till följande två adresser (båda två): 1) kimmo.sorjonen@ki.se 2) kimmo.sorjonen.ki@analys.urkund.se I urkund görs en plagieringskontroll och om texten är plagierad så riskerar man att bli avstängd från sin utbildning. DET ÄR ALLTSÅ FÖRBJUDET ATT PLAGIERA REDAN EXISTERANDE TEXTER. Bedömning & Betygsättning Inlämningsuppgiften bedöms och betygsätts utifrån följande kriterier: A. Uppfylls instruktionerna? (helt = 2; hyfsat = 1; nej = 0) B. Verkar beräkningarna vara korrekt utförda? (helt = 2; hyfsat = 1; nej = 0) C. Innehåller texten felaktiga påståenden? (nej = 2; mindre allvarliga = 1; flera/grova = 0) D. Har uppgiften lämnats in i tid? (ja = 1; nej = 0) För betyget Godkänd krävs minst en poäng på VARDERA kriteriet A-C ovan. För betyget Väl Godkänd krävs minst en poäng på VARDERA kriteriet A-D ovan samt att man utfört Uppgiften om multilevel modeling (MLM) OCH Uppgiften om structural equation modeling (SEM).