Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet



Relevanta dokument
Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Instruktioner till Examinationen Kursen Metoder för Statistisk Analys Karolinska Institutet

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Identifikationsnummer:... Tentamen: Statistik & Metod (2PS020), Psykologprogrammet, Termin 8 Datum:

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Multilevel Modeling med SPSS Kimmo Sorjonen ( )

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Linjär regressionsanalys. Wieland Wermke

Uppgift 1. Deskripitiv statistik. Lön

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Bygga linjära modeller! Didrik Vanhoenacker 2007

Multipel Regressionsmodellen

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Maximalt antal poäng för hela skrivningen är28 poäng. För Godkänt krävs minst 17 poäng. För Väl Godkänt krävs minst 22,5 poäng.

OBS! Vi har nya rutiner.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

ANOVA Faktoriell (tvåvägs)

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

InStat Exempel 4 Korrelation och Regression

Variansanalys med SPSS Kimmo Sorjonen ( )

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

OBS! Vi har nya rutiner.

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Kort manual till SPSS 10.0 för Mac/PC

Regressions- och Tidsserieanalys - F3

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 11 december, Ansvarig lärare: Bengt Jansson ( , mobil: )

Sänkningen av parasitnivåerna i blodet

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

EXAMINATION KVANTITATIV METOD

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Innehåll. Data. Skillnad SEM & Regression. Exogena & Endogena variabler. Latenta & Manifesta variabler

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

TENTAMEN. PC1307/1546 Statistik (5 hp) Måndag den 19 oktober, 2009

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012

Skrivning i ekonometri torsdagen den 8 februari 2007

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 7 maj, 2011

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

DATORLABORATION: JÄMFÖRELSE AV FLERA STICKPROV.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Mata in data i Excel och bearbeta i SPSS

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Beskrivning av litteraturen Kursen i Vetenskapsteori, Psykologprogrammet, T5

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Regressions- och Tidsserieanalys - F3

2. Finns samband mellan individbundna faktorer och kontextuella faktorer och skolresultat?

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Regressions- och Tidsserieanalys - F4

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

Regressions- och Tidsserieanalys - F3

MSG830 Statistisk analys och experimentplanering

Structural Equation Modeling (SEM) Ingenting är omöjligt

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

LYCKA TILL! Omtentamen i Statistik A1, Institutionen för Farmaceutisk Biovetenskap Institutionen för Farmaci

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

OBS! Vi har nya rutiner.

Samhällsvetenskaplig metod, 7,5 hp

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Kursnamn: Vetenskapsteori och grundläggande forskningsmetod

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Kursbeskrivning för Ekonometri, 15 högskolepoäng

Transkript:

1 Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet Uppdaterad: 130114 För att bli godkänd på inlämningsuppgiften krävs att man utför uppgiften om variansanalys OCH uppgiften om regressionsanalys på ett godtagbart sätt (se under Bedömning och Betygsättning nedan för den aktuella definitionen av godtagbart ). För att få väl godkänt på inlämningsuppgiften krävs att man utför uppgiften om structural equation modeling OCH uppgiften om multilevel modeling på ett godtagbart sätt. Trots att inlämningsuppgiften alltså består av två deluppgifter så lämnas dessa in i samma dokument. Se under Inlämning för närmare instruktioner. OBS: Undervisningen håller sig kanske till SPSS och AMOS, men det är tillåtet att göra sina beräkningar med vilket statistikprogram som helst (ange dock vilket program ni använt er av). Vill man göra sina beräkningar för hand så är detta också OK. De olika dataseten finns utlagda på kurshemsidan (under Examination ) både som SPSS-filer och som tabbavgränsade textfiler. Uppgiften om Variansanalys (ANOVA) St.Lawrence, J. S., Brasfield, T. L., Shirley, A., Jefferson, K. W., Alleyne, E., O Bannon, R. E. III. (1995). Cognitive-behavioral intervention to reduce African American adolescents risk for HIV infection. Journal of Consulting and Clinical Psychology, 63, 221-237. Analysen utförs på ett dataset som delvis simulerar det som St.Lawrence et al. använt sig av ( Simulering, ANOVA, Kondomanvändning; finns på kurshemsidan; det handlar inte om originaldata). Undersökningens beroende variabel, mätt vid fyra olika tillfällen, är procentuell andel av samlagen under de senaste åtta veckorna då man använt kondom. Eftersom data är simulerade förekommer orimliga värden (< 0 och > 100) men strunta i detta. 1. Ange undersökningens syfte (låtsas, s.a.s., att du är St.Lawrence och att detta är din undersökning). 2. Utför en ANOVA för upprepade mätningar (fyra mättillfällen) och med två oberoende variabler mellan individer. Presentera och tolka resultaten. Kan vi anta att kravet på sfäriskhet är uppfyllt? Motivera dina svar. 3. Eftersom analysen ovan påvisar en signifikant trevägs interaktion utförs följande: Testa effekten av tid på kondomanvändningen separat för de fyra olika grupperna (BST female; BST male; EC female; EC male). I varje grupp testas om kravet på sfäriskhet är uppfyllt samt den specifika förändringen över tid (detta görs genom att sätta Contrasts = Repeated). Presentera och tolka resultaten.

2 4. Utför även följande analys: Fyra separata tvåvägs ANOVOR (en för varje mätning av kondomanvändning, OV = Group och Gender). Om någon interaktion är signifikant går du vidare och analyserar enkla effekter (med hjälp av Split file ). Presentera och tolka resultaten. Texten kan antingen skrivas i samma form som en vetenskaplig artikel (se St.Lawrence et al.s artikel för exempel), men då inkluderas SPSS-output som appendix. Texten kan också skrivas i form av en SPSS-undervisning-handout där man klipper in SPSS output-tabeller och kommentarer till dessa (se kurshemsidan för exempel). Observera att det inte räcker att du bara klipper in Output-tabellerna utan att beskriva och tolka resultaten. Uppgiften om Regressionsanalys Caspi, A., Sugden, K., Moffitt, T. E., Taylor, A., Craig, I. W., Harrington, H., et al. (2003). Influence of life stress on depression: Moderation by a polymorphism in the 5-HTT gene. Science, 301, 386-389. Analysen utförs på ett dataset ( Regression, Gener och depression ; finns på kurshemsidan) som simulerar det som Caspi et al. använt sig av (det handlar alltså inte om originaldata). Följande variabler ingår: (1) IdNum; (2) Allele = kombinationen av 5-HTT gen alleler, med värdena s/s (dubbel uppsättning av korta alleler) s/l (en kort och en lång allele) samt l/l (dubbel uppsättning långa alleler); (3) Number_long = antalet långa alleler i 5-HTT genen, där s/s = 0, s/l = 1 och l/l = 2; (4) Stress_LE = antalet upplevda stressfulla livshändelser, med värdena 0, 1, 2, 3 och 4, där det sista värdet står för fyra eller fler händelser; (5) Dep_Symp = graden av depressiva symptom, variabeln har blivit simulerad och innehåller därmed en del orimliga värdena (t.ex. < 0) men strunta i detta. 1. Estimera den enkla effekten av antalet långa 5-HTT alleler (Number_long) på depressiva symptom (Dep_Symp). Vad blir interceptet respektive regressionskoefficienten? Vad blir beta-koefficienten? Är koefficienten signifikant? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. 2. Estimera den enkla effekten av antalet upplevda stressfulla livshändelser (Stress_LE) på depressiva symptom (Dep_Symp). Vad blir interceptet respektive regressionskoefficienten? Vad blir beta-koefficienten? Är koefficienten signifikant? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. 3. Utför en multipel regressionsanalys där du predicerar antalet depressiva symptom utifrån antalet långa 5-HTT alleler OCH antalet upplevda stressfulla livshändelser. Vad blir interceptet respektive regressionskoefficienterna? Vad blir beta-koefficienterna? Är koefficienterna signifikanta? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. Finns det något problem med kollinaritet? Motivera ditt svar. 4. Standardisera Number_long samt Stress_LE och skapa sedan en interaktionsterm för Number_long * Stress_LE. Utför en analys där depressiva symptom prediceras utifrån antalet långa alleler (standardiserat), antalet upplevda stressfulla livshändelser (standardiserat) samt deras interaktion. Vad blir interceptet respektive

3 regressionskoefficienterna? Vad blir beta-koefficienterna? Är koefficienterna signifikanta? Hur mycket av variationen i den beroende variabeln kan förklaras? Beskriv vad dessa värden säger oss. Finns det något problem med kollinaritet? Motivera ditt svar. 5. För analysen ovan: Ser sambandet mellan predicerade värden och residualer OK ut? Har någon av försökspersonerna otillbörligt stark påverkan på framräknade parametrar? Motivera dina svar. Texten kan antingen skrivas i samma form som en vetenskaplig artikel (se Caspi et al.s artikel för exempel), men då inkluderas SPSS-output som appendix. Texten kan också skrivas i form av en SPSS-undervisning-handout där man klipper in SPSS output-tabeller och kommentarer till dessa (se kurshemsidan för exempel). Observera att det inte räcker att du bara klipper in Output-tabellerna utan att beskriva och tolka resultaten. Uppgiften om Structural Equation Modeling (SEM) Holahan, C. J., Moos, R. H., Holahan, C. K., & Cronkite, R. C. (1999). Resource loss, resource gain, and depressive symptoms: A 10-year model. Journal of Personality and Social Psychology, 77, 620-629. Analysen utförs på ett dataset som simulerar det som Holahan et al. använt sig av ( Simulering, SEM, Depressive symptoms and resource loss ; finns på kurshemsidan; det handlar alltså inte om originaldata). I detta dataset är korrelationerna mellan variablerna de samma som anges i Tabell 3 i Holahan et al.s artikel, däremot har alla variablerna i det simulerade datasetet ett medelvärde på noll och en standardavvikelse på ett. Mer specifikt skall man utföra följande moment/besvara följande frågor: 1. Ange undersökningens syfte (låtsas, s.a.s., att du är Holahan och att detta är din undersökning). 2. Utför den SEM-analys som presenteras i Figur 2 i Holahan et al.s artikel och presentera dina resultat (gärna i form av en figur). Både parameterestimat och modellens anpassningsmått skall anges. OBS: Resultaten kommer inte att bli exakt de samma som i Holahan et al.s artikel, så det funkar inte att bara skriva av dessa. Beskriv i ord vad resultaten visar. 3. Ange, gärna i en tabell, vilken direkt, indirekt samt total effekt (standardiserade) som de latenta variablerna har på varandra. 4. Ange hur mycket av variansen i de latenta endogena variablerna som kan förklaras av de exogena variablerna. 5. När du skall utföra analysen får du upp ett varningsmeddelande (som du ignorerar genom att välja Proceed with analysis ). Varför? Skriv texten i form av en SPSS-undervisning-handout (se kurshemsidan för exempel).

4 Uppgiften om Multilevel Modeling (MLM) Uppgiften går ut på analysera datasetet som heter MLM, socioekonomisk position. Detta dataset simulerar ett riktigt dataset, men det är alltså inte originaldata. Följande variabler ingår (du får gärna beskriva dessa i din text): 1. Intelligens ju högre värde desto högre uppmätt intelligens i tonåren. 2. Utbildning ju högre värde desto högre uppnådd utbildningsnivå vid 25 års ålder. 3. SEB socioekonomisk bakgrund, ju högre värde desto bättre ställt hade man det i barndomen. 4. USEP25, USEP30, USEP35, och USEP40 uppnådd socioekonomisk position vid 25-40 års ålder, ju högre värde desto bättre ställt har man det. i. Börja med att grand mean centrera variablerna Intelligens, Utbildning och SEB. ii. Omstrukturera data så att varje person får fyra rader (en för varje mätning av USEP). Skapa en tidvariabel som står för antalet år sedan man fyllde 25 (varje person får alltså fyra värden, nämligen 0, 5, 10 och 15). 1. Analysera Modell 1: Fixed intercept, inga prediktorer, USEP som beroende variabel. Presentera och tolka resultaten. 2. Analysera Modell 2: Random intercept, inga prediktorer, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 1? Vad händer med residualerna jämfört med Modell 1? Finns det någon signifikant variation i USEPinterceptet mellan individer? Vad innebär detta? Presentera och tolka resultaten. 3. Analysera Modell 3: Random intercept, fixed effekt av tid, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 2? Vad händer med residualerna jämfört med Modell 2? Hur ser effekten av tid på USEP ut? Presentera och tolka resultaten. 4. Analysera Modell 4: Random intercept, random effekt av tid, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 3? Vad händer med residualerna jämfört med Modell 3? Varierar effekten av tid på USEP signifikant mellan individer? Presentera och tolka resultaten. 5. Analysera Modell 5: Random intercept, random effekt av tid, fixed effekt av intelligens (centrerat) samt interaktionen mellan intelligens (centrerat) och tid, USEP som beroende variabel. Hur pass bra passar modellen med data jämfört med Modell 4? Hur ser huvudeffekterna av tid och intelligens (centrerat) samt deras interaktion ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 4? Presentera och tolka resultaten. 6. Analysera Modell 6: Upprepa Modell 5 men byt ut intelligens mot utbildning (centrerat). Hur pass bra passar modellen med data jämfört med Modell 4? Hur ser huvudeffekterna av tid och utbildning (centrerat) samt deras interaktion ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 4? Presentera och tolka resultaten. 7. Analysera Modell 7: Upprepa Modell 5 men byt ut intelligens mot socioekonomisk bakgrund (SEB) (centrerat). Hur pass bra passar modellen med data jämfört med Modell 4? Hur ser huvudeffekterna av tid och SEB (centrerat) samt deras interaktion ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 4? Presentera och tolka resultaten. 8. Analysera modell 8: Random intercept, random effekt av tid, fixed effekter av intelligens (centrerat), utbildning (centrerat) och SEB (centrerat) samt alla tre tvåvägs

5 interaktionstermer som involverar effekten av tid. Hur pass bra passar modellen med data jämfört med Modell 7? Hur ser huvudeffekterna och interaktionerna ut? Hur tolkas dessa resultat? Vad händer med residualerna samt med variansen i interceptet och i effekten av tid mellan individer jämfört med Modell 7? Presentera och tolka resultaten. Inlämning Döp din text antingen till Uppgift om regression och ANOVA eller Uppgift om MLM och SEM beroende på vilka uppgifter du utfört. För en viss grad av anonymitet bör du inte ange ditt namn i den text som du skickar in dock skall namnet anges tydligt i det mejl som texten bifogas till. Fördjupningsuppgiften mejlas till följande två adresser (båda två): 1) kimmo.sorjonen@ki.se 2) kimmo.sorjonen.ki@analys.urkund.se I urkund görs en plagieringskontroll och om texten är plagierad så riskerar man att bli avstängd från sin utbildning. DET ÄR ALLTSÅ FÖRBJUDET ATT PLAGIERA REDAN EXISTERANDE TEXTER. Bedömning & Betygsättning Inlämningsuppgiften bedöms och betygsätts utifrån följande kriterier: A. Uppfylls instruktionerna? (helt = 2; hyfsat = 1; nej = 0) B. Verkar beräkningarna vara korrekt utförda? (helt = 2; hyfsat = 1; nej = 0) C. Innehåller texten felaktiga påståenden? (nej = 2; mindre allvarliga = 1; flera/grova = 0) D. Har uppgiften lämnats in i tid? (ja = 1; nej = 0) För betyget Godkänd krävs minst en poäng på VARDERA kriteriet A-C ovan. För betyget Väl Godkänd krävs minst en poäng på VARDERA kriteriet A-D ovan samt att man utfört Uppgiften om multilevel modeling (MLM) OCH Uppgiften om structural equation modeling (SEM).