STOCKHOLMS UNIVERSITET Sociologiska institutionen Skrivning i METOD (Analys) för fortsättningskursen i Sociologi, AoA, PAO, US och Samhällsplanerarlinjen, 12 april 2008, 9.00-13.00. Skrivtid: 4 timmar Hjälpmedel: Miniräknare Instruktioner: Skriv tydligt och läsligt, lämna dina svar på separat papper, numrera svaren på samma sätt som frågorna, skriv namn och personnummer på samtliga papper du lämnar in och motivera alla svar på essäfrågorna samt redovisa eventuella beräkningar. Svara koncist och håll dig till frågan. Kontrollera att skrivningen, inklusive denna sida, består av sammanlagt 5 sidor (inklusive denna) med 6 frågor. Antal maxpoäng per fråga anges inom parentes i högerkanten intill varje fråga. Markera i tabellen nedan med kryss vilka uppgifter som besvarats (i raden markerad med X). Lycka till! /Ryszard och Martin Lösta uppgifter Uppgift 1 2 3 4 5 6 summa X poäng antal möjliga poäng 8 12 3 3 2 4 32 Betygskala A B C D E Fler än 30 27 24 20 16 poäng För att få högre betyg än E måste antalet poäng på fråga 2 var större än 8. Namn: Personnr: OBS! Detta blad skall lämnas in med dina skrivningssvar! 1
Fråga 1. Läs följande påståenden. Ange med ett kryss i lämplig ruta om påståendet är sant eller falskt. För varje rätt svar ges 1 pluspoäng och för varje fel svar ges 1 minuspoäng. Blankt svar ger noll poäng. Minsta antal poäng du kan få för dessa åtta frågor är noll, högsta är åtta. Läs noga igenom formuleringen av varje påstående innan du svarar. (8 p) a) I ett signifikanstest innebär fel av typ I att man accepterar en felaktig nollhypotes (H 0 ). b) Med hjälp av dummyvariabler går det att använda oberoende variabler på nominal nivå (t.ex. nationalitet) i en linjär regressionsanalys. c) Riktningskoefficienten (b-värdet) i en enkel linjär regressionsanalys anger hur mycket den beroende variabeln i genomsnitt förändras i enheter då den oberoende variabeln förändras med ett steg. d) Interceptet i en regressionsanalys anger alltid det predicerade värdet på den beroende variabeln när de oberoende variablerna är lika med sitt medelvärde. e) För att skatta en regressionsmodell krävs att de oberoende och den beroende variabeln är okorrelerade. f) Att studera sambandet mellan x och y konstanthållet för z betyder alltid att man studerar sambandet mellan x och y när z har värdet 0. g) Residualtermen e i kan definieras som skillnaden mellan en individs predicerade och observerade värde på y. h) Ett bra sätt att minska standardfelet i en regressionsanalys är att använda sig av en större population. 2
Fråga 2. I nedanstående modell är egna utbildningsår beroende variabel. Materialet omfattar ett obundet slumpmässigt urval (OSU) av individer mantalsskrivna i Sverige i åldrarna 30 50 år under år 2000. De oberoende variablerna är kodade på följande sätt. Kvinna = 1 om kvinna, 0 om man Ålder = ålder i antal år Skilda föräldrar = 1 om individen vuxit upp med skilda föräldrar, 0 annars Storstad = 1 om individen är uppvuxen i storstad, 0 om individen är uppvuxen i mindre stad eller på landsbygden Faderns utbildningsår = faderns utbildning (under uppväxten) mätt i antal år Fadern högre tjänsteman = 1 om fadern var högre tjänsteman (under uppväxten), 0 om fadern var arbetare b t Sig. (p) Kvinna -0.172-1.35 0.178 Ålder 0.012 1.14 0.255 Skilda föräldrar -0.735-8.65 0.000 Storstad 0.274 5.66 0.000 Faderns utbildningsår 0.435 12.61 0.000 Fadern högre tjänsteman 1.528 9.81 0.000 Intercept/Konstant 8.024 12.43 0.000 R 2 0.151 N 1 998 a) R 2 -värdet för ovanstående modell är 0.15. Vad betyder det? (1p) b) Tolka vart och ett av värdena i kolumn b (de skattade b-koefficienterna). (4p) c) Förklara vad värdet i kolumn Sig. (p) innebär för variabeln som mäter om individen bor i storstad d) Hur tolkar du interceptet? (1p) e) Ange den fullständiga ekvationen för (och räkna ut) predicerade utbildningsår för en person med följande egenskaper: en 30-årig kvinna som vuxit upp med skilda föräldrar i en storstad, där fadern hade 9 utbildningsår och var arbetare. f) När variabeln som mäter om fadern var högre tjänsteman tas bort ur modellen blir koefficienten för faderns utbildningsår 0.523. Förklara varför den skattade koefficienten förändras jämfört med modellen i tabellen ovan. 3
Fråga 3. En forskare studerar trivsel på jobbet bland ett slumpmässigt urval om 3 000 av alla förvärvsarbetande i Sverige i november 2007. Hon mäter trivsel på jobbet på en skala från 0 till 100, där högre poäng betyder bättre trivsel. När hon använder veckoarbetstid (individens genomsnittliga antal arbetade timmar per vecka, inklusive övertid) som oberoende variabel får hon följande resultat: b t Sig. (p) Veckoarbetstid 1,1 2,86 0,007 Intercept 10,2 Forskaren konstaterar att detta samband kvarstår oförändrat när hon kontrollerar (konstanthåller) för utbildningsnivå, arbetslivserfarenhet, klass och kön. Hon drar följande slutsats av resultatet: Om man tillbringar mer tid på jobbet så leder det till att man trivs bättre med jobbet. Det är förmodligen så att ju mer man är på jobbet, desto mer fäster man sig vid och identifierar sig med sitt jobb. Utifrån resultatet av sin analys drar forskaren alltså slutsatsen att mer tid på jobbet leder till att man trivs bättre på jobbet. Är sambandet kausalt? För poäng krävs att du motiverar ditt svar. (3p) Fråga 4. I en regressionsanalys studerar en forskare sambandet mellan föräldrars inkomst (mätt som hushållets taxerade inkomst i tusentals kronor) och elevers sjukfrånvaro (mätt i antal dagar per läsår) som gick i årskurs 1 (på lågstadiet) på Alviksskolan i Bromma år 2007. Forskaren erhåller följande resultat: b t Sig. (p) Föräldrars inkomst -0,1-12,0 0,000 Intercept 14,2 På en debattsida kommenterar forskaren ovanstående resultat: Vi vet sedan tidigare att barn till låginkomsttagare är missgynnade på många sätt. Nu visar min forskning att föräldrarnas inkomst signifikant påverkar barnens sjukfrånvaro. Det är av största vikt att man uppmärksammar detta problem. Är denna slutsats rimlig? För poäng krävs att du motiverar ditt svar. (3p) 4
Fråga 5. Det finns flera olika sätt på vilka en skattad regressionsmodell kan vara inadekvat. Antag att den sanna populationsmodellen ser ut som nedan: Y i = 1 1 2 2 α + β X + β X + ε i där X 1 och X 2 korrelerar med +0.35, men att vi skattar följande modell: y i a + b x + = 1 1 e i Vad har vi gjort för fel? Fråga 6. a) Vad innebär ett kurvlinjärt samband mellan två variabler? (1p) b) Ge exempel på två variabler där det är rimligt att anta ett kurvlinjärt samband dem emellan, och illustrera med en figur hur ett sådant samband skulle se ut. c) Hur kan man enkelt test om det föreligger ett kurvlinjärt samband mellan två variabler. (1p) 5
STOCKHOLMS UNIVERSITET Sociologiska institutionen Skrivning i METOD (Analys) för Sociologi II, AoA II, PAO II, US II samt fortsättningskurs i Sociologi, AoA, PAO, US, 17 maj 2008, 9.00-14.00. Skrivtid: 5 timmar Hjälpmedel: Miniräknare Instruktioner: Skriv tydligt och läsligt, lämna dina svar på separat papper, numrera svaren på samma sätt som frågorna, skriv namn och personnummer på samtliga papper du lämnar in och motivera alla svar på essäfrågorna samt redovisa eventuella beräkningar. Svara koncist och håll dig till frågan. Kontrollera att skrivningen, inklusive denna sida, består av sammanlagt 5 sidor (inklusive denna) med 6 frågor. Antal maxpoäng per fråga anges inom parentes i högerkanten intill varje fråga. Markera i tabellen nedan med kryss vilka uppgifter som besvarats (i raden markerad med X). Lycka till! /Ryszard och Martin Lösta uppgifter Uppgift 1 2 3 4 5 6 summa X poäng antal möjliga poäng 8 12 3 3 2 2 30 Betygskala A B C D E Fler än 27 24 21 18 15 poäng För att få högre betyg än E måste antalet poäng på fråga 2 var större eller lika med 8. Namn: Personnr: OBS! Detta blad skall lämnas in med dina skrivningssvar! 1
Fråga 1. Läs följande påståenden. Ange med ett kryss i lämplig ruta om påståendet är sant eller falskt. För varje rätt svar ges 1 pluspoäng och för varje fel svar ges 1 minuspoäng. Blankt svar ger noll poäng. Minsta antal poäng du kan få för dessa åtta frågor är noll, högsta är åtta. Läs noga igenom formuleringen av varje påstående innan du svarar. (8 p) a) I ett signifikanstest innebär fel av typ I att man förkastar en sann nollhypotes (H 0 ). b) Om y är den beroende variabeln och x den oberoende variabeln i en linjär regressionsanalys, så betyder ett statistiskt signifikant samband mellan x och y att x orsakar y. c) Riktningskoefficienten (b-värdet) i en enkel linjär regressionsanalys anger hur mycket den beroende variabeln i genomsnitt förändras i enheter då den oberoende variabeln förändras med ett steg. d) Interceptet i en regressionsanalys anger alltid det predicerade värdet på den beroende variabeln när de oberoende variablerna är lika med sitt medelvärde. e) Väntevärdesriktighet innebär att skattningens förväntade värde, dvs. det aritmetiska medelvärdet för stickprovsfördelningen, är lika med det sanna populationsvärdet. f) Att studera sambandet mellan x och y konstanthållet för z betyder alltid att man studerar sambandet mellan x och y när z har värdet 0. g) För att pröva ett kurvlinjärt samband mellan den beroende variabeln (y) och en oberoende variabel (x 1 ) kan man inkludera kvadrattermen av x 1 i modellen enligt ekvationen: 2 y = a + b 1 x 1 + b 2 x 1 h) Ett bra sätt att minska standardfelet i en regressionsanalys är att använda sig av ett större urval. 2
Fråga 2. I nedanstående modell är Betyg från årskurs 9 den beroende variabeln i en multipel linjär regressionsanalys. Betygsskalan sträcker sig från 0 till 320 poäng. Materialet omfattar ett obundet slumpmässigt urval (OSU) om 10 000 av de elever som lämnade årskurs 9 i den kommunala skolan 1998 eller 1999. De oberoende variablerna är kodade på följande sätt: Flicka = 1 om flicka, 0 om pojke Första generation = 1 om eleven tillhör kategorin första generationen invandrare, 0 annars Andra generation = 1 om eleven tillhör kategorin andra generationen invandrare, 0 annars Faderns utbildning = Faderns utbildning i antal år (minimum 6 år, maximum 25 år) Fader arbetslös = 1 om fadern varit arbetslös under senaste året, 0 annars Fader socialbidrag = 1 om fadern fått socialbidrag under senaste året, 0 annars Antal syskon = Antal syskon (minimum 0, maximum 9) b t Sig. (p) Flicka 20.2 90.6 0.000 Svensk = referensgrupp Första generation -3.1-10.1 0.000 Andra generation -0.3-0.5 0.629 Faderns utbildning 5.8 145.7 0.000 Fader arbetslös -6.1-24.0 0.000 Fader socialbidrag -32.9-69.5 0.000 Antal syskon -2.5-39.5 0.000 Intercept/Konstant 149.6 317.1 0.000 R 2 0.21 N 10 000 a) R 2 -värdet för ovanstående modell är 0,21. Vad betyder det? (1p) b) Tolka vart och ett av de skattade b-koefficienterna i kolumn b. (4p) c) Förklara uttömmande vad värdet i kolumn Sig. (p) innebär för variabeln som mäter om individen är andra generationens invandrare. d) Hur tolkar du interceptet? (1p) e) Ange den fullständiga ekvationen för predicerat betyg för en person med följande egenskaper: En svensk flicka med två syskon och med en far som har 16 års utbildning, och som inte (fadern) varit arbetslös under det senaste året men som fått socialbidrag under det senaste året. f) När variablerna som tillsammans mäter invandrarbakgrund (första generation, andra generation) tas bort ur modellen blir koefficienten för dummyvariabeln fader socialbidrag - 36. Förklara varför den skattade koefficienten förändras jämfört med modellen i tabellen ovan. 3
Fråga 3. En nyutexaminerad sociolog ville studera sambandet mellan utbildning (mätt i antal år) och sjukfrånvaro (mätt i antal dagar föregående år) på hennes nya arbetsplats. Tabellen nedan visar utbildning och sjukfrånvaro för en av de mindre avdelningarna på företaget. Person Utbildningsår Sjukfrånvaro 1 12 0 2 12 0 3 12 0 4 12 1 5 12 2 6 12 2 7 12 3 8 12 4 9 12 4 10 12 5 a) Pricka in observationerna i ett koordinatsystem (märk tydligt ut x-axeln och y-axeln), och anpassa en linje (enligt principerna för minstakvadratmetoden ) till sambandet. (1p) b) Varför är det inte möjligt att skatta interceptet? (1p) c) Skatta R 2. (1p) Fråga 4. I en regressionsanalys studerar en forskare sambandet mellan föräldrars inkomst (mätt som hushållets taxerade månadsinkomst i tusentals kronor) och elevers sjukfrånvaro (mätt i antal dagar per läsår) i ett slumpmässigt urval (OSU) omfattande 10 000 elever av samtliga elever som gick i årskurs 4 år 2007. Forskaren erhåller följande resultat: b t Sig. (p) Föräldrars inkomst -0,01-12,0 0,000 Intercept 14,2 På en debattsida kommenterar forskaren ovanstående resultat: Vi vet sedan tidigare att barn till låginkomsttagare är missgynnade på många sätt. Nu visar min forskning att föräldrarnas inkomst signifikant påverkar barnens sjukfrånvaro. Det är av största vikt att man uppmärksammar detta problem. Är denna slutsats rimlig? För poäng krävs att du motiverar ditt svar. (3p) 4
Fråga 5. Det finns flera olika sätt på vilka en skattad regressionsmodell kan vara inadekvat. Antag att den sanna populationsmodellen ser ut som nedan: Y i = 1 1 2 2 α + β X + β X + ε i där X 1 och X 2 korrelerar med +0.35, men att vi skattar följande modell: y i a + b x + = 1 1 e i Vad har vi gjort för fel? För poäng krävs att du motiverar ditt svar. Fråga 6. En forskare studerar skillnader i hälsa mellan barn med invandrade föräldrar och barn med svenskfödda föräldrar. I analysens första steg estimerar hon en enkel (bivariat) regressionsanalys med en skala som mäter hälsa som beroende variabel, och en dummyvariabel som mäter om föräldrarna är svenskfödda eller ej som oberoende variabel. Resultatet visar att barn till svenskfödda föräldrar tenderar att ha bättre hälsa än barn till invandrade föräldrar. I analysens andra steg tänker hon konstanthålla för barnets kön. Vad kommer då sannolikt att hända med lutningskoefficienten för variabeln som mäter om föräldrarna är svenskfödda? Kommer den (jämfört med den bivariata regressionen) att vara starkare (dvs. ligga längre från noll), svagare (dvs. ligga närmare noll), eller kommer den att vara relativt oförändrad? För poäng krävs att du motiverar ditt svar. 5
STOCKHOLMS UNIVERSITET Sociologiska institutionen Skrivning i METOD (Analys) för Sociologi II, AoA II, PAO II, US II samt fortsättningskurs i Sociologi, AoA, PAO, US, 18:e augusti 2008, 17.00-22.00. Skrivtid: 5 timmar Hjälpmedel: Miniräknare Instruktioner: Skriv tydligt och läsligt, lämna dina svar på separat papper, numrera svaren på samma sätt som frågorna, skriv namn och personnummer på samtliga papper du lämnar in och motivera alla svar på essäfrågorna samt redovisa eventuella beräkningar. Svara koncist och håll dig till frågan. Kontrollera att skrivningen, inklusive denna sida, består av sammanlagt 5 sidor (inklusive denna) med 6 frågor. Antal maxpoäng per fråga anges inom parentes i högerkanten intill varje fråga. Markera i tabellen nedan med kryss vilka uppgifter som besvarats (i raden markerad med X). Lycka till! /Ryszard och Martin Lösta uppgifter Uppgift 1 2 3 4 5 6 summa X poäng antal möjliga poäng 8 12 2 3 3 3 31 Betygskala A B C D E Fler än 27 24 21 18 15 poäng För att få högre betyg än E måste antalet poäng på fråga 2 var större eller lika med 8. Namn: Personnr: OBS! Detta blad skall lämnas in med dina skrivningssvar! 1
Fråga 1. Läs följande påståenden. Ange med ett kryss i lämplig ruta om påståendet är sant eller falskt. För varje rätt svar ges 1 pluspoäng och för varje fel svar ges 1 minuspoäng. Blankt svar ger noll poäng. Minsta antal poäng du kan få för dessa åtta frågor är noll, högsta är åtta. Läs noga igenom formuleringen av varje påstående innan du svarar. (8 p) a) I ett signifikanstest innebär fel av typ I att man förkastar en sann nollhypotes (H 0 ). b) Om y är den beroende variabeln och x den oberoende variabeln i en linjär regressionsanalys, så betyder ett statistiskt signifikant samband mellan x och y att x orsakar y. c) Riktningskoefficienten (b-värdet) i en enkel linjär regressionsanalys anger hur mycket den beroende variabeln i genomsnitt förändras i enheter då den oberoende variabeln förändras med en enhet. d) Interceptet i en regressionsanalys anger alltid det predicerade värdet på den beroende variabeln när de oberoende variablerna är lika med sitt medelvärde. e) Väntevärdesriktighet innebär att skattningens förväntade värde (vilket definieras som det aritmetiska medelvärdet för stickprovsfördelningen) är lika med det sanna populationsvärdet. f) Att studera sambandet mellan x och y konstanthållet för z betyder alltid att man studerar sambandet mellan x och y när z har värdet 0. g) Residualtermen e i kan definieras som skillnaden mellan en individs predicerade och observerade värde på y. h) Ett bra sätt att minska standardfelet i en regressionsanalys är att använda sig av en större population. 2
Fråga 2. I nedanstående modell är egna utbildningsår beroende variabel. Materialet omfattar ett obundet slumpmässigt urval (OSU) av individer mantalsskrivna i Sverige i åldrarna 30 50 år under år 2000. De oberoende variablerna är kodade på följande sätt. Kvinna = 1 om kvinna, 0 om man Ålder = ålder i antal år Skilda föräldrar = 1 om individen vuxit upp med skilda föräldrar, 0 annars Storstad = 1 om individen är uppvuxen i storstad, 0 om individen är uppvuxen i mindre stad eller på landsbygden Faderns utbildningsår = faderns utbildning (under uppväxten) mätt i antal år Fadern högre tjänsteman = 1 om fadern var högre tjänsteman (under uppväxten), 0 om fadern var arbetare b t Sig. (p) Kvinna -0.172-1.35 0.178 Ålder 0.012 1.14 0.255 Skilda föräldrar -0.735-8.65 0.000 Storstad 0.274 5.66 0.000 Faderns utbildningsår 0.435 12.61 0.000 Fadern högre tjänsteman 1.528 9.81 0.000 Intercept/Konstant 8.024 12.43 0.000 R 2 0.151 N 1 998 a) R 2 -värdet för ovanstående modell är 0.15. Vad betyder det? (1p) b) Tolka vart och ett av värdena i kolumn b (de skattade b-koefficienterna). (4p) c) Förklara vad värdet i kolumn Sig. (p) innebär för variabeln som mäter om individen bor i storstad d) Hur tolkar du interceptet? (1p) e) Ange den fullständiga ekvationen för predicerade utbildningsår för en person med följande egenskaper: en 30-årig kvinna som vuxit upp med skilda föräldrar i en storstad, fadern hade 9 utbildningsår och var arbetare. Räkna också ut det predicerade värdet. f) När variabeln som mäter om fadern var högre tjänsteman tas bort ur modellen blir koefficienten för faderns utbildningsår 0.523. Förklara varför den skattade koefficienten förändras jämfört med modellen i tabellen ovan. 3
Fråga 3. Följande ekvation anger effekten av arbetslivserfarenhet (x), mätt i antal år, på lön (y), mätt i 1000-tals kronor. Predicerat y i = 2 + 4*x i. Rita in en regressionslinje i ett koordinatsystem som visar hur ekvationens predicerade y-värden ser ut med x-värden som går från 0 till 10. Fråga 4. I en regressionsanalys studerar en forskare sambandet mellan föräldrars inkomst (mätt som hushållets taxerade månadsinkomst i tusentals kronor) och elevers sjukfrånvaro (mätt i antal dagar per läsår) i ett slumpmässigt urval (OSU) omfattande 10 000 elever av samtliga elever som gick i årskurs 4 år 2007. Forskaren erhåller följande resultat: b t Sig. (p) Föräldrars inkomst -0,01-12,0 0,000 Intercept 14,2 På en debattsida kommenterar forskaren ovanstående resultat: Vi vet sedan tidigare att barn till låginkomsttagare är missgynnade på många sätt. Nu visar min forskning att föräldrarnas inkomst signifikant påverkar barnens sjukfrånvaro. Det är av största vikt att man uppmärksammar detta problem. Är denna slutsats rimlig? För poäng krävs att du motiverar ditt svar. (3p) 4
Fråga 5. En forskare har analyserat sambandet mellan föräldrars uttag av föräldrapenning, yrke, utbildning, egen inkomst samt partnerns inkomst med hjälp av en regressionsanalys utförda på ett OSU om 1000 individer av alla samboende/gifta män berättigade till uttag av föräldrapenning år 2007. En annan forskare har genomfört semistrukturerade intervjuer med 10 föräldrar för att undersöka hur paren resonerar om vem av föräldrarna som tar ut hur mycket av föräldrapenningen, Diskutera för- och nackdelar med respektive metod. (3p) Fråga 6. Ange tre villkor som är centrala vid avgörandet om en variabel ar relaterad till (påverkar) en annan variabel i kausal mening. Ge ett exempel på två variabler som kan tankas vara relaterade till varandra på ett satt som gör att de uppfyller två av dessa villkor men inte det tredje. (3p) 5