1 F1 ordinalskala F2 kvotskala F65A nominalskala F65B kvotskala F81 nominalskala (motivering krävs för full poäng) b) Variabler som används är F2 och F65b. Eftersom det är kvotskala på båda kan vi använda regressionsanalys och Pearsons korrelationskoefficient. Regressionskoefficienten anger hur mycket hälsan förbättras eller försämras om man ändrar sin arbetstid med en procentenhet. Mer exakt utryckt; hur många fler ohälsodagar får man per månad om man ökar arbetstiden med en procentenhet. P värdet anger om variabeln är signifikant eller ej, dvs om vi kan bevisa någon effekt från arbetstid till kroppslig ohälsa. Korrelationskoefficienten anger styrkan i sambandet. Om man vill använda fler av variablerna kan man även göra multipel regressionsanalys. Nollhypotesen är att regressionskoefficienten är lika med noll och mothypotesen att den avviker från noll. På motsvarande sätt finns en nollhypotes för korrelationskoefficienten som säger att den är lika med noll med en mothypotes om att korrelationskoefficienten avviker från noll. c) Vi använder variablerna F1 och F81. F81 används för att dela in i två grupper, män och kvinnor, och dessa båda grupper jämförs med wilcoxons rangsummetest eftersom F1 är mätt på ordinalkalas. Om p värdet är lägre än signifikansnivån kan vi bevisa att det finns en skillnad mellan män och kvinnor, dvs att det finns ett samband mellan kön och hur man upplever sitt allmänna hälsotillstånd. H 0: män och kvinnor upplever samma hälsotillstånd H 1: män upplever sig hälsa som bättre eller sämre än vad kvinnorna upplever sin. Alternativt H 0: det finns inget samband mellan kön och allmänt hälsotillstånd H 1: det finns ett samband mellan kön och allmänt hälsotillstånd Svaren görs om till rangtal och en z fördelad teststatistika beräknas som baseras på rangsumman i ena gruppen och antalet män respektive antalet kvinnor. Om z är större en det positiva kritiska värdet eller mindre n det negativa kritiska värdet förkastas nollhyptesen. 2. b b) a 3. 555 b) 560 c) 892 d) 30
4. Se kurslitteraturen 5. år 2009 2010 2011 2012 2013 2014 antal 14 447 10 625 12 587 16 657 20 663 20 754 index 136,0 100,0 118,5 156,8 194,5 195,3 Indextalet för 2013 194,5 innebär att antalet nybyggda lägenheter var 94,5 % fler än vad det var 2010. 6. C r n n! r! n r! = 15! = 15 14 13 = 455 3! 12! 3 2 b) Här kan man räkna på olika sätt. Ett sätt är att räkna ut hur många lag som bara är tjejer eller killar och dra ifrån dem. Antal kombinationer av tre tjejer = 5! = 5 4 3 = 10 3! 2! 3 2 Antal kombinationer av tre killar = 10! = 10 9 8 = 120 3! 7! 3 2 Antal lag som innehåller bägge könen blir då: 455 120 10 = 325 Alternativt räknar man ut antal lag som innehåller två killar samt antal lag som innehåller två tjejer och lägger ihop dem. Antal lag med två tjejer = 5! 5 4 3 10 = 10 = 10 10 = 100 3! 2! 3 2 Antal lag med två killar = 10! 5 = 10 9 5 = 45 5 = 225 2! 8! 2 Antal lag som innehåller bägge könen blir då: 100 + 225 = 325
7. Absoluta frekvenser högskoleutbildning 44 44 88 Ej högskoleutbildning 51 61 112 totalt 95 105 200 Relativa frekvenser högskoleutbildning 0,220 0,220 0,440 Ej högskoleutbildning 0,255 0,305 0,560 totalt 0,475 0,525 1,000 högskoleutbildning 0,463 0,419 0,440 Ej högskoleutbildning 0,537 0,581 0,560 totalt 1,000 1,000 1,000 högskoleutbildning 0,500 0,500 1,000 Ej högskoleutbildning 0,455 0,545 1,000 totalt 0,475 0,525 1,000 b) 0,255 c) 0,560 d) 0,537 8. H 0: variablerna kön och utbildningsnivå är oberoende H 1: variablerna kön och utbildningsnivå är beroende Teststatistika: χ2 = ( (f 0 f e ) 2 f e ) kritiskt värde: 3,841 (en frihetsgrad, 5 % signifikansnivå) Förväntade frekvenser under H 0 högskoleutbildning 41,8 46,2 88 Ej högskoleutbildning 53,2 58,8 112 totalt 95 105 200
Beräkning av chi 2: Obs frek Förv frek f 0 f e (f 0 f e ) 2 f e 44 41,8 2,2 0,1158 51 53,2-2,2 0,0910 44 46,2-2,2 0,1048 61 58,8 2,2 0,0823 0,3938 Då teststatistikans värde är lägre än det kritiska värdet kan vi inte förkasta H 0 och därmed kan vi inte dra några slutsatser. Vi har inte lyckats bevisa något samband mellan kön och utbildningsnivå. 9. Modell 1: Interceptet är 7,2, tveksamt att tolka då det förmodligen inte finns några hushåll helt utan inkomst. Koefficienten för antal cigaretter är -0,02. Den är signifikant eftersom p-värdet (0,000) understiger 5 %. Tolkningen är att om modern röker ytterligare en cigarett om dagen minskar barnets vikt med 0,03 pounds givet oförändrade värden på övriga oberoende variabler. Koefficienten för hushållets inkomst är 0,006. Den är signifikant eftersom p-värdet (0,001) understiger 5 %. Tolkningen är att om hushållets inkomst stiger med tusen dollar ökar barnets vikt med 0,006 pounds givet oförändrade värden på övriga oberoende variabler. Koefficienten för male är 0,19. Den är signifikant eftersom p-värdet (0,004) understiger 5 %. Tolkningen är att viktskillnaden mellan pojkar och flickor är 0,19 pounds. Pojkar väger 0,19 pounds mer än flickor givet oförändrade värden på övriga oberoende variabler. Modell 2: Interceptet är 7,2, tveksamt att tolka då det förmodligen inte finns några hushåll helt utan inkomst. Koefficienten för antal cigaretter tolkas tillsammans med koefficienten för antal cigaretter i kvadrat. Tolkningen är att barnets vikt minskar om modern röker fler cigaretter men effekten blir lägre ju fler cigaretter hon röker och vid riktigt många cigaretter kan vi tom få en positiv effekt. Tolkningen ska dock göras med försiktighet då endast den icke kvadratiska variabelns koefficient är signifikant. Koefficienten för hushållets inkomst är 0,006. Den är signifikant eftersom p-värdet (0,001) understiger 5 %. Tolkningen är att om hushållets inkomst stiger med tusen dollar ökar barnets vikt med 0,006 pounds givet oförändrade värden på övriga oberoende variabler. Koefficienten för male är 0,19. Den är signifikant eftersom p-värdet (0,005) understiger 5 %. Tolkningen är att viktskillnaden mellan pojkar och flickor är 0,19 pounds. Pojkar väger 0,19 pounds mer än flickor givet oförändrade värden på övriga oberoende variabler.
b) Den justerade förklaringsgraden anger den andel av variansen i födelsevikt som respektive modell kan förklara. I modell ett förklaras 3,34 procent och i modell två 3,45 %. Förklaringsgraden är således ganska lika och väldigt låg i båda modellerna. c) Skillnaden är att modell två antar ett icke linjärt kvadratiskt samband mellan födelsevikt och antal cigaretter. Men sambandet är förmodligen linjärt eftersom koefficienten för kvadraten av antal cigaretter inte är signifikant och vi får inte någon större ökning i förklaringsgraden i modell 2. Därmed bör modell 1 vara att föredra då den är enklare. d) 0,1946 ± 1,96 0,06727 0,1946 ± 0,1318 Skillnaden ligger med 95 procents sannolikhet mellan 0,06 och 0,33 pounds e) y = 7,21 0,0467 5 + 0,0006997 25 + 0,00589 34 + 0,189 1 = 7,38