MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Torsdagen den 24 e mars 2016 Ten 1, 9 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas tentamen) Ansvarig lärare. Lars Bohlin 021-103198 Poäng Totalt 40 Betygsgränser: G 20 VG 30 Generella uppmaningar: Redovisa dina lösningar i en form som gör det enkelt att följa din tankegång. Motivera alla väsentliga steg i beräkningar, ange alla antaganden du gör och förutsättningar du utnyttjar. Numrera bladen och sortera dem i ordning.
1. 6 poäng Nedan följer ett urval av frågor från SCBs undersökning om Hälsa och livsvillkor i Sverige 2014 Hälsa på lika villkor. Utifrån frågorna ovan skapas följande 5 variabler: F1 Utfallen är svaren svarat på fråga 1. F2 Utfallen är det tal mellan 0 och 30 som respondenten svarat på fråga 2 F65A Utfallen bestäms av vilken ruta respondenten kryssat i på fråga 65 F65B Denna variabel har missing på alla som inte arbetar som anställd. För de som arbetar som anställd är utfallet den procentsats som anges över arbetstiden. F81 utfallen är svaren på fråga 81.
a) Ange och motivera skaltyp för var och en av de fem variablerna. (2 p) b) Antag att man vill testa sambandet om arbetstiden påverkar den kroppsliga hälsan för de som är anställda. Föreslå en lämplig testmetod. Ange vilka variabler som används och hur hypoteserna bör formuleras. Förklara kort hur testet utförs. (2 p) c) Antag att man vill testa om det finns något samband mellan kön och hur man upplever sitt allmänna hälsotillstånd. Föreslå en lämplig testmetod. Ange vilka variabler som används och hur hypoteserna bör formuleras. Förklara kort hur testet utförs. (2 p) 2. 2 poäng a) b) c) d) a) Vilken av ovanstående fördelningar är mest lik en exponentialfördelning. b) Vilken av ovanstående fördelningar är en uniform fördelning. 3. 4 poäng Ett urval av 7 stycken hästar har följande kroppsvikter; 535, 563, 527, 599, 601, 540, 555 Beräkna följande mått: a) Median b) Medelvärde c) Varians d) Standardavvikelse 4 3 poäng Förklara följande begrepp: a) första kvartilen b) kvartilavståndet c) signifikansnivå
5 2 poäng Nedan visas en tidserie över antalet nybyggda lägenheter i flerbostadshus per år i Sverige. 2009 2010 2011 2012 2013 2014 14 447 10 625 12 587 16 657 20 663 20 754 a) Skapa en indexserie över antalet nybyggda lägenheter i flerbostadshus per år i Sverige med 2010 som basår. b) Förklara innebörden av indextalet för år 2013 6, 3 poäng a) En skolklass med 15 elever ska ställa upp i vi i femman och ska välja ut ett lag om tre elever. På hur många olika sätt kan ett sådant lag väljas ut? (1p) b) Antag att det är 5 tjejer och 10 killar i klassen. Om vi kräver att laget ska innehålla minst en kille och minst en tjej hur många sätt kan laget då väljas ut på? (2p) 7 5 poäng Ett slumpmässigt urval av 200 personer består av 95 kvinnor och 105 män. Av kvinnorna har 46 procent högskoleutbildning men enbart 42 procent av männen har högskoleutbildning. a) Illustrera urvalet i korstabeller, en med absoluta frekvenser och 3 med relativa frekvenser. För de tre tabellerna med relativa frekvenser ska du ha en tabell där alla celler summerar till 1, en tabell där kolumnsummorna är 1 och en tabell där radsummorna är 1. (2 poäng) b) Om man väljer ut en person från urvalet slumpmässigt, vad är sannolikheten att det är en kvinna utan högskoleutbildning? (1 poäng) c) Om man väljer ut en person från urvalet slumpmässigt, vad är sannolikheten att det är en anställd utan högskoleutbildning? (1 poäng) d) Om man väljer ut en kvinna från urvalet slumpmässigt vad är sannolikheten att hon inte har högskoleutbildning? (1 poäng) 8 5 poäng Fortsätt med samma exempel som i fråga 7. Gör en lämplig statistisk test för att se om det finns ett samband mellan kön och utbildningsnivå i den population som urvalet drogs ifrån. Använd 5 procents signifikansnivå. Ange nollhypotes och mothypotes, ange vilken teststatistika du använder och vad den har för kritiskt värde i det här fallet samt beräkna värdet på teststatistikan och redogör för vilka slutsatser vi kan dra från denna test.
9 10 poäng För att undersöka samband mellan rökning under graviditeten och barnets födelsevikt samlades följande data in från ett urval av 1 388 födslar. Variabelförteckning bwghtlbs = födelsevikt i pounds (1 pounds = 0,45 kg) cigs = antal rökta cigaretter per dag under graviditeten cigs_sq = antal rökta cigaretter per dag under graviditeten upphöjt till 2 faminc = familjens inkomst i tusen dollar male = dummyvariabel som ar värdet 1 om barnet är en pojke, 0 annars. Källa: J. Mullahy (1997), Instrumental-Variable Estimation of Count Data Models: Applications to Models of Cigarette Smoking Behavior, Review of Economics and Statistics 79, 596-593. Besvara frågorna nedan med hjälp av datautskrifterna på nästa sida. a) (5p) Rapportera och tolka regressionskoefficienterna och deras p-värden från båda modellerna. Använd 5 % signifikansnivå. b) (1p) Tolka den justerade förklaringsgraden i båda modellerna c) (1p) Förklara skillnaden mellan modellerna och diskutera vilken modell du anser vara bäst. d) (1p) Beräkna ett 95 % konfidensintervall för skillnaden i födelsevikt mellan pojkar och flickor enligt modell 1. e) (2p) Beräkna det predikterade värdet på födelsevikten enligt modell 2 hos en pojke om mamman rökte 5 cigaretter per dag under graviditeten och hushållets inkomst var 34 tusen dollar.
Modell 1 Modell 2