Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Fredagen den 9 e juni 2017 Ten 1, 9 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas tentamen) Ansvarig lärare. Lars Bohlin 0730-452937 Poäng Totalt 40 Betygsgränser: G 20 VG 30 Generella uppmaningar: Redovisa dina lösningar i en form som gör det enkelt att följa din tankegång. Motivera alla väsentliga steg i beräkningar, ange alla antaganden du gör och förutsättningar du utnyttjar. Numrera bladen och sortera dem i ordning. Svaren till flervalsfrågorna, 1-6, ska lämnas i svarsblanketten sist i tentan. Riv ut denna och lämna in tillsammans med dina lösningar på övriga frågor.

1. (1 poäng) Vilken av följande fördelningar är en uniform fördelning? a) b) c) d) 2. (1 poäng) Vilken av följande fördelningar är negativt skev? a) b) c) d) 3. (1 poäng) Antag att kalle står i ett gathörn och räknar antalet gula bilar som passerar. Definiera slumpvariabeln, antal gula bilar av de första hundra bilarna som passerar. Vilken fördelning har denna slumpvariabel. a) Normalfördelning. b) Binomialfördelning. c) Hypergeometrisk fördelning. d) Uniform fördelning.

4. (1 poäng) Vilket av följande påståenden är falskt? a) Histogram är lämpligt för en variabel mätta på nominalskalaskala b) Man kan inte beräkna medelvärdet på en kvalitativ variabel. c) Variabler mätta på nominalskala kan inte användas som beroende variabel i en enkel linjär regressionsanalys d) Genom att konstruera dummyvariabler kan man använda variabler mätta på nominalskala som oberoende variabler i en enkel linjär regressionsanalys. 5. (1 Poäng) Vilket av följande påståenden är falskt? a) Histogram kan användas för variabler mätta på kvotskala. b) Kvalitativa variabler kan mätas på nominalskala eller ordinalskala. c) Binomialfördelningen är ett exempel på en diskret sannolikhetsfördelning. d) Längden på ett konfidensinterval ökar om man gör ett större urval. 6. (1 Poäng) Vilken av följande metoder är lämpligast om du vill undersöka ett samband mellan två variabler mätta på ordinalskala? a) Pearsons korrelationskoefficient. b) Spearmans korrelationskoefficient. c) Wilcoxons rangsumetest. d) Wilcoxons teckenrangtest.

7. (4 poäng) Ett urval av 7 stycken hästar har följande kroppsvikter; 535, 563, 527, 599, 601, 540, 555 Beräkna följande mått: a) Median b) Medelvärde c) Varians d) Pearsons measure of skewness 8. (4 poäng) En urna innehåller 17 kulor. Av dessa är 10 vita och 7 svarta. Du drar slumpmässigt 4 kulor ur urnan. a) Vad är sannolikheten att exakt 2 av kulorna är vita om du lägger tillbaka kulorna mellan varje dragning? b) Vad är sannolikheten att exakt 2 kulor är vita om du inte lägger tillbaka dem mellan varje dragning? 9. (4 poäng) Tabellen nedan anger värdet av livsmedelsindustrins utgående lager av färdigvaror i miljoner kr samt KPI med basår 1980. (källa: SCB) 2004 2005 2006 2007 2008 lager 6 455 8 807 10 936 7 791 8 843 KPI (1980) 279 282 286 296 299 a) Beräkna en indexserie över lagerutvecklingen med 2004 som basår. b) Räkna om KPI så att du får 2004 som basår c) Beräkna en real indexserie över lagerutvecklingen d) Beräkna den procentuella ökningen av lagret i nominella priser mellan 2004 och 2008. e) Beräkna den procentuella ökningen av det reala värdet av lagret mellan 2004 och 2008.

10. (6 poäng) Frågorna nedan är ett utdrag ur SOM undersökningen 2013 Utifrån dessa frågar skapas följande tre variabler: Gudstro: utfallen är svaren på fråga 39 Tillit: utfallen är svaren på fråga 40 Alkohol: utfallen beräknas genom att multiplicera svaren på frågorna Starköl Vin och Sprit med en genomsnittlig alkoholhalt i respektive dryck och summera för att erhålla individens intag av ren alkohol i cl. a) Ange och motivera skaltyp för respektive variabel b) Antag att man vill undersöka om människor som tror på gud dricker mer eller mindre alkohol än människor som inte tror på Gud. Ange och motivera en lämplig test. Formulera hypoteser och ange vilka variabler du ska använda. Förklara kort hur testen går till. c) Antag att man vill undersöka om människor som tror på Gud litar mer på andra människor än vad människor som inte tror på gud gör. Ange och motivera en lämplig test. Formulera hypoteser och ange vilka variabler du ska använda. Förklara kort hur testen går till.

11. (6 poäng) I en studie publicerad i Archives on international medicin analyseras om s.k. medelhavsdiet är mer eller mindre hälsosam än den kost med låg fetthalt som hälsomyndigheterna brukar rekommendera. 500 patienter som överlevt en hjärtattack fick antingen rekommendationen att följa en fettsnål diet eller en medelhavsdiet. Efter fyra år sammanställdes följande korstabell. Hälsostatus Diet Fettsnål diet Medelhavsdiet Totalt Cancer 15 7 22 Död 24 14 38 Lindrig sjukdom 25 8 33 Frisk 239 273 512 Totalt 303 302 605 Gör en lämplig hypotestest för att se om det finns något samband mellan diet och hälsostatus. Använd 5 procents signifikansnivå. Om du finner ett samband, beräkna en lämplig kosttabell med relativa frekvenser och dra relevanta slutsatser om diets påverkan på hälsan. Källa: De Longerill, M., Salen, P., Martin, J., Monjaud, I., Boucher, P., Mamelle, N. (1998). Mediterranean Dietary pattern in a Randomized Trial. Archives of Internal Medicine, 158, 1181-1187.

12. (10 poäng) Den här uppgiften är baserad på data över Sveriges kommuner från SCB och brottsförebyggande rådet. Variabelförteckning: A_03 A_07 C_02 D_10 G_09 Folkmängd, antal personer Landareal, kvadratkilometer Antal anmälda våldsbrott per 100 000 invånare Totalt antal arbetslösa, procent av arbetskraften skatteintäkter, Kr/invånare Baserat på denna data har jag gjort två olika regressionsmodeller som försöker förklara arbetslösheten i de svenska kommunerna. Båda modellerna har samma variabler men i modell 2 är regressionen baserad på 10 logaritmen av variablerna. (log efter variabelnamnet betyder alltså att det är 10 logaritmen av den ursprungliga variabeln.) Besvara frågorna nedan med hjälp av datautskrifterna på nästa sida. a) (5p) Rapportera och tolka regressionskoefficienterna och deras p-värden från båda modellerna. Använd 5 % signifikansnivå. b) (1p) Förklara skillnaden mellan de båda modellerna och diskutera vilken av dem du skulle föredra. c) (1p) Diskutera om någon av de oberoende variablerna kan vara beroende på arbetslösheten. Hur skulle det i så fall påverka tolkningarna du gjorde i a-uppgiften? d) (2p) Beräkna ett 95 % konfidensintervall för regressionskoefficienten till C_02 i modell 1 och tolka innebörden av intervallet. e) (1p) Beräkna det predikterade värdet för den totala arbetslösheten enligt modell 1 i en kommun där folkmängden är 120 000, landarealen är 150 km 2, antal våldsbrott är 800 per 100 000 invånare och skatteintäkterna är 40 000 kronor per invånare.

Modell 1 Modell 2

Svarsblankett Riv ut den här sidan och lämna in tillsammans med dina lösningsblad. Fråga nr a b c d 1 2 3 4 5 6