MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Torsdagen den 22 mars 2018 TEN1, 9 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas tentamen) Ansvariga lärare. Lars Bohlin 021-103198, Karl Wahlin 070-9719096 Poäng Totalt 40 Betygsgränser: G 20 VG 30 Generella uppmaningar: Redovisa dina lösningar i en form som gör det enkelt att följa din tankegång. Motivera alla väsentliga steg i beräkningar, ange alla antaganden du gör och förutsättningar du utnyttjar. Numrera bladen och sortera dem i ordning. Siffrorna i uppgifterna är påhittade.
1 1 poäng Vilken av följande fördelningar är diskret? a) b) c) d) 2 1 poäng Vilken av följande fördelningar är positivt skev? a) b) c) d) 3 1 poäng Vilket av följande diagram skulle du rekommendera för att beskriva en kontinuerlig kvantitativ variabel. a) Histogram b) Cirkeldiagram c) Stapeldiagram d) Grupperat stapeldiagram 4 1 poäng På vilken skala mäts variabeln temperatur mätt som grader Celsius? a) kvotskala b) intervallskala c) ordinal skala d) nominal skala
5 4 poäng Ett stickprov draget ur en stor population består av elementen 5, 5, 10, 15, 15 a) Ställ upp data i en frekvenstabell med absoluta och relativa frekvenser. b) Beräkna medelvärdet i stickprovet. c) Beräkna medianen i stickprovet. d) Beräkna standardavvikelsen i stickprovet. 6 3 poäng Prisökningarna på konsumtionsvaror i ett litet land var enligt följande tabell. 2001 5,0 % 2002 3,5 % 2003 0,5 % 2004-0,5 % 2005 3,0 % a) Beräkna ett kedjeindex med 2000 som basår, använd en decimal i ditt svar. b) Metallarbetarna i det här landet tjänade år 2000 i genomsnitt 26 000 per månad. År 2005 tjänade de i genomsnitt 31 000 per månad. Hur stor var reallöneökningen i 2000 års penningvärde? 7 4 poäng En urna innehåller 15 kulor. Av dessa är 10 vita och 5 svarta. Du drar slumpmässigt 4 kulor ur urnan. a) Vad är sannolikheten att exakt 2 av kulorna är vita om du lägger tillbaka kulorna mellan varje dragning? b) Vad är sannolikheten att exakt 2 kulor är vita om du inte lägger tillbaka dem mellan varje dragning?
8 4 poäng Nedanstående enkätfrågor kommer från SOM undersökningen SOM4, 2013 Utifrån svaren skapas 4 variabler F33(Åsikt om könsdiskriminering), F52 (Sektor), F55(Anställningens omfattning), F62 (kön), a) Ange på vilken skala var och en av variablerna mäts. Motivera varför. (2p) b) Antag att man vill undersöka om det finns ett samband mellan anställningens omfattning och i vilken sektor man arbetar. Föreslå och motivera en lämplig statistisk test, ange nollhypotes och mothypotes samt beskriv kort hur testet utförs. Ange vilka variabler du använder. (2p)
9 6 poäng Vi studerar sjukfrånvaron, mätt som antal timmars sjukfrånvaro det senaste året, vid en stor organisation. För ett slumpmässigt urval om 30 anställda som varit anställda i minst ett år fås följande resultat. Person Timmar sjukfrånvaro Person Timmar sjukfrånvaro Person Timmar sjukfrånvaro 1 2 11 34 21 28 2 10 12 57 22 29 3 14 13 90 23 31 4 15 14 146 24 32 5 19 15 152 25 35 6 20 16 0 26 38 7 22 17 1 27 43 8 24 18 6 28 51 9 26 19 13 29 67 10 30 20 27 30 75 Den genomsnittliga sjukfrånvaron har för tabellen beräknats till 37.9 timmar och standardavvikelsen till 36.9 timmar. a) Beräkna ett 95-procentigt konfidensintervall för den genomsnittliga sjukfrånvaron i organisationen. Redogör för vilka antaganden som metoden baseras på. Dra slutsatser med ord. b) Pröva på 5 procents signifikansnivå om den genomsnittliga sjukfrånvaron per anställd i organisationen understiger 40 timmar per år. Ställ upp hypoteser och redogör för vilka antaganden som metoden baseras på. Dra slutsatser med ord. 10 5 poäng Betrakta återigen data över sjukfrånvaro från föregående uppgift. Person 1-15 är anställd vid avdelning 1 och person 16-30 är anställd vid avdelning 2. Pröva på 5 procents signifikansnivå om det finns några skillnader i sjukfrånvaro mellan avdelning 1 och avdelning 2. Kontrollera noga förutsättningarna för beräkningarna och ange vilka antaganden den metod du valt baseras på. Dra slutsatser med ord. Glöm inte att ställa upp hypoteser.
11 10 poäng Organisationen har verksamhet i 29 regioner. Vi vill nu se om det finns något samband mellan medianlön (uttryckt i kronor) och korttidssjukfrånvaro (uttryckt i procent). Vi börjar med att åskådliggöra sambandet mellan medianlön och korttidssjukfrånvaro: Figur 1: Scatterplot över sambandet mellan medianlön och korttidssjukfrånvaro. Vi anpassar därefter två regressionsmodeller: modell 1 och modell 2.
Figur 2: Regressionsutskrift för modell 1. Scatterplot av residualerna 4 2 Residualer 0-2 25000 30000 35000 40000 45000 Medianlön (kr) Figur 3: Scatterplot av residualerna för modell 1.
Figur 4: Histogram över residualerna för modell 1. Figur 5: Regressionsutskrift för modell 2.
Scatterplot av residualerna 4 2 Residualer 0-2 25000 30000 35000 40000 45000 Medianlön (kr) Figur 6: Scatterplot av residualerna för modell 2. Figur 7: Histogram över residualerna för modell 2.
a) Uttryck regressionsmodellen för modell 1 på ekvationsform (exempelvis y = a + bx) och förklara vad variablerna representerar i modellen. (1p) b) Uttryck regressionsmodellen för modell 2 på ekvationsform och förklara vad variablerna representerar i modellen. (1p) c) Vilken av modell 1 och modell 2 skulle du välja för att förstå sambandet mellan korttidssjukfrånvaro och medianlön? Motivera. (1p) d) Baserat på den modell som du valt: finns det något statistiskt säkerställt samband mellan medianlön och korttidssjukfrånvaro? Ange hypoteser, testvariabel, p-värde och slutsats. (1p) e) Baserat på den modell som du valt: förefaller modellen välanpassad? Utred baserat på modellanpassningsmått och residualplottar. (1p) f) Baserat på båda modellerna: tolka parametrarna i regressionsekvationerna med ord. (3p) g) Baserat på båda modellerna: gör prognoser av den förväntade korttidssjukfrånvaron i en region där medianlönen är 35 000 kr. (2p)