Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Exempeltenta 2 Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas tentamen) Ansvarig lärare. Lars Bohlin 0730-452937 Poäng Totalt 40 Betygsgränser: G 20 VG 30 Generella uppmaningar: Multiple choice frågorna (nr 1 4) ska besvaras i svarsformuläret i slutet av tentan, riv ur den sidan och lämna in tillsammans med dina lösningar. I övriga frågor ska du redovisa dina lösningar i en form som gör det enkelt att följa din tankegång. Motivera alla väsentliga steg i beräkningar, ange alla antaganden du gör och förutsättningar du utnyttjar.

1. (1 poäng) I en enkätundersökning om livmedelskedjornas kunders lojalitet ställdes bl a följande frågor. 1 För mig är det viktigt att handla från en viss livsmedelskedja. Instämmer inte alls Instämmer helt 1 2 3 4 5 2. Hur många av dina fem senaste matinköp har varit från samma livsmedelskedja? Instämmer inte alls Instämmer helt 1 2 3 4 5 3. Kön 1 Man 2 Kvinna 4. Ålder Utifrån svaren skapas fyra variabler F1(påstådd lojalitet) F2 (uppvisad lojalitet) F3 (kön) och F4 (ålder) Vilket av följande påståenden är sant om variabeln F3 (kön) a) Variabeln F3 (kön) mäts på kvotskala b) Variabeln F3 (kön) mäts på intervallskala c) Variabeln F3 (kön) mäts på ordinal skala d) Variabeln F3 (kön) mäts på nominal skala 2. (1 poäng) Antag att man utifrån enkätundersökningen i fråga 1 vill undersöka om de som anser det är viktigt att handla från en viss livsmedelskedja också är mer lojala i sitt faktiska beteende. Du ska använda dig av variablerna F1(påstådd lojalitet) och F2 (uppvisad lojalitet). Vilken av följande metoder är lämpligast? a) Beräkna Pearsons korrelationskoefficient b) Beräkna Spearmans korrelationskoefficient c) Wilcoxons teckenrangtest d) Hypotestest på medelvärde

3. (1 poäng) Antag att du kastar en tärning 10 gånger och räknar antalet sexor. Antalet sexor blir då en slumpvariabel. Vad kallas den fördelning som denna slumpvariabel har? a) Normalfördelning. b) Hypergeometrisk fördelning. c) Binomialfördelning. d) Uniform fördelning. 4. (1 poäng) Vilken av följande fördelningar är en diskret fördelning a) b) c) d)

5. (4 poäng) Ett urval av 7 stycken fotbollstränare har följande åldrar: 23, 27, 33, 34, 37, 40, 41 Beräkna följande mått: a) Median b) Medelvärde c) Varians d) Standardavvikelse 6. (3 poäng) Antag att du drar ett kort ur en vanlig kortlek med 52 kort. Hur stor är sannolikheten att du får: a) En hjärter b) En kung c) Klöver tre 7. (3 poäng) Förklara följande begrepp a) operationalisering b) reliabilitet c) validitet 8. (3 poäng) I ett urval på 10 personer ur en population av 10 000 universitetslärare, var medelvärdet för inkomst 32 000 med en standardavvikelse på 1000. Beräkna ett konfidensintervall för medelvärdet i hela populationen. Använd 95 % konfidensgrad. Förklara också hur konfidensintervallet ska tolkas. 9. (5 poäng) Ett bussföretag planerar att starta en ny busslinje mellan två mindre orter. För att få lönsamhet måste minst 20 procent av pendlarna mellan dessa orter välja bussen istället för bilen. I ett slumpmässigt urval av 400 tillfrågade bilister säger 100 att de skulleåka buss om det startades en busslinje. Kan vi utifrån denna undersökning dra slutsatsen att mer än 20 procent av bilisterna i hela populationen skulle välja att åka buss? Använd 1% signifikansnivå. a) Sätt upp lämplig nollhypotes och mothypotes. b) Ange formeln för din teststatistika och en beslutregel c) Beräkna värdet på din teststatistika d) Kan vi dra någon slutsats från undersökningen? I så fall vilken?

10. (2 poäng) Tabellen anger pris och kvantitet av tre olika matvaror vid två olika tidpunkter. Period 1 Period 2 pris kvantitet pris Kvantitet Mjölk 8 98 10 99 Ost 60 1000 58 1100 smör 40 500 50 510 a) Beräkna ett sammanräknat index över prisstegringen med Laspeyres metod b) Beräkna ett sammanräknat index över prisstegringen med Paasches metod 11. (2 poäng) I en enkätundersökning om mobbing i skolan ställdes bl a följande frågor. 1 Jag upplevde mig ofta mobbad i skolan Instämmer inte alls Instämmer helt 1 2 3 4 5 2. Mina barn blir ofta mobbade i skolan 1 2 3 4 5 3. Kön 1 Man 2 Kvinna 4. Utbildningsnivå grundskola gymnasium högskola annan Utifrån svaren skapas fyra variabler F1(mobbad) F2 (mobbade barn) F3 (kön) och F4 (utbildningsnivå). Antag att man vill undersöka om högutbildade föräldrar upplever att deras barn blir mobbade i större eller mindre utsträckning än vad lågutbildade föräldrar upplever. Vilken test rekommenderar du och vilka variabler skulle du använda. Beskriv kort hur testen går till. 12 (5 poäng) Ett företag vill utvärdera två nya produkter A och B och väljer därför ett urval av 90 personer som får testa båda produkterna. I urvalet ansåg 30 personer att produkt A var bäst, 45 personer att produkt B var bäst och 15 personer tyckte att båda produkterna var lika bra. Använd ett teckentest för att avgöra om produkt B är mer omtyckt även i hela befolkningen. Sätt upp lämpliga hypoteser, ange formeln för din teststatiska, formulera en beslutsregel, beräkna din teststatistika och tala om vilka slutsatser som kan dras från testet. Använd en signifikansnivå på 1 procent.

13. 9 poäng Är hyrorna högre i städer med många studenter? För att undersöka det samlade David Harvey in data från 64 amerikanska städer. Följande variabler samlades in: rent: lrent popth: lpop enrollth lenroll avginc lavginc genomsnittlig hyresnivå i staden i dollar logaritmen av rent befolkning (tusentals personer) logaritmen av befolkningen i antal personer antal studenter (tusentals studenter) logaritmen av antal studenter genomsnittlig inkomst per person i dollar logaritmen av genomsnittsinkomsten Source: David Harvey, a former MSU undergraduate, collected the data for 64 college towns from the 1990 United States censuses. På följande sida finns resultat från SPSS från två olika regressionsmodeller baserade på ovanstående data. Besvara följande frågor med hjälp av regressionsresultaten. a) Tolka regressionskoefficienterna och deras p-värden från bägge modellerna. Använd 5 % signifikansnivå. (5p) b) Tolka förklaringsgraderna från båda modellerna. (1p) c) Förklara skillnaden mellan modellerna och diskutera vilken modell som är att föredra. (2p) d) Beräkna det predikterade värdet enligt modell 1 för den genomsnittliga hyresnivån i en stad med 50 000 invånare, 2000 studenter och genomsnittinkomst på 20 000 dollar. (1p)

Regressionsmodell 1 Regressionsmodell 2

Svarsblanket för multiple choice frågor (Riv av denna sida och lämna in tillsammans med dina lösningar) Fråga nr a b c d 1 2 3 4

Fråga nr a b c d 1 X 2 X 3 X 4 X 5. a) 34 b) 33,6 c) 44,0 d) 6,6 6. 13/52 = ¼ = 0,25 4/52= 1/13 = 0,077 1/52 = 0,019

7. a) Operationalisering: Att skapa en mätbar variabel av ett teoretiskt begrepp. Vid enkätundersökningar består operationaliseringen av att formulera en fråga och en beslutsregel för hur svaren ska anlyseras. b) Reliabilitet: mätningens noggrannhet. Hur exakt vi mäter det vi faktiskt mäter c) Validitet: Hur väl den variabel man mäter stämmer med det begrepp man vill mäta eller säger sig mäta 8. Med 95 % sannolikhet finns det sanna medelvärdet i hela populationen mellan 31 285 och 32 715 9. a) b) H 0 förkastas om teststatiskickan större än 2,326 c) Eftersom 2,5 > 2,326 kan vi förkasta H 0 och därmed dra slutsatsen att mer än 20 procent av bilisterna skulle välja bussen. 10. a) b)

11. Använd variablerna F2 (mobbade barn) och F4 (utbildningsnivå). Ett alternativ är Kruska Wallis test där F4 används för att dela in urvalet i 4 grupper och där vi testar om dessa har lika höga värden på variabel F2. Ett annat alternativ kan vara att bara dela in materialet i 2 grupper. Exempelvis de som har högskoleutbildning och de som inte har det och använda wilcoxons rangsummetest för att se om dessa grupper har olika höga värden på F2. I båda dessa test räknas rangtal fram som anger ordningsföljden i hela urvalet. Teststatistikorna beräknas sedan utifrån rangsummorna i de olika grupperna. t-test eller anova test kan inte användas eftersom variabeln F2 är ordinaldata. 12 Hypoteser: Där π är andelen som föredrar produkt B Beslutsregel: Om teststatistikans värde överstiger det kritiska värdet 2,326 förkastas H 0 Teststatistika: Eftersom 1,6 är lägre än det kritiska värdet kan vi inte förkasta H 0 och därmed kan vi inte dra någon slutsats.

13 A) Modell 1 Interceptet tolkas ej eftersom inga städer har en genomsnittsinkomst på 0, eller en befolkning på noll. (Möjligen noll studenter om man saknar högskola.) Samtliga koefficienter är signifikanta eftersom deras p-värden är lägre än 0,05 Koefficienten för avginc är 0,012 vilket tolkas som att hyran stiger med 0,012 dollar om genomsnittsinkomsten i stan ökar med 1 dollar vid oförändrade värden på övriga oberoende variabler. Koefficienten för enrollth är 2,56 vilket tolkas som att hyran stiger med 2,56 dollar om antalet studenter ökar med 1000 vid oförändrade värden på övriga oberoende variabler. Koefficienten för popth är -0,35 vilket tolkas som att hyran sjunker med 0,35 dollar om antalet invånare ökar med 1000 personer vid oförändrade värden på övriga oberoende variabler.. (mäk att enheten för pop var tusen personer så att den ökar med en enhet innebär att den ökar med 1000 personer) Modell 2 lpop är inte signifikant eftersom p-värdet är högre än 0,05 och tolkas därför ej. lavginc och lenroll är signifikanta eftersom deras p-värden är lägre än 0,05 Koefficienten för lavginc är 0,49 vilket tolkas som att hyran stiger med 0,49 procent om genomsnittsinkomsten stiger med 1 procent vid oförändrade värden på övriga oberoende variabler. Koefficienten för lenroll är 0,160 vilket tolkas som att hyran stiger med 0,160 procent om antalet studenter ökar stiger med 1 procent vid oförändrade värden på övriga oberoende variabler.

b) Förklaringsgraderna anger den andel av variationen i hyrorna som förklaras av regressionsmodellen I det här fallet var förklaringsgraderna högre i modell ett (0,59 respektive 0,57) vilket säger att den linjära modellen kan förklara variationen bättre än den loglinjära modellen där förklaringsgraderna är 0,44 och 0,41. c) Modell 1 är en linjär modell medan model 2 är loglinjär. Förklaringsgraderna talar för modell 1, likaså att alla variabler är signifikanta i modell 1 dessutom är modell 1 lättare att förklara och förstå. Men om vi är speciellt intresserade av den procentuella effekten kanske modell 2 kan motiveras. d) I den staden är den predikterade genomsnittliga hyresnivån 348 dollar enligt modell 1