Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Exempeltenta 5 Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas tentamen) Ansvarig lärare. Lars Bohlin 0730-45937 Poäng Totalt 40 Betygsgränser: G 0 VG 30 Generella uppmaningar: Redovisa dina lösningar i en form som gör det enkelt att följa din tankegång. Motivera alla väsentliga steg i beräkningar, ange alla antaganden du gör och förutsättningar du utnyttjar.

Nedan visas ett utdrag ur en enkätundersökning mobbing i skolan som du ska använda när du besvarar frågorna 1 3. 1 Jag upplevde mig ofta mobbad i skolan Instämmer inte alls Instämmer helt 1 3 4 5. Mina barn blir ofta mobbade i skolan 1 3 4 5 3. Kön Man Kvinna 4. Ålder. 5. Utbildningsnivå grundskola gymnasium högskola annan Utifrån svaren skapas fyra variabler F1(mobbad), F (mobbade barn), F3 (kön), F4 (ålder) och F5 (utbildningsnivå). 1. (1 poäng) Vilket av följande påståenden är sant om variabeln F4 (ålder) a) Variabeln F4 (ålder) mäts på kvotskala b) Variabeln F4 (ålder) mäts på intervallskala c) Variabeln F4 (ålder) mäts på ordinal skala d) Variabeln F4 (ålder) mäts på nominal skala. (1 poäng) Vilket av följande påståenden är sant om variabeln F5 (utbildningsnivå) a) Variabeln F5 (utbildningsnivå) mäts på kvotskala b) Variabeln F5 (utbildningsnivå) mäts på intervallskala c) Variabeln F5 (utbildningsnivå) mäts på ordinal skala d) Variabeln F5 (utbildningsnivå) mäts på nominal skala 3. (1 poäng) Antag att du med hjälp av svaren till enkätfrågorna ska besvara följande fråga: Anser äldre föräldrar att de deras barn blir mobbade i högre utsträckning än vad yngre föräldrar anser? Vilket av följande mått bör beräknas du? a) Pearsons korrelationskoefficient mellan F1(mobbad) och F4 (ålder) b) Spearmans rangkorrelationskoefficient mellan F1(mobbad) och F4 (ålder) c) Pearsons korrelationskoefficient mellan F (mobbade barn), och F4 (ålder) d) Spearmans rangkorrelationskoefficient mellan F (mobbade barn), och F4 (ålder)

4. (1 poäng) Bilderna nedan visar plottar över residualerna mot en av de förklarande variablerna från tre olika regressionsmodeller. Regression A: Regression B: Regression C: Vilket av följande påståenden är sant? a) Regression B har problem med heteroskedasticitet medan regression C verkar vara ickelinjär. Regression A har inget av de problemen. b) Regression C har problem med heteroskedasticitet medan regression B verkar vara ickelinjär. Regression A har inget av de problemen. c) Regression A har problem med heteroskedasticitet medan regression B verkar vara ickelinjär. Regression C har inget av de problemen. d) Regression B har problem med heteroskedasticitet medan regression A verkar vara ickelinjär. Regression C har inget av de problemen. 5. (1 poäng) Vilken av följande fördelningar är positivt skev? (Has a positive measure of skewness) a) b) c) d)

6. (1 poäng) Vilket påstående är sant om följande fördelning a) Fördelningen är diskret och medianen är större än medelvärdet b) Fördelningen är kontinuerlig och medianen är större än medelvärdet c) Fördelningen är diskret och medianen är mindre än medelvärdet d) Fördelningen är kontinuerlig och medianen är mindre än medelvärdet 7. (1 poäng) Vilket av följande diagram skulle du rekommendera för att beskriva kvartilerna i ett datamatrial. a) Histogram b) Cirkeldiagram c) Lådagram (box plot ) d) Frekvenspolygon 8. (3 poäng) Antag att innehållet i en kg förpackning med socker är en kontinuerlig slumpvariabel som är uniformt fördelad mellan 1,99 och,09 kg. a) Vad är medelvärdet för förpackningarnas vikt? b) Vad är standardavvikelsen för vikten? c) Vad är sannolikheten att ett slumpvist valt sockerpaket väger mindre än kilo?

9. (3 poäng) Förklara följande begrepp a) standardavvikelse b) slumpmässigt urval c) symetrisk sannolikhetsfördelning 10. (4 poäng) En urna innehåller 11 kulor. Av dessa är 7 vita och 4 svarta. Du drar slumpmässigt 4 kulor ur urnan. a) Vad är sannolikheten att exakt av kulorna är vita om du lägger tillbaka kulorna mellan varje dragning? b) Vad är sannolikheten att exakt två kulor är vita om du inte lägger tillbaka dem mellan varje dragning? 11. (5 poäng) Ett politiskt parti fick vid senaste valet 0 % av rösterna. Pelle, som är partisekreterare, tror att andelen väljare som skulle rösta på dem har ökat sedan valet. För att undersöka detta gör han ett slumpmässigt urval av 1 000 röstberättigade personer. Samtliga som får en enkät skickar in den. 3 % svarar att de tänker rösta på partiet i nästa val. 77 % svarar att de tänker rösta på något annat parti. Använd 5 procents signifikansnivå för att göra en hypotestest utifrån detta urval. Kan du bevisa att Pelle har rätt? a) Sätt upp lämplig nollhypotes och mothypotes. b) Ange formeln för din teststatistika och en beslutregel c) Beräkna värdet på din teststatistika d) Kan vi dra någon slutsats från undersökningen? I så fall vilken? 1. ( poäng) Antag att Pelle i föregående fråga hade skickat ut sin enkät till 1 00 personer men att enbart 1 000 av dem hade svarat. Diskutera hur det hade påverkat tillförlitligheten i hans slutsatser. Vad borde Pelle ha gjort för att få ett mer tillförlitligt resultat?

13 (3 poäng) Prisökningarna på konsumtionsvaror i ett litet land var enligt följande tabell. 001 % 00 3 % 003 4,5 % 004 % 005 3 % a) Beräkna ett kedjeindex med 000 som basår b) Metallarbetarna i det här landet tjänade år 000 i genomsnitt 0 000 per månad. År 005 tjänade de i genomsnitt 4 000 per månad, hur stor var reallöneökningen i 000 år penningvärde? 14 (3 poäng) Följande fråga ingår i en enkätundersökning om arbetsmiljö. Upplever du att du får uppskattning för dina arbetsprestationer från arbetsledning, arbetskamrater och kunder? o Mycket ofta o Ofta o Ganska ofta o Sällan a) Diskutera enkätfrågans utformning och kom med förslag till förbättringar b) Försklara skillnaden mellan öppen och sluten fråga och ge fördelar och nackdelar med respektive frågeform.

Fråga 15 10 poäng För att analysera vilka faktorer som påverkar brottsligheten gjordes en undersökning i USA 1993 där man försökte förklara skillnader i våldsbrott och stölder. Följande variabler samlades in från USA, 51 delstater criv = antal våldsbrott per 100 000 invånare crip = antal stölder per 100 000 invånare black = andel svarta i befolkningen metro = andel av befolkningen som bor i storstäder unem = andel arbetslösa incpc = befolkningens medelinkomst i dollar polpc = antal poliser per 100 000 invånare Källa: S.D. Levitt (1996), The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Legislation, Quarterly Journal of Economics 111, 319-351 På de här variablerna har jag gjort två olika regressionsmodeller I SPSS, resultaten redovisas på nästa sida. Baserat på de resultaten ska du besvara följande frågor. a) Tolka regressionskoefficienterna och deras p-värden, under antagandet att det inte finns någon påverkan från den beroende variabeln till de oberoende variablerna, använd 5 % signifikansnivå. 5 p b) Diskutera om det kan tänkas finnas något orsakssamband från den beroende variabeln till någon av de oberoende variablerna. 1 p c) Beräkna och tolka förklaringsgraderna i modell 1 såväl R som Radj. p d) Beräkna det predikterade värdet på antal våldsbrott per 100 000 invånare i en delstat där andelen svarta är lika med 0,, andelen storstadsbor är lika med 0,3 andelen arbetslösa är lika med 0,06, befolkningens medelinkomst är 0 000 dollar och antal poliser på 100 000 invånare är 50. 1 p e) Beräkna det predikterade värdet på antal stölder per 100 000 invånare för samma delstat som i d uppgiften. 1 p

Modell 1 Modell

Svarsblanket för multiple choice frågor (Riv av denna sida och lämna in tillsammans med dina lösningar) Fråga nr a b c d 1 3 4 5 6 7

8. Fråga nr a b c d =,, 1 X X X 3 X 4 X 5 X 6 X 7 X =,, =,04 = 0,000833=0,089 =, =, =0,000833 1,99< <,00 =,,,, =,, =0,1 9. a),04 b) 0,089 c) 0,1 a) Ett mått på hur mycket de olika observationerna skiljer sig åt. Beräknas som summan av de kvadrerade avvikelserna från medelvärdet dividerat med antalet observationer. (Om det är ett urval, antalet divideras istället med antalet observationer minus 1.) b) Ett sätt att dra ett urval ur en population där alla individer har samma sannolikhet att hamna i urvalet. En förutsättning för att man ska kunna använda sig av inferensberäkningar är att urvalet är slumpmässigt. c) En sannolikhetsfördelning som är likadan på båda sidor om medelvärdet. Det är exakt samma sannolikhet att dra ett tal som är x större än medelvärdet som att dra ett tal som är x mindre än medelvärdet.

10. a) 7 7 P ( ) = 4 C 1 11 11 b) 4! 7 7 P( ) = 1! ( 4 )! 11 11 4 3 7 7 P( ) = 1 11 11 P ( ) = 6 0,63 0,37 = 0, 33 P ( ) =! 7! 4!! 11! 4! ( 11 4)! ( 7 )!! ( 4 ) P 7 6 4 3 7 6 3 11 10 3 4 110 ( ) = = = = 0, 38 11 10 9 8 4 3 11 a) : 0,0 : >0,0 b) = Om z är större än 1.645 förkastas nollhypotesen. c) =0,3 =1 000 =,,,, =,, =,37 Eftersom,37 är större än 1,645 kan nollhypotesen förkastas. Därmed kan vi dra slutsatsen att andelen väljare som tänker rösta på det här partiet har ökat.

1 Här har vi ett problem med bortfall. Om de som väljer att inte besvara enkäten inte har samma partisympatier som de som besvarar den kommer vårat resultat att bli felaktigt. Eftersom det är partiet självt som gör undersökningen kanske vi kan misstänka att de som tänker rösta på det här partiet har större sannolikhet att besvara enkäten än någon som inte tänker göra det? I så fall har vi inte ett slumpmässigt urval och kan inte dra några slutsatser av undersökningen. Här bör Pelle göra en bortfallsanalys för att ta reda på vilken andel av de som inte besvarat enkäten som tänker rösta på hans parti. Det kan exempelvis göras genom telefonintervjuer med de som inte besvarat enkäten. 13 a) index 000 100,0 001 % 10,0 00 3 % 105,1 003 4,5 % 109,8 004 % 11,0 005 3 % 115,3 b) lön 005 i 000 års penningvärde: 100=0 808, reallöneökning 0 808 0 000 = 808 14 a) Svarsalternativen är osymmetriska, det bör vara lika många negativa som positiva svar: o Mycket ofta o Ofta o Sällan o Mycket sällan Man frågar egentligen om tre saker i samma fråga. Bättre att ersätta med tre frågor, en för arbetsledning, en för arbetskamrater och en för kunder.

b) Öppna frågor är frågor där respondenten själv formulerar sitt svar medan slutna frågor är frågor där forskaren/utredaren har specificerat ett antal svarsalternativ.. Fördelen med öppna frågor är att fler aspekter kan komma med än om forkaren formulerar svaralternativ. Man kan få nya infallsvinklar och minskar risken att respondentens svars styrs av forskarens formulering av svarsalternativ. Fördelen med slutna frågor är att de är lättare att analysera med kvantitativa metoder. De kan också vara lättare att förstå för respondenten då svarsalternativen förtydligar vad spom avses med frågan. 15. a) Modell 1 Här är antalet våldsbrott beroende variabel Interceptet tolkas ej eftersom det inte finns någon delstat som har värdet noll på alla oberoende variabler. Koefficienten för black är signifikant eftersom p värdet är mindre än 0,05 Tolkas som att om andelen svarta i befolkningen ökar med en enhet ökar antalet våldsbrott med 10 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. ( Eftersom en andel alltid är ett tal mellan noll och ett är det kanske rimligare att säga att antalet våldsbrott ökar med 1 per 100 000 invånare om andelen svarta ökar med 0,1 ) Koefficienten för metro är signifikant eftersom p värdet är mindre än 0,05 Tolkas som att om andelen i befolkningen som bor i storstäder ökar med en enhet ökar antalet våldsbrott med 4 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. ( Eftersom en andel alltid är ett tal mellan noll och ett är det kanske rimligare att säga att antalet våldsbrott ökar med 0,4 per 100 000 invånare om andelen som bor i storstäder ökar med 0,1 ) Koefficienten för unem är signifikant eftersom p värdet är mindre än 0,05 Tolkas som att om andelen arbetslösa i befolkningen ökar med en enhet ökar antalet våldsbrott med 53 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler.. ( Eftersom en andel alltid är ett tal mellan noll och ett är det kanske rimligare att säga att antalet våldsbrott ökar med 5,3 per 100 000 invånare om andelen som är arbetslösa ökar med 0,1 ) Koefficienten för incpc är inte signifikant eftersom p värdet är större än 0,05. Och tolkas därför inte Koefficienten för polpc är signifikant eftersom p värdet är mindre än 0,05

Tolkas som att om antal poliser per 100 000 invånare ökar med en polis ökar antalet våldsbrott med 0,04 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Modell Här är antalet stölder beroende variabel Interceptet tolkas ej eftersom det inte finns någon delstat som har värdet noll på alla oberoende variabler. Koefficienten för black är inte signifikant eftersom p värdet är större än 0,05. Och tolkas därför inte Koefficienten för metro är signifikant eftersom p värdet är mindre än 0,05 Tolkas som att om andelen i befolkningen som bor i storstäder ökar med en enhet ökar antalet stölder med per 100 000 invånare vid oförändrade värden på övriga oberoende variabler.. ( Eftersom en andel alltid är ett tal mellan noll och ett är det kanske rimligare att säga att antalet stölder ökar med, per 100 000 invånare om andelen som bor i storstäder ökar med 0,1 ) Koefficienten för unem är inte signifikant eftersom p värdet är större än 0,05. Och tolkas därför inte Koefficienten för incpc är signifikant eftersom p värdet är mindre än 0,05 Tolkas som att om befolkningens medelinkomst ökar med en dollar sjunker antalet stölder med 0,001 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler.. Koefficienten för polpc är signifikant eftersom p värdet är mindre än 0,05 Tolkas som att om antal poliser per 100 000 invånare ökar med en polis ökar antalet stölder med 0,09 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler.. b) Här kan man exempelvis diskutera om våldsbrotten ökar kanske den vita befolkningen flyttar från delstaten, i så fall skulle sambandet gå från antalet våldsbrott till andel svarta Om våldsbrotten är höga kanske det är mindre attraktivt att starta företageande och anställa folk, då skulle andelen våldbrott påverka arbetslösheten Om våldbrotten ökar kanske man anställer fler poliser, då skulle antalet våldsbrott påverka antalet poliser.

c) Determinationskoefficienten, förklaringsgraden =1 =1 = = =0,85 Den justerade determinationskoefficienten, justerade förklaringsgraden =1 =1 = 1 =0,83 Förklaringsgraderna anger den andel av variationen i hyrorna som förklaras av regressionsmodellen d) = 4,94+10,5 0,+3,9 0,3+5,8 0,06+0,04 50=7,5 e) =34,48 10,3 0,+1,9 0,3 1,5 0,06 0,001 0 000+0,09 50=40,