MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas tentamen) Exempeltenta 4 Ansvarig lärare. Lars Bohlin 0730-452937 Poäng Totalt 40 Betygsgränser: G 20 VG 30 Generella uppmaningar: Multiple choice frågorna (nr 1 5) ska besvaras i svarsformuläret i slutet av tentan, riv ur den sidan och lämna in tillsammans med dina lösningar. I övriga frågor ska du redovisa dina lösningar i en form som gör det enkelt att följa din tankegång. Motivera alla väsentliga steg i beräkningar, ange alla antaganden du gör och förutsättningar du utnyttjar. Numrera bladen och sortera dem i ordning.
1. (1 Poäng) På vilken skala mäts variabeln temperatur mätt som grader Celsius? a) kvotskala b) intervallskala c) ordinal skala d) nominal skala 2. (1 Poäng) På vilken skala mäts variabeln kön? a) kvotskala b) intervallskala c) ordinal skala d) nominal skala 3. (1 Poäng) Vilken av följandefördelningar är en uniform fördelning? a) b) c) d) 4. (1 Poäng) Vilket av följande påståenden är falskt? a) Histogram kan användas för variabler mätta på kvotskala. b) Kvalitativa variabler kan inte mätas på kvotskala. c) Binomialfördelningen är ett exempel på en diskret sannolikhetsfördelning. d) Längden på ett konfidensintervall ökar om man gör ett större urval.
5. (1 Poäng) En urna innehåller 15 röda bollar och 25 blå bollar. Du drar 5 bollar ur urnan med återläggning, dvs du lägger tillbaka bollen efter varje dragning. Antalet röda bollar är en slumpvariabel, vad kalls dess fördelning? a) normalfördelning b) t-fördelning c) binomialfördelning d) hypergeometrisk fördelning 6. (4 Poäng) Följande data kommer från ett urval om 7 observationer: 26, 34, 39, 44, 57, 89, 113 Beräkna följande statistiska mått: a) Medelvärdet b) Tredje kvartilen c) Standardavvikelsen d) Pearsons measure of skewness 7. (3 Poäng) Ett företag som tillverkar äppeljuice använder en maskin son automatiskt fyller flaskor som ska innehålla 5 dl. Det är dock viss variation i mängden äppeljuice i flaskorna. Mängden äppeljuice är normalfördelad med medelvärdet 5 dl och standardavvikelsen 0,1 dl. a) Vad är sannolikheten att en slumpmässigt vald flaska innehåller mindre än 4,9 dl äppeljuice? b) Vad är sannolikheten att ett slumpmässigt urval om 5 flaskor har ett medelvärde som understiger 4,9 dl? 8. (1 Poäng) Vad är heteroskedasticitet? Förklara vad det är och varför det är ett problem.
9. (4 Poäng) Antag följande sannolikheter: P(A) = 0,2 P(B) = 0,3 P(C) = 0,4 Och följande betingade sannolikheter: P(A B) = 0,2 P(A C) = 0,3 P(B A) = 0,3 P(B C) = 0,3 P(C A) = 0,6 P(C B) = 0,4 a) Är A och B beroende händelser? Motivera ditt svar b) Är A och C beroende händelser? Motivera ditt svar c) Beräkna sannolikheten att båda A och C inträffar, d.v.s. P(A och C). d) Beräkna sannolikheten att åtminstone en av A och C inträffar, d.v.s. P(A eller C). 10. (7 Poäng) En läkare vill undersöka om kognitiv beteendeterapi kan användas för att sänka blodtrycket hos patienter med för högt blodtryck. Han baserar sin studie på 10 slumpvis utvalda patienter. Tabellen nedan visar deras blodtryck före och efter behandlingen. Anders Eva Lotta Per Lars Ove Stina Anna Nils Klas medel std före 153 148 139 126 149 135 138 132 121 135 137,6 10,2 efter 148 138 140 121 141 120 131 126 121 140 132,6 10,1 Läkaren beräknar följande teststatistika. t = 137,6 132,6 10,22 2 10 +10,1 10 = 5 4,53 = 1,1 Eftersom han har ett urval av 10 patienter anser han att denna tesstatiska bör vara t-fördelad med 9 frihetsgrader. Det kritiska värdet givet en signifikansnivå på 5 % blir då 2,26 Eftersom hans teststatistika är lägre än det kritiska värdet drar läkaren slutsatsen att kognitiv beteendeterapi inte har någon effekt på blodtrycket. a) Finns det några skäl att ifrågasätta läkarens analys? b) Föreslå en bättre metod att analysera detta. c) Utför den test du föreslagit i b-frågan. 11. (2 Poäng) Nedan finns en indexserie med 2000 som basår. Konvertera den till en serie med 2002 som basår. 2000 2001 2002 2003 2004 2005 2006 2007 100 101 103 102 105 107 109 112
12. (4 Poäng) I en enkätundersökning om mobbing i skolan ställdes bl a följande frågor. 1 Jag upplevde mig ofta mobbad i skolan Instämmer inte alls Instämmer helt 1 2 3 4 5 2. Mina barn blir ofta mobbade i skolan 1 2 3 4 5 3. Kön 1 Man 2 Kvinna 4. Utbildningsnivå grundskola gymnasium högskola annan Utifrån svaren skapas fyra variabler F1(mobbad) F2 (mobbade barn) F3 (kön) och F4 (utbildningsnivå). a) Antag att man vill undersöka om högutbildade personer upplevde sig mobbade i större eller mindre utsträckning än vad lågutbildade personer gjorde. Vilken test rekommenderar du och vilka variabler skulle du använda. Beskriv kort hur testen går till. b) Antag att man vill undersöka om personer som upplevde sig själva mobbade i skolan i större utsträckning upplever att deras barn blir mobbade än vad föräldrar som inte upplevde sig själva mobbade gör. Vilken test rekommenderar du och vilka variabler skulle du använda. Beskriv kort hur testen går till. 13. (10 Poäng) För att analysera vilka faktorer som påverkar lönerna hos amerikanska professionella basebollspelare samlades följande data in från ett urval av 269 spelare. wage exper points rebounds assists allstar årslön i tusen dollar Antal år man spelat som professionell spelare poäng per match rebounds per match assists per match dummyvariabel; =1 om man någon gång blivit vald till all stars Source: Collected by Christopher Torrente. Baserat på denna data har jag estimerat två olika regressionsmodeller. På följande sidor visas en korrelationsmatris och resultaten från de två olika regressionsmodellerna.
Model 1: ANOVA Model df Sum of Squares Mean Square Regression 1 4,23E+07 4,23E+07 Residual 267 2,26E+08 8,45E+05 Total 268 2,68E+08 Model2: ANOVA Model df Sum of Squares Mean Square Regression 5 1,48E+08 2,95E+07 Residual 263 1,20E+08 4,57E+05 Total 268 2,68E+08
Korrelationsmatris a) Rapportera och tolka regressionskoefficienterna och deras p-värden från båda modellerna. Använd 5 % signifikansnivå. (5 poäng) b) Kan en basebollspelare som valts till all star förvänta sig en lönehöjning? Regressionskoefficienten för allstar är väldigt olika i de båda modellerna, förklara varför. (1 poäng) c) Beräkna förklaringsgraden och den justerade förklaringsgraden från båda modellerna (1 poäng) d) Tolka den justerade förklaringsgraden från båda modellerna. (1 poäng) e) Vad är den predikterade lönen enligt modell 2 för en basebollspelare som har 3 års erfarenhet som professionell spelare och har gjort 8 poäng, 5 rebounds och 3 assist per match men aldrig blivit vald till all stars. (1 poäng) f) Beräkna ett 95 % konfidensintervall för regressionskoefficienten för exper. (1 poäng)
Svarsblankett för multiple choice frågor Fråga nr a b c d 1 2 3 4 5
Fråga nr a b c d 1 X 2 X 3 X 4 X 5 X 6. 7. a) a) 57,4 b) 89 c) 32,0 d) 1,26 z = X μ σ z = 4,9 5,0 0,1 = 1 P(X < 4,9) = P(z < 1) = P(z > 1) = 0,5 P(0 < z < 1) = 0,5 0,3413 = 0,1587 Sannolikheten att en flaska innehåller mindre än 4,9 dl är 0,16 b) Ett urvalsmedelvärde har standardavvikelsen: σ x = σ n = 0,1 5 = 0,0447 z = 4,9 5,0 0,0447 = 2,24 P(X < 4,9) = P(z < 2,24) = P(z > 2,24) = 0,5 P(0 < z < 2,24) = 0,5 0,4875 = 0,0125 Sannolikheten att ett urval av 5 flaskor har ett medelvärde som understiger 4,9 dl är 0,01
8. Heteroskedasticitet är ett problem i regressionsanalys. I regressionsanalysen har vi ett antagande om att residualernas varians ska vara oberoende av de oberoende variablerna. Om residualvariansen beror av en eller flera av de oberoende variablerna har vi heteroskedasticitet. I så fall kan vi inte lite på p-värden och konfidensintervall men regressionskoefficientens värde är fortfarande bästa väntevärdesriktigt (bästa skattningen av det sanna värdet). 9. e) Nej de är oberoende eftersom P(A) = P(A B) f) Ja de är beroende eftersom P(A) P(A C) g) P(A och C) = P(A) P(C A) = 0,2 0,6 = 0,12 h) P(A eller C) = P(A) + P(C) P(A och C) = 0,2 + 0,4 0,12 = 0,48 10. a) Om man inte lyckas förkasta nollhypotesen kan man inte dra några slutsatser alls. Han kan därmed inte dra slutsatsen att kognitiv beteendeterapi är verkningslös. Det är möjligt att det finns en effekt även om han inte lyckats bevisa det. Den tesstatistika han använder är för två oberoende urval. Om man ska använda den ska antalet frihetsgrader beräknas med följande formel: df = ( s 1 2 n1 + s 2 2 n2 ) 2 ( s 1 2 2 n1 ) s 2 2 ( n1 1 + n2 ) n2 1 = ( 10,22 2 2 10 +10,1 10 ) ( 10,22 2 10 ) ( 10,12 2 10 ) + 9 9 18 Men han missar då att utnyttja det faktum att observationerna är relaterade till varandra. b) Här bör han istället använda t-test för beroende urval. c) Börja med att beräkna differensen för varje patient: Anders Eva Lotta Per Lars Ove Stina Anna Nils Klas medel std före 153 148 139 126 149 135 138 132 121 135 137,6 10,2 efter 148 138 140 121 141 120 131 126 121 140 132,6 10,1 5 10-1 5 8 15 7 6 0-5 5 5,77 Hypoteser: H 0 : μ d = 0 H 1 : μ d 0 Teststatistika: t = d 0 s d n Frihetsgrader: 9 Kritiskt värde: 2,26 t = 5 0 5,77 10 = 2,74 Då teststatistikans värde överstiger det kritiska värdet kan nollhypotesen förkastas. Vi kan därmed dra slutsatsen att blodtrycket inte är lika före och efter behandlingen. Vi kan således dra slutsatsen att kognitiv beteendeterapi har en effekt på blodtrycket. Här skulle man också kunna tänka sig att göra en enkelsidig test om man anser sig kunna utesluta att behandlingen ökar blodtrycket. I så fall är det kritiska värdet 1,83.
11. 2000 2001 2002 2003 2004 2005 2006 2007 97,1 98,1 100,0 99,0 101,9 103,9 105,8 108,7 12. a) Använd variablerna F1 (mobbad) och F4 (utbildningsnivå). Ett alternativ är Kruska Wallis test där F4 används för att dela in urvalet i 4 grupper och där vi testar om dessa har lika höga värden på variabel F1. Ett annat alternativ kan vara att bara dela in materialet i 2 grupper. Exempelvis de som har högskoleutbildning och de som inte har det och använda wilcoxons rangsummetest för att se om dessa grupper har olika höga värden på F1. I båda dessa test räknas rangtal fram som anger ordningsföljden i hela urvalet. Teststatistikorna beräknas sedan utifrån rangsummorna i de olika grupperna. Om teststatistikan överstiger det kritiska värdet kan vi förkasta nollhypotesen och dra slutsatsen att det är skillnad mellan de olika grupperna. t-test eller anova test kan inte användas eftersom variabeln F2 är ordinaldata. b) Använd variablerna F1(mobbad) och F2 (mobbade barn) För att se om det finns ett samband beräkna en korrelationskoefficient. Eftersom detta är ordinaldata fungerar inte Pearsons korrelationskoefficient så vi måste använda Spearmans rangkorrelationskoefficient. Om Spearmans rangkorrelationskoefficient är signifikant positiv drar vi slutsasen att de som upplevde sig själva mobbade i högre utsträckning upplever att också deras barn blir mobbade. Är koefficienten signifkant negativ drar vi slutsatsen att de som upplevde sig själva mobbade i lägre utsträckning upplever att deras barn blir mobbade. Om koefficienten inte är signifikant kan vi inte dra några slutsatser.
13. Modell 1: Interceptet är 1 281 tusen dollar och är signifikant eftersom p-värdet understiger 0,05. Detta tolkas som den genomsnittliga lönen hos de spelare som aldrig blivit valda till All star. Koefficienten för All star är 1 242, detta är signifikant eftersom p-värdet understiger 0,05. Tolkningen är att de som blivit valda till all star i genomsnitt har en lön som är 1 242 000 dollar högre än de som inte blivit valda till All star. Dvs deras lön är nästan dubbelt så hög. Modell 2: Interceptet är negativt men tolkas ej eftersom det sannolikt inte finns några spelare som aldrig tagit några poäng Koefficienten för exper 82,4. Den är signifikant eftersom p-värdet understiger 0,05. Tolkningen är att ytterligare ett års erfarenhet som professionell spelare ökar lönen med 82 400 dollarvid oförändrade värden på övriga oberoende variabler. Koefficienten för points 76,3. Den är signifikant eftersom p-värdet understiger 0,05. Tolkningen är att ytterligare ett poäng i genomsnitt per match ökar lönen med 76 300 dollarvid oförändrade värden på övriga oberoende variabler. Koefficienten för rebounds är 81,6. Den är signifikant eftersom p-värdet understiger 0,05. Tolkningen är att ytterligare en rebounds i genomsnitt per match ökar lönen med 81 600 dollarvid oförändrade värden på övriga oberoende variabler. Koefficienterna för assists och all star är inte signifikanta eftersom deras p-värden överstigerstiger 0,05. Dessa tolkas därför inte. b) Lönen är högre för de spelare som valts till All star, det visas i modell 1. Men det beror på att de spelare som gör bättre resultat tenderar att bli valda dit och att de spelare som har bättre resultat får högre lön. Modell två visar att givet samma nivå på poäng och rebounds per match finns ingen löneskillnad mellan de som valts till All star och de som inte valts till All star. Så om du blir vald till All star är du duktig spelare och har förmodligen redan en hög lön. Ingen extra löneökning att vänta alltså.
c) Determinationskoefficienten, förklaringsgraden Modell 1 R 2 = SSR SST = 42,3 267,9 = 0,158 Modell 2 R2 = SSR SST = 147,6 267,9 = 0,551 Den justerade determinationskoefficienten, justerade förklaringsgraden Modell 1 2 R adj Modell 2 2 R adj = 1 SSE n k 1 SST n 1 = 1 SSE n k 1 SST n 1 = 1 225,6 267 267,9 = 0,155 268 = 1 120,3 263 267,9 = 0,542 268 d) Den justerade förklaringsgraden anger hur stor del av variansen i årslönen som förklaras av respektive modell. Vi ser att modell 2 kan förklara betydligt mer av variansen än modell 1. Vilket är ganska naturligt eftersom vi har med betydligt fler förklarande variabler där. e) Regressionsekvationen i modell två är: wage = 178,3 + 82,4 exper + 76,3 points + 81,6 rebounds + 11,5 assists + 43,4 allstar wage = 178,3 + 82,4 3 + 76,3 8 + 81,6 5 + 11,5 3 + 43,4 0 = 1121,8 Den predikterade lönen för denna spelare är 1122 f) antal frihetsgrader 263 => t = z = 1,96. b ± t s b 82,4 ± 1,96 12,5 = 82,4 ± 24,5 Med 95 procent sannolikhet ligger koefficientens sanna värde mellan 57,9 och 106,9