LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum 2008-12-22 Skrivtid 0900 1400 Tentamen i: Statistik 1, 7.5 hp Antal uppgifter: 5 Krav för G: 11 Lärare: Jour: Robert Lundqvist, tel 49 24 04/076-839 30 56 Tillåtna hjälpmedel: En statistikbok, gärna Introduction to the Practice of Statistics av Moore & McCabe. Undantag: kombinationen Praktisk statistik/räkna med slumpen Miniräknare (dator är inte tillåten) Tänk på att redovisa dina lösningar på ett klart och tydligt sätt. Endast det numeriska svaret räcker inte för full poäng. Korrekt lösning ger det poängantal som står angivet efter uppgiftstexten. LYCKA TILL!
Tentamen i Statistik 1, S0006M, 2008-12-22 1. Väntetider för svar från datasupporten mättes. I följande tabell ges tiderna för några samtal till supporten: 12.3 13.2 9.1 8.5 13.9 7.5 12.2 11.2 9.5 10.0 14.3 14.6 7.2 14.6 13.3 9.7 12.7 12.1 9.5 14.0 6.1 9.8 (a) Beskriv materialet i ett lämpligt stambladdiagram. Beräkna även median och kvartiler där du tydligt beskriver hur dessa tagits fram. (b) Beskriv materialet i en boxplot. Bestäm också om det finns några uteliggare där kriteriet är sedvanliga q 1 1.5(q 3 q 1 ), q 3 + 1.5(q 3 q 1 ) (4p) 2. För att se om användningen av ett träningsredskap kallat Cardio Glide förändras med tiden görs en mindre undersökning av kunder. Säljaren vet hur länge man haft redskapet (Antal) och man frågar efter hur många timmar redskapet använts den senaste veckan (Tid). Resultatet ges i nedanstående tabell: Person Antal Tid Person Antal Tid 1 12 4 6 2 8 2 2 10 7 8 3 3 6 8 8 4 8 4 9 5 9 10 2 5 7 5 10 5 5 (a) En regressionsanpassning med månader som förklarande variabel och tid som svarsvariabel fås följande resultat: ŷ = 9.94 0.64 x Kan koefficienterna i det sambandet ges meningsfulla tolkningar? Om så är fallet, ge sådana tolkningar. Om det inte går att tolka på ett meningsfullt sätt, motivera då detta. (b) Vad blir genomsnittlig användningstid för personer som haft redskapet i 6 månader? (c) I en liknande undersökning för ett annat träningsredskap fick man vid beräkning av korrelationskoefficienten fram värdet 0.058, dvs ett lågt värde. En tolkning av detta är att ett så lågt värde säger att det inte 1
Tentamen i Statistik 1, S0006M, 2008-12-22 finns något samband mellan variablerna. Det påståendetkan stämma, men är inte självklart korrekt. Redogör kort för varför påståendet kan vara felaktigt. (5p) 3. Du har fått i uppdrag att studera studenters ekonomi och sätt att hantera sin ekonomi. En del i detta är att fråga om de fått förseningsavgifter pga sena inbetalningar. För att se till närliggande mönster ska du också fråga om man fått påminnelse från biblioteket om att lånetid gått ut på lånade böcker. En annan fråga är hur stora kostnader de har för sitt boende varje månad. Några av bakgrundsvariablerna i undersökningen är då kön, ålder och kårtillhörighet. (a) Undersökningen ska göras som ett stratifierat urval där stratifiering görs utifrån programinriktning (teknologer, hälsovetare, lärarstuderande, ekonomer, juridikstudenter, psykologi- och sociologistudenter och statsvetar/nationalekonomi/systemvetarstudenter). Totalt ska 50 studenter från var och en av de inriktningarna väljas ut. Du har bestämt dig för att göra det enkelt med slumptalstabell som hjälpmedel vid urvalen. Beskriv kortfattat hur urvalet ska göras: vad du behöver för underlag och hur du går tillväga. (b) Ge exempel på hur variabeln boendekostnad kan beskrivas med ett lämpligt diagram. Ge gärna en enkel principiell skiss på hur resultatet kan se ut. (c) Ge exempel på hur man kan ge en grafisk beskrivning av sambandet mellan variabeln som beskriver om personerna i undersökningen fått betalningspåminnelser och variabeln boendekostnad. (d) Ge exempel på hur sambandet mellan ålder och boendekostnad kan beskrivas numeriskt, dvs inte med en grafisk metod utan med en sifferbaserad beskrivning. (5p) 4. Temperaturen i kallvattnet in i fastigheterna i ett område har visat sig kunna beskrivas med en normalfördelning med genomsnittet 8 grader och standardavvikelsen 1.5 grader. (a) Hur stor är sannolikheten att temperaturen på vattnet överstiger 12 grader? (b) Ett annat sätt att beskriva hur stor variation det är i temperaturen är att ange lägsta temperatur bland de 10% högsta vattentemperaturerna. Vad blir denna? (4p) 2
Tentamen i Statistik 1, S0006M, 2008-12-22 I denna uppgift är det förstås viktigt att det framgår hur du definierat variabel och angett fördelning för denna. 5. I nedanstående tabell ges genomsnittlig månadslön i januari för tjänstemän i privat sektor i kronor inklusive rörliga tillägg och konsumentpris för aktuellt år: År 1996 1997 1998 1999 2000 Medellön 20030 20860 21930 22790 23390 KPI (180=100) 256.30 257.99 257.30 258.49 260.81 (a) Räkna om medellönen till en indexserie där basåret (det år då index är 100) är år 1997. (b) Vad blir medellönen från år 2000 uttryckt i penningvärde från år 1996? (c) Hur stor är den årliga genomsnittliga löneökningen beräknat på siffrorna i tabellen ovan, dvs inte omräknade i fast penningvärde? (5p) 3
Lösningar till tentamen i Statistik 1, S0006M, 2008-12-22 1. (a) Ett stambladdiagram kan se ut på följande sätt: 1 6 1 3 7 25 4 8 5 9 9 15578 10 10 0 11 11 2 11 12 1237 7 13 239 4 14 0366 1 1 represents 1.1 Leaf digit unit = 0.1 Median är det mittersta värdet, dvs medelvärdet av värde nr 11 och 12 (10.6). undre kvartil är median i undre halvan, dvs värde nr 5 (9.1) och övre kvartil är median i övre halva, dvs värde nr 5 uppifrån (13.9). (b) +----+-----+----+----+----+-----+----+----+----+ +----------+--------+ +----------------- ------+ +----------+--------+ +----+-----+----+----+----+-----+----+----+----+ 6 7 8 9 10 11 12 13 14 Gränser för uteliggare ges av q 1 1.5(q 3 q 1 ), q 3 + 1.5(q 3 q 1 ) där q 1 = 9.1 och q 3 = 13.9, vilket ger gränserna 1.9 och 21.1. Inga värden överskrider dessa gränser, så det finns med de givna gränserna inga uteliggare. 2. (a) Med y som antal timmar som redskapet använts senaste veckan och x som antalet månader användaren haft redskapet fås alltså ŷ = 9.94 0.64 x 4
Lösningar till tentamen i Statistik 1, S0006M, 2008-12-22 Här kan skärningspunkten med y-axeln, dvs 9.94, inte ges någon meningsfull tolkning eftersom det inte ges några värden på y-variabeln när x-variabeln är nära 0. Riktningskoefficienten 0.64 kan däremot tolkas på följande sätt: för varje ytterligare månad som redskapet finns hos användaren minskar användningstiden med i genomsnitt 0.64 timmar per vecka. (b) Genomsnittlig användningstid för personer som haft redskapet i 6 månader blir 9.94 0.64 6 = 6.1 timmar. (c) Att korrelationskoefficienten är så låg som 0.058 betyder att det inte finns något starkt linjärt samband, men det kan finnas ett icke-linjärt samband. 3. (a) För att urvalet ska kunna genomföras behövs en lista från vardera studentgruppen, dvs en urvalsram som innehåller aktuella individer. Ur var och en av dessa görs slumpmässiga urval på 50 personer genom att första numrera namnen och sedan välja ut två siffror ur slumptalstabellen. Om talet överensstämmer med ett tal i listan tas personen ut. Om talet är för stort hoppas det över, likaså om det är ett tal som redan dragits. De två siffrorna kan väljas på vilket sätt som helst, bara det finns ett konsekvent mönster: två siffror efter varandra, de två första siffrorna i varje kolumn där man går radvis eller liknande. (b) Boendekostnad är en kvantitativ variabel och kan lämpligen beskrivas med ett histogram, en boxplot eller ett lådagram. (c) Ett lämpligt sätt att åskådliggöra sambandet mellan dessa variabler är att göra ett diagram med två boxplottar: en boxplot för gruppen som inte fått påminnelser och en plott för de som sått påminnelse. (d) För att beskriva sambandet mellan två kvantitativa variabler kan man till exempel göra en regressionsanalys. 4. Låt X beteckna temperaturen i kallvattnet in i fastigheterna i ett område har visat sig kunna beskrivas med en normalfördelning med genomsnittet 8 grader och standardavvikelsen 1.5 grader. (a) Andelen X > 12 = andelen z > 12 8 = andelen z > 2.67 1.5 Nu är andelen z 2.67 enligt tabell 0.9962, vilket betyder att andelen z > 2.67 blir 1 0.9962 = 0.0038. (b) Vi ska utgå från att andelenx < c = 0.10. Det betyder att andelen z < c 12 också är 0.10. Enligt tabell är andelen z < 1.28 ungefär 1.5 5
Lösningar till tentamen i Statistik 1, S0006M, 2008-12-22 0.10, vilket innebär att c 12 = 1.28 vilket i sin tur innebär att 1.5 c = 10.08. 5. (a) Ny serie med år 1997 som basår: År 1996 1997 1998 1999 2000 Index 96.0 100 105.1 109.3 112.1 (b) Medellönen från år 2000 uttryckt i penningvärde från år 1996 blir 22985.54 kr. (c) Den årliga genomsnittliga löneökningen blir 3.95% 6