Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (9 uppgifter) Tentamensdatum 2013-08-27 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson och Mykola Shykula Jourhavande lärare: Adam Jonsson Tel: 1948 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, behöver enbart svar lämnas in, men om korta lösningar bifogas så finns det vid gränsfall möjlighet att få delpoäng på en uppgift. Delpoäng ges i första hand om en uppgift i stort sett behandlats korrekt men slarvfel begåtts. Om kortfattade lösningar ej bifogas så finns inga möjligheter att få delpoäng på en uppgift. För godkänt krävs minst 17 poäng på del 1. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Det ifyllda svarsbladet skall läggas först om du lämnar in lösningar och bifogas oavsett om du lämnat in lösningar eller ej. Om inte det ifyllda svarsbladet lämnas in bedöms tentamen som underkänd. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (8)
1. En invånare i en kommun väljs ut slumpmässigt. Sannolikheten att personen äger en smartphone är 0.38, sannolikheten att personen bor i villa är 0.21 och sannolikheten att personen äger både smartphone och bor i villa är 0.12. Hur stor är sannolikheten att personen inte bor i villa men äger en smartphone? 2. En metod för att diagnostisera en viss sjukdom ger rätt diagnos med sannolikheten 0.8 om personen är frisk. Om personen har sjukdomen i fråga så diagnostiseras den med sannolikhet 0.9. Antag att 5 % av alla personer har sjukdomen. Om man väljer en person slumpmässigt bland alla som fått diagnostisen att dom är sjuka, hur stor är då sannolikheten att personen i själva verket är frisk? 3. På ett lager som håller vitvaror har man kunnat konstatera att antalet beställningar på en viss typ av kylskåp som kommer in under en arbetsvecka kan beskrivas av en Poissonfördelning med väntevärde 4. Vad är det minsta antalet kylskåp som man behöver ha på lagret vid starten av en arbetsvecka om sannolikheten för att lagret ska räcka hela veckan måste vara minst 0.98? 4. Tiden för en rutinundersökning hos en läkare kan betraktas som en normalfördelad slumpvariabel med väntevärde 14 minuter och standardavvikelse 1.64 minuter. Läkaren ska genomföra 15 rutinundersökningar på en dag. Beräkna sannolikheten att minst 4 av de 15 undersökningarna tar mer än 14 minuter. (3p) 5. Antag att slumpvariabeln ξ 1 har en Poissonfördelning med λ = 4 och att slumpvariabeln ξ 2 har den fördelning som ges i tabellen nedan, där ξ 1 och ξ 2 är oberoende. x 0 2 4 P (ξ 2 = x) 0.3 0.5 0.20 Bestäm variansen av summan ξ = ξ 1 + ξ 2. (3p) 6. Tiden för en rutinundersökning hos en läkare betraktas återigen som en normalfördelad slumpvariabel med väntevärde 14 minuter och standardavvikelse 1.64 minuter. Beräkna sannolikheten för att två rutinundersökningar sammanlagt tar mer än en halvtimme. 7. Anna undrar om utomhustemperaturen i Luleå är högre i Centrum än på Hertsön. För att undersöka detta mäter hon temperaturen vid fem tidpunkter under en dag. Resultatet ges nedan: Tid 00:00 07:15 11:00 12:00 18:00 Temp Centrum 7.9 11.6 12.3 14.4 17.1 Temp Hertsön 8.3 11.1 11.7 13.0 15.9 2 (8)
Beräkna ett 95% konfidensintervall för den genomsnittliga temperaturskillnaden mellan Centrum och Hertsön under lämpliga normalfördelningsantaganden. Svara med den nedre gränsen. 8. Ett visst mätinstrument ger slumpmässiga fel. Mätfelen vid 10 upprepade mätningar kan betraktas som observationer x 1, x 2,..., x 10 från en normalfördelning N(µ, σ), där µ är okänd och där σ = 1.35 (enhet: mm). Man vill veta om µ = 0, eller om instrumentet i genomsnitt ger ett för lågt värde. Man vill därför ha ett test av H 0 : µ = 0 mot H 1 : µ < 0. (a) Anna använder testvariabeln z = x 1.35/ 10, där x är medelvärdet, och förkastar H 0 om z < c, där c är en konstant. Vilket värde på c gör att testet får 5% signifikansnivå? (b) Stefan avser att testa samma hypotes med en annan signifikansnivå. Hans beslutsregel är: Förkasta H 0 om x < 0.57. Beräkna styrkan för Stefans test i punkten µ = 1. 9. Radhusägaren Alva söker ett lämpligt försäljningspris på sitt radhus. Via en hemsida på Internet väljs 20 radhus till försäljning ut på måfå, och uppgifter om försäljningspriser (i kkr), tomtstorlekar (i m 2 ), antal rum, och husets ålder (i år) samlas in. Via det insamlade datamaterialet har Alva efter mödosamt arbete analyserat en mulipel regressionsmodell och fått resultatet i Tabell 1 på nästa sida. (a) Bestäm den justerade förklaringsgraden. (b) För att avgöra om tomtytan för ett radhus i genomsnitt påverkar dess pris på 1% signifikansnivå skall en t-kvot beräknas och sedan jämföras med ett visst tal. Vad är värdet på t-kvoten? Kan man påstå att tomtytan för ett radhus påverkar dess pris på 1% signifikansnivå? För 2 poäng krävs både t-kvoten och rätt svar (ange JA eller NEJ på svarsbladet). (c) Allt annat lika, hur mycket dyrare är ett 10 år gammalt radhus jämfört med ett radhus som är 20 år? Besvara frågan genom att beräkna ett lämpligt 99 % konfidensintervall. Ange den nedre gränsen. (1p) Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 3 (8)
Tabell 1: Regression Analysis: Pris versus Tomtyta;Antalrum;Ålder The regression equation is Pris = 837 + 1,58 Tomtyta + 291 Antalrum - 17,0 Ålder Predictor Coef SE Coef T P Constant 836,7 223,4? 0,002 Tomtyta 1,5794 0,3949? 0,001 Antalrum 291,32 48,05? 0,000 Ålder -17,026 3,036? 0,000 S = 212,913 R-Sq =? R-Sq(adj) =? Analysis of Variance Source DF SS MS F P Regression 3 5410303 1803434 39,78 0,000 Residual Error 16 725314 45332 Total 19 6135617 4 (8)
Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Sannolikheter skall anges som ett tal mellan 0 och 1 i decimalform. Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 0.26 2 2 Sannolikhet (tre decimaler) 0.809 2 3 Antal kylskåp 9 2 4 Sannolikhet (tre decimaler) 0.982 3 5 Varians (tre decimaler) 5.960 3 6 Sannolikhet (tre decimaler) 0.195 2 (1 Φ(0.86)) 7 Nedre gräns (fyra decimaler) -0.2160 2 8 a Konstanten c (fyra decimaler) -1.6449 2 b Styrka (fyra decimaler) 0.8438 (Φ(1.01)) 2 9 a Justerad förklaringsgrad (fyra decimaler) 0.8596 1 b t-kvot (fyra decimaler) 3.9995 JA eller NEJ JA 2 c Nedre gräns (fyra decimaler) 81.5784 2 Totalt antal poäng 25 5 (8)
6 (8)
Tentamen i Matematisk statistik, S0001M, del 2 2013-08-27 Vid bedömningen av lösningarna av uppgifterna i del 2 läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 10. I ett system finns tre komponenter som fungerar oberoende av varandra och vars livslängder är exponentialfördelade. Två av komponenterna är av en typ (A) och den tredje är av en annan typ (B). Förväntad livslängd för komponenter av typ A och B är 5 respektive 10 tidsenheter. För att systemet ska fungera krävs att minst en av komponenterna av typ A fungerar och att B-komponenten fungerar. (a) Vad blir sannolikheten att systemet fungerar i minst 4 tidsenheter? (b) Antag att man har observerat att systemet inte fungerar efter 4 tidsenheter. Vilken tidpunkt systemet slutade att fungera vet man dock inte. Vad blir den betingande sannolikheten för att livslängden för B-komponenten understeg 4 tidsenheter? (4p) (6p) 11. Två personer, A och B, skall mäta en fysikalisk konstant θ. De gör en mätning var med olika metoder, som båda är väntevärdesriktiga och har samma precision. De stokastiska variablerna ξ 1 och ξ 2 som betecknar mätvärdet från A respektive B kan antas oberoende. Att metoderna har samma precision innebär att V (ξ 1 ) = V (ξ 2 ). Som uppskattning av θ tänker man använda en linjär kombination av ξ 1 och ξ 2, nämligen η = cξ 1 + (1 c)ξ 2, där c är en konstant. (a) Visa att η är en väntevärdesriktig skattning av θ för varje värde på c. (b) Hitta den väntevärdesriktiga linjärkombination av ξ 1 och ξ 2 som har bäst precision, dvs minst varians. (4p) (6p) 12. Tiden från den 18 till 24 juli kallas ibland för fruntimmersveckan 1. Torsten är en av de personer som tror att den s.k. Bondepraktikan har rätt i att det i genomsnitt regnar mer under fruntimmersveckan jämfört med under andra veckor. För att se om det ligger något i detta tar han fram uppgifter om nederbörden i sin hemstad under de senaste sex åren. Nederbörden (enhet: mm/vecka) under fruntimmersveckan samt veckan efter fruntimmersveckan återges nedan. År 2008 2009 2010 2011 2012 2013 Fruntimmersveckan 109.4 89.6 105.1 74.5 135.1 112.6 Veckan efter 96.6 98.5 97.8 77.0 140.1 104.5 Antag att nederbörden under en vecka kan betraktas som en observation från en normalfördelning. (a) Ge ett förslag på en metod som Torsten kan använda för att (med hjälp av mätvärdena) undersöka om det i genomsnitt regnar lika mycket under fruntimmersveckan som under veckan efter. (9p) 1 Namnet kommer av att endast kvinnor har namnsdag under perioden. 7 (8)
Tentamen i Matematisk statistik, S0001M, del 2 2013-08-27 (b) Kan Torsten med hjälp av din metod påstå att det regnar mer under fruntimmersveckan? (1p) 8 (8)