Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2015-06-05 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Jesper Martinsson Jourhavande lärare: Adam Jonsson Tel: 0920-491948 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, behöver enbart svar lämnas in, men om korta lösningar bifogas så finns det vid gränsfall möjlighet att få delpoäng på en uppgift. Delpoäng ges i första hand om en uppgift i stort sett behandlats korrekt men slarvfel begåtts. Om kortfattade lösningar ej bifogas så finns inga möjligheter att få delpoäng på en uppgift. För godkänt krävs avklarade webbuppgifter samt minst 17 poäng på del 1 inklusive eventuella bonuspoäng. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Det ifyllda svarsbladet skall läggas först om du lämnar in lösningar och bifogas oavsett om du lämnat in lösningar eller ej. Om inte det ifyllda svarsbladet lämnas in bedöms tentamen som underkänd. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (6)
1. Antag att 7% av alla bilförare kör berusat. Sannolikheten att en berusad person somnar under bilkörningen kan sägas vara 0.27. Motsvarande sannolikhet för en nykter person är 0.04. En olycka inträffar, och det konstateras att bilföraren somnat vid ratten. Vad är sannolikheten att den personen var berusad? 2. Antag att du drar 5 kort från en kortlek som innehåller 10 röda och 20 svarta kort. (a) Vad är sannolikheten att 2 av dom 5 korten är röda om de fem korten dras med återläggning? (b) Vad är sannolikheten att 2 av dom 5 korten är röda om de fem korten dras utan återläggning? 3. Två vanliga tärningar kastas. Låt ξ vara summan av prickarna som visas på de två tärningarna. Beräkna sannolikheten P (ξ 3). 4. Dygnsmedeltemperaturen i Fahrenheit ( F) på en viss ort kan betraktas som en stokastisk variabel ξ N(64.4, 3.6). Låt η = 5 (ξ 32) 9 vara motsvarande temperatur i Celsius ( C). Beräkna (a) standardavvikelsen för η (b) sannolikheten att dygnsmedeltemperaturen överstiger 20 C. (1p) (1p) 5. Antag att ξ är rektangelfördelad R(a, b), där a = 2.5 och b = 16. Bestäm den 75:e percentilen för ξ, dvs bestäm L 75. Kommentar: Den 75:e percentilen kallas ibland den övre kvartilen. 6. Antag att ξ 1,..., ξ 40 är oberoende och Exp(λ)-fördelade, där λ = 1/5. Bestäm P ( 40 i=1 ξ i 240) med hjälp av en lämplig approximationsmetod. 7. Antalet trasiga pixlar på en LED-TV av ett visst märke kan betraktas som en observation från P o(λ), där λ är det genomsnittliga antalet trasiga pixlar på LED-TV apparater av märket i fråga. Man vill testa H 0 : λ = 3 mot H 1 : λ > 3 baserat på en enda observation, dvs baserat på antal trasiga pixlar på en enda TV. Man har kommit fram till följande beslutsregel: Förkasta H 0 om TV:n har minst 6 trasiga pixlar. Bestäm testets signifikansnivå. 8. Gränsvärdet för halten av kvicksilver i slam som överlåts för jordbruksändamål är 2.5 (mg/kg torrsubstans). Låt ξ i N(µ, σ), för 2 (6)
i = 1, 2,..., n, beteckna uppmätt kvicksilver (mg/kg torrsubstans) i n st mätningar av samma parti slam, där σ = 0.15 är mätmetodens osäkerhet vilken bestämts från ett stort antal tidigare mätningar. Man vill ha ett 90% konfidensintervall för den förväntade kvicksilverhalten och intervallets bredd får vara högst 0.1 mg/kg. Hur många oberoende mätningar måste man minst göra? 9. På ett sjukhus skickar man vissa av sina blodprover till två laboratorier, Lab 1 och Lab 2. För att undersöka om laboratorierna mäter likvärdigt tog man ett enda blodprov på 12 ml från en patient och sände 6 ml var till de två laboratorierna, som vart och ett fick göra 7 oberoende mätningar på provet. Man antog att mätningarna på proven kan beskrivas som observationer på normalfördelade slumpvariabler. Resultatatet, i kodade enheter, ges nedan: Mätning 1 2 3 4 5 6 7 Lab 1 8.59 5.43 6.11 6.92 6.69 7.39 6.46 Lab 2 7.26 6.31 7.09 6.69 8.50 6.32 8.28 För att beräkna ett 95% konfidensintervall för den genomsnittliga skillnaden mellan Lab 1 och Lab 2, valde man mellan tre metoder: (A): metoden för två stickprov, (B): metoden för stickprov i par, och (C): ett teckenintervall. Välj ett av följande alternativ. Man bör välja... (1)... (A) eftersom antalet mätningar är detsamma för Lab 1 och Lab 2. (2)... (A) eftersom de 7 mätningarna görs på samma prov. (3)... (B) eftersom de 7 mätningarna görs på samma prov. (4)... (B) eftersom de två stickprovsstandardavvikelserna är olika. (5)... (C) eftersom mätvärdena är observationer från kontinuerliga fördelningar. 10. Jan letar lägenhet på bostadsmarknaden i centrala Luleå. Med hjälp av uppgifter från 30 nyligen avslutade lägenhetsförsäljningar tar han fram en skattad regressionsmodell Ŷ = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3, där Y är priset för en lägenhet, X 1 är lägenhetens yta, X 2 är en dummyvariabel som antar värdet 1 om lägenheten har balkong och 0 om den saknar balkong, och X 3 = X 1 X 2. Tabellen nedan innehåller minsta-kvadrat skattningarna av regressionskoefficienterna samt deras skattade standardavvikelser: b 0 = 866 s b0 = 186 b 1 = 10.54 s b1 = 2.88 b 2 = 253 s b2 = 231 b 3 = 7.43 s b3 = 3.34 3 (6)
Regressionskvadratsumman och den totala kvadratsumman är 30 i=1 (Ŷi Ȳ )2 = 7347233 respektive 30 i=1 (Y i Ȳ )2 = 8594325. (a) Bestäm residualspridningen s e. (b) Ange vilken uppskattad effekt ytan har på priset för lägenheter med balkong. (c) Vilken effekt har ytan på priset för lägenheter som inte har balkong? Svara med ett intervall med 98% konfidensgrad. (1p) Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 4 (6)
Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Sannolikheter skall anges som ett tal mellan 0 och 1 i decimalform. Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 0.337 2 2 a Sannolikhet (tre decimaler) 0.329 2 b Sannolikhet (tre decimaler) 0.360 2 3 Sannolikhet (tre decimaler) 0.083 2 4 a standardavvikelse (tre decimaler) 2.000 1 b Sannolikhet (tre decimaler) 0.159 1 5 75:e percentilen L 75 (tre decimaler) 12.625 2 6 Sannolikhet (tre decimaler) 0.8962 Φ(1.26) 2 7 signifikansnivå (tre decimaler) 0.0839 2 8 Antal mätningar (heltal) 25 2 9 (1), (2), (3), (4) eller (5) (2) 2 10 a residualspridning s e (tre decimaler) 219.009 1 b skattad effekt (fyra decimaler) 17.97 2 c övre och nedre gräns (tre decimaler) [3.400, 17.680] 2 Totalt antal poäng 25 5 (6)
Tentamen i Matematisk statistik, S0001M, del 2 2015-06-05 Till uppgifterna på del 2 krävs fullständinga lösningar 11. En fiskare fiskar i en flod. Den genomsnittliga väntetiden mellan napp (dvs mellan att fiskar fastnar på kroken) är 5 minuter. Vidare kan väntetiderna antas vara oberoende och Exponentialfördelade. Fiskaren bestämmer sig för att fiska tills dess att han fått 40 fiskar. Vad är sannolikheten att det tar mer än 4 timmar? (Här bortser vi från tiden som går åt till att dra upp fiskarna.) (10p) 12. Livslängden för en viss typ av elektroniska komponenter kan antas vara Exp(λ)-fördelade. Låt x 1,..., x 10 beteckna livslängderna för 10 sådana komponter. För att bestämma ett konfidensintervall för λ skulle man kunna gå tillväga på följande sätt: 1. Ett konfidensintervall för medianen m i Exp(λ)-fördelningen som baseras på det ordnade stickprovet x(1) < x(2) < < x(10) beräknas (dvs ett sk teckenintervall ). 2. Konfidensintervallet för medianen transformeras så att det blir ett konfidensintervall för λ. Använd denna metod för att bestämma ett konfidensintervall för λ som har en konfidensgrad på ca 90 %. De 10 livslängderna ges nedan. i 1 2 3 4 5 6 7 8 9 10 x i 0.96 7.12 0.12 3.38 2.31 0.06 1.91 0.91 3.54 7.03 (10p) 13. Maximum likelihood -metoden är en generellt användbar och mycket populär metod för parameterskattning. Metoden ingår inte i kursen men är både lätt att beskriva och använda. Så här går det till: Antag att du har en observation x (eller en serie observationer) på en stokastisk variabel ξ vars fördelning bestäms av den okända parametern θ. Maximum likelihood (ML) skattningen är det värde på θ som maximerar sannolikheten för det observerade utvallet. Alltså, först bestäms sannolikheten P (ξ = x) för det observerade utfallet. Den sannolikheten, som beror på θ, kallas likelihoodfunktionen. ML-skattningen är det värde på θ som maximerar likelihoodfunktionen (det vill säga det värde där likelihoodfunktionen antar till största värde). Antalet trasiga pixlar på en LED-tv av ett visst märke kan antas ha Poisson(λ)-fördelning, där λ är okänd. Antag att du köpt en LED-tv av märket i fråga och upptäcker att den har 3 trasiga pixlar. Beräkna ML-skattningen av λ. (10p) 6 (6)