Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2012-06-02 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Ove Edlund och Inge Söderkvist Jourhavande lärare: Adam Jonsson Tel: 0920-491948 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På denförsta delen, som är obligatorisk för att kunna bli godkänd, ska enbart svar lämnas in, men lösningar får bifogas. Observera dock att dessa ej kommer att bedömas utan enbart användas vid gränsfall för att avgöra om någon uppgift kan rättas upp på grund av slarvfel. På del 1 ges inga delpoäng på uppgifterna. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Detta blad måste lämnas in. Lägg detta blad först bland lösningarna. Om inte det ifyllda svarsbladet har lämnats in så bedöms tentamen som underkänd. För godkänt krävs minst 17 poäng på del 1. Med 2 extrapoäng från laborationerna och KGB så räcker det alltså med 15 poäng av de 25 möjliga för godkänt. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. Förbetyg4krävs godkänt på denförsta obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt pådenförsta obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på denförsta korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1(9)
1. Antag att 6 % av alla bilförare kör berusat. Antag också att sannolikheten att en berusad person somnar under bilkörningen är 0.26 och att motsvarande sannolikhet för en nykter person är 0.01. En olycka inträffar, och det konstateras att bilföraren somnat vid ratten. Vad är sannolikheten att föraren var berusad? 2. Antag att du har ett stickprov av storlek 8 från en kontinuerlig fördelning och att medianen i fördelningen är lika med 6.5. Beräkna sannolikheten att högst 4 av stickprovsvariablerna antar ett värde som är större än 6.5. (3p) 3. Betrakta funktionen f(x) = { ax + b om 0 x 1, 0 annars, där a och b är konstanter. Det finns flera värden på a och b för vilka f är en frekvensfunktion, men endast ett par av värden som gör att väntevärdet i fördelningen är lika med 1/3. Vilka är dessa värden? 4. Thomas tar spårvagnen till jobbet varje morgon. Väntetiden i minuter kan betrakas som en slumpvariabel med R(0, 10)-fördelning. Väl på jobbet måste Thomas vänta en Exp(1)-fördelad tid på att hans dator ska starta. Beräkna väntevärde och varians för den totala tid som Thomas väntar varje morgon. 5. Man vill konstruera en varuhiss för transport av partier som skall bestå av tre olika sorters enheter. Vikten i kilo för enheter av de tre sorterna är fördelad enligt N(120, 7), N(175, 12) respektive N(215, 18). Vilken maxkapacitet måste hissen ha för att i det långa loppet kunna transportera 99.9 % av partierna? 6. Livslängden (enhet: timmar) för en viss typ av elektronrör är exponentialfördelad med λ =0.005. Sådana rör ingår i radarutrustningen påettfartyg,där man i ett lager under däck har 100 elektronrör. När ett elektronrör går sönder byts det genast ut. Beräkna en tid T sådan att lagret räcker åtminstone T timmar med sannolikhet 0.9. (3p) 7. Läkaren Evrim är skeptisk mot homeopatmediciner. Hon beslutar sig för att prova om ett nylanserat preparat sänker kolesterolnivån för 9 slumpmässigt utvalda patienter. Resultatet, i kodade enheter, återges nedan. Patient 1 2 3 4 5 6 7 8 9 Före 4.29 4.25 3.81 5.02 3.57 3.16 3.98 4.37 3.86 Efter 4.69 4.80 2.47 5.17 3.31 3.36 4.46 3.99 3.84 2(9)
Beräkna ett 99%-igt konfidensintervall för preparatets genomsnittliga effekt under rimliga normalfördelningsantaganden. (Effekten är positiv om preparatet i genomsnitt minskar kolesterolvärdet.) Svara med den övre gränsen. 8. Ett forskarteam intresserar sig för om ett läkemedel som ges till gravida kvinnor minskar vikten hos deras barn vid födelseln. Man antar att vikterna är normalfördelade, där standardavvikelsen 0.454 bestämts från beräkningar på ett mycket stort antal födslar. För att se om man kan påvisa att väntevärdet μ är mindre än 3.715, vilket är den genomsnittslika spädbarnsvikten i hela populationen, utförs ett test på 5 % signifikansnivå. Testet baseras på 100 födslar, där slutsatsen att μ<3.715 dras om medelvikten är mindre än 3.6403. Medelvikten för de 100 barnen blev 3.6920, så forskarna kan inte dra några slutsatser på 5 % signifikansnivå. För att kunna använda detta till sin fördel vill läkemedelsföretaget som tillverkat preparatet beräkna testets styrka. Beräkna styrkan då μ =3.6. 9. Man är intresserad av den andel p av alla studenter på ett visst universitet som motitionerar minst tre gånger i veckan. En omfattande tidigare undersökning gav p =0.35 och man vill nu se om andelen har ökat. För att testa H 0 : p =0.35 mot H 1 : p>0.35 tillfrågas 15 slumpmässigt utvalda studenter och H 0 förkastas om minst 9 av de 15 studenterna motitionerar minst tre gånger i veckan. Vilken signifikansnivå har testet? 10. Tio filmer undersöks för att finna samband mellan produktionskostnader (X1, miljoner dollar), marknadsföringskonstnader (X2, miljoner dollar) och biljettintekter under första året (Y, miljoner dollar). Datamaterialet undersöks med regressionsanalys. Resultatet redovisas i tabell 1. (a) Bestäm förklaringsgraden R 2. (b) Bestäm ett 95%-konfidensintervall för biljettintekterna under första året för en film vars produktionskostnad är 5 miljoner dollar och marknadsföringskostnaderna 2 miljoner dollar. Tillhörande skattad standardavvikelse för Ŷ är s Ŷ =4.14. Svara med den undre gränsen. (c) Om produktionskostnaderna hålls konstanta och marknadsföringskonstnaderna ökar med 1 miljon dollar, bestäm ett 90%-konfidensintervall för hur biljettintekterna ändras och redovisa den undre gränsen. (1p) Slut på del1.glöm inte att bifoga svarsbladet med tentan! 3(9)
Tabell 1: Regression Analysis: Y versus X1; X2 The regression equation is Y = 11,8 + 4,23 X1 + 7,44 X2 Predictor Coef SE Coef T P Constant 11,848 6,765 1,75 0,123 X1 4,228 1,153 3,67 0,008 X2 7,436 1,806 4,12 0,004 S = 8,24076 R-Sq =? R-Sq(adj) = 94,1% Analysis of Variance Source DF SS MS F P Regression 2 9798,3 Residual Error 7 475,4 Total 9? Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:... Personnummer:... 4(9)
Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 0.624 2 2 Sannolikhet (tre decimaler) 0.637 3 3 a och b a = 2,b=2 2 4 Väntevärde och varians (två decimaler) Väntevärdet är 6, 2 Variansen 9.33 5 Maxkapacitet (tre decimaler) 580.264 2 6 tiden T (tre decimaler) 17436.8 3 7 Övre gräns (två decimaler) 0.68 2 8 Styrka (tre decimaler) Φ(0.88)=0.813 2 9 Signifikansnivå (tre decimaler) 0.042 2 10 a Förklaringsgrad (tre decimaler) 1 b undre gräns (fyra decimaler) 2 c undre gräns (fyra decimaler) 2 Totalt antal poäng 25 5(9)
6(9)
Tentamen i Matematisk statistik, S0001M, del 2 2012-06-02 Vid bedömningen av lösningarna av uppgifterna i del 2 läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 11. Ett företag som tillverkar batterier har produktionen förlagd till tre olika fabriker, som vi kallar a, b och c. Fabrik a står för 50 % av tillverkningen, fabrik b för 20% och fabrik c för 30%. Man vet att livslängderna för batterierna är Exponentialfördelade, där sannolikheten att ett batteri från fabrik a, b och c räcker mer än 100 driftstimmar är 95, 97 respektive 98 %. Man har blandat batterier från de tre fabrikerna i ett stort centrallager. Vad är sannolikheten att ett batteri som tas på måfa från centrallagret räcker mer än 150 driftstimmar? Lösningsskiss Låt H vara händelsen att batteriet som tas från centrallagret räcker 150 timmar, låt A, B, C vara händelsen att batteriet kommer från fabrik a, b respekive C. Först bestäms parametrarna λ a,λ b,λ c i exponentialfördelningarna med hjälp av fördelningsfunktionen F (x) = 1 e λx och förutsättningarna som ges i uppgiften. Sedan kan P (H A), P (H B) ochp (H A) bestämmas. Till sist används (10p) P (H) =P (H A)P (A)+P (H B)P (B)+P (H C)P (C). 12. Xie är kvalitetsansvarig på ett kinesiskt företag som tillverkar ätpinnar. Pinnarna måste vara tillräckligt raka, och företagets mål är att minst 99.5 % av alla pinnar skall uppfylla ett väletablerat mått på rakhet. För att upptäcka om det finns systemfel skall du hjälpa Xie ställa upp ett test baserat på en undersökning av 2000 slumpmässigt utvalda pinnar. För full poäng krävs att du använder välmotiverade approximationer för att förenkla beräkningar av testets egenskaper. (a) Ställ upp hypoteser och definiera en beslutsregel så att Xie får ett test med en signifikansnivå nära 5 %. (b) Beräkna styrkan för testet i (a) om 99.25 % av pinnarna är tillräckligt raka. (5p) (5p) Lösningsskiss Låt ξ vara antalet sneda pinnar. Vi har ξ Bin(2000,p), där p är andelen sneda pinnar i det långa loppet (dvs. sannolikheten att en pinne är sned). (a) Vi testar H 0 : p =0.005 mot H 1 : p>0.005 med beslutsregeln: förkasta H 0 om ξ k. Då p =0.005 har vi 2000p(1 p) < 10 så tumregeln för normalapproximation är inte uppfylld. Men vi har approximativt ξ Po(10). Med hjälp av Poissontabellen får vi att k = 5 ger ett test med ca 4.87% signifikansnivå. (b) Poissontabellen ger att styrkan då p =0.0075 är ca 44%. (5p) (5p) 13. Vi fortsätter att jobba med datamaterialet om filmer fråndel1,som redovisas i sin helhet i tabell 2. I datamaterialet finns också uppgifter om intäkter från försäljningen av romanen som ligger till grund för filmens manus (X3, miljoner dollar). 7(9)
Tentamen i Matematisk statistik, S0001M, del 2 2012-06-02 (a) I tabell 3 redovisas en multipel regressionsanalys, gjord i Minitab, där alla förklarande variabler finns med. Redovisa dina steg, för att bestämma den justerade förklaringsgraden R 2 a, och residualspridningen s. Jämför med resultatet i tabell 1. Vad var bra och/eller dåligt med att införadennyaförklarande variabeln. (4 p) (b) Ange fullständigt modellantagande för den skattade modellen i tabell 3, och använd residualplottarna i figur 1 till att utreda modellantagandets giltighet. Motivera! (2 p) (c) Från tabell 3 är det uppenbart att X3 påverkar Y i mindre utsträckning än X1 och X2. Om vi testar om β 3 är negativ, dvs H 0 : β 3 =0ochH 1 : β 3 < 0, bestäm då P-värdet för den hypotesprövningen. Hur tolkar du ditt resultat. (4 p) 8(9)
Tentamen i Matematisk statistik, S0001M, del 2 2012-06-02 Tabell 2: Tabellen beskriver intäkter och utgifter vid 10 filmproduktioner, i termer av produktionskostnader (X1, miljoner dollar), marknadsföringskonstnader (X2, miljoner dollar), intäkter från bokförsäljning (X3, miljoner dollar) och biljettintekter under första året (Y, miljoner dollar). Y X1 X2 X3 85.100 8.5000 5.10000 4.7000 106.300 12.9000 5.80000 8.8000 50.200 5.2000 2.10000 15.1000 130.600 10.7000 8.40000 12.2000 54.800 3.1000 2.90000 10.6000 30.300 3.5000 1.20000 3.5000 79.400 9.2000 3.70000 9.7000 91.000 9.0000 7.60000 5.9000 135.400 15.1000 7.70000 20.8000 89.300 10.2000 4.50000 7.9000 Tabell 3: Regression Analysis: Y versus X1; X2; X3 The regression equation is Y = 7,68 + 3,66 X1 + 7,62 X2 + 0,828 X3 Predictor Coef SE Coef T P Constant 7,676 6,760 1,14 0,299 X1 3,662 1,118 3,28 0,017 X2 7,621 1,657 4,60 0,004 X3 0,8285 0,5394 1,54 0,175 S =? R-Sq = 96,7% R-Sq(adj) =? Analysis of Variance Source DF SS MS F P Regression? 9932,5 3310,8 58,22 0,000 Residual Error? 341,2 56,9 Total? 10273,7 Figur 1: Residualplottar vid regressionanalysen i tabell 3. Residualplottarna mot X1, X2 och X3 är så liknande plotten mot Ŷ, att de tagits bort för att spara plats. 9(9)