Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 31:E MAJ 2012 KL 08.00 13.00. Examinator: Tobias Rydén, tel 790 8469. Kursledare: Tatjana Pavlenko, tel 790 8466. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), Hjälpreda för miniräknare, räknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22 23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Poäng från kontrollskrivning under kursomgång period 4 ht 2012 tillgodoräknas. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift 1 Vid en tidpunkt har 1% av en population en sjukdom S. Låt B vara händelsen att en på måfå vald person har sjukdomen, dvs. P (B) = 0.01. En läkare som undersöker personen ställer rätt diagnos med sannolikhet 80% om personen har sjukdomen S, och 95% om personen inte har sjukdomen S. Bestäm (a) sannolikheten för att läkaren ställer rätt diagnos. (5p) (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs. med A som händelsen {Diagnos: sjukdom S}, bestäm P (B A ). (5p) Uppgift 2 Antag att varje sträng i ett rep brister vid belastningsgräns som kan beskrivas av en stokastisk variabel med väntevärdet 20 kilogram och standardavvikelsen 2 kilogram. Ett rep brister vid en belastning som är summan av de oberoende belastningsgränserna för repsträngarna. Hur många repsträngar behöver man till ett rep, som med sannolikheten minst 0.95, skall tåla en belastning på 1000 kilogram. Lämpliga approximationer bör användas. (10 p) Uppgift 3 En tandläkare studerade sambandet mellan kariesfrekvens hos barn och fluorhalten i dricksvatten. Hos totalt 1161 familjer noterade hon om fluorhalten i deras dricksvatten var hög eller låg samtidigt
forts tentamen i SF1901 2012-05-31 2 som hon klassificerade kariesfrekvensen bland familjens barn som hög eller låg. Antalet familjer som hamnade i de olika grupperna var: Hög kariesfrekvens Låg kariesfrekvens bland familjens barn bland familjens barn Låg fluorhalt i dricksvatten 53 311 Hög fluorhalt i dricksvatten 68 729 Tyder dessa siffror på att det finns ett samband mellan fluorhalten i dricksvatten och kariesfrekvensen? Hjälp tandläkaren och svara på denna fråga med hjälp av ett lämpligt statistiskt test på signifikansnivån 5%. Ett tydligt svar bör framgå. Svaret och den tillämpade statistiska metoden bör motiveras. (10 p) Uppgift 4 Det har utbrutit en diskussion i släkten om hurvida det spelar någon roll för äggulans konsistens om man lägger ner ägget i kokande vatten i 6 minuter eller om man lägger ner ägget i kallt vatten, kokar upp och låter koka i 4 minuter. Man har därför lagt 5 ägg i kallt vatten och 7 ägg i kokande vatten och sedan mätt gulans simmighet på något lämpligt sätt. Resultat: Kallt vatten: 9.7 11.2 9.4 7.7 8.8 Kokande vatten: 12.1 10.9 11.4 11.9 8.9 10.4 10.3 Undersök, genom att göra ett lämpligt test eller konfidensintervall, om simmigheten skiljer sig åt mellan de två kokmetoderna. Antag att variationen i simmighet är normalfördelad, med en varians som är densamma för de både kokmetoderna. (10 p) Uppgift 5 x 1, x 2,..., x n är observationer från oberoende Maxwellfördelade stokastiska variabler, dvs från variabler med täthetsfunktionen, { 2 x 2 e f(x) = x2 /(2α) om x > 0, π α 3/2 0 om x 0, där α > 0 är en parameter. Denna fördelning har väntevärde 8α/π och varians α(3 8/π). (a) Betrakta följande skattning av α: α obs = 1 n x2 i. Är α en väntevärdesriktig punktskattning? Motivera ditt svar med beräkningar. (5 p) (b) Bestäm maximum-likelihoodskattningen av α. (5 p) Uppgift 6 Den naturliga bakgrundsstrålningen (uttyckt som antalet registrerade pulser per sekund, Bq) vid en viss mätpunkt har en intensitet av λ = 1 s 1 och antalet registrerade pulser under ett tidsintervall (t 1, t 2 ) beskrivs väl av en Poissonfördelning med väntevärde λ(t 2 t 1 ). På grund av en kärnkraftsolycka i ett mycket avlägset land misstänker man att intensiteten här hos oss har ökat.
forts tentamen i SF1901 2012-05-31 3 (a) Antag att man mäter under 15 s och därvid registrerar 20 partiklar. Undersök med lämpligt test eller konfidensintervall om intensiteten överstiger den naturliga bakgrundsstrålningen. Välj α = 0.05. (4 p) (b) Antag att intensiteten i själva verket har ökat till λ 1 = 1.2 s 1. Hur länge måste man mäta för att ha 50% chans att upptäcka detta om man gör ett approximativt test på nivån 5%? (6 p) Lycka till!
Avd. Matematisk statistik LÖSNINGAR TILL TENTAMEN I SF1901 SANNOLIKHETSLÄRA OCH STATISTIK, TORSDAGEN DEN 31:E MAJ 2012 Uppgift 1 Med A som händelsen Diagnos sjukdom S formuleras de givna sannolikheterna som Alltså är P (B) = 0.01 P (A B) = 0.80 P (A B ) = 0.95 P (rätt diagnos) = P (A B) + P (A B ) = P (A B) P (B) + P (A B ) P (B ) = 0.80 0.01 + 0.95 (1 0.01) = 0.9485. så P (A) = P (A B) + P (A B ) = P (A B) P (B) + P (A B ) P (B ) = 0.0575, P (B A ) = P (A B) P (A ) = P (A B) P (B) 1 P (A) = 0.20 0.01 1 0.0575 = 0.02122. Uppgift 2 Låt X i vara belastningsgräns för sträng i, X i är oberoende stokastiska variabler och Y = n X i. Enligt centrala gränsvärdessatsen (antag att n är stort) kan fördelningen av Y approximeras med normalförvelning, dvs Y är approximativt N(20n, 4n. Nu ska det gälla att 1000 20n P (Y 1000) 1 Φ( ) 0.95, 4n vilket medför att 1000 20n 4n = 1.645 och alltså n = 51.2 52. Uppgift 3 De intressanta hypoteserna är H 0 : ingen samband mellan kariesfrekvens och flourhalt ; H 1 : samband finns. Om H 0 är sann hade vi förvänta oss följande värden Hög kariesfrekvens Låg kariesfrekvens Total 121 Låg fluorhalt i dricksvatten 346 = 37.94 1040 364 = 326.06 364 1161 1161 121 Hög fluorhalt i dricksvatten 797 = 83.06 1040 797 = 713.94 797 1161 1161 Total 121 1040 1161
forts tentamen i SF1901 2012-05-31 2 Testvariabeln blir Q obs = (53 37.94)2 37.94 + (311 326.06)2 326.06 + (68 83.06)2 83.06 + (729 713.94)2 713.94 = 9.727. Detta är en observation an en χ 2 (1)-variabel ((2-1)(2-1)=1). Kvantilen för 5% är 3.841. Eftersom Q obs = 9.727 > 3.841 = χ 2 0.05(1) förkastas H 0 på nivån 0.05. Uppgift 4 Vi har situationen Två oberoende stickprov. Låt x 1,..., x 5 och y 1,..., y 7 är oberoende observationer från X i = simmighet för ägg nummerii kallt vatten N(m x, σ) respektive Y i = simmighet för ägg nummerii kokande vatten N(m y, σ). Hypoteser: H 0 : m x = m y mot H 1 : m x m y. Skattnigar: m x obs = x = 9.36, m y obs = ȳ = 10.8429. s 2 x = 1 5 1 5 (x i x) 2 = 1.6430, s 2 y = 1 7 1 7 (y i ȳ) 2 = 1.2129. (Eftersom s 2 x och s 2 y är ganska lika verkar vårt antagande om lika varians fullt rimligt.) s = (5 1)s 2 x + (7 1)s 2 y 5 1 + 7 1 = 4 1.28182 + 6 1.1013 2 Eftersom X N(m x, σ 5 ) och Ȳ N(m y, σ 7 ) är oberoende så har vi fått (m x m y) = X 1 Ȳ N(m x m y, σ 5 + 1 7 ). Om H 0 är sann, dvs m x = m y, (m x m 1 y) N(0, σ + 1 ). Eftersom 5 7 x ȳ 0 s 1 5 + 1 7 10 = 1.1768. = 2.15 = 2.15 < t α/2 (5 1 + 7 1) = t 0.025 (10) = 2.23 kan H 0 inte förkastas. Det finns ingen signifikant skillnad i simmighet. Alternativ lösning 1 Vi får på sedvanligt sätt konfidensintervallet I mx my = ( x ȳ±t 0.025 (10) + 1 ) = ( 3.02, 0.05). 5 7 Eftersom 0 I mx my kan H 0 inte förkastas. a) Vi får ( E(α 1 ) = E Uppgift 5 X 2 i ) = 1 E(Xi 2 ) = 1 3 E(X2 1). Eftersom V (X) = E(X 2 ) (E(X)) 2 ser vi att E(X 2 ) = V (X) + (E(X)) 2 som ger att E(X 2 1) = V (X 1 ) + (E(X 1 )) 2 = ( 3 8 ) α + π ( ) 2 8α = 3α. π
forts tentamen i SF1901 2012-05-31 3 Alltså gäller att E(α ) = 1 3 E(X2 1) = α och alltså är α väntevärdesriktig skattning av α. b) Vi har likelihoodfunktionen som ger L(α) = n f(x i ) = ( ) n ( 2 x 2 1 x 2 2 x 2 n exp 1 π α /2 2α g(α) = ln L(α) = ln ( ) (2/π) n/2 x 2 1x 2 2 x 2 n 2 ln(α) 1 2α g(α) maximeras då g (α) = 0 och vi har g (α) = 2α + 1 2α 2 g (α ) = 0 ger att ML-skattningen blir α = 1 n x2 i. Detta utgör uppenbarligen maximum eftersom lim α 0 L(α) = 0 och lim α L(α) = 0 och L(α) är kontinuerligt deriverbar. Uppgift 6 Låt X(t) vara antalet registrerage partiklar undet (0, t), X(t) P o(λt). (a) H 0 : λ = 1, H 1 : λ > 1. Om H 0 är sann och t = 15s så X(15) P o(15), x = 20. Direkt metoden ger p värde = P (X 20) = 1 P (X 19) = 1 0.87522 = 0.1248. Eftersom 0.1248 > α = 0.05 förkastr vi inte H 0 på nivån 5%. Normalapproximation: X(t) är approximativt N(λt, λt) vilket under H 0 blir N(t, t). Test: förkasta H 0 om x(t) t t > λ 0.05 = 1.64. (b) λ 1 = 1.2. Styrkan ges av X(t) t) h(1.2) = P (förkasta H 0 om λ = 1.2) = P ( > λ 0.05 λ = 1.2) t x 2 i x 2 i ) x 2 i = P (X(t) > t + λ 0.05 t λ = 1.2) = {standardisera}) X(t) 1.2t = P ( > λ 0.05 t + t 1.2t 1.2t 1.2t = 1 Φ( λ 0.05 t 0.2t ) = 0.5. 1.2t Ny kan vi lösa ut t λ 0.05 t 0.2t 1.2t = 0 t = λ 0.05 0.2 t = 67.64s.