Avd. Matematisk statistik TENTAMEN I SF1901 och SF1905 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 18:E OKTOBER 2012 KL 14.00 19.00. Examinator: Tatjana Pavlenko, tel 790 8466. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), Hjälpreda för miniräknare, räknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22 23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift 1 a) Antag att P (A B) 0.7, P (A) 0.4 och P (B) p. För vilket värde på p gäller att A och B är oberoende? (4 p) b) På arbetsplats skadades 1% av personalen under ett år. 60% av alla skadade var män. 30% av de anställda var kvinnor. är det manliga eller kvinnliga anställda som löper största risken att råka ut för en skada enligt denna undesökning? Svaret bör motiveras. (6 p) Uppgift 2 En tillverkare av trästegar, som tidigare använt lufttorkat trä till stegarnas sidostycken, har från en större trävarufirma fått ett erbjudande att istället köpa ugnstorkat virke. Detta skulle bli väsentligt billigare, men det ugnstorkade virket har lägre hållfasthet än det lufttorkade. Efter noggrant övervägande bestämmer sig stegfabrikanten för att övergå till ugnstorkat virke, om det vid försök visar sig att skillnaden i hållfasthet signifikant understiger 10kp/cm 2. De därefter utförda proven gav förljande resultat (hållfasthet i kp/cm 2 ): Lufttorkat trä 107.9 103.2 106.3 106.0 101.6 105.0 103.6 103.3 104.6 102.1 Ugnstorkat trä 94.5 99.2 95.0 95.8 96.4 98.3 94.9 98.6 Hjälp tillverkaren att dra en statistiskt motiverad slutsats. Formulera en statistisk modell baserad på normalfördelning och lika varians, och genomför sedan ett lämpligt test på nivån 5%. Ange tydligt vilka de uppställda hypoteserna och slutsatsen är. (10 p)
forts tentamen i SF1901, SF1905 2012-10-18 2 Uppgift 3 Låt X N(µ, σ) utgöra ett kvalitetsmått för en tillverkad enhet. Om X faller utanför intervallet (µ 2σ, µ + 2σ) så är enheten oduglig och måste kasseras. Låt Y vara antalet enheter som måste kasseras bland 500 tillverkade enheter. Beräkna en övre gräns g så att sannolikheten P (Y g) är approximativt 0.90, dvs P (Y g) 0.90. Används approximation skall den motiveras. (10 p) Uppgift 4 Livslängden X för en viss typ av komponent antas ha fördelningsfunktionen F X (x) 1 e (x/β)2, x 0 där β > 0 är en okänd parameter. (a) Härled formeln för maximum likelihoodskattningen β obs av β på basis av x 1,..., x n. (9 p) (b) Man har följande observerade stickprov på X: 6.1 14.2 3.8.2 7.5. Beräkna värdet på maximum likelihood skattningen βobs för dessa data. (1 p) Uppgift 5 På en karta över ett geografiskt område har man med punkter märkt ut var en viss sorts olyckor har inträffat. Över området lägger man ut ett rutnät bestående av 10 lika stora rutor och noterar följande antal olyckor inom respektive ruta: 0, 30, 25, 1, 12, 2, 18, 1, 15, 6. Man anar att olyckorna kan vara hopklumpade. Prova på 5% signifikansnivån nollhypotesen att olyckorna sker geografiskt helt slumpmässigt (dvs likformigt) och oberoende av varandra. Ett tydligt svar bör framgå. Svaret och den tillämpade statistiska metoden bör motiveras. (10 p) Uppgift 6 Tunnelbanetåg avgår regelbundet från en station med θ minuters mellanrum. Teknologen Henrik, som är obekant med tidtabellen, kommer vid 8 tillfällen på måfå till stationen och noterar sina väntetider (i minuter): 1.2, 6.9, 5.6, 10.1, 3.0, 12.0, 7.1, 5.5. Henrik är intresserad av att skatta θ utgående från sina observationer som han betraktar som oberoende utfall av X som är U(0, θ). a) Henrik kommer själv på skattningen θ 2 ggr medelvärdet, dvs θ 2 x 12.85 och vill med hjälp av denna skattning beräkna ett konfidensintervall för θ med den approximativa konfidensgraden 95%. Hjälp honom med detta! n 8 betraktas som så stort att lämplig approximation får göras. (5 p) b) Henriks väninna Mary, som är bättre i matematisk statistik än Henrik, påpekar att om man observerar n väntetider är θ (n + 1)/n max(x 1, x 2,, x n ) (dvs i vårt fall 9/8 12.0 13.5) en väntevärdesriktig skattning av θ som är bättre än Henriks förslag. Mary vill nu ha ett exakt 95%-igt konfidensintervall för θ av typen (max(x 1, x 2,, x 8 ), c max(x 1, x 2,, x 8 )). Bestäm det korrekta värdet på c. (5 p) Lycka till!
Avd. Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF1901 och SF1905 MATEMATISK STATISTIK, SF1901 OCH SF1905. TORSDAGEN DEN 18 OKTOBER 2012 KL 14.00 19.00 Uppgift 1 a) 0.7 P (A B) P (A) + P (B) P (A B) 0.4 + p 0.4 p vilket ger p 0.5. Svar: p 0.5. b) Låt S skada, M man, K kvinna. Vidare har vi givet att P (S) 0.01, P (K) 0.3, och P (M S) 0.6. Bayes sats (alternativt, definitionen av betingad sannolikhet och satsen om total sannolikhet) ger nu P (S M) P (S M) P (M) P (M S) P (S) P (M) 0.6 0.01 0.7 0.0086 och P (S K) P (S K) P (K) P (K S) P (S) P (K) 0.4 0.01 0.3 0.013. Svar: Kvinnliga anställda löper större risken. Uppgift 2 Vi skriver x 1,..., x n1, med n 1 10 för de observerade hållfasthet för lufttorkt trä, och y 1,..., y n2, med n 2 10 för de observerade hållfasthet för ugnstorkat trä. Den föreslagna modellen är att dessa värden är observationer av oberoende stokastiska variabler X 1,..., X n1, respektive Y 1,..., Y n1, där X i N(µ 1, σ) och Y j N(µ 2, σ). Vi antar att standardavviklse σ är okänd med lika för X och Y. Vi vill testa nollhypotesen H 0 : µ 1 µ 2 10, mot alternativet H 1 : µ 1 µ 2 < 10 på signifikansnivå 5% (tillverkare tänkte övergå till ugnstårkat virke om skillnaden understiger 10kp/cm 2. De samanfattande statistikornas värden är medelvärden x 104.36 och ȳ 96.5875, stickprovsstandardavvikelser s 1 1.9783 och s 2 1.8589, och (från poolad varians) 1.9270. Vi kan testa H 0 mot H 1 genom att betrakta teststorheten t x ȳ 10 s 1 n 1 + 1 n 2 2.4369. Vi skall förkasta H 0 för små värden på t (ensidigt mothypotes) och vet (FS.2d) att under H 0 så är t en observation från en t-fördelning med 10 + 8 2 16 frihetsgrader. Om vi gör testet på nivån 5% så använder vi 5%-kvantilen för denna t-fördelning, som är 1.75 (Tabell 3, FS). Eftersom 2.4369 < 1.75 t 0.05 (16) så förkastar vi H 0 på nivån 5%. Alternativt kan vi betrakta sannolikheten att en t(16)-fördelad stokastisk variabel är mindre än 2.4369 (tcdf på TI-räknare); denna sannolikhet, dvs p-värdet för test, är 0.0134. Detta p-värde är tillräckligt litet för att vi skall förkasta H 0.
forts tentamen i SF1901, SF1905 2012-10-18 2 Vill man besvara frågan med ett konfidensintervall, skall man göra ett uppåt begränsat ensidigt intervall för µ 1 µ 2. Detta blir ( 1, x ȳ + t 0.05 (16)s + 1 ] (, 9.3683]. n 1 n 2 Då detta intervall innehåller inte 10, kan vi förkasta H 0 på nivån 5%. Svar: Slutsatsen är att det finns signifikant stöd i mätdata att medelskillnaden i hållfasthet understiger 10kp/cm 2. Tillverkaren kan övergå till ugnstorkat virke utan att förlora i kvalitet mer än 10kp/cm 2. Uppgift 3 Vi först räknar sannolikhet p att en tillverkad enhet är oduglig och måste kasseras. Detta ges med p P (kasseras) P ( X µ > 2σ) 2 (1 Φ(2)) 0.0456. Låt Y beskriva antalet enheter som måste kasseras bland 500 tillverkade. Då är X Bin(n, p) Bin(500, 0.0456). Eftersom np(1 p) 500 (1 0.0456) 0.0456 > 10 kan man använda normalapproxiamtion vilket ger Y N(22.80, 4.67) (approximativt). Vi har givet att P (Y g) 0.9, vilket ger ( ) g 22.80 0.9 P (Y g) Φ. 4.67 Nu får vi med hjälp av Tabell 2, FS g 22.80 4.67 λ 0.1 1.28, vilket ger g 28.8. Dessa räkningar kan också göras på räknare med funktionen invnorm. Svar: g 28.8. Uppgift 4 a) Vi skall först bestämma täthetsfunktionen f X (x) av X genom att hitta derivatan av F X (x): f X (x) d dx F X(x) 2x β 2 e (x/β)2. Maximum-likelihoodmetodens skattning av β är det parametervärde som maximerar ln(l(β)) ln(f X1,...,X n (x 1..., x n )) {oberoende} ln (f X1 (x 1 ) f Xn (x n )) Lösning av ln(f Xi (x i )) n ln 2 + i1 ger β ( 1 n n i1 x2 i ) 1/2. ln(x i ) 2n ln β 1 β 2 i1 0 d dβ ln(l(β)) 2n β + 2 β 3 x 2 i 0 i1 x 2 i. i1
forts tentamen i SF1901, SF1905 2012-10-18 3 Alltså, ML-skattningen av β är β obs ( 1 n ) 1/2 x 2 i. i1 Svar: βobs ( 1 n ) 1/2. n i1 x2 i b) Värdet på βobs för givna data är 9.3272. Svar: β obs 9.3272. Uppgift 5 Vi har typexempel på test av given fördelning där vi ska använda χ 2 -test. Med beteckningar enlight FS (s. 7) ser man att r 10. Vi skriver nollhypotesen som H 0 : p i 1/10 för alla i 1,..., 10. Vi har n 0 observationer med resulatet x 1 0, x 2 30, x 3 25, x 4 1, x 5 12, x 6 2, x 7 18, x 8 1, x 9 15 och x 10 6. Vi får därför förljande teststorhet betecknad med Q Q r i1 (x i np i ) 2 np i (0 )2 + (30 )2 + (25 )2 + (1 )2 (12 )2 (2 )2 (18 )2 (1 )2 (15 )2 (6 )2 + + + + + + 95.45. Eftersom np i 0 0.1 5 för alla i 1,..., r är villkoret för ett approximativt χ 2 -test uppfyllt. Man kan därmed approximera Q s fördelning med χ 2 (r 1), dvs χ 2 -fördelning med r 1 frihetsgrader. Nu jämför vi teststorheten Q med 0.05-kvantilen för χ 2 (r 1), som är χ 2 0.05(9) 16.9. Beslutsregel är att förkasta H 0 om Q > χ 2 0.05(9). Vi ser att Q 95.45 > 16.9 och därmed förkastas H 0 på signifikansnivån 5%. Detta innebär att hypotesen att olyckorna sker geografiskt helt slumpmässigt ska förkastas. Svar: Hypotesen att olyckorna sker geografiskt helt slumpmässigt ska förkastas. Uppgift 6 Eftersom X är likformigt fördelad har vi E(X) θ/2 och V (X) θ 2 /12. Centrala gränsvärdessatsen ger att 8 1 X i är approximativt N(8θ/2, 8θ/ 12). Alltså är X approximativt N(θ/2, θ/ 96) och θ 2 X är alltså N(θ, θ/ 24). Medelfelet är θ / 24 2 x/ 24. Vi får då med λ-metoden att ett approximativt 95%-igt konfidensintervall för θ blir θ θ ± λ 0.025 2 x ± 1.9600 2 x 24 24 12.85 ± 1.9600 12.85/ 24 12.85 ± 5.14. Svar: 12.85 ± 5.14.
forts tentamen i SF1901, SF1905 2012-10-18 4 b) Fördelningsfunktionen för X i är F (x) x/θ för 0 x θ som ger fördelningsfunktionen för Y max(x 1, X 2,, X 8 ) ( x ) 8. F Y (x) P (X 1 x)p (X 2 x) P (X 8 x) θ Vi får då 0.95 P (Y θ cy ) P (1 θ/y c) P (1/c Y/θ 1) ( 1 ) 8 P (θ/c Y θ) F Y (θ) F Y (θ/c) 1 c som ger 0.05 (1/c) 8, dvs c (0.05) 1/8 1.45 och konfidensintervallet blir alltså (12.85, 1.45 12.85) (12.85, 18.69). Svar: (12.85, 18.69).