TENTAMEN: Statistik och sannolikhetslära (LMA120) Tid och plats: 08:0-12:0 den 7 oktober 2016, Samhällsbyggnad Hjälpmedel: Typgodkänd miniräknare, formelblad Betygsgränser: : 12 poäng, 4: 18 poäng, 5: 24 poäng. Maximalt antal poäng: 0 poäng Telefonvakt: Anna Johnning 1. För att kvalitetssäkra sin produktion av bitumen utför ett företag kontinuerligt tester på sin produkt. Under en månad togs åtta prover där bland annat viskositeten vid 60 C uppmättes med följande resultat. Anta de observationerna är oberoende av varandra och dragen från en gemensam normalfördelning. 27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s) (a) Från tidigare erfarenheter vet man att standardavvikelsen σσ = PPPP ss. Skatta väntevärdet genom att beräkna ett 98%-igt tvåsidigt konfidensintervall. (2p) Givet är standardavvikelse, konfidensgrad och stickprovsstorlek, σσ = αα = 1 98 100 = 0,02 nn = 8 Sökt är konfidensintervall för väntevärdet, μμ = xx ± zz αα/2 σσ/ nn Beräkna stickprovsmedelvärdet, xx = 27,5 + 27,6 + 24,8 + 29,2 + 27,7 + 26,6 + 26,2 + 28,0 = 27,2 Finn zz αα/2 från formelsamlingen, zz αα/2 = zz 0,01 Φ zz 0,01 = 1 0,01 = 0,99 zz 0,01 = 2, Alltså ges ett 98%-igt tvåsidigt konfidensintervall för väntevärdet av, μμ = xx ± zz αα 2 σσ nn = 27,2 ± 2, = 27,2 ± 2,47 = [24,7, 29,7] 8 (b) Det är önskvärt att det 98%-iga konfidensintervallets längd alltså differensen mellan intervallets övre och undre gränsen skall vara som störst 2 Pa s. Hur stort prov hade minst behövt vara för att uppnå detta krav på intervallängden? (2p) Givet är längden på konfidensintervallet, xx + zz αα 2 σσ nn xx zz αα 2 σσ nn = 2 zz αα 2 σσ nn = 2 Sökt är stickprovsstorlek, 2 zz αα 2 σσ nn = 2 nn = zz αα/2 σσ 2
Stickprovstorleken hade behövt vara, nn = zz αα /2 σσ 2 = (2, ) 2 = 48,9 Alltså minst n=49 för att uppnå detta krav på konfidensintervallets längd. (c) Anta att standardavvikelsen för fördelningen är okänd. Skatta standardavvikelsen från datan ovan och beräkna ett nytt 98%-igt tvåsidigt konfidensintervall. (2p) Givet är samma som ovan. Sökt är konfidensintervall för väntevärdet, μμ = xx ± tt nn 1,αα 2, ss/ nn Skatta standardavvikelsen med hjälp av stickprovsstandardavvikelsen S, σσ 2 = SS 2 = 1 nn (XX 2 ) nn 1 ii=1 nnxx 2 = 1 ii [(27,52 + &27,6 2 + + 28,0 2 ) 8 27,2 2 ] = 8 1 (590,98 5918,72) = 1,75 = 1 7 σσ = SS = SS 2 = 1,75 = 1,2 Finn tt nn 1,αα/2 från formelsamlingen, tt nn 1,αα/2 = tt 7,0.01 = 2,998 Alltså ges ett 98%-igt tvåsidigt konfidensintervall för väntevärdet, då variansen är okänd, av, μμ = xx ± tt nn 1,αα 2, ss/ nn = 27,2 ± 2,998 1,2 = 27,2 ± 1,40 = [25,8, 28,6] 8 2. Fjällnejlika klarar av att växa i jordar med ovanligt hög kopparhalt, vilket gör att den kan indikera förekomst av kopparmalm. Anta att för en särskild region är sannolikheten att en slumpmässig vald jord har högt kopparinnehåll 0 %. Sannolikheten att det växer fjällnejlika i en slumpmässigt vald jord är 2 %. Givet att en jord har högt kopparinnehåll är sannolikheten att blomman växer där 70 %. (a) Vad är sannolikheten att en jord både har hög kopparhalt och fjällnejlika växandes där? (p) Givet är följande sannolikheter, Cu: En slumpmässigt vald jord har högt kopparinnehåll F: En slumpmässigt vald jord har fjällnejlika växandes PP[CCCC] = 0,0 PP[FF] = 0,2 PP[FF CCCC] = 0,70 Sökt är, PP[CCCC FF]
Använda definitionen av betingad sannolikhet, PP[FF CCCC] = PP[FF CCCC] PP[FF CCCC] = PP[CCCC FF] = PP[FF CCCC]PP[CCCC] = 0,70 0,0 = 0,21 PP[CCCC] (b) Vad är sannolikheten att kopparinnehållet är högt i en jord, givet att fjällnejlika växer där? (2p) Sökt, PP[CCCC FF] Använd Bayes sats, PP[CCCC FF] = PP[FF CCCC]PP[CCCC] PP[FF] = 0,70 0,0 0,2 = 0,91 (c) Är händelserna att en jord har hög kopparhalten och att fjällnejlika växer i jorden oberoende av varandra? Är de disjunkta? Motivera! (1p) Nej, händelserna Cu och F är inte oberoende av varandra eftersom, PP[FF CCCC] = 0,70 PP[FF] = 0,2 Alternativt, PP[FF CCCC] = 0,21 PP[FF]PP[CCCC] = 0,2 0,0 = 0,069 Händelserna är inte heller disjunkta eftersom, PP[FF CCCC] = 0,21 0. En student skriver ett prov med totalt 15 frågor med tre svarsalternativ för varje fråga. För att klara provet behövs 12 korrekta svar. Anta att studentens svar på frågorna är oberoende av varandra. (a) Låt XX beteckna antalet poäng studenten får om hen slumpmässigt väljer svar på provet. Vilken fördelning följer XX och med vilken/a parameter/ar? (1p) I) Provet består av ett fixt antal försök, nn = 15, frågor. Varje fråga kan antingen besvaras korrekt eller inkorrekt. II) Eftersom studenten bara chansar är försöken identiska och sannolikheten för korrekt svar är samma för varje fråga, pp = 1/. Givet är även att resultaten för frågorna är oberoende av varandra. III) XX betecknar antalet korrekta svar för de nn frågorna. Alltså är XX~BBBBBBBBBBBBBBBB 15, 1
(b) Hur stor är sannolikheten att studenten klara provet? (2p) För att studenten skall klara provet behövs minst 12 korrekta svar. Sökt är, PP[XX 12] = PP[XX = 12] + PP[XX = 1] + PP[XX = 14] + PP[XX = 15] Sannolikhetsfunktionen för binomialfördelade slumpvariabler ges av, PP[XX = kk] = nn kk ppkk (1 pp) nn kk PP[XX = 12] = 15 12 1 12 1 1 15 12 = 455 1 12 2 = 2,54 10 4 PP[XX = 1] = 15 1 1 1 1 1 15 1 = 105 1 1 22 = 2,9 10 5 PP[XX = 14] = 15 14 1 14 1 1 15 14 = 15 1 14 2 = 2,09 10 6 PP[XX = 15] = 15 15 1 15 1 1 15 15 = 1 1 15 1 = 6,97 10 8 Sannolikheten att studenten klarar provet är alltså, PP[XX 12] = 2,54 10 4 + 2,9 10 5 + 2,09 10 6 + 6,97 10 8 = 2,85 10 4 4. Brottgränsen för en metallnit har ett väntevärde μμ = 69 10 6 Pa och en standardavvikelse σσ = 10 6. I ett försök mäts brottgränsen för ett stickprov med 40 metallnitar. (a) Vilken approximativ fördelning följer stickprovsmedelvärdet XX och med vilken/a parameter/ar? (2p) Givet i uppgiften väntevärde, standardavvikelse, och att vi har ett stort stickprov av oberoende observationer dragna från en gemensam fördelning. μμ XX = 69 10 6 σσ XX = 10 6 nn = 40 > 0 Stort stickprov Centrala gränsvärdesatsen säger då att stickprovsmedelvärdet, XX, följer en approximativ normalfördelning, med samma väntevärde som fördelningen som stickprovet är draget ifrån, och med standardavvikelse genom roten ur stickprovsstorleken, μμ XX = μμ XX = 69 10 6 σσ XX = σσ XX nn = 10 6 40 = 0,47 10 6, XX ~NNNNNNNNNNNN(69 10 6, 0,47 10 6 ) (b) Beräkna sannolikheten för att stickprovsmedelvärdet XX är mellan 68 10 6 Pa och 70 10 6 Pa. (p) Från a)-uppgiften vet vi att XX ~NNNNNNNNNNNN(69 10 6, 0,47 10 6 ). Sökt är, PP[68 10 6 XX 70 10 6 ]
Skala om till standardnormalfördelade ZZ, PP[68 10 6 XX 70 10 6 ] = PP 68 106 μμ XX σσ XX XX μμ XX σσ XX 70 106 μμ XX = σσ XX = PP 68 106 69 10 6 0,47 10 6 ZZ 70 106 69 10 6 0,47 10 6 = PP[ 2,11 ZZ 2,11] = = PP[ZZ 2,11] PP[ZZ 2,11] = Φ(2,11) Φ( 2,11) Finn Φ(2,11) och Φ( 2,11) från formelsamlingen, Φ( 2,11) = 0,0174 Φ( 2,11) = 0,9826 Alltså ges sökt sannolikhet av, PP[68 10 6 XX 70 10 6 ] = 0,9826 0,0174 = 0,9652 5. Antalet utsläpp av detekterbara nivåer av radioaktiv gas från ett kärnkraftverk antas vara Poisson-fördelat med väntevärde 2 utsläpp/månad. (a) Låt TT beteckna tiden mellan två utsläpp. Beräkna sannolikheten att det hinner gå mer än månader mellan två utsläpp. (p) Givet är, XX: Antalet radioaktiva gasutsläpp från ett kärnkraftverk XX~PPPPPPPPPPPPPP(λλ) EE[XX] = λλ = 2 TT: Tiden mellan två gasutsläpp Sökt är, PP[TT > ] Tiden mellan händelser i en Poisson-process är exponential-fördelad med samma parameter som Poisson-fördelningen, TT~EEEEEE(λλ) Fördelningsfunktionen för exponential-fördelade slumpvariabler ges av, FF(tt) = PP[TT tt] = 1 ee λλλλ = 1 ee 2tt Sannolikheten för att det går med än månader mellan två utsläpp ges då av, PP[TT > ] = 1 PP[TT ] = 1 FF() = 1 (1 ee 2 ) = ee 6 = 0,0025 (Alternativt kan man använda frekvensfunktionen för exponentialfördelningen, ff(tt) = λλee λλλλ = 2ee 2tt PP[TT > ] = ff(tt)dddd = 2ee 2tt dddd = [ ee 2tt ] tt= = 0 + ee 2 = ee 6 = 0,0025
(b) Väntevärdet för utsläpp från ett annat kärnkraftverk är 6 utsläpp/månad. Beräkna variansen för det totala antalet utsläpp från de två kärnkraftverken under en månad. Anta att utsläppen från de två kärnkraftverken sker oberoende av varandra. (2p) Givet är att XX och YY är oberoende samt att, YY~PPPPPPPPPPPPPP(λλ YY ) EE[YY] = λλ YY = 6 Sökt är variansen av de totala utsläppen, VVVVVV(XX + YY) För oberoende slumpvariabler ges variansen av en summa av summan av de individuella varianserna, VVVVVV(XX + YY) = VVVVVV(XX) + VVVVVV(YY) Variansen av Poisson-fördelade slumpvariabler ges av parametern λλ, VVVVVV(XX) = λλ XX = 2 VVVVVV(YY) = λλ YY = 6 VVVVVV(XX + YY) = λλ XX + λλ YY = 2 + 6 = 8 6. Vatten undersöktes för kontamination av bakterier genom att en droppe vatten studerades under mikroskop. Antalet bakterieceller i varje droppe noterades för totalt 400 droppar med nedanstående resultat. Resultaten för varje droppe antogs vara oberoende av varandra och följa en Poisson-fördelning med parametern λλ. Antal bakterier Antal droppar 0 56 1 104 2 80 62 4 42 5 27 6 9 7 9 8 5 9 10 2 19 1 (a) Skatta parametern λλ baserat på mätningarna ovan. Är skattningen väntevärdesriktig? Motivera! (1p) För Poisson-fördelade slumpvariabler ges väntevärdet av parametern λλ. Väntevärdet kan skattas med hjälp av stickprovsmedelvärdet,
λλ = xx = 1 nn xx nn ii=1 ii = 1 (0 56 + 1 104 + 2 80 + 62 + 4 42 + 5 27 + 6 9 + 400 +7 9 + 8 5 + 9 + 10 2 + 19 1) = 2,44 För väntevärdesriktiga skattningar gäller att, EE θθ = θθ EE λλ = EE[xx ] = EE 1 nn xx nn ii=1 ii = 1 nn EE[xx nn ii=1 ii ] = 1 nn λλ nn ii=1 = 1 nn nnnn = λλ Alltså är ovanstående skattning av parametern λλ väntevärdesriktig. (b) Använd skattningen av λλ och utför ett χ 2 -test för att undersöka om stickprovet ovan rimligtvis var draget från denna fördelning, alltså PPPPPPPPPPPPPP(λλ). Slå samman proven med 5 bakterier till en grupp. Signifikansnivån ska vara αα = 0.05. (4p) Sätt upp nollhypotes för fördelningen som skall testas, HH 0 : XX~PPPPPPPPPPPPPP(2,44) HH 1 : XX är inte Poisson-fördelad med λλ = 2,44 Sätt upp χχ 2 -tabell över observerade värden för XX, och förväntade värden givet att HH 0 är sann. Stickprovsstorleken är NN = 400. ii OO ii EE ii (beräkning av sannolikheterna, se nedan) XX = 0 56 NN PP[XX = 0] = 400 0,087 = 4,9 XX = 1 104 NN PP[XX = 1] = 400 0,21 = 85,1 XX = 2 80 NN PP[XX = 2] = 400 0,259 = 10,8 XX = 62 NN PP[XX = ] = 400 0,211 = 84,4 XX = 4 42 NN PP[XX = 4] = 400 0,129 = 51,5 XX 5 27+9+9+5++2+1=56 NN PP[XX 5] = 400 0,101 = 40,4 Summa 400 400 För en Poisson-fördelad slumpvariabel med parameter λλ = 2,44 ges sannolikhetsfunktionen av, PP[XX = xx] = λλxx ee λλ xx! = 2,44xx ee 2,44 xx! PP[XX = 0] = 2,440 ee 2,44 = 0,087 0! PP[XX = 1] = 2,441 ee 2,44 = 0,21 1! PP[XX = 2] = 2,442 ee 2,44 = 0,259 2! PP[XX = ] = 2,44 ee 2,44 = 0,211! PP[XX = 4] = 2,444 ee 2,44 = 0,129 4! PP[XX 5] = 1 PP[XX 5] = 1 (PP[XX = 0] + PP[XX = 1] + PP[XX = 4]) = 0,101 Ingen av de förväntade värdena är EE ii < 5, alltså behöver inga kategorier slås samman. Antalet kategorier är därmed kk = 6.
ii OO ii EE ii (OO ii EE ii ) 2 /EE ii XX = 0 56 4,9 (56 4,9) 2 4,9 = 12,8 XX = 1 104 85,1 (104 85,1) 2 85,1 = 4,2 XX = 2 80 10,8 (80 10,8) 2 10,8 = 5,5 XX = 62 84,4 (62 84,4) 2 84,4 = 6,0 XX = 4 42 51,5 (42 51,5) 2 51,5 = 1,7 XX 5 56 40,4 (56 40,4) 2 40,4 = 6,0 Summa 400 400 6,2 Det beräknade värdet på summan χχ 2 0 = ii=1 (OO ii EE ii ) 2 /EE ii = 6,2 kk 2 Signifikansnivån är enligt uppgiften αα = 0.05. Kritiskt värde för χχ 0 fås från χχ 2 -tabellen 2 där Area to the Right of the Critical Value of χχ 0 är αα = 0.05 och antalet frihetsgrader är dddd = kk 1 1 = 6 2 = 4 eftersom vi skattat en parameter, 2 χχ 0.05,4 = 9,488 Eftersom det beräknade värdet är större än det kritiska värdet, χχ 2 2 0 > χχ 0.05,4, förkastas nollhypotesen och vi kan dra slutsatsen av att X inte är Poisson-fördelat med parameter 2,44. LYCKA TILL!