TENTAMEN: Statistik och sannolikhetslära (LMA10) Tid och plats: 08:30-1:30 den augusti 016, SB Hjälpmedel: Typgodkänd miniräknare, formelblad Betygsgränser: 3: 1 poäng, 4: 18 poäng, 5: 4 poäng. Maximalt antal poäng: 30 poäng Telefonvakt: Anna Johnning 1. Ett företag har två stora projekt: ett i Sverige och ett i Danmark. Låt SS och DD beteckna händelserna att Sverige- respektive Danmarksprojektet håller sig inom budget. Anta att händelserna SS och DD är oberoende av varandra, och att PP(SS) = 0.4 samt PP(DD) = 0.7. (a) Anta att Danmarksprojektet inte lyckas hålla budgeten. Vad är då sannolikheten att Sverigeprojektet inte heller lyckas hålla budgeten? Motivera! Sökt är sannolikheten för att Sverigeprojektet inte håller budget, SS CC, givet att Danmarksprojektet inte höll budget, DD CC, PP(SS CC DD CC ) Eftersom händelserna SS och DD är oberoende av varandra så påverkas inte sannolikheten för att SS inträffar av huruvida DD inträffat eller inte. Alltså är sannolikheten för att Sverigeprojektet inte håller budgeten, PP(SS CC DD CC ) = PP(SS CC ) = 1 PP(SS) = 1 0.4 = 0.6 (b) Vad är sannolikheten att minst ett av projekten lyckas hålla budgeten? Givet i uppgiften är följande: PP(SS) = 0.4 PP(DD) = 0.7 Sökt är sannolikheten att minst ett projekt lyckas, alltså PP(SS eeeeeeeeee DD) = PP(SS DD) PP(SS DD) = PP(SS) + PP(DD) PP(SS DD) Eftersom händelserna SS och DD är oberoende av varandra, kan vi beräkna sannolikheten för att båda inträffar enligt, PP(SS ooooh DD) = PP(SS DD) = PP(SS)PP(DD) PP(SS DD) = PP(SS) + PP(DD) PP(SS)PP(DD) = 0.4 + 0.7 0.4 0.7 = 0.8 (c) Givet att minst ett av de två projekten håller budgeten, vad är då sannolikheten att endast Sverigeprojektet håller budgeten? Sökt är sannolikheten att SS men inte DD inträffar, givet att SS DD inträffat, PP(SS DD CC SS DD)
Venn-diagramet nedan illustrerar problemet. Givet att minst ett av projekten lyckades hålla budget (lila), vad är sannolikheten att det endast var Sverigeprojektet som lyckades (grönt)? S DD S DD PP(SS DD CC SS DD) = PP SS DDCC (SS DD) = PP(SS) PP(SS)PP(DD) = PP SS DDCC = 0.4 0.4 0.7 0.8 = PP(SS) PP(SS DD) = 0.146 = (d) Är SS och DD disjunkta? Motivera! (1p) Om de två händelserna hade varit disjunkta betyder det att båda inte kan inträffa, SS DD = (tomma mängden) PP(SS DD) = PP(SS ooooh DD) = 0 Sannolikheten för att någon av händelserna inträffar hade då kunnat beräknas enligt, PP(SS DD) = PP(SS) + PP(DD) = 0.4 + 0.7 = 1.1 > 1 Eftersom summan av sannolikheterna för de individuella händelserna är större än 1 kan alltså händelserna i detta fall inte vara. I uppgift a) har vi dessutom konstaterat att PP(SS DD) = 0.8 1.1. För att testa om starttiden, TT, för förlossningar är kontinuerligt och uniformt fördelade över dygnets delar, noterades vid ett sjukhus under ett halvår starttid för födslar från slumpmässigt valda mödrar. Totalt genomfördes 1186 förlossningar under denna period. Dygnets 4 timmar delades in i fyra delar: natt (kl 00-06), förmiddag (kl 06-1), eftermiddag (kl 1-18), och kväll (kl 18-00). Använd resultatet nedan för att testa om tiden för förlossningsstart, TT, rimligtvis är uniformt fördelad över dygnet, alltså TT~UUUUUUUUUUUUUU(0, 4). Signifikansnivån skall vara αα = 0.05. (4p) Starttid, TT Antal födslar 00 TT < 06 417 06 TT < 1 87 1 TT < 18 184 18 TT < 4 98 Sätt upp nollhypotes för fördelningen som skall testas, HH 0 : TT~UUUUUUUUUUUUUU(0, 4) HH 1 : TT är inte uniformt fördelad på intervallet (0, 4)
Sätt upp χχ -tabell över observerade värden för TT, och förväntade värden givet att HH 0 är sann. Stickprovsstorleken är NN = 417 + 87 + 184 + 98 = 1186. ii OO ii EE ii (beräkning av sannolikheterna, se nedan) 00 TT < 06 417 NN PP[00 TT < 06] = 1186 0.5 = 96.5 06 TT < 1 87 NN PP[06 TT < 1] = 1186 0.5 = 96.5 1 TT < 18 184 NN PP[1 TT < 18] = 1186 0.5 = 96.5 18 TT < 4 98 NN PP[18 TT < 4] = 1186 0.5 = 96.5 Summa 1186 1186 För en kontinuerlig slumpvariabel som är uniformt fördelad över intervallet (x, y) ges sannolikheten att hamna i intervallet (a, b) av integralen av frekvensfunktionen, bb bb PP[aa TT bb] = ff(tt)dddd = 1 dddd = 1 aa aa bb dddd = 1 [tt] bb yy xx yy xx aa yy xx tt=aa = bb aa yy xx PP[00 TT < 06] = 6 0 4 0 PP[06 TT < 1] = 1 6 4 0 PP[1 TT < 18] = 18 1 4 0 PP[18 TT < 4] = 4 18 4 0 Ingen av de förväntade värdena är EE ii < 5, alltså behöver inga kategorier slås samman. Antalet kategorier är därmed kk = 4. ii OO ii EE ii (OO ii EE ii ) /EE ii 00 TT < 06 417 96.5 (417 96.5) 96.5 = 48.9 06 TT < 1 87 96.5 (87 96.5) 96.5 = 0.304 1 TT < 18 184 96.5 (184 96.5) 96.5 = 4.6 18 TT < 4 98 96.5 (98 96.5) 96.5 = 0.00758 Summa 1186 1186 91.9 Det beräknade värdet på summan χχ 0 = ii=1 (OO ii EE ii ) /EE ii = 91.8 kk Signifikansnivån är enligt uppgiften αα = 0.05. Kritiskt värde för χχ 0 fås från χχ -tabellen där Area to the Right of the Critical Value of χχ 0 är αα = 0.10 och antalet frihetsgrader är dddd = kk 1 = 4 1 = 3, χχ 0.05,3 = 7.815 Eftersom det beräknade värdet är större än det kritiska värdet, χχ 0 > χχ 0.05,3, förkastas nollhypotesen och vi kan dra slutsatsen av att X inte är uniformt fördelat över intervallet (0, 4).
3. Under lunchrusningen kl 1:00-1:30 anländer XX gäster till Café&Le medan YY gäster kommer till Lilli&Sushi. Både XX och YY är Poisson-fördelade med väntevärden μμ XX = 6 respektive μμ YY = 3 gäster/minut. Hur många fler lunchbesökare förväntas ha anlänt till Café&Le jämfört med Lili&Sushi kl 1:18, alltså vad är den förväntade differensen i antalet gäster mellan de två restaurangerna detta klockslag? Givet i uppgiften är väntevärdena, och därmed fördelningsparametrarna, för XX och YY, μμ XX = λλ XX = 6 gäster/minut μμ YY = λλ YY = 3 gäster/minut Låt AA beteckna antalet gäster som anlänt till Café&Le kl 1:18, och BB antalet gäster som anlänt till Lilli&Sushi samma tidpunkt. Sökt är väntevärdet för differensen mellan dessa, EE[AA BB] = EE[AA] EE[BB] För att finna parametrarna för AA och BB behöver vi skala om parametrarna för XX och YY, λλ AA = λλ XX 18 = 6 18 = 108 gäster/18 minuter λλ BB = λλ YY 18 = 3 18 = 54 gäster/18 minuter Den förväntade skillnaden i antal gäster kl 1:18 är alltså, EE[AA BB] = EE[AA] EE[BB] = λλ AA λλ BB = 108 54 = 54 4. Antag att avstånden mellan bilar på en landsväg (i ena riktningen) är oberoende och exponential-fördelade med väntevärde 80 meter. (a) Tänk dig att du befinner dig i en bil på denna väg. Vilken approximativ fördelning har avståndet till den femtionde bilen framför dig? Vilken/vilka parametrar har denna fördelning? Motivera! Låt XX beteckna avståndet mellan två bilar på landsvägen. Givet i uppgiften är att avstånden är oberoende samt att, XX~EEEEEE(λλ) EE[XX] = 80 mm Låt YY beteckna avståndet mellan dig och den femtionde bilen framför dig, 50 YY = ii=1 XX ii Eftersom avstånden mellan bilarna är oberoende av varandra och nn = 50 är stort kan vi använda centrala gränsvärdessatsen som säger att YY är approximativt normalfördelad med, YY~NNNNNNNNNNNN(μμ YY, ) μμ YY = nnμμ XX = nnσσ XX
För exponentialfördelade slumpvariabler, som XX, ges väntevärde och varians av, EE[XX] = μμ XX = 1 = 80 mm λλ VVVVVV(XX) = σσ XX = 1 = μμ λλ XX = 80 = 6400 Alltså kommer avståndet till den femtionde bilen framför dig approximativt ha följande väntevärde och standardavvikelse, μμ YY = nnμμ XX = 50 80 = 4000 mm = nnσσ XX = 50 6400 = 565.7 Avståndet fram till den femtionde bilen kommer därmed ha följande approximativa fördelning, YY~NNNNNNNNNNNN(4000, 565.7) (b) Vad är sannolikheten att avståndet till den femtionde bilen är mellan 4 km och 4. km? Sökt är sannolikheten att YY~NNNNNNNNNNNN(4000, 565.7) är mellan 4000 och 400 m, PP[4000 YY 400] Använd väntevärde och varians för YY för att normera, PP[4000 YY 400] = PP 4000 μμ YY = PP 4000 4000 565.7 = PP[0 ZZ 0.35] YY μμ YY YY μμ YY 400 μμ YY = 400 4000 = 565.7 ZZ är standardnormalfördelad med väntevärde 0 och standardavvikelse 1, ZZ = YY μμ YY ZZ~NNNNNNNNNNNN(0, 1) Använd fördelningsfunktionen samt tabellsamlingen för att få fram sökt sannolikhet, PP[4000 YY 400] = PP[0 ZZ 0.35] = PP[ZZ 0.35] PP[ZZ 0] = = Φ(0.3536) Φ(0) = 0.6368 0.5 = 0.1368 5. För att testa nötningsmotsåndet hos en asfaltstyp utförs ett slitagetest på 8 provkroppar. Den totala volymen bortslitet material uppmättes och följande resultat erhölls (cm 3 ). 17. 19.4 17.7 17.7 18.1 0.9 16.4 16.0 Anta att observationerna är oberoende och dragna från en normalfördelning. (a) Punktskatta väntevärdet μμ för volymen bortslitet material. Ett (väntevärdesriktigt) sätt att punktskatta väntevärdet μμ är att beräkna stickprovsmedelvärdet, μμ = xx = 1 nn (17. + 19.4 + 17.7 + 17.7 + 18.1 + 0.9 + 16.4 + 16.0) = 17.9 nn ii=1 xx ii = 1 8
(b) Bestäm ett 95% tvåsidigt konfidensintervall för väntevärdet. Ett 100(1 αα) %-igt konfidensintervall för väntadevärdet av X, när standardavvikelsen är okänd ges av, XX ± tt dddd,αα/ ss nn Stickprovsstandardavvikelsen ss beräknas, ss = 1 nn (xx nn 1 ii=1 ii xx ) = 1 nn xx nn 1 ii=1 ii nnxx = = 1 8 1 (17. + 19.4 + 17.7 + 17.7 + 18.1 + 0.9 + 16.4 + 16.0 ) 8 17.9 = = 1 (588.16 570.445 = 1.59 7 Stickprovsstorleken n=8, så vi har df=8-1=7 frihetsgrader. Signifikansgraden ges av, 100(1 αα) = 95 αα = 1 95 100 = 0.05 Med hjälp av tabellsamling finner vi, tt dddd,αα/ = tt 7,0.05 =.365 Vi får därmed följande tvåsidiga 95% konfidensintervall för μμ, 17.9.365 1.59 8, 17.9 +.365 1.59 8 = [16.6, 19.3] 6. När en leverans av pennor anländer till en försäljare väljs 10 slumpmässigt ut för att testas. Testet utförs så att varje testad penna läggs tillbaka innan nästa penna slumpvis väljs ut så att proportionen defekta pennor alltid är samma. För att en leverans skall accepteras får som mest en av de testade pennorna vara defekt. Om mer än en penna är defekt sänds hela leveransen tillbaka till leverantören. (a) Vad är sannolikheten att en leverans accepteras om % av pennorna i en leverans är defekta? Givet i uppgiften är följande, Ett fixt antal upprepade försök, nn = 10 pennor väljs slumpmässigt. Varje penna kan klassas som antingen defekt eller inte defekt. Återläggningen av varje penna innan nästa väljs gör att försöken är identiska och oberoende. Om % av pennorna är defekta i en leverans är sannolikheten att en slumpmässigt vald penna är defekt samma genom hela testet, pp = 0.0. Låt XX beteckna antalet av de testade pennorna som var defekta, XX~BBBBBBBBBBBBBBBB(10, 0.0)
Sökt är sannolikheten att en leverans accepteras, PP[XX 1] = PP[XX = 0] + PP[XX = 1] Sannolikhetsfunktionen för binomialfördelade slumpvariaber ges av, PP[XX = kk] = nn kk ppkk (1 pp) nn kk = 10 kk 0.0kk 0.98 10 kk PP[XX 1] = 10 0 0.00 0.98 10 + 10 1 0.01 0.98 9 = = 1 1 0.98 10 + 10 0.0 0.98 9 = 0.984 (b) Låt XX beteckna antalet av de testade pennorna som var defekta. Om VVVVVV(XX) = 0.475, hur stor andel av hela leveransen är då defekt? Givet i uppgiften är att, VVVVVV(XX) = 0.475 Vi har redan konstaterat att, XX~BBBBBBBBBBBBBBBB(10, 0.0) För en binomialfördelad slupvariabel ges variansen av, VVVVVV(XX) = nnnn(1 pp) = 0.475 Antalet pennor som väljs är fortfarande nn = 10. Sökt är andelen defekta pennor, vilket är det samma som sannolikheten att dra en defekt penna slumpmässigt, alltså pp. 10pp(1 pp) = 0.475 pp pp = 0.475 10 pp = 1 ± 1 0.0475 = 0.5 ± 0.45 4 Alltså är antingen 5% eller 95% av pennorna defekta.