Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 8:E JANUARI 2018 KL 14.00 19.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook Beta), miniräknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22 23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Poäng från kontrollskrivning och laborationer under innevarande kursomgång period 2, HT2017) får tillgodoräknas under förutsättning att tentanden erhållit minst 20 poäng på denna tentamen. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift 1 På en viss arbetsplats används drogtester för arbetssökande. Antag att det använda drogtestet visar positivt med 98 procents sannolikhet för en droganvändare, men att drogtestet med 1 procents sannolikhet visar positivt även för en person som inte använder droger. Att testet visar positivt betyder att testet indikerar att personen använder droger. Om 10% av alla som söker arbete på arbetsplatsen använder droger, vad är då sannolikheten att en arbetssökande som testat positivt inte använder droger? 10 p) Uppgift 2 Golftermen hole-in-one innebär att bollen går i hålet på första slaget från utslagsplatsen. Holein-one är mycket sällsynt och inträffar i regel endast på s.k. par 3-hål, för vilka avståndet mellan utslagsplatsen och hålet är kort. Enligt Deutsche Golf Verband är sannolikheten att slå en hole-inone på ett par 3-hål 1/10150. Med en fyrboll menas en grupp på fyra spelare som går en golfrunda tillsammans. Under ett träningsläger för svenska seniorlandslaget i golf inträffade nyligen den mycket sällsynta händelsen att två spelare, som spelade i samma fyrboll, lyckades med att slå hole-in-one på samma par 3-hål! Låt X beteckna antalet par 3-hål en given fyrboll behöver spela innan minst två spelare i gruppen lyckas med att slå hole-in-one på samma par 3-hål. Bestäm EX). Spelare antas slå hole-in-one oberoende av varandra. 10 p) Var god vänd!
forts tentamen i SF1901 2018-01-08 2 Uppgift 3 Antalet uppdrag X 1, X 2 respektive X 3, som tre kunder ger ett dataföretag under en månad är oberoende stokastiska variabler, där X 1 Poµ 1 ), X 2 Poµ 2 ) och X 3 Poµ 3 ). a) Antag nu att µ 1 = 24, µ 2 = 9 och µ 3 = 12. Bestäm en approximation av sannolikheten att den första kunden ger fler uppdrag än de två sista kunderna tillsammans. Alla approximationer som utnyttjas skall naturligtvis motiveras. 5 p) b) Antag nu att µ 1, µ 2 och µ 3 är okända. Bestäm, baserat på observationerna x 1 = 25, x 2 = 10 och x 3 = 12, ett konfidensintervall för µ 1 µ 2 + µ 3 ) med approximativ konfidensgrad 95%. 5 p) Uppgift 4 I samband med en trafikomläggning ville man undersöka förändringen i restid till arbetet. Man bad därför 12 personer registrera sina restider, mätta i minuter, dels en viss dag före omläggningen, dels en viss dag efter omläggningen. Resultatet blev: Person nr 1 2 3 4 5 6 7 8 9 10 11 12 Före 20 25 26 22 24 48 52 27 18 12 28 31 Efter 18 23 26 18 26 44 51 26 22 11 29 31 Antag att observationerna är oberoende och antag att tidsskillnaderna beskrivs av samma normalfördelning för alla personer. a) Bestäm ett 95% konfidensintervall för den genomsnittliga tidsvinsten. 7 p) b) Vägverket hade som prognos att omläggningen skulle minska den genomsnittliga restiden med 3 minuter. Utför därför ett statistiskt test på nivån 5% av hypotesen mot H 0 : = 3 min, H 1 : 3 min. Det skall klart framgå om hypotesen H 0 förkastas eller ej. 3 p) Uppgift 5 En aktiemäklare har tillgång till historisk data i form av 623 logaritmiska) veckoavkastningar för en viss aktie och vill undersöka fördelningen hos dessa. Mer specifikt är aktiemäklaren intresserad av att veta om avkastningarna är N0, σ)-fördelade, där σ är okänd, och klassificerar därför de historiska avkastningarna med avseende på vilket intervall de faller inom. Följande följande tabell erhålls: Intervall, 2] 2, 0] 0, 2] 2, ) Antal 56 260 269 38
forts tentamen i SF1901 2018-01-08 3 Med andra ord så är 56 avkastningar mindre än 2, 260 avkastningar faller inom intervallet 2, 0], osv. Dessutom skattas standardavvikelsen för avkastningarna till s = 1.50. Testa, på nivån 5%, hypotesen att avkastningarna, vilka kan antas vara oberoende, är normalfördelade. 10 p) Uppgift 6 Antag att arean av en cirkel ges av en Exp1/θ)-fördelad stokastisk variabel X. Täthetsfunktionen för X är således f X t) = 1 θ e t/θ, t 0 där θ > 0 är väntevärdet, θ = EX). För att skatta arean θ görs upprepade bestämningar av cirkelns radie y 1,..., y n. Dessa modelleras som utfall av oberoende och likafördelade stokastiska variabler. Förhållandet mellan area och radie är X = πy 2. a) Visa att täthetsfunktionen för Y är f Y t) = 2πt θ e πt2 /θ, t 0. 4 p) b) Tag, baserat på observationerna y 1,..., y n, fram ett uttryck för ML-skattningen av θ. Beräkna även denna numeriskt då y 1 = 0.20, y 2 = 0.25 och y 3 = 0.18 cm. 4 p) c) Är ML-skattningen av θ väntevärdesriktig? 2 p) Lycka till!
Avd. Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK. MÅNDAGEN DEN 8 JANUARI 2018 KL 14.00 19.00 Uppgift 1 Låt D beteckna händelsen att en arbetssökande använder droger och T händelsen att testet visar positivt dvs. indikerar att personen använder droger). Det är givet att P D) = 0.1, att P T D) = 0.98 samt att P T D ) = 0.01. Vi söker sannolikheten att en arbetssökande inte använder droger givet att hen har testat positivt, dvs. P D T ). Med Bayes sats fås P D T ) = P T D )P D ) P T ) P T D )P D ) = P T D)P D) + P T D )P D ) 0.01 0.9 = 0.98 0.1 + 0.01 0.9 = 0.0841 Svar: Sannolikheten att en arbetssökande som testar positivt inte använder droger är 8.41%. Uppgift 2 Låt p = 1/10150 beteckna sannolikheten att en spelare lyckas slå hole-in-one. Då spelare antas slå hole-in-one oberoende av varandra är antalet spelare Y i en given fyrboll som består av fyra personer) som slår hole-in-one vid ett givet hål binomialfördelat; mer specifikt gäller att Y Bin4, p). Sålunda ges, med hjälp av binomialfördelningens sannolikhetsfunktion, sannolikheten p att minst två spelare i gruppen lyckas att slå hole-in-one av p = P Y 2) = 1 P Y 1) = 1 P Y = 0) P Y = 1) ) ) 4 4 = 1 p 0 1 p) 4 p 1 1 p) 3 = 1 1 p) 4 4p1 p) 3 0 1 = [sätt in p = 1/10150] 5.82 10 8. Låt nu X beteckna antalet par 3-hål en given fyrboll behöver spela innan minst två spelare i gruppen lyckas med att slå hole-in-one på samma par 3-hål. Då gäller att X ffg p), och sålunda, enligt avsnitt 3 i formelsamlingen, att EX) = 1 p = 1 5.82 10 8 1.72 107.
forts tentamen i SF1901 2018-01-08 2 Svar: Det förväntade antalet spelade hål är 1.72 10 7. a) Vi vill bestämma sannolikheten Uppgift 3 P X 1 > X 2 + X 3 ) = P X 1 X 2 + X 3 ) > 0). Eftersom summan av två oberoende Poissonfördelade s.v. är Poissonfördelad, så gäller det att X 2 + X 3 Po9 + 12) = Po21). Eftersom koefficienten 21 är större än 15, så gäller det approximativt att X 2 + X 3 N21, 21). På samma sätt är X 1 Po24) N24, 24). Eftersom linjärkombinationer av normalfördelade s.v. är normalfördelade, så gäller approximativt att X 1 X 2 + X 3 ) N24 21, 24 + 21) = N3, 45). Den sökta sannolikheten blir därmed approximativt X1 X 2 + X 3 ) 3 P X 1 > X 2 + X 3 ) = P > 0 3 45 ) 1 = Φ 5 = 0.673. 45 ) 1 Φ 3 ) 45 Svar: Sannolikheten att den första kunden ger fler uppdrag än de två sista kunderna tillsammans är approximativt 67.3%. b) En punktskattning för θ = µ 1 µ 2 + µ 3 ) ges av θ obs = x 1 x 2 + x 3 ) = 25 10 + 12) = 3. Den motsvarande stickprovsvariabeln, θ = X 1 X 2 +X 3 ), är approximativt normalfördelad eftersom µ 2 + µ 3 skattas med x 2 + x 3 = 22 > 15 och µ 1 skattas med x 1 = 25 > 15. Alltså är θ approximativt Nθ, µ 1 + µ 2 + µ 3 )-fördelad. Standardavvikelsen för stickprovsvariabeln beror av de okända parametrarna µ 1, µ 2 och µ 3 och kan skattas av medelfelet d = x1 + x 2 + x 3. Ett konfidensintervall för θ med approximativ konfidensgrad 95% ges av I θ = x 1 x 2 + x 3 ) λ 0.025 x1 + x 2 + x 3, x 1 x 2 + x 3 ) + λ 0.025 x1 + x 2 + x 3 ) = 3 1.96 47, 3 + 1.96 47) = 3 13.4, 3 + 13.4). Svar: Ett konfidensintervall för µ 1 µ 2 + µ 3 ) med approximativ konfidensgrad 95% ges av I µ1 µ 2 +µ 3 ) = 10.4, 16.4). Uppgift 4 a) Uppgiften handlar om jämförelse av väntevärden med stickprov i par. Person nr 1 2 3 4 5 6 7 8 9 10 11 12 Före 20 25 26 22 24 48 52 27 18 12 28 31 Efter 18 23 26 18 26 44 51 26 22 11 29 31 z i = Före Efter 2 2 0 4-2 4 1 1-4 1-1 0
forts tentamen i SF1901 2018-01-08 3 Vi betraktar z i, i = 1,..., 12, som utfall av oberoende N, σ)-fördelade stokastiska variabler. skattas med z = 8/12 = 0.67 som är ett utfall av en N, σ/ n)-fördelad stokastisk 1 variabel Z, där σ är okänt. Om vi skattar σ med medelfelet s z = n n 1 z i z) 2 = 2.31, så fås konfidensintervallet I = z t 0.025 n 1) s z, z t 0.025 n 1) s ) z = 0.67 2.20 2.31, 0.67 + 2.20 2.31 ) n n 12 12 = 0.67 1.47, 0.67 + 1.47) = 0.80, 2.13). Svar: Ett konfidensintervall för med konfidensgrad 95% ges av I = 0.80, 2.13). b) Eftersom = 3 inte ligger i det framtagna konfidensintervallet för, så förkastas nollhypotesen på signifikansnivån 5%. Svar: Nollhypotesen förkastas på signifikansnivån 5%. Uppgift 5 Vi använder oss av χ 2 -metoden för test av given fördelning se formelsamlingen, avsnitt 14.3). Enligt lydelsen klassificeras var och en av de n = 623 avkastningarna, vilka vi betecknar y 1,..., y 623, med avseende på indelningen A 1 : y, 2], A 2 : y 2, 0], A 3 : y 0, 2], A 4 : y 2, ). Vi har alltså att göra med r = 4 olika utfall i detta fall. Då vi vill testa huruvida avkastningarna är N0, σ)-normalfördelade räknar vi först ut sannolikheterna p 1,..., p 4 för de olika utfallen A 1,..., A 4 under antagandet att varje avkastning Y är N0, σ)-fördelad. Under detta antagande är Y/σ standardiserat normalfördelad, vilket ger Y p 1 = P A 1 ) = P Y 2) = P σ 2 ) = Φ 2 ), σ σ där Φ är standardnormalfördelningens fördelningsfunktion. Då dessutom N0, σ)-fördelningen är symmetrisk och kontinuerlig gäller det att p 4 = P A 4 ) = P Y > 2) = P Y < 2) = P Y 2) = p 1 = Φ 2 ). σ Vidare gäller p 2 = P A 2 ) = P 2 < Y 0) = P Y 0) P Y 2) = 1 2 p 1 = 1 2 Φ 2 ) σ och p 3 = p 2. Nollhypotesen att avkastningarna är N0, σ)-fördelade kan sålunda uttryckas som H 0 : p 1 = p 4 = Φ 2 ), p 2 = p 3 = 1 σ 2 Φ 2 ). σ
forts tentamen i SF1901 2018-01-08 4 Standardavvikelsen σ är okänd men enligt lydelsen skattad till σobs = s = 1.50, vilket ger oss approximationen p 1 p 1 s) = Φ 2 ) = Φ 2 ) ) 2 = 1 Φ 1 0.9082 = 0.0912, s 1.50 1.50 där värdet 0.9082 erhölls ur tabell Matlab ger p 1 s) = 0.0918). Vidare erhålls skattningarna p 2 s) = 0.5 p 1 s) = 0.5 0.0912 = 0.4088, p 3 s) = p 2 s) = 0.4088, p 4 s) = p 1 s) = 0.0912 av p 2, p 3 respektive p 4. Låt nu x j beteckna antalet avkastningar av de n = 623) som klassificeras som A j, j = 1,..., 4. Då np j s) 5 för alla j kan, under H 0, teststorheten Q obs = = 4 x j np j s)) 2 j=1 np j s) 56 623 0.0912)2 260 623 0.4088)2 + 623 0.0912 623 0.4088 269 623 0.4088)2 38 623 0.0912)2 + + 623 0.4088 623 0.0912 7.16 sägas vara en observation av en approximativt χ 2 -fördelad stokastisk variabel med r k 1 = 4 1 1 = 2 frihetsgrader, där k = 1 är antalet skattade parametrar i vårt fall σ). Då Q obs > χ 2 0.052) = 5.99, där värdet av kvantilen χ 2 0.052) erhölls ur tabell, kan H 0 förkastas på den approximativa) nivån 5%. Svar: Hypotesen att avkastningarna är N0, σ)-fördelade kan förkastas på nivån 5%. Uppgift 6 a) Fördelningsfunktionen för Y = X/π kan uttryckas F Y t) = P Y t) = P X/π t) = P X πt 2 ) = F X πt 2 ), så täthetsfunktionen för Y ges av för t 0, vilket skulle bevisas. f Y t) = d dt F Y t) = d dt F Xπt 2 ) = f X πt 2 )2πt = 2πt θ e πt2 /θ, b) ML-skattningen av θ är det värde som maximerar likelihoodfunktionen Lθ) = f Y1 y 1 ) f Yn y n ) = 2πy 1 θ e πy2 1 /θ 2πy n /θ θ e πy2 n = 2π)n y 1 y n ) θ n e π θ n y2 i.
forts tentamen i SF1901 2018-01-08 5 Det värde på θ som maximerar Lθ) maximerar även 2π) n y 1 y n ) lnlθ)) = ln e π n ) θ n θ y2 i = n ln2π) + lny 1 y n ) n lnθ) π θ yi 2. Derivering med avseende på θ ger 0 = d dθ lnlθ)) = n θ + π θ 2 y 2 i = n θ 2 [ θ π n yi 2 ], så likelihoodfunktionen maximeras av θ = π n n y2 i. För de tre observationerna y 1 = 0.20, y 2 = 0.25 och y 3 = 0.18 fås skattningen θ obs = π 3 0.202 + 0.25 2 + 0.18 2 ) = 0.14 cm 2. Svar: ML-skattningen ges av θ obs = π n yi 2 = 0.14 cm 2. c) Stickprovsvariabeln för ML-skattningen uppfyller θ = π n Y 2 i = 1 n X i = X där X 1,..., X n är exponentialfördelade s.v. med väntevärde θ. Alltså är E θ ) = EX) = EX i ) = θ och skattningen θobs är väntevärdesriktig. Svar: ML-skattningen av θ är väntevärdesriktig.