Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för SF95: Björn-Olof Skytt, 08-790 86 49. Examinator för SF9: Per-Jörgen Säve-Söderbergh, 08-790 65 85. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik (utdelas vid tentamen), miniräknare. Tentamen består av två delar, benämnda del I och del II. Del I består av uppgifterna -. På denna del skall endast svar anges, antingen i form av ett numeriskt värde med tre värdesiffrors noggrannhet eller i form av val av ett av de möjliga svarsalternativen. Studenter som är godkända på kontrollskrivningen behöver ej besvara uppgift -3, utan får tillgodoräkna sig dessa tre uppgifter. Gränsen för godkänt är preliminärt 9 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 8 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Del II består av uppgifterna 3-6 och varje korrekt lösning ger 0 poäng. Del II rättas bara för studenter som är godkända på del I och poäng på del II krävs för högre betyg än E. På denna del skall resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Införda beteckningar skall förklaras och definieras och numeriska svar skall anges med minst två värdesiffrors noggrannhet. Studenter som är godkända på datorlaborationen får 4 bonuspoäng på del II på ordinarie tentamenstillfället och det första omtentamenstillfället. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Del I Uppgift För händelserna A och B gäller att P (A) /4, P (B A) /3 och P (B A ) /. Beräkna P (A B). Uppgift En stokastisk variabel X har fördelningsfunktionen 0, x < 0 F X (x) x 3, 0 x, x > Bestäm E(X).
Uppgift 3 Ange fördelningen för Z 4X 5Y då X N(, ) och Y N(, 3) och är X och Y oberoende. Uppgift 4 Antalet samtal till ett företags callcenter under en tiominuters period antas vara Poissonfördelad med väntevärde.. Vad är sannolikheten att det kommer fler än men färre än 4 samtal under perioden 9.30 9.40? A: 0.0867 B: 0.3 C: 0.304 D: 0.330 Uppgift 5 Beräkna P (X ) då den stokastiska variabeln X är exponentialfördelad med E(X) 3. A: 0.0048 B: 0.53 C: 0.997 D: 0.487 Uppgift 6 Bestäm c så att P (X > c) 0.05 då X N(3, ). A: 0.90 B:.64 C: 5.33 D: 6.9
3 Uppgift 7 En välgjord sexsidig tärning kastas fyra gånger. Vad är sannolikhet att exakt tre av kasten är en sexa? Uppgift 8 Låt x 38 vara ett utfall av en stokastisk variabel X Bin(600, p) där p är okänd. Bestäm medelfelet för skattningen p X/n. A: 9.89 0 5 B: 0.00994 C: 0.0593 D: 5.97 Uppgift 9 Man har två oberoende observationer x 3 och x 5 av en stokastisk variabel med täthetsfunktionen f X (x) x / a e (x/a), x > 0, a > 0. Bestäm Maximum-Likelihood skattningen av a. A:.00 B: 4. C: 6.00 D: 8.7 Uppgift 0 Låt 0 personer utföra mätningar på en N(µ, σ)-fördelad stokastisk variabel. Därefter gör de var och en ett 95% konfidensintervall för µ. Vilket är det troligaste värdet på det antal intervall som kommer att missa µ?
4 Uppgift Givet är 5 oberoende observationer av en stokastisk variabel X som är N(µ, σ). Stickprovsmedelvärdet är x 0.6 och stickprovsstandardavvikelsen är s 0.058. Bestäm övre gränsen för ett ensidigt uppåt begränsat 95% konfidensintervall för σ. A: 0.0375 B: 0.0003 C: 0.0456 D: 0.00948 Uppgift Givet är 7 oberoende observationer av en stokastisk variabel X som är N(µ, 0.4). Stickprovsmedelvärdet beräknat på 7 observationerna är x 0.79. Man testar nollhypotesen H 0 : µ mot H : µ <. Bestäm testets p-värde. A: 0.4 B: 0.00 C: 0.034 D: 0.969
5 Del II Uppgift 3 Låt x och x vara två oberoende observationer från N(µ, σ) samt x 3 en observation, oberoende av de första två, från N(µ, σ). a) Skatta µ med hjälp av minsta-kvadratmetoden. Alla tre observationerna måste utnyttjas. (4 p) b) Avgör om skattningen är väntevärdesriktig. (3 p) c) En naturlig väntevärdesriktig skattning av µ är att ta medelvärdet mellan x, x och x 3 /, dvs µ x 3 + x 3 + x 3 6. Undersök vilken av MK-skattningen och µ som är effektivast. (3 p) Uppgift 4 En forskningsenhet som använder provresultat från två olika laboratorier vill undersöka om laboratorierna mäter likvärdigt. Undersökningen gick till så att ett prov sändes till de två laboratorierna som vart och ett fick göra fem oberoende mätningar av provet. Man antar att provresultaten modelleras som oberoende observationer på normalfördelade stokastiska variabler, alla med samma varians. Resultaten från mätningarna anges i tabellen nedan. Lab : 4.33 4.35 4.4 4.4 4.3 Lab : 4.4 4.7 4.8 4.7 4.30 Testa på signifikansnivån % om de två laboratorierna mäter likvärdigt. Ange tydligt vilka de uppställda hypoteserna är och vad slutsatsen är. (0 p) Uppgift 5 Vid senaste Folk- och Bostadsräkningen, som gjordes för c:a 0-5 år sedan, har en miljonpopulation av individer klassificerats i fyra klasser A, B, C, D, vars relativa storlekar var 0%, 30%, 0%, 40% respektive. I år klassificerades ett slumpmässigt urval om 00 individer på samma sätt. Av dessa tillhörde 3, 37, 7, 33 i nämnd ordning ovanstående klasser. Undersök om proportionerna av klasserna i populationen har förändrats eller inte sedan den senaste Folk- och Bostadsräkningen. Använd signifikansnivån 5%. Ange tydligt vilka de uppställda hypoteserna är och vad slutsatsen är. (0 p) Uppgift 6 Låt oss anta att det i branschen för pälsschampoo för hundar finns två dominerande tillverkare, A och B, som tillsammans har drygt 50% av marknaden. Tillverkare A gör en marknadsundersökning i vilken 000 hundägare tillfrågas, och 84 av dessa säger sig föredra schampoo som A säljer. Tillverkare B, som är den största på marknaden och vill trycka ner konkurrensen, gör då en egen undersökning i vilken 96 av 500 tillfrågade hundägare
säger sig föredra schampoot från B. Detta tar tillverkare B som intäkt för att i en stor kampanj påstå att Vårt schampoo är mer än dubbelt så populärt som någon annan tillverkares schampoo. Vi skall undersöka, ur statistisk synvinkel, om detta håller. (a) Definiera storheten, eller parametern, andelen hundägare som föredrar pälsschampoo från B andelen hundägare som föredrar pälsschampoo från A. Använd tillverkare A:s undersökning för att skatta andelen andelen hundägare som föredrar pälsschampoo från A, och tillverkare B:s undersökning för att skatta andelen andelen hundägare som föredrar pälsschampoo från B, för att konstruera en skattning av. Räkna också ut denna skattnings värde för de aktuella data. Det vill säga, i bokens terminologi, ange både stickprovsvariabel och skattning. ( p) (b) Beräkna variansen av uttryckt i lämpliga parametrar. (3 p) (c) Ange medelfelet för för de aktuella data. ( p) (d) Finns det fog för B:s påstående i kampanjen (jämför A och B)? Svara på frågan med hjälp av ett lämpligt konfidensintervall eller test och välj signifikansnivå själv. (3 p) Lycka till! Avd. Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEO- RI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Del I Uppgift Eftersom A och A utgör en partition av Ω kan vi använda lagen om total sannolikhet på B P (B) P (A) P (B A) + P (A ) P (B A ) 4 3 + 3 4 4 Enligt definitionen av betingad sannolikhet har vi P (A B) P (A B) P (B) P (A) P (B A) P (B) 4 3 4 0.8 Uppgift Vi börjar med att ta fram X täthetsfunktion f X (x) df X (x) dx { 3x, 0 x 0, för övrigt.
Väntevärdet ges därför som E (X) x f X (x) dx 0 Uppgift 3 [ ] x x 3x 4 dx 3 3 4 4 0.75 Enligt sats 6.3 är 4X N (4, 4 ), d.v.s. 4X N (4, 8). På samma sätt är 5Y N (5, 5). Enligt sats 6.4 om differenser mellan normalfördelade stokastiska variabler är 4X 5Y N ( 4 5, 8 + 5 ) Då 8 + 5 89 7, har vi att 4X 5Y N (, 7) Uppgift 4 Vi använder tabell 5 i nedanstående beräkning, då X Po (.). P ( < X < 4) P ( < X 3) F X (3) F X () 0.9663 0.6663 0.304 Uppgift 5 Vi beräknar sannolikheter för kontinuerliga stokastiska variabler som areor under täthetsfunktionen. I detta fall P (X ) Villkoret kan skrivas som f X (x) dx Eftersom X N (3, ) finner vi ( X 3 P (X c) P 3 e x/3 dx [ e x/3] e /3 0.53 Uppgift 6 P (X c) 0.95. c 3 ) ( c 3 Φ ) 0.95 vilket innebär att c 3 ).6649 c 3 +.6449 6.90 Låt A sexa. Då är P (A) 6 X Bin ( 4, 6). Då har vi att Uppgift 7 och om X antal sexor under de fyra kasten, så vet vi att P (X 3) ( 4 3 ) ( 6 ) 3 ( ) 5 4 5 6 6 0 4 96 0.054 Uppgift 8 d (p ) p ( p ) n x n ( ) x n n 38 600 ( ) 38 600 600 0.00994
3 Likelihooden är L (a) x a Uppgift 9 { x a exp ( x a ) ( x ) } + a Loglikelihooden ln L (a) ln x + ln x ln a ( ) x a + x Sätt derivatan av loglikelihooden till noll och lös för a: d ln L (a) 0 da a + x + x x 0 a + x a 3 Då x 3 och x 4 är ML-skattningen av a 9 + 5 a 7 4. Uppgift 0 Låt A konfidensintervallet innehåller inte det sanna parametervärdet. Då är P (A) 0.05 och om X antal konfidensintervall som missar, så vet vi att X Bin (0, 0.05). Om vi studerar tabellen ser vi att sannolikheten för X är störst. Alltså är det mest troligt att ett konfidensintervall missar den sanna parametern. Uppgift χ Ett ensidigt uppåt begränsat konfidensinterval för σ ges av (0, ks), där k / α (n ). Vi har n n 4 frihetsgrader. För 95% är χ 0.95 (4) 0.7. Därmed blir den övre gränsen ks χ α (n ) n s 0.7 4 0.058 0.0375 Uppgift ( Vi vet att X N, 0.4 7 ), då H 0 antas vara sann. Dessutom att x 0.79. Definitionen av p-värde är p värdet P (att få det observerade eller något extremare H 0 sann) Vi förkastar H 0 till förmån för H för avvikande låga värden på X. Det mera extrema som det talas om i definitionen av p-värdet är alltså ännu mindre värden av X. Under förutsättning att H 0 är sann, d v s µ, beräknar vi följande P ( X 0.79 ) P Φ ( ( X 0.4 0.79 0.4 7 0.79 0.4 7 Φ (.86) Φ (.86) 0.9686 0.034 ) 7 )
4 Del I. 0.8. 0.750 3. N(, 7) 4. C 5. B 6. D 7. 0.054 8. B 9. B 0.. A. C Del II Uppgift 3 Data x, x, x 3 är observationer från X, X, X 3, där X i :na är oberoende samt X och X är N(µ, σ), X 3 N(µ, σ). a) Q(µ) (x µ) + (x µ) + (x 3 µ). Minimera Q genom att sätta derivatan av Q med avseende på µ till noll. dq dµ (x µ) (x µ) 4(x 3 µ) 0, vilket ger µ MK x + x + x 3. 6 b) ( ) E(µ X + X + X 3 MK) E 6 6 (E(X ) + E(X ) + E(X 3 )) (µ + µ + µ) µ, 6 dvs MK-skattningen är väntevärderiktig.
5 c) V (µ MK) V ( 6 X + 6 X + ) 3 X 3 6 V (X ) + 6 V (X ) + 3 V (X 3) V (µ ) V 36 σ + 36 σ + 9 σ σ 6. ( 3 X + 3 X + ) 6 X 3 9 σ + 9 σ + 36 σ σ 4 > σ 6, dvs MK-skattningen har minst varians (är effektivast). Uppgift 4 Modell: Resultaten från lab, x,..., x 5 observationer av X N (µ, σ). Resultaten från lab, y,..., y 5 observationer av X N (µ, σ). Med hjälp av räknare fås samt x 4.96 s x 0.05 y 4.7 s y 0.07 Eftersom de två σ-skattningarna är någorlunda lika (bör egentligen testas med ett test som inte ingår i kursen) anser vi att antagandet om lika σ i modellen är uppfyllt och vi gör därför en gemensam skattning av σ. (5 ) s σ x + (5 ) s y s p 0.0400 (5 ) + (5 ) Lämpliga hypoteser: H 0 : µ µ, dvs ingen skillnad i förväntat labbresultat H : µ µ, dvs skillnad i förväntat labbresultat Gör ett tvåsidigt 99% för µ µ : ( ) I µ µ x y ± t 0.005 (8) s p 5 + 5 ( ) 4.96 4.70 ± 3.36 0.0400 5 + 5 ( 0.06, 0.) Eftersom intervallet täcker över 0, kan H 0 ej förkastas på nivån 0.0. Dessa data har alltså inte visat att det finns någon skillnad i förväntat labbresultat mellan labben. Det finns alltså ingen omedelbar anledning till oro. Bilda χ -teststorheten Uppgift 5 Q (3 0) /0 + (37 30) /30 + (7 0) /0 + (33 40) /40 490/48 0..
6 Om hypotesen H 0 relativa storlekarna är oförändrade är sann så är 0. observation av (approximativt) χ (3). Hypotesen förkastas för stora värden på Q. Ur tabell erhålls χ 0.05(3) 7.8 < 0.. Härav följer på de angivna signifikansnivåerna att H 0 kan förkastas på nivån 5%. Uppgift 6 (a) Låt p A och p B beteckna andelen hundägare som föredrar schampoo från tillverkare A respektive B, låt n och n beteckna antalet tillfrågade i de båda undersökningarna (vi har n 000 och n 500) och låt x A och x B beteckna antalet tillfrågade som i undersökning föredrog A respektive i undersökning föredrog B (vi har x A 84 och x B 96). Vi kan skatta p A och p B med p A X A/n respektive p B X B/n, där X A och X B är de stokastiska variabler som x A respektive x B är observationer av. Som skattning av kan vi sedan ta p B p A. Med de aktuella data får vi skattningenn96/500 84/000 0.04. (b) Det är rimligt att anta att de olika hundägare som ingick i undesökningarna har åsikter som är oberoende av varandra. Vi får då X A Bin(n, p A ) och X B Bin(n, p B ). Eftersom resultaten kommer från olika undersökningar är X A och X B oberoende (det hade inte varit fallet om de kom från en och samma undersökning), och därför gäller V ( ) V (X B /n X A /n ) V (X B) n + ( ) V (X A) n A p B( p B ) n + 4 p A( p A ) n. (c) Vi kan få en skattning av variansen för genom att ersätta p A och p B i ovanstående uttryck med motsvarande skattningar 96/500 0.39 och 84/000 0.84. Detta ger variansskattningen 0.0008. Roten ur detta, 0.038, är en skattning av standardavvikelsen för, dvs det är medelfelet för denna skattning. (d) Låt d( ) beteckna medelfelet för skattningen. Under våra förutsättningar på n, n, p A och p B gäller att fördelningarna för både X A och X B kan approximeras med normalfördelningar. Eftersom är en linjärkombination av dessa två oberoende variabler kan även anses vara approximativt normalfördelad. Denna variabel har väntevärde p B p A, ty E(p A ) p A och E(p B ) p B (båda skattningarna är väntevärdesriktiga). Därför gäller att ( )/d( ) ungefär är fördelad som en N(0, )-variabel. Påståendet i kampanjen är p B > p A, dvs > 0. Vi kontrollerar om det är rimligt att påstå detta genom att testa H 0 : 0 mot H : > 0. Om H 0 är sann gäller således att ( 0)/d( ) 0.04/0.038 0.73 är en observation från N(0, ). Vi skall förkasta H 0 till förmån för H om detta värde ligger långt ut i högra svansen på fördelningen N(0, ), mer precist om det är större än t ex 5%-kvantilen λ 0.05.64. Detta är inte fallet, så det finns inget statistiskt underlag för vad som hävdas i kampanjen. Alternativt kan vi göra ett nedåt begränsat approximativt 95%-igt konfidensintervall för : [ λ 0.05 d( ), ) [ 0.030, ). Intervallet innehåller talet 0, och därför kan inte H 0 förkastas mot H.