Avd. Matematisk statistik TENTAMEN I SF90 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 8:E MARS 06 KL 08.00 3.00. Kursledare: Timo Koski, tel 070 370047 Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), Hjälpreda för miniräknare, räknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 0 poäng. Gränsen för godkänt är preliminärt 4 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 3 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift a) P (A) och P (B). Vi har därtill att 3 5 P (A B) + P (B A) 3. Beräkna sannolikheten P (A B ). (6 p) b) X är en diskret stokastisk variabel, som har de positiva hela talen som värden. Vi har där s > och ζ(s) + p X (k) P (X k), k,, 3,... ζ(s) ks. Låt n vara ett godtyckligt positivt heltal. X är delbart k s med n om X kn för något heltal k. Beräkna sannolikheten för att X är delbart med n. Kontrollera att Din lösning ger rätt svar för n. (4 p)
forts tentamen i SF90 06-03-8 Uppgift Ett nätverk av mobila stationer sänder meddelanden till varandra över en kommunikationskanal. Meddelandena är i form av paket med konstant längd. En station kan erbjuda ett paket för en sändning endast vid diskreta tider med avståndet T. Tiderna att sända ett paket kallas tidsluckor (time slots), och betecknas med T. Ett och endast ett paket kan sändas per tidslucka. Om stationerna i nätverket erbjuder två eller flera meddelanden på en och samma tidslucka, uppstår en kollision och alla dessa paket försvinner. Låt X antalet paket som de andra stationerna i nätverket inom din räckvidd erbjuder under en tidslucka. En tidigare analys ger vid handen att X Po(λ T ) är en välfungerande modell. Vi antar att X är oberoende av din station samt oberoende och identiskt fördelad vid olika tidsluckor. a) Din station erbjuder ett paket. Vad är sannolikheten för en kollisionsfri sändning av ditt paket? ( p) b) Din station erbjuder ett paket. Om en kollision uppstår, erbjuds samma paket på nytt av din station vid nästa tidslucka. Vad är sannolikhetsfunktionen för S antalet gånger ditt paket erbjuds när sändningen lyckas, d.v.s. antalet erbjudanden inkl. den första kollisionsfria sändningen. Motivera ditt svar. Vad är E(S)? (4 p) c) Din station erbjuder ett paket. Givet att en kollision inträffar, vad är sannolikhetsfunktionen för antalet paket som erbjudits från de andra stationerna i nätverket. Sökt är alltså P (X k X ), k,,.... (3 p) d) Vad är väntevärdet för antalet paket som erbjöds och kolliderade i c)? ( p) Uppgift 3 En statistisk konsult kommer inom en nära framtid att leverera till sina kunder 000 stycken konfidensintervall I θ (i), i,..., 000 avsedda för en okänd statistisk parameter θ. Alla dessa intervall har konfidensgraden 95%. Vi antar att dessa intervall är oberoende av varandra, p.g.a. att de beräknas på basis av respektive separata mängder av data, som är oberoende av varandra. Låt Y antalet I θ (i) som kommer att övertäcka θ. a) Vilken sannolikhetsfördelning har Y? Motivera Ditt svar. ( p) b) Bestäm P (940 < Y 960) med hjälp av en rimlig och välmotiverad approximation. Ifall Din kalkylator kan beräkna denna sannolikhet s.a.s. exakt, förväntas Du ändå föreslå och använda en rimlig och välmotiverad approximativ metod samt att jämföra de erhållna svaren. (8 p)
forts tentamen i SF90 06-03-8 3 Uppgift 4 Din vän, som är bankekonom vid GK-banken, har två gånger genomfört en datainsamling av n 7 respektive n 5 observationer som alla kan anses vara oberoende observationer av normalfördelade stokastiska variabler, N(µ, σ) respektive N(µ, σ), med samma okända varianser men med olika okända väntevärden i båda stickproven. Hen har sedan räknat ut med stöd av t-metoden ett konfidensintervall med konfidensgraden 99% för väntevärdet µ i det första stickprovet som blev: I µ [0.3, 4.7]. Hen hade också räknat ut med stöd av t-metoden ett konfidensintervall med konfidensgraden 99% för väntevärdet µ i det andra stickprovet och erhållit resultatet: I µ [8.4,.6]. Det cirkulerade febriga rykten om att Finansinspektionen skulle komma att utreda i vissa av GK-bankens operationer, där din vän och dessa data spelar en stor roll. Din vän suddade bort de båda stickprovens observationsvärden och deras aritmetiska medelvärden och standardavvikelser. a) Nu skulle hen vilja veta hur ett observerat konfidensintervall för differensen µ µ mellan de båda väntevärdena med konfidensgraden 95% baserat på alla observationerna ser ut. Hen frågar därför dig (som har rykte om dig att kunna räkna bra) om du kan hjälpa på något sätt? Kan du det? (6 p) b) Eftersom du var så duktig på uppdraget i a), vill GK-banken rekrytera dig som statistisk matematiker. Ditt nästa uppdrag är att rekonstruera hur slutsatsen i testet skulle blivit om du använt ett lämpligt tvåsidigt test med signifikansnivån 5%, för att testa nollhypotesen att de båda väntevärdena är lika, dvs 0. Du bör klart ange huruvida nollhypotesen förkastas eller inte. Ange även den statistiska regel du använde för att dra din slutsats. (4 p) Uppgift 5 I en telefonintervju ställdes frågan Oroar du dig för att inte pengarna skall räcka till när du går i pension till 300 personer i olika åldrar. Möjliga svarsalternativ var Ja och Nej. Svaren fördelade efter ålder redovisas i tabellen nedan: Orolig Ålder Ja Nej Totalt, n i 6 4 4 76 00 5 44 4 59 00 45 64 43 57 00 Kolumnsumma, m j 08 9 N 300 Bestäm ifall det föreligger någon signifikant skillnad i oro för att pengarna inte skall räcka till mellan åldersgrupperna. Använd signifikansnivå (approximativt) 5%. Ett tydligt svar måste framgå. (0 p)
forts tentamen i SF90 06-03-8 4 Uppgift 6 Livslängden hos en typ av relativt komplicerade elektroniska komponenter kan uppfattas som en stokastisk variabel X med sannolikhetstäthetsfunktionen { xe f X (x) x θ θ x 0 0 x < 0. Du har observationerna x, x,..., x n av resp. oberoende stokastiska variabler X, X,..., X n med denna sannolikhetstäthetsfunktion. a) Vi förutsätter att punktskattningen av den okända parametern θ i denna sannolikhetstäthet borde vara av formen θ obs a i x i a x + a x +... + a n x n. där a, a,..., a n är reella tal d.v.s. konstanter som skall väljas av en användare. Vilket matematiskt villkor bör a, a,..., a n uppfylla för att θobs skall vara väntevärdesriktig? (4 p) b) Bestäm ML-skattningen θobs,ml av den okända parametern θ och checka om ML-skattningen är väntevärdesriktig. (4 p) θ obs,ml c) Frågan är om det kan finnas en punktskattning av formen θobs n a ix i som är effektivare än θobs,ml! Vilka två villkor borde a, a,..., a n uppfylla för att θobs skall vara effektivare? Kan dessa två villkor bli uppfyllda samtidigt? Motivera ditt svar. Du får gärna betrakta geometriskt fallet med n. Hjälp: I denna uppgift behöver Du σ V (X), men Du behöver inte räkna ut det explicita värdet på σ. ( p) Lycka till!
Avd. Matematisk statistik LÖSNINGSFÖRSLAG TENTAMEN I SF90 FREDAGEN DEN 8 MARS 03 KL 08.00 3.00 Uppgift a) Vi använder De Morgan och komplementsatsen P (A B ) P ((A B) ) P (A B). Det återstår att beräkna P (A B). Vi har P (A B) + P (B A) och P (A) 3, P (B) 5 d.v.s P (A B) P (B) + P (A B) P (A) ( P (A B) P (B) + ) P (A) ) Således och 3 P (A B) ( 5 + 3 P (A B) 8. P (A B) + P (B A) P (A B) 8, P (A B ) P (A B) 3 8. SVAR a): P (A B ). b) X är delbart med n om X kn för något positivt heltal k. Detta innebär att X är delbart med n {X kn}. Till exempel, om n 5, då inträffar händelsen X är delbart med 5, såsnart någon av händelserna {X 5}, {X 0 5}, {X 5 3 5}, {X 0 4 5},... inträffar och omvänt. Sannolikheten för händelsen X är delbart med 5 är därför summan av sannolikheterna för dessa händelser. Mer formellt, eftersom händelserna i den betraktade unionen är disjunkta, ger additivitet i Kolmogorovs axiom att P ( {X kn}) P ({X kn}) ζ(s) (kn) s
forts tentamen i SF90 06-03-8 För n, n s ζ(s), s.s.b. n s k s n s ζ(s) k s n s ζ(s) ζ(s) n. s SVAR: Sannolikheten för att X är delbart med n är lika med n s. Uppgift Denna uppgift innehåller en förenklad eller rudimentär beskrivning av transmissionsprotokollet i ett s.k. slotted ALOHA nätverk, som är ett exempel på såkallade random access nätverk. Nätverket är instabilt, ty antalet försvunna paket kan bli stort. Förbättringar kan införas bl.a. medelst reglertekniska algoritmer. a) Sannolikheten för en kollisionsfri sändning av ditt paket är sannolikheten för att inga andra erbjuder ett paket. Detta är P (X 0) e λt. SVAR a): Sökta sannolikheten är e λt. b) Vi har följande situation: Vi har ett försök med två möjliga utfall: kollision eller inte. Här svarar utfallet ingen kollision mot ett lyckat försök. Antalet upprepningar av försöket är inte givet på förhand utan är i princip obegränsat. De olika försöken är oberoende av varandra, liksom förklaras i uppgiften. Sannolikheten p för ett lyckat försök är densammma vid vart och ett av dessa försök och är lika med p e λt. Antalet sändningar av ditt paket när sändningen lyckas, inkl. din första kollisionsfria sändning är därmed ffg-fördelad med parametern e λt, ty aktiviteterna vid olika tidsluckor antas oberoende. Formelsamlingen ger därmed det sökta väntevärdet som e λt. SVAR b):väntevärdet är e λt. c) Det är klart att P (X 0 X ) 0. Tag k P (X k X ) P ({X k} {X }) P (X ) och eftersom {X k} {X }, får vi {X k} {X } {X k} och P ({X k}) P (X ) e λt (λt ) k P (X ) e λt (λt ) k e λt (λt )k P (X 0) e. λt
forts tentamen i SF90 06-03-8 3 SVAR b):p (X k X ) e λt (λt ) k, k,,... e λt d) För att beräkna väntevärdet av antalet kolliderade paket kalkylerar vi kp (X k X ) e λt (λt ) k k e λt Vi har och e λt e λt e λt (λt )k k. (λt )k e λt k, (λt )k k e λt λt, ty detta är väntevärdet för Po(λ T ). Resultatet är även givet av (λt )k k (λt ) k (k )! Insättning ovan ger λt (λt ) k (k )! λt k0 kp (X k X ) (λt ) k λt e λt. λt e λt. Men detta är väntevärdet av paket erbjudna från de andra i nätverket, din station hade även sitt kolliderande paket. Alltså SVAR c):väntevärdet för totalantalet är λt +. e λt Uppgift 3 a) Vi har följande situation: Vi har ett försök med två möjliga utfall: I θ (i) kommer att övertäcka θ eller inte. Här svarar utfallet I θ (i) övertäcker θ mot ett lyckat försök. Antalet upprepningar av försöket, n, är givet på förhand och är lika med n 000. De olika försöken är oberoende av varandra, såsom detta anförts i uppgiften. Sannolikheten p för ett lyckat försök är densammma vid vart och ett av dessa 000 försök och är lika med p 0.95.
forts tentamen i SF90 06-03-8 4 Här är Y antalet I θ (i) som kommer att övertäcka θ,,..., 000 antalet lyckade försök vid tusen oberoende upprepningar av försöket och under de förutsättningar som räknats upp ovan fås att Y Bin(000, 0.95). SVAR a): Y Bin(000, 0.95). b) Den sökta sannolikheten P (940 < Y 960) kan beräknas mer eller mindre exakt (någon numerisk algoritm ingår) t.ex. i Matlab med resultatet >> binocdf(960,000, 0.95)-binocdf(940,000,0.95) ans 0.8535 Det är naturligt att tänka på binomialfördelningen Bin(000, 0.95) approximerad med normalfördelningen N(000 0.95, 000 0.95 0.05), se kursens formelsamling avsnitt 6., Approximation. Detta är välmotiverat för att 000 0.95 0.05 > 0, jfr. kursens formelsamling avsnitt 6.. Då ger Matlab att >> normcdf(960,950, sqrt(000*0.95*0.05))-normcdf(940,950,sqrt(000*0.95*0.05)) ans 0.853 Mer detaljerat fås att P (940 < Y 960) P P ( 940 000 0.95 < ( 940 950 < Y 950 Y 000 0.95 ) 960 950 0 P < Y 950 0 }{{} approx N(0.) och approximativt, där Φ(x) är fördelningsfunktionen för N(0, ), ( ) ( ) 0 0 Φ Φ och ty Φ( x) Φ(x) erhålles Φ ( 0 ) ( ( )) 0 Φ ( ) 0 Φ Φ (.45). Här ger Matlab >> *normcdf(.45,0,)- ans 0.859 Med kursens tabellsamling fås Φ (.45) 0.965, så att P (940 < Y 960) 0.965 0.8530. ) 960 000 0.95 Med två decimaler erhölls samma svar med alla ovanimplementerade beräkningar.
forts tentamen i SF90 06-03-8 5 SVAR b): P (940 < Y 960) 0.85. Uppgift 4 Ett konfidensintervall med konfidensgraden 99% för väntevärdet µ i N(µ, σ) med okänd varians ges med t-metoden av [0.3, 4.7] I µ x ± t 0.0/ (7 )s / 7. Det är klart att stickprovens aritmetiska medelvärde är mittpunkten i detta intervall, och detta ger 4.7 + 0.3 x.5. Då fås standardavvikelsen s som s (4.7.5) 7 t 0.005 (6)..65 3.7.57. Observera att Du får samma svar genom att lösa med avseende på s utifrån intervallets vänstra ändpunkt. Vi utnyttjade Tabell 3. i kursens tabellsamling för att erhålla t 0.005 (6) 3.7. För det andra konfidensintervallet gäller [8.4,.6] I µ x ± t 0.0/ (5 )s / 5. På samma sätt som i det första fallet fås och x.6 + 8.4 s (.6 0) 5 t 0.005 (4) 0.6 3.87.98.08. a) Detta är fallet med två stickprov och konfidensntervall för skillnaden mellan väntevärdena i två normalfördelningar. Formelsamlingen avsnitt. d) ger att X X t(n + n ). S n + n Det observerade konfidensintervallet fås (t-metoden) ur P t 0.05 (n + n ) < X X ) 0.95 S n + n t 0.05 (n + n som I x x ± t 0.05 (n + n )s n + n,
forts tentamen i SF90 06-03-8 6 där s är den vägda stickprovsvariansen (kursens formelsamling avsnitt.) (n )s + (n )s s. n + n Insättning av värdena från del a) ger 6.57 + 4.08 s.94 0 och t 0.05 (n + n ) t 0.05 (7 + 5 ) t 0.5 (0).09 ger I 0.5 ±.09.94 7 + 5.5 ±.09.94 0.4577 vilket ger I [ 4.3558, 0.644] SVAR a): I [ 4.3558, 0.644]. b) Vi använder oss av sambandet mellan konfidensintervall och hypotesprövning. Nollhypotesen testas mot H 0 : 0 H : 0 och nollhypotesen förkastas med signifikansnivån 5% om konfidensintervallet för med konfidensgraden 0.95%, som tagits fram i del a) av uppgiften, inte innehåller nollan. Detta sistnämnda är uppenbarligen fallet här med I [ 4.3558, 0.644]. SVAR a): Nollhypotesen 0 förkastas med signifikansnivån 5%. Uppgift 5 Vi utför ett homogenitetstest. Våra observationer jämförs med ett skattat förväntat antal n im j N en gemensam radfördelning: Orolig Ålder Ja Nej Totalt, n i 6 4 36 64 00 5 44 36 64 00 45 64 36 64 00 Kolumnsumma, m j 08 9 N 300 framräknat under en hypotes om (Notera: n i m j /N > 5 för alla i, j.) Ett homogenitetstest förkastar en hypotes om en gemensam radfördelning för stora värden på Q i,j (x ij n im j N ) n i m j N 9.46 som om hypotesen är sann är ett utfall från en (approximativ) χ ()-fördelad stokastisk variabel. Ur χ -tabell fås att χ 0.05 5.99 < Q och hypotesen om en likafördelning förkastas på nivå 5%.
forts tentamen i SF90 06-03-8 7 Uppgift 6 a) Vi behöver väntervärdet θ E [X] + 0 + θ x e x θ dx θ xf X (x)dx + 0 ( [ x e x θ ] + 0 + 0 x θ xe θ dx. θ x x xe θ dx + 0 ( xe x θ )dx ) Men + 0 θ xe x θ dx är väntevärdet av en exponentialfördelad variabel med parameter /θ. Således ger formelsamlingen + x θ xe θ dx θ. Punktskattningen θ obs 0 a i x i a x + a x +... + a n x n. är väntevärdesriktig (v.v.r.) om det gäller för den motsvarande stickprovsvariabeln θ att Vi har E [θ ] θ. E [θ ] E [a X + a X +... + a n X n ] a E [X ] + a E [X ] +... + a n E [X n ] a θ + a θ +... + a n θ θ a i. Således är E [θ ] θ om och endast om n a i. b) Likelihoodfunktionen L(θ) är SVAR a): Villkoret för v.v.r. är n a i. L(θ) f X (x ) f X (x ) f X (x n ) θ x e x θ θ x e x θ θ x ne xn θ θ n n x i e n x i θ. Som vanligt är det en fördel att logaritmera. Logaritmen är en monotont växande funktion, så ln L(θ) och L(θ) maximeras av samma θ. Logaritmering ger ln L(θ) n ln θ + ln x i x i θ.
forts tentamen i SF90 06-03-8 8 Vi deriverar m.a.p. θ och får d dθ ln L(θ) n θ + θ x i. Vi sätter derivatan 0 och multiplicerar denna ekvation med θ, vilket ger d.v.s. d dθ ln L(θ) 0 nθ + x i 0 θ obs,ml n x i. Här har vi allså en punktskattning som är en linjär kombination av observationerna som i del a). Vi har i själva verket för maximum likelihood att a i, i,,..., n. Således n a i n n n n och ML-skattningen θ obs,ml är väntevärdesriktig enligt resultatet i a). c) Av två väntevärdesriktiga punktskattningar säges den med mindre varians vara den effektivare. Vi gör således jämförelse av variansen V (θml ) med variansen av en annan väntervärdesriktig punktskattning. Låt σ V (X). Då fås p.g.a oberoende För ML-skattningen gäller V [θ ] a V [X ] + a V [X ] +... + a nv [X n ] a σ + a σ +... + a nσ σ a i. V [θ ML] σ a i σ a i σ (n) σ 4n n σ 4n. En annan väntevärdesriktig skattning av formen θ obs n a ix i vore således för fördelningen i denna uppgift effektivare än ML-skattningen, om V [θ ] < V [θ ML] a i < 4n. Vi har alltså att en punktskattning formen θobs n a ix i, som vore effektivare än θml, bör uppfylla a i ()
forts tentamen i SF90 06-03-8 9 och a i < 4n. () Med ord, koefficienterna a, a,..., a n bör ligga på hyperplanet () och på ytan av en n-sfär (), vars radie är mindre än. Vi vet emellertid att hyperplanet () tangerar n-sfären 4n n a i i a 4n a... a n, vilket svarar mot n θ obs,ml. Således finns ingen väntevärdesriktig punktskattning som uppfyller (), och därmed finns för denna fördelning ingen effektivare skattning av formen n a ix i än θobs,ml. Alternativt bevis från en deltagare i tentan: Enligt kursens formelsamling (avsnitt 3.3, andra raden) gäller att (a i ā) a i n (ā) Vi har utifrån () att (ā) ( n n a ( i) n (a i ā) ) 4n. Detta ger a i 4n. Men vi vet att n (a i ā) 0, vilket innebär att a i 4n. Likhet i denna olikhet uppnås för θml, alltså kan () inte komma ifråga tillsammans med () och således finns ingen linjär punktskattning som är effektivare än ML. Vi ser detta kanske ännu tydligare om vi betraktar fallet n. Då är väntevärdesriktighet att a och a bör ligga på linjen a + a och samtidigt gäller det för en punktskattning med mindre varians än ML-skattningen att a + a < 8. Vi ser att ML-skattningen med a a satisfierar 4 a + a och ML-skattningen 8 svarar mot punkten där linjen a + a tangerar cirkeln a + a. Figur. visar att 8 om cirkeln a + a R har en radius R <, så kan denna cirkel inte ha en gemensam punkt med linjen a + a. Alltså kan ingen väntevärdesriktig punktskattning av formen a ix i vara effektivare än ML-skattningen i denna uppgift. 8
forts tentamen i SF90 06-03-8 0 a a + a /8 / a + a / /4 /4 / a Figur : Effektivitet