HT 2011 Inlämningsuppgift 1 Statistisk teori med tillämpningar Instruktioner Ett av problemen A, B eller C tilldelas gruppen vid första övningstillfället. Rapporten ska lämnas in senast 29/9 kl 16.30. Sent inkomna uppgifter behandlas inte. Ofullständiga uppgifter behandlas inte. Rapporten kommer att bedömas både vad gäller innehållet och formen. Det är viktigt att rapporten är välskriven och innehåller alla delar. Tänk er att målgruppen har samma statistikkunskaper som era kurskamrater. Texten ska vara tydlig och alla påståenden ska vara välmotiverade. Det innebär att alla relevanta beräkningar ska visas. Även SAS-kod och SAS-utskrifter ska bifogas och kommenteras. Se till att besvara alla frågor i uppgiften. Använd ett tydligt, kort och koncist språk och gör inga irrelevanta utsvävningar. Avsluta med en sammanfattning och egen re ektion. Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan) Rapporten är välstrukturerad. Se tex mall för inlämningsuppgifter "Att skriva en rapport" som nns på kurshemsidan för Statistikens grunder. Alla frågor som nns i uppgiftstexten är besvarade Svaren är välmotiverade Alla relevanta formler, gurer, tabeller och SAS-kod nns med 1
Ev. gurer och tabeller är tydliga och numrerade alt. försedda med beskrivande text Rapporten är anpassad till målgruppen Språket är korrekt Sammanfattning inklusive re ektioner nns med Om rapporten har brister ges en chans att åtgärda dessa inom en vecka efter att den rättats. 2
Alternativ A Många processer har egenskapen att de antar en av två möjliga tillstånd. Ett exempel är arbetsstatus hos en person där tillstånden är "har arbete" respektive "är arbetslös" (se diskussionen i "Statistikens grunder", kap. 5.4.1). Andra exempel är betjäningssystem där tillstånden är att "någon betjänas" respektive "ingen betjänas" och en maskin med tillstånden "fungerar" respektive "inte fungerar". Låt A och B vara två tillstånd och Y A och Y B vara tiderna som processen tillbringar i respektive tillstånd. Antag att Y A och Y B är exponentialfördelade stokastiska variabler med parametrarna A och B och att Y A och Y B är stokastiskt oberoende av varandra. a) Är antagandena ovan rimliga som en modell över arbetsstatus hos en person? b) Beteckna andelen tid processen be nner sig i tillstånd A under en cykel med. Vid en upprepning av processen kan P = Y A = (Y A + Y B ) betraktas som en observation på. Bestäm sannolikhetsfördelningen för P under förutsättning att A = B. Är resultatet beroende av valet av värde på parametrarna? Tolka resultatet. Rita gur. c) Simulera en cykel av processen med A = B och bestäm observerat värde av P: Upprepa simuleringen ett lämpligt antal gånger, klassindela observationerna av P och rita gur. d) Avgör på ett lämpligt sätt (t. ex. genom ett hypotestest som du lärde fördelningen för P ger en bra bild av den teoretiska fördelningen. e) Simulera fördelningen för P på motsvarande sätt som i uppgift c) men med olika värden på A och B. Diskutera resultaten. f) Antag att processen studeras efter n cykler. Andelen tid processen be nner sig i tillstånd A kan nu bestämmas på två sätt: i) ett observerat värde på P beräknas efter varje cykel så att n observationer erhålles; medelvärdet av dessa observationer används som som uppskattning av. ii) låt X A och X B vara sammanlagda tiden processen be nner sig i tillstånden A respektive B och använd X A =(X A + X B ) som uppskattning av. Diskutera eventuella likheter och skillnader mellan dessa två sätt att uppskatta 3
Alternativ B En modell för förändringar i priset på en aktie bygger på att information om företaget kommer till marknaden vid slumpmässiga tidpunkter. Om information är positiv ökar priset på aktien med en enhet, medan om informationen är negativ, minskar priser med en enhet. Antag att det är lika stor sannolikhet att informationen är positiv som att den är negativ och att informationen vid en tidpunkt är oberoende av informationen vid alla andra tidpunkter. a) Bestäm sannolikhetsfördelningen för prisförändringen när information om företaget kommer till marknaden vid n = 1; 2; 3; 4 och 5 tillfällen. b) Bestäm förväntat värde och varians för fördelningarna i a) c) Standardisera fördelningarna i a) genom att subtrahera förväntat värde och dividera med standardavvikelse. d) Simulera standardiserade fördelningar för n = 5; 20 och 80 genom att simulera den studerade processen, dvs generera n stycken slumptal som antar värdena -1 respektive 1 med samma sannolikhet och summera dessa slumptal. Använd ett lämpligt antal repetitioner i simuleringen. Standardisera på vanligt sätt, men använd de teoretiska värdena för väntevärde och standardavvikelse du beräknade i uppgift b). e) Avgör på ett lämpligt sätt (t. ex. genom ett hypotestest som du lärde fördelningen för n = 5 ger en bra bild av den teorietiska fördelningen. f) Vad händer med den standardiserade fördelningen då n ökar? Ge formella argument för dina påståenden. 4
Alternativ C Antag att varje person i en population har ett högsta belopp de kan tänka sig att betala för en viss vara, ett s.k. willingness to pay, WTP. Antag vidare att personer som deltar i en auktion där man har möjlighet att ge endast ett bud, ger sitt WTP som bud. Den budgivare som ger det högsta budet vinner auktionen och betalar det givna budet för varan. a) Bestäm sannolikhetsfördelningen för varans pris om WTP har en likformig fördelning i intervallet [0; 100] då n = 1; 2; 3; 4 och 5 slumpmässigt valda personer deltar i budgivningen. b) Bestäm förväntat värde och varians för fördelningarna i a) c) Standardisera fördelningarna i a) genom att subtrahera förväntat värde och dividera med standardavvikelse. d) Simulera standardiserade fördelningar för n = 5; 20 och 80 genom att simulera den studerade processen, dvs generera n stycken bud och välj ut det högsta budet bland dessa. Använd ett lämpligt antal repetitioner i simuleringen. Beräkna sedan medelvärde och standardavvikelse för de erhållna högsta buden och standardisera på vanligt sätt. Klassindela det standardiserade materialet och använd klassgränserna -2.5, -1.25, -0.5, 0 och 0.5. Rita ett histogram. e) Avgör på ett lämpligt sätt (t. ex. genom ett hypotestest som du lärde fördelningen för n = 5 ger en bra bild av den teorietiska fördelningen. Ledning: Om den stokastiska variabeln Z är standardiserade värdet av högsta budet, så är P ( 5:9160 Z 2:5) 0:02580, P ( 2:5 Z 1:25) 0:09685, P ( 1:25 Z 0:5) 0:13578, P ( 0:5 Z 0) 0:14344, P (0 Z 0:5) 0:20106, P (0:5 Z 1) 0:274 51, P (1 Z 1:1834) 0:122 68 f) Vad händer med den standardiserade fördelningen då n ökar? Ge formella argument för dina påståenden. 5