LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik Stora talens lag Centrala gränsvärdessatsen Punktskattningar 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom Kapitel 7 och 8 (Blom: Bok A) och 2 (Blom: Bok B) samt hela laborationshandledningen. Repetera också appendix till laboration 3, vilket finns sist i denna handledning. Till laborationens start har du med dig lösningar, som du kan redogöra för, till uppgifterna (a) (e): (a) Redogör för Stora talens lag. (b) Redogör för Centrala gränsvärdessatsen. (c) Låt X vara antal ögon vid ett tärningskast med p X (k) 1 6 för k 1 2 3 4 5 6. Vilken fördelning har summan av n oberoende kast ungefär då n är stort? (d) Vi har observationer x 1 x 2 x n som är oberoende och Exp(a)-fördelade. Härled ML- och MKskattningarna av a. (e) Hur skattar man väntevärde och standardavvikelse med hjälp av stickprovet x 1 x n från en normalfördelning? 2 Stora talens lag Stora talens lag säger att om Ẍ n är medelvärdet av n likafördelade oberoende stokastiska variabler X 1 X n med ändlig varians, så gäller att P(Ẍ n m X ) då n för varje, vilket också kan uttryckas som att Ẍ n m X i sannolikhet. Enklare uttryckt så kommer medelvärdet av n variabler att avvika allt mindre från väntevärdet då n växer. Ett sätt att illustrera detta är att kasta en tärning många gånger och se att de successiva medelvärdena konvergerar mot väntevärdet. Simulera först 1 tärningskast: "!$#&%' (# *)+'&,!-#&%. /#13254 6 7714 6&8 Ett sätt att räkna ut de successiva medelvärdena är följande:
& ) %+ 3) 8 6 6 778 Funktionen ger en vektor där element i är summan av de i första elementen i inparametern, i vårt fall ). Notationen betyder elementvis division och 6 6778 är en kolonnvektor med talen 1 t.o.m. 1. Tänk ut att ) % innehåller de successiva medelvärdena. Plotta dem. & 5 6 6 7714 ) %"8 Gör om alltihop med fler kast, t.ex. 1 st. Ser allt ut som du väntat dig? 3 Centrala gränsvärdessatsen Börja med att hitta på en diskret sannolikhetsfunktion med några möjliga utfall, t.ex. den likformiga fördelningen över 1 t.o.m. 6, dvs ett tärningskast. Mata sedan in denna sannolikhetsfunktion i form av en vektor. & (+ 7 666 666&2 Nollan finns där för att det blir lättare att hålla reda på saker och ting om det första elementet i vektorn är sannolikheten för att utfallet är noll. Välj gärna någon annan sannolikhetsfunktion än ovanstående förslag. Rita upp sannolikhetsfunktionen med kommandot %. & %1 7 &-. 8 6,4 8 Funktionen.$. ger längden av en vektor. Som du vet beräknas sannolikhetsfunktionen för en summa av två oberoende diskreta stokastiska variabler genom en diskret faltning, se formel (5.6 ) i Bloms bok. I MATLAB finns en funktion, -!, som utför just en sådan faltning (faltning heter convolution på engelska). & ".+ -!5 4 8 & #+ -!5 " 4 "(8 & $&+ -!5 #54 # 8 Här blir $ alltså sannolikhetsfunktionen för en summa av åtta stycken oberoende stokastiska variabler med sannolikhetsfunktionen. Rita upp dessa nya sannolikhetsfunktioner. När börjar det likna en normalfördelning? Räkna nu ut väntevärde och standardavvikelse för en stokastisk variabel med sannolikhetsfunktionen. &% + 7 28'& 8 &( &!)* + +.%,1- & 7. 2(8)/ 81"2& 8&8 Funktionen ger summan av elementen i en vektor, notationen 3" betyder elementvis kvadrering av en vektor och +.%, är kvadratroten. Vi kan nu jämföra sannolikhetsfunktionen # med den approximativa normalfördelning N(nm 45 n) (där n 4) som vi får ur Centrala gränsvärdessatsen. & & %1 7 &-. # 8)(6 4 #"8 '#6$ &87,7+7. 7.29:;&7:< & 5=7,7 4'%) //#,> '7 7 42# &- 43 *+&% 52#"8&,.!) 8.8 & '#6>> 2
Kommandot '#6$ gör att det man ritat inte tas bort vid nästa plottning. Approximeras # normalfördelningen? väl av Pröva också vad som händer om är en mycket sned fördelning, t.ex. (+ 7 67 6666 6 6*9 Hur många komponenter behövs det nu i summan för att fördelningen väl ska kunna approximeras med en normalfördelning? 4 Punktskattningar 4.1 ML- och MK-skattning Vi skall i den här uppgiften titta lite närmare på två av de vanligaste skattningsmetoderna i statistiken, nämligen ML- och MK-skattning. Vi skall bl.a. se att ML-skattning är ett maximeringsproblem medan MK-skattning kan ses som ett minimeringsproblem. I filen # # (som finns på kursens hemsida) har vi 15 mätningar av livslängden (enhet: timmar) av en viss komponent i en bil. Livslängden hos varje komponent antages vara oberoende av alla andra komponenter. Ladda in data och gör en första undersökning av livslängderna. # # # 5 # 43& 8,! 5 # 8 Vi är intresserade av att skatta medellivslängden för komponenten. En variant att göra detta på är att göra en ML-skattning av a. För att kunna göra en ML-skattning måste vi ha en uppfattning om vilken fördelning data har. Från liknande experiment som gjorts tidigare har det visat sig att livslängden hos en viss komponent är approximativt exponentialfördelad. Alltså, vi antar att livslängden är exponentialfördelad och ställer upp log-likelihoodfunktionen. Hur ser den ut? Svar: l(a) ln L(a) Det finns (på kursens hemsida) en specialskriven -fil, 7', som beräknar l(a). Studera -filens MAT- LAB-kommandon och förvissa dig om att den verkligen ger rätt funktion! ( ' 7' ) Rita upp l(a), då 3 a 15. Hur ser funktionen ut och vilket värde på a motsvarar ML-skattningen?, (Du kan använda kommandot för att förstora delar av figuren.) + ;7,29: 6*9&7:<.+ 7' 4 # 8< 5 43(8 &%!-# Nu går vi över och tittar på hur en MK-skattning av medellivslängden ser ut. Fördelen med MK jämfört med ML är att fördelningen för data ej behöver vara känd. Börja nu med att ställa upp förlustfunktionen, Q(a). Svar: Q(a) Programmet 7$ (som du hittar på hemsidan) är specialskrivet för att beräkna Q(a). Titta på MATLABkommandona för att kolla att det stämmer! Rita ut Q(a). Vilket värde på a motsvarar MK-skattningen? 3
&.+ 7' 4 # 8< & 5 4 (8 &8&%!-# Både ML- och MK-skattningen av a är enkel att beräkna, se förberedelseuppgift (d). Beräkna a ML och a MK och jämför med dina figurer. Här blev ML- och MK-skattningarna lika, det är inte alltid fallet. 4.2 Skattningen a är en stokastisk variabel! Om vi skulle ta 15 nya mätningar av livslängden hos ovanstående komponenter (dvs ett nytt stickprov) så skulle skattningen av medelvärdet med säkerhet bli annorlunda, dvs skattningen kan ses som en stokastisk variabel. För att illustrera detta tänker vi oss att vi tar 1 stickprov med 15 mätningar i varje stickprov. Eftersom vi inte har 1 riktiga stickprov så får vi nöja oss med att simulera data. Genom att utnyttja funktionen 7'%. (# kan vi enkelt generera exponentialfördelade slumptal. Vi antar att det sanna medelvärdet är 1, dvs a 1 & 7$/%' (# & +,6 77 < &87+ 7'%. (# 4 69.754 67.77 8 < Kolonn nummer i i matrisen 7 motsvarar stickprov i. Nu skall vi skatta a för varje stickprov. Det kan göras enkelt enligt & *+ " '7"8 < Element i i vektorn * innehåller skattningen av medelvärdet för stickprov i. Plotta *! Hur ser det ut? Vilken ungefärlig fördelning har skattningen av medelvärdet? Använd dig av kommandona,! och.%) och dina nyförvärvade kunskaper om Stora talens lag och Centrala gränsvärdessatsen för att ta reda på detta. 5 Skattning av volatiliteten På kurshemsidan hittar du filen >,$ /# &%. Här finns kursen hos fem aktiefonder noterade en gång i veckan med start i december 1997. Data finns i ), namnen på fonderna finns i. Vi skall anpassa parametrarna i geometriska brownska rörelser X (t) x e ( 2 2)t W (t) där W (t) N( 4 5 t) (se appendix till lab 3). Vi skall speciellt intressera oss för volatiliteten, dvs 4. Börja med att titta på materialet: & # >- (# &/% & 5 )"8 Vi är främst intresserade av logaritmen av den relativa kursen, Y (t) ln(x (t) X ()), som vi kan beräkna genom att dela varje element i ) med motsvarande element i en matris där varje rad är en upprepning av den första: 4
+/ 3) '$ &$ $ ) 8 4 6.8 &)1 6,4 8&8&8 5,8 Enligt modellen är Y (t) ( 4 2 2)t W (t), dvs en linjär trend plus normalfördelat brus. Genom att beräkna successiva skillnader Z t Y (t) Y (t 1) får vi att Z t 4 2 2 W (t) W (t 1) bör vara oberoende och N( &+#(!)>>1 "8 5 8,! 5 8.% / 1 8 4 2 2 4 )-fördelade. Ser det ut att vara normalfördelat? Om börsen hade varit stabil, dvs varierat ungefär lika mycket hela tiden, utan t.ex. börskrisen på hösten 1998, kunde vi skattat trenden 4 2 2 med medelvärdet och volatiliteten 4 med standardavvikelsen av Z t :na. Gör det med hjälp av resp. # : I plottarna ser det ju ut som om volatiliteten inte är konstant över tid. För att se hur den varierar kan man dra bort medelvärdet från Z t och kvadrera, dvs beräkna varje tidsstegs bidrag till variansen (kvadratiska avvikelsen från medelvärdet), och plotta den successiva summan: ".+,$ ( &-. 8 4 6.8& 5 8.83*" 51,"8&8 Lutningen på dessa kurvor anger volatiliteten i kvadrat, dvs variationen i fondkurs vid varje tidpunkt. I plotten syns börskrisen tydligt. Hur ser det ut efter krisen, dvs efter tiden 4 veckor? Är volatiliteten konstant då? Vilken fond varierade mest under sista halvåret? 6 Appendix 6.1 Wienerprocesser En wienerprocess W (t) är en följd av slumptal som har följande egenskaper: i) W (), dvs den börjar i vid tiden t, ii) ökningen i ett tidsintervall är oberoende av ökningen i alla andra, icke överlappande, tidsintervall, dvs W (t ) W (s ) och W (t 1 ) W (s 1 ) är oberoende då s t s 1 t 1. iii) W (t) W (s) N( 4 5 t s), dvs ökningen i intervallet (s t] är normalfördelad och variansen beror bara på intervallets längd, inte på, t.ex., var det ligger, iv) W (t) är kontinuerlig. Detta innebär bland annat att en wienerprocess visserligen är kontinuerlig men att den är så skrynklig att den inte har någon kontinuerlig derivata någonstans; den ändrar värde hela tiden. Trots detta är den flitigt använd som modell i många praktiska situationer. 5
3t 8 A 2 C 6 4 1 1 2 2 2 4 6 8 1 3 4 2 4 6 8 1 1 B 7 D 6 5 5 4 3 2 1 5 2 4 6 8 1 2 4 6 8 1 Figur 1: A C: Successiva förstoringar av en wienerprocess med 4 1. D: Motsvarande geometriska brownska rörelse: X (t) 8 e W (t). 6.2 Geometrisk brownsk rörelse En finansiell tillämpning av wienerprocessen är i modeller för räntefluktuationer och aktiekurser. Det visar sig nämligen att dessa ofta kan beskrivas med följande stokastiska differentialekvationssystem: X () x dx (t) X (t) dt X (t) dw (t) där dw (t) N( 4 ) är ändringen i wienerprocessen vid tiden t och beskriver driften i processen. I aktiesammanhang brukar 4 kallas volatilitet. Löser man denna stokastiska differentialekvation får man att X (t) x e ( 2 2)t W (t) Man kan visa att om 4 2 2 så växer processen ohämmat: X (t) när t. Om däremot 4 2 2 så dör processen så småningom ut: X (t) när t. I fallet då 4 2 2 varierar processen mellan godtyckligt stora och godtyckligt små värden. 6