Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 01, HT-07 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen, enkla punktskattningar och hypotesprövning Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik Stora talens lag Centrala gränsvärdessatsen Punktskattningar Hypotesprövning 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom Kapitel 5, 6 och 11-13 i kursboken samt hela laborationshandledningen. De data-filer och m-filer du behöver till denna laboration finns som vanligt på kursens hemsida. Till laborationens start har du med dig lösningar, som du kan redogöra för, till uppgifterna (a) (g): (a) Redogör för Stora talens lag. (b) Redogör för Centrala gränsvärdessatsen. (c) Låt X vara antal ögon vid ett tärningskast med p X (k) = 1/6 för k = 1,, 3, 4, 5, 6. Vilken fördelning har summan av n oberoende kast ungefär då n är stort? (d) Vi har observationer x 1, x,..., x n som är oberoende och exponentialfördelade med väntevärdet a. Härled ML- och MK-skattningarna av a. (e) Hur skattar man väntevärde och standardavvikelse med hjälp av stickprovet x 1,..., x n från en normalfördelning? (f) Vi har två stora, oberoende stickprov x 1,..., x n1 med E(X i ) = m 1 och V(X i ) = s samt y 1,..., y n med E(Y i ) = m och V(Y i ) = s där m 1, m och s är okända. Hur testar man H 0 : m 1 = m mot H 1 : m 1 < m på den approximativa signifikansnivån 5 %? Varför blir det inte en exakt signifikansnivå? (g) Vi har två stickprov x 1,..., x n med E(X i ) = m i +D och V(X i ) = s 1 samt y 1,..., y n med E(Y i ) = m i och V(Y i ) = s där m i, D, s 1 och s är okända. Vi vet också att X i Y i är normalfördelade. Hur testar man H 0 : D = 0 mot H 1 : D < 0 på signifikansnivån 5 %?

Stora talens lag Stora talens lag säger att om X n är medelvärdet av n likafördelade oberoende stokastiska variabler X 1,..., X n med ändlig varians, så gäller att P( X n m X > e ) 0 då n för varje e > 0, vilket också kan uttryckas som att X n m X i sannolikhet. Enklare uttryckt så kommer medelvärdet av n variabler att avvika allt mindre från väntevärdet då n växer. Ett sätt att illustrera detta är att kasta en tärning många gånger och se att de successiva medelvärdena konvergerar mot väntevärdet. Simulera först 100 tärningskast: >> help unidrnd >> X=unidrnd(6,100,1) Ett sätt att räkna ut de successiva medelvärdena är följande: >> Xbar=cumsum(X)./(1:100) Funktionen cumsum ger en vektor där element i är summan av de i första elementen i inparametern, i vårt fall X. Notationen./ betyder elementvis division och (1:100) är en kolonnvektor med talen 1 t.o.m. 100. Tänk ut att Xbar innehåller de successiva medelvärdena. Plotta dem. >> plot(1:100,xbar) Gör om alltihop med fler kast, t.ex. 1000 st. Ser allt ut som du väntat dig? 3 Centrala gränsvärdessatsen Börja med att hitta på en diskret sannolikhetsfunktion med några möjliga utfall, t.ex. den likformiga fördelningen över 1 t.o.m. 6, dvs ett tärningskast. Mata sedan in denna sannolikhetsfunktion i form av en vektor. >> p=[0 1 1 1 1 1 1]/6 Nollan finns där för att det blir lättare att hålla reda på saker och ting om det första elementet i vektorn är sannolikheten för att utfallet är noll. Välj gärna någon annan sannolikhetsfunktion än ovanstående förslag. Rita upp sannolikhetsfunktionen med kommandot bar. >> bar(0:length(p)-1,p) Funktionen length ger längden av en vektor. Som du vet beräknas sannolikhetsfunktionen för en summa av två oberoende diskreta stokastiska variabler genom en diskret faltning, se formel (4.14) i boken. I MATLAB finns en funktion, conv, som utför just en sådan faltning (faltning heter convolution på engelska). >> p=conv(p,p) >> p4=conv(p,p) >> p8=conv(p4,p4) Här blir p8 alltså sannolikhetsfunktionen för en summa av åtta stycken oberoende stokastiska variabler med sannolikhetsfunktionen p. Rita upp dessa nya sannolikhetsfunktioner. När börjar det likna en normalfördelning? Räkna nu ut väntevärde och standardavvikelse för en stokastisk variabel med sannolikhetsfunktionen p.

>> m=sum((0:6).*p) >> sigma=sqrt(sum(((0:6)-m).^.*p)) Funktionen sum ger summan av elementen i en vektor, notationen.^ betyder elementvis kvadrering av en vektor och sqrt är kvadratroten. Vi kan nu jämföra sannolikhetsfunktionen p4 med den approximativa normalfördelning N ( ) nm, s n (där n = 4) som vi får ur Centrala gränsvärdessatsen. >> bar(0:length(p4)-1,p4) >> hold on >> xx=0:0.5:30; >> plot(xx,normpdf(xx,4*m,sqrt(4)*sigma)) >> hold off Kommandot hold on gör att det man ritat inte tas bort vid nästa plottning. Approximeras p4 väl av normalfördelningen? Pröva också vad som händer om p är en mycket sned fördelning, t.ex. >> p=[0 10 1 1 1 1 1]/15 Hur många komponenter behövs det nu i summan för att fördelningen väl ska kunna approximeras med en normalfördelning? 4 Punktskattningar 4.1 ML- och MK-skattning Vi skall i den här uppgiften titta lite närmare på två av de vanligaste skattningsmetoderna i statistiken, nämligen ML- och MK-skattning. Vi skall bl.a. se att ML-skattning är ett maximeringsproblem medan MK-skattning kan ses som ett minimeringsproblem. I filen matdata.dat (som finns på kursens hemsida) har vi 150 mätningar av livslängden (enhet: timmar) av en viss komponent i en bil. Livslängden hos varje komponent antages vara oberoende av alla andra komponenter. Ladda in data och gör en första undersökning av livslängderna. >> load matdata.dat >> plot(matdata, * ) >> hist(matdata) Vi är intresserade av att skatta medellivslängden för komponenten. En variant att göra detta på är att göra en ML-skattning av a. För att kunna göra en ML-skattning måste vi ha en uppfattning om vilken fördelning data har. Från liknande experiment som gjorts tidigare har det visat sig att livslängden hos en viss komponent är approximativt exponentialfördelad. Alltså, vi antar att livslängden är exponentialfördelad med väntevärde a och ställer upp log-likelihoodfunktionen. Hur ser den ut? Svar: l(a) = ln L(a) =... Det finns (på kursens hemsida) en specialskriven m-fil, ML_exp, som beräknar l(a). Studera m-filens MAT- LAB-kommandon och förvissa dig om att den verkligen ger rätt funktion! (type ML_exp) Rita upp l(a), då 30 a 150. Hur ser funktionen ut och vilket värde på a motsvarar ML-skattningen? (Du kan använda kommandot zoom för att förstora delar av figuren.) >> a=[30:.5:150]; >> l=ml_exp(a,matdata); >> plot(a,l) 3

Nu går vi över och tittar på hur en MK-skattning av medellivslängden ser ut. Fördelen med MK jämfört med ML är att fördelningen för data ej behöver vara känd. Börja nu med att ställa upp förlustfunktionen, Q(a). Svar: Q(a) =... Programmet MK_exp (som du hittar på hemsidan) är specialskrivet för att beräkna Q(a). Titta på MATLABkommandona för att kolla att det stämmer! Rita ut Q(a). Vilket värde på a motsvarar MK-skattningen? >> Q=MK_exp(a,matdata); >> plot(a,q) Både ML- och MK-skattningen av a är enkel att beräkna, se förberedelseuppgift (d). Beräkna a ML och a MK och jämför med dina figurer. Här blev ML- och MK-skattningarna lika, det är inte alltid fallet. 4. Skattningen a är en stokastisk variabel! Om vi skulle ta 150 nya mätningar av livslängden hos ovanstående komponenter (dvs ett nytt stickprov) så skulle skattningen av medelvärdet med säkerhet bli annorlunda, dvs skattningen kan ses som en stokastisk variabel. För att illustrera detta tänker vi oss att vi tar 1000 stickprov med 150 mätningar i varje stickprov. Eftersom vi inte har 1000 riktiga stickprov så får vi nöja oss med att simulera data. Genom att utnyttja funktionen exprnd kan vi enkelt generera exponentialfördelade slumptal. Vi antar att det sanna medelvärdet är 100, dvs a = 100 >> help exprnd >> a=100; >> x=exprnd(a,150,1000); Kolonn nummer i i matrisen x motsvarar stickprov i. Nu skall vi skatta a för varje stickprov. Det kan göras enkelt enligt >> a_est=mean(x); Element i i vektorn a_est innehåller skattningen av medelvärdet för stickprov i. Plotta a_est! Hur ser det ut? Vilken ungefärlig fördelning har skattningen av medelvärdet? Använd dig av kommandona hist och normplot och dina nyförvärvade kunskaper om Stora talens lag och Centrala gränsvärdessatsen för att ta reda på detta. 4

5 Mottagarkänslighet Under laboration och datamaterialet sensitivity.mat studerade vi mottagarkänslighet för 76 telefoner för en radiokanal kring 947.5 MHz (mitt på GSMs mottagarfrekvensband), kolonn, och för en radiokanal kring 935 (en kanal längst ner på frekvensbandet), kolonn 1. Under laboration 1 studerade vi histogrammen nedan och ställde frågan om det var någon skillnad mellan väntevärdena. >> load sensitivity >> slc=sensitivity(:,1); >> smc=sensitivity(:,); >> x=-109:0.3:-104; >> subplot(,1,1) >> hist(slc,x) >> axis([-110-104 0 40]) >> subplot(,1,) >> hist(smc,x) >> axis([-110-104 0 40]) I histogrammen ser man en tydlig skillnad men är den signifikant? 5.1 Test av skillnad mellan väntevärden Uppgift 1: Beräkna medelvärde och standardavvikelse för de två kolonnerna, anta att standardavvikelserna är lika, samt testa på nivån a om det finns någon skillnad mellan väntevärdena m smc och m slc ; se förberedelseuppgift (f). Svar: H 0 : m smc = m slc, H 1 : m smc < m slc. Om du vill får du gärna konstruera motsvarande ensidiga konfidensintervall i stället och på så sätt avgöra om data styrker vår uppfattning om att känsligheten är sämre för kanaler nära frekvensbandets ändpunkter. 5. Stickprov i par I själva verket hör mätningarna ihop parvis. Den första mätningen av SMC och SLC är gjord på samma telefon och är knappast oberoende; en dålig telefon är antagligen dålig över hela frekvensbandet. Plotta SMC mot SLC för att se att så är fallet. De s -skattningar vi gjorde ovan innefattar alltså även variationen mellan telefoner och ger en kraftig överskattning av variationen i skillnad mellan de två frekvensbanden för en enskild telefon. Uppgift : Beräkna de parvisa skillnaderna mellan SMC och SLC och gör ett histogram. Skatta väntevärdet (D = m smc m slc ) och standardavvikelsen för skillnaderna och testa H 0 : D = 0, H 1 : D < 0. Hur blir det nu med signifikansen? Svar: 5