Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik



Relevanta dokument
Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Laboration 4: Intervallskattning och hypotesprövning

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 5: Intervallskattning och hypotesprövning

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Projekt 1: Om fördelningar och risker

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 4: Intervallskattning och hypotesprövning

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

bli bekant med summor av stokastiska variabler.

Laboration 4: Lineär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Laboration 4: Intervallskattning och hypotesprövning

TAIU07 Matematiska beräkningar med Matlab

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 3: Parameterskattning och Fördelningsanpassning

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Resultatet läggs in i ladok senast 13 juni 2014.

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Datorövning 1 Fördelningar

Laboration 1: Beskrivande statistik

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Datorlaboration 2 Konfidensintervall & hypotesprövning

Avd. Matematisk statistik

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Demonstration av laboration 2, SF1901

Laboration 1: Mer om Matlab samt Deskriptiv statistik

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

MMA132: Laboration 1 Introduktion till MATLAB

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Inlämningsuppgift 4 NUM131

Datorövning 1: Fördelningar

Datorövning 3 Bootstrap och Bayesiansk analys

Miniprojektuppgift i TSRT04: Femtal i Yatzy

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 4: Intervallskattning och hypotesprövning

Laboration 4: Hypotesprövning och styrkefunktion

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Datorövning 2 Diskret fördelning och betingning

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Datorövning 1: Fördelningar

Datorövning 3 Bootstrap och Bayesiansk analys

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Tentamen TANA17 Matematiska beräkningar Provkod: DAT1 Godkänd: 8p av totalt 20p Tid: 21:a April klockan

Processidentifiering och Polplacerad Reglering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Index. Vektorer och Elementvisa operationer. Summor och Medelvärden. Grafik i två eller tre dimensioner. Ytor. 20 januari 2016 Sida 1 / 26

Linjär algebra med tillämpningar, lab 1

Summor av slumpvariabler

Statistik och epidemiologi T5

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 2 november 2015 Sida 1 / 23

1 Förberedelseuppgifter

Tentamen TANA17 Matematiska beräkningar Provkod: DAT1 Godkänd: 8p av totalt 20p Tid: 14:e januari klockan

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Instruktion för laboration 1

Tentamen i Matematisk statistik Kurskod S0001M

TSBB14 Laboration: Intro till Matlab 1D

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Datorövning 1 Introduktion till Matlab Fördelningar

Laboration: Grunderna i MATLAB

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Datorövning Matlab/Simulink. Styr- och Reglerteknik för U3/EI2

(a) Hur stor är sannolikheten att en slumpvist vald person tror att den är laktosintolerant?

Lektion 1: Fördelningar och deskriptiv analys

Beräkningsverktyg HT07

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Mer om funktioner och grafik i Matlab

Funktioner och grafritning i Matlab

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Textsträngar från/till skärm eller fil

Lunds tekniska högskola Matematikcentrum Matematisk statistik

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Föreläsning 8: Konfidensintervall

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 01, HT-07 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen, enkla punktskattningar och hypotesprövning Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik Stora talens lag Centrala gränsvärdessatsen Punktskattningar Hypotesprövning 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom Kapitel 5, 6 och 11-13 i kursboken samt hela laborationshandledningen. De data-filer och m-filer du behöver till denna laboration finns som vanligt på kursens hemsida. Till laborationens start har du med dig lösningar, som du kan redogöra för, till uppgifterna (a) (g): (a) Redogör för Stora talens lag. (b) Redogör för Centrala gränsvärdessatsen. (c) Låt X vara antal ögon vid ett tärningskast med p X (k) = 1/6 för k = 1,, 3, 4, 5, 6. Vilken fördelning har summan av n oberoende kast ungefär då n är stort? (d) Vi har observationer x 1, x,..., x n som är oberoende och exponentialfördelade med väntevärdet a. Härled ML- och MK-skattningarna av a. (e) Hur skattar man väntevärde och standardavvikelse med hjälp av stickprovet x 1,..., x n från en normalfördelning? (f) Vi har två stora, oberoende stickprov x 1,..., x n1 med E(X i ) = m 1 och V(X i ) = s samt y 1,..., y n med E(Y i ) = m och V(Y i ) = s där m 1, m och s är okända. Hur testar man H 0 : m 1 = m mot H 1 : m 1 < m på den approximativa signifikansnivån 5 %? Varför blir det inte en exakt signifikansnivå? (g) Vi har två stickprov x 1,..., x n med E(X i ) = m i +D och V(X i ) = s 1 samt y 1,..., y n med E(Y i ) = m i och V(Y i ) = s där m i, D, s 1 och s är okända. Vi vet också att X i Y i är normalfördelade. Hur testar man H 0 : D = 0 mot H 1 : D < 0 på signifikansnivån 5 %?

Stora talens lag Stora talens lag säger att om X n är medelvärdet av n likafördelade oberoende stokastiska variabler X 1,..., X n med ändlig varians, så gäller att P( X n m X > e ) 0 då n för varje e > 0, vilket också kan uttryckas som att X n m X i sannolikhet. Enklare uttryckt så kommer medelvärdet av n variabler att avvika allt mindre från väntevärdet då n växer. Ett sätt att illustrera detta är att kasta en tärning många gånger och se att de successiva medelvärdena konvergerar mot väntevärdet. Simulera först 100 tärningskast: >> help unidrnd >> X=unidrnd(6,100,1) Ett sätt att räkna ut de successiva medelvärdena är följande: >> Xbar=cumsum(X)./(1:100) Funktionen cumsum ger en vektor där element i är summan av de i första elementen i inparametern, i vårt fall X. Notationen./ betyder elementvis division och (1:100) är en kolonnvektor med talen 1 t.o.m. 100. Tänk ut att Xbar innehåller de successiva medelvärdena. Plotta dem. >> plot(1:100,xbar) Gör om alltihop med fler kast, t.ex. 1000 st. Ser allt ut som du väntat dig? 3 Centrala gränsvärdessatsen Börja med att hitta på en diskret sannolikhetsfunktion med några möjliga utfall, t.ex. den likformiga fördelningen över 1 t.o.m. 6, dvs ett tärningskast. Mata sedan in denna sannolikhetsfunktion i form av en vektor. >> p=[0 1 1 1 1 1 1]/6 Nollan finns där för att det blir lättare att hålla reda på saker och ting om det första elementet i vektorn är sannolikheten för att utfallet är noll. Välj gärna någon annan sannolikhetsfunktion än ovanstående förslag. Rita upp sannolikhetsfunktionen med kommandot bar. >> bar(0:length(p)-1,p) Funktionen length ger längden av en vektor. Som du vet beräknas sannolikhetsfunktionen för en summa av två oberoende diskreta stokastiska variabler genom en diskret faltning, se formel (4.14) i boken. I MATLAB finns en funktion, conv, som utför just en sådan faltning (faltning heter convolution på engelska). >> p=conv(p,p) >> p4=conv(p,p) >> p8=conv(p4,p4) Här blir p8 alltså sannolikhetsfunktionen för en summa av åtta stycken oberoende stokastiska variabler med sannolikhetsfunktionen p. Rita upp dessa nya sannolikhetsfunktioner. När börjar det likna en normalfördelning? Räkna nu ut väntevärde och standardavvikelse för en stokastisk variabel med sannolikhetsfunktionen p.

>> m=sum((0:6).*p) >> sigma=sqrt(sum(((0:6)-m).^.*p)) Funktionen sum ger summan av elementen i en vektor, notationen.^ betyder elementvis kvadrering av en vektor och sqrt är kvadratroten. Vi kan nu jämföra sannolikhetsfunktionen p4 med den approximativa normalfördelning N ( ) nm, s n (där n = 4) som vi får ur Centrala gränsvärdessatsen. >> bar(0:length(p4)-1,p4) >> hold on >> xx=0:0.5:30; >> plot(xx,normpdf(xx,4*m,sqrt(4)*sigma)) >> hold off Kommandot hold on gör att det man ritat inte tas bort vid nästa plottning. Approximeras p4 väl av normalfördelningen? Pröva också vad som händer om p är en mycket sned fördelning, t.ex. >> p=[0 10 1 1 1 1 1]/15 Hur många komponenter behövs det nu i summan för att fördelningen väl ska kunna approximeras med en normalfördelning? 4 Punktskattningar 4.1 ML- och MK-skattning Vi skall i den här uppgiften titta lite närmare på två av de vanligaste skattningsmetoderna i statistiken, nämligen ML- och MK-skattning. Vi skall bl.a. se att ML-skattning är ett maximeringsproblem medan MK-skattning kan ses som ett minimeringsproblem. I filen matdata.dat (som finns på kursens hemsida) har vi 150 mätningar av livslängden (enhet: timmar) av en viss komponent i en bil. Livslängden hos varje komponent antages vara oberoende av alla andra komponenter. Ladda in data och gör en första undersökning av livslängderna. >> load matdata.dat >> plot(matdata, * ) >> hist(matdata) Vi är intresserade av att skatta medellivslängden för komponenten. En variant att göra detta på är att göra en ML-skattning av a. För att kunna göra en ML-skattning måste vi ha en uppfattning om vilken fördelning data har. Från liknande experiment som gjorts tidigare har det visat sig att livslängden hos en viss komponent är approximativt exponentialfördelad. Alltså, vi antar att livslängden är exponentialfördelad med väntevärde a och ställer upp log-likelihoodfunktionen. Hur ser den ut? Svar: l(a) = ln L(a) =... Det finns (på kursens hemsida) en specialskriven m-fil, ML_exp, som beräknar l(a). Studera m-filens MAT- LAB-kommandon och förvissa dig om att den verkligen ger rätt funktion! (type ML_exp) Rita upp l(a), då 30 a 150. Hur ser funktionen ut och vilket värde på a motsvarar ML-skattningen? (Du kan använda kommandot zoom för att förstora delar av figuren.) >> a=[30:.5:150]; >> l=ml_exp(a,matdata); >> plot(a,l) 3

Nu går vi över och tittar på hur en MK-skattning av medellivslängden ser ut. Fördelen med MK jämfört med ML är att fördelningen för data ej behöver vara känd. Börja nu med att ställa upp förlustfunktionen, Q(a). Svar: Q(a) =... Programmet MK_exp (som du hittar på hemsidan) är specialskrivet för att beräkna Q(a). Titta på MATLABkommandona för att kolla att det stämmer! Rita ut Q(a). Vilket värde på a motsvarar MK-skattningen? >> Q=MK_exp(a,matdata); >> plot(a,q) Både ML- och MK-skattningen av a är enkel att beräkna, se förberedelseuppgift (d). Beräkna a ML och a MK och jämför med dina figurer. Här blev ML- och MK-skattningarna lika, det är inte alltid fallet. 4. Skattningen a är en stokastisk variabel! Om vi skulle ta 150 nya mätningar av livslängden hos ovanstående komponenter (dvs ett nytt stickprov) så skulle skattningen av medelvärdet med säkerhet bli annorlunda, dvs skattningen kan ses som en stokastisk variabel. För att illustrera detta tänker vi oss att vi tar 1000 stickprov med 150 mätningar i varje stickprov. Eftersom vi inte har 1000 riktiga stickprov så får vi nöja oss med att simulera data. Genom att utnyttja funktionen exprnd kan vi enkelt generera exponentialfördelade slumptal. Vi antar att det sanna medelvärdet är 100, dvs a = 100 >> help exprnd >> a=100; >> x=exprnd(a,150,1000); Kolonn nummer i i matrisen x motsvarar stickprov i. Nu skall vi skatta a för varje stickprov. Det kan göras enkelt enligt >> a_est=mean(x); Element i i vektorn a_est innehåller skattningen av medelvärdet för stickprov i. Plotta a_est! Hur ser det ut? Vilken ungefärlig fördelning har skattningen av medelvärdet? Använd dig av kommandona hist och normplot och dina nyförvärvade kunskaper om Stora talens lag och Centrala gränsvärdessatsen för att ta reda på detta. 4

5 Mottagarkänslighet Under laboration och datamaterialet sensitivity.mat studerade vi mottagarkänslighet för 76 telefoner för en radiokanal kring 947.5 MHz (mitt på GSMs mottagarfrekvensband), kolonn, och för en radiokanal kring 935 (en kanal längst ner på frekvensbandet), kolonn 1. Under laboration 1 studerade vi histogrammen nedan och ställde frågan om det var någon skillnad mellan väntevärdena. >> load sensitivity >> slc=sensitivity(:,1); >> smc=sensitivity(:,); >> x=-109:0.3:-104; >> subplot(,1,1) >> hist(slc,x) >> axis([-110-104 0 40]) >> subplot(,1,) >> hist(smc,x) >> axis([-110-104 0 40]) I histogrammen ser man en tydlig skillnad men är den signifikant? 5.1 Test av skillnad mellan väntevärden Uppgift 1: Beräkna medelvärde och standardavvikelse för de två kolonnerna, anta att standardavvikelserna är lika, samt testa på nivån a om det finns någon skillnad mellan väntevärdena m smc och m slc ; se förberedelseuppgift (f). Svar: H 0 : m smc = m slc, H 1 : m smc < m slc. Om du vill får du gärna konstruera motsvarande ensidiga konfidensintervall i stället och på så sätt avgöra om data styrker vår uppfattning om att känsligheten är sämre för kanaler nära frekvensbandets ändpunkter. 5. Stickprov i par I själva verket hör mätningarna ihop parvis. Den första mätningen av SMC och SLC är gjord på samma telefon och är knappast oberoende; en dålig telefon är antagligen dålig över hela frekvensbandet. Plotta SMC mot SLC för att se att så är fallet. De s -skattningar vi gjorde ovan innefattar alltså även variationen mellan telefoner och ger en kraftig överskattning av variationen i skillnad mellan de två frekvensbanden för en enskild telefon. Uppgift : Beräkna de parvisa skillnaderna mellan SMC och SLC och gör ett histogram. Skatta väntevärdet (D = m smc m slc ) och standardavvikelsen för skillnaderna och testa H 0 : D = 0, H 1 : D < 0. Hur blir det nu med signifikansen? Svar: 5