SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL



Relevanta dokument
SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Demonstration av laboration 2, SF1901

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1910 Tillämpad statistik, HT 2018 Laboration 2 för CSAMH

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Datorövning 1: Fördelningar

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Datorövning 1 Fördelningar

Laboration 3: Parameterskattning och Fördelningsanpassning

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

SF1901 Sannolikhetsteori och statistik I

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Datorövning 1: Fördelningar

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

SF1901 Sannolikhetsteori och statistik I

Projekt 1: Om fördelningar och risker

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

0 om x < 0, F X (x) = c x. 1 om x 2.

Datorövning 3 Bootstrap och Bayesiansk analys

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Kap 2. Sannolikhetsteorins grunder

Datorövning 1 Introduktion till Matlab Fördelningar

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TMS136. Föreläsning 4

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

SF1911: Statistik för bioteknik

SF1901 Sannolikhetsteori och statistik I

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 1: Mer om Matlab samt Deskriptiv statistik

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

4 Diskret stokastisk variabel

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Datorövning 3 Bootstrap och Bayesiansk analys

Introduktion till statistik för statsvetare

Grundläggande matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Avd. Matematisk statistik

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Laboration 1: Introduktion till R och Deskriptiv statistik

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

(x) = F X. och kvantiler

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

Transformer i sannolikhetsteori

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Lärmål Sannolikhet, statistik och risk 2015

DATORÖVNING 2: STATISTISK INFERENS.

Matematisk statistik för B, K, N, BME och Kemister

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

F9 SAMPLINGFÖRDELNINGAR (NCT

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Miniprojektuppgift i TSRT04: Femtal i Yatzy

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

TMS136. Föreläsning 7

SF1901: Sannolikhetslära och statistik

Tentamen TANA17 Matematiska beräkningar Provkod: DAT1 Godkänd: 8p av totalt 20p Hjälpmedel: MATLAB

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

TAIU07 Matematiska beräkningar med Matlab

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 5, Matematisk statistik Π + E

3 Jämförelse mellan Polyas urna och en vanlig urna

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Matematisk statistik TMS064/TMS063 Tentamen

1.1 Diskret (Sannolikhets-)fördelning

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Transkript:

Matematisk Statistik SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL Introduktion Detta är handledningen till Laboration 1, ta med en en utskriven kopia av den till laborationen. Läs handledningen två gånger. Försäkra dig om att du förstår hur de MATLAB-kommandon som finns i den bifogade koden fungerar. Laborationen bedöms som godkänd eller ej godkänd. För att få deltaga i laborationen skall svar på förberedelseuppgifter kunna redovisas individuellt. Arbete i grupp är tillåtet med högst tre, personer per grupp. Godkänd laboration ger 3 poäng till ordinarie tentamenstillfälle. Förberedelseuppgifter 1. Definiera begreppen sannolikhet, fördelningsfunktion, och täthetsfunktion. Skriv upp sambandet mellan dem. 2. Den stokastiska variabeln X har täthetsfunktion för ett specifikt λ. f X (x) = λe x λ λ +, x [1, 10] (1) x (a) Bestäm (med ett närmevärde) λ så att f X bli en täthetsfunktion. (b) Bestäm fördelningsfunktionen för X. (c) Bestäm sannolikheten att X är mindre än 7. Använd λ = 0.4267.

(d) Bestäm E[X]. 3. Låt U vara likformigt fördelad över intervallet [0, 2π], beräkna (a) E[cos(U)] (b) E[sin(U) 2 ] 4. Redogör för Stora talens lag. 5. Redogör för Centrala gränsvärdessatsen. 6. Läs sid. 272-273 om bootstrap i läroboken. Sida 2 av 10

Syfte och vidare introduktion Börja laborationen med att ladda ner filerna 1. plot_mvnpdf.m 2. hist_density.m 3. birth.dat 4. birth.txt - beskrivning av datat birth.dat från kurshemsidan. Se till att de ligger i den mapp du kommer att arbeta i. För att kontrollera att du har lagt filerna rätt, skriv ls och se om filerna ovan listas. Du kan skriva dina kommandon direkt i MATLAB-prompten men det är absolut att föredra att arbeta i editorn. Om den inte är öppen så kan du öppna den och skapa ett nytt dokument genom att skriva edit lab1.m. Koden som ges nedan är skriven i celler. En ny cell påbörjas genom att skriva två procenttecken. Ctrl+Enter exkeverar innehållet i en cell. Temat för den här datorlaborationen är simulering. Sannolikhetsteoridelen av kursen handlar om hur man genom beräkningar kan ta fram olika storheter som sannolikheter, väntevärden osv, för en given stokastisk modellen. För mer komplicerade system är det ibland inte alls möjligt att göra exakta beräkningar, eller så är de så tidskrävande att man avstår. I sådana sammanhang kan simulering vara ett alternativ. Simulering innebär att man med hjälp av en dator drar ett antal replikeringar av det stokastiska systemet, och sedan använder t ex medelvärden eller empiriska kvantiler (mer om det nedan) för att uppskatta de storheter man söker. I den här laborationen skall vi göra detta för några enkla problem, men grundprinciperna går att använda på långt mer komplicerade problem som vi inte kan lösa med enkla beräkningar. Problem 0 - Beräkna sannolikheter Läs help för funktionerna binocdf, binopdf, normcdf, normpdf, expcdf och exppdf. Låt X 1 vara Bin(10, 0.3), X 2 N(5, 3), X 3 Exp(7), bestäm (med hjälp av funktionerna ovan) för k = 1, 2, 3 1. P (X k 3)..... 2. P (X k > 7)..... Sida 3 av 10

3. P (3 < X k 4)..... Problem 1 - Täthetsfunktioner Plotta täthetsfunktionen för en exponential-fördelad stokastisk variabel med väntevärde µ. 1 %% Problem 1: exp-pdf 2 dx = 0.1; 3 x = 0:dx:15; % Skapar en vektor med dx som inkrement 4 mu = 1; 5 y = exppdf(x, mu); % exponential-fordelningen 6 plot(x,y) Gör nu samma sak för täthetsfunktionen du jobbat med i förberedelseuppgifterna. 1 %% Problem 1: lambda-plot 2 lambda = 0.4267; 3 f=(lambda*exp(-x/lambda)+lambda./x).*(x > = 1 & x < = 10); 4 plot(x, f) Diskutera skillnaden mellan fördelningarna. Problem 2 - Multivariat Normalfördelning Den multivariata normalfördelningen ritas upp av plot_mvnpdf, undersök hur funktionen fungerar och testa med lite olika parametervärden. 1 %% Problem 2: Multivariat normal 2 mux = 0; muy = 100; sigmax = 1; sigmay = 4; rho = 0.7; 3 plot_mvnpdf(mux, muy, sigmax, sigmay, rho) Hur påverkar olika parametervärden utseendet på plotten? Sida 4 av 10

Problem 3 - Simulering av slumptal I denna övning så genererar vi ett stort antal slumptal, ritar upp deras histogram och plottar slutligen den sanna täthetsfunktionen ovanpå. 1 %% Problem 3: Simulering av slumptal 2 mu = 10; 3 N = 1e4; 4 y = exprnd(mu, N, 1); % Genererar N exp-slumptal 5 hist_density(y); % Skapar ett normaliserat histogram 6 t = linspace(0, 100, N/10); % Vektor med N/10 punkter 7 hold on 8 plot(t, exppdf(t, mu), 'r') % 'r' betyder rod linje 9 hold off Upprepa simuleringarna och studera hur histogrammet förändras. Hur förhåller sig histogrammet till den röda linjen och hur förklaras variationen kring denna linje? Problem 4 - Stora talens lag, Monte Carlo och CGS I detta avsnitt kommer vi igen att generera stora mängder slumptal, nu för att beräkna väntevärden och sannolikheter. Antag att man vill veta väntevärdet på en tärning, det är inte svårt att beräkna för hand men det går också att kasta tärningen många gånger och sedan räkna ut medelvärdet på dessa kast. Om X 1, X 2,..., X n är likafördelade med väntevärde µ så gäller enligt stora talens lag i [2] att ( 1 n ) P X i µ n < ε 1 (2) i=1 för varje ε > 0 när n. Det vill säga, sannolikheten att skillnaden mellan medelvärdet och det sanna väntevärdet är mindre än ε går mot ett när antalet observationer går mot oändligheten. Detta sätt att beräkna väntevärden kallas för Monte Carlo-metoder. Idén bakom Monte Carlo är gammal och har funnits inom matematiken åtminstone sedan 1700-talet, men synen kom att förändras under andra halvan av 1900-talet då det på allvar blev möjligt att utföra stora beräkningar. Under sent 1940-tal utvecklade Stanislaw Ulam och John von Neumann metoder för att göra dessa tärningskast med hjälp av dator enligt [1]. Metoden namngavs efter casinot Monte Carlo i Monaco och användes senare under Manhattanprojektet vars syfte var att ta fram den första atombomben. Sida 5 av 10

Illustration av Stora talens lag Koden nedan simulerar M stycken exponentialfördelade stokastiska variabler. Efter detta plottas medelvärdet efter hand. Dvs. plotten som visas är din skattning av medelvärdet upp till och med variabel nummer k. 1 %% Stora talens lag 2 mu = 0.5; 3 M = 500; 4 X = exprnd(mu, M, 1); 5 plot(ones(m, 1)*mu, 'r-.') 6 hold on 7 for k = 1:M 8 plot(k, mean(x(1:k))) 9 if k == 1 10 legend('sant \mu', 'Skattning av \mu') 11 end 12 xlabel(num2str(k)), pause(0.001) 13 end 14 hold off Om du tröttnar på att vänta så kan du kommentera bort pause-raden. Ser det ut som du förväntat dig?........... Illustration av Centrala Gränsvärdessatsen Koden nedan simulerar exponential fördelade slumptal och summerar sedan dessa. Studera koden och förklara vad N representerar........... 1 %% CGS 2 M = 1e3; 3 N = 4; 4 mu = 5; 5 X = exprnd(mu, M, N); 6 S = cumsum(x, 2); 7 for k = 1:N 8 hist(s(:, k), 30) 9 xlabel(num2str(k)) 10 pause(0.1) 11 end Sida 6 av 10

Justera N, vad händer när du ökar respektive minskar värdet? Varför? Vid vilket N ser det ut som att det inte länge gör någon skillnad om du ökar det?........... Vilken fördelning verkar summorna ha? Varför har de denna fördelning?........... Väntevärden Uppgiften är nu att beräkna samma väntevärden som gjorts i förberedelseuppgift 3. Det första kan du beräkna enligt nedan, 1 %% Monte Carlo 2 N = 1e5; 3 U = rand(n, 1)*2*pi; 4 mean(sin(u).^2); Kontrollera att resultatet stämmer med vad du förväntade dig i båda fallen. Låt X och Y vara oberoende stokastiska variabler där X exp(λ), λ = 4 och Y är normalfördelad med väntevärde 0 och standardavvikelse 1. Använd nu Monte Carlo för att beräkna E[(e X ) cos(y ) ]............ Problem 5 - Deskriptiv statistik Vi skall nu gå vidare till att studera skillnaden mellan väntevärden i två populationer, t ex skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten. (Om ni vill kan ni ta två andra populationer, och/eller andra variabler att studera!). Sida 7 av 10

I filen birth.txt ser man att kolonn 20 i birth.txt innehåller rökvanor, och att värdena 1 och 2 betyder att mamman inte röker under graviditeten, medan värdet 3 betyder att hon gör det. Ni kan skapa två variabler x och y för födelsevikter hörande till icke-rökande respektive rökande mammor enligt >> x = birth(birth(:, 20) < 3, 3); >> y = birth(birth(:, 20) == 3, 3); Vad som händer här är att birth(:, 20) < 3 returnerar en vektor av sant och falskt, och att bara de rader av kolonn 3 (födelsevikterna i birth för vilka jämförelsen är sann, väljs ut. Använd koden nedan för att visuellt inspektera datat. 1 load lab2data/birth.dat 2 x = birth(birth(:, 20) < 3, 3); 3 y = birth(birth(:, 20) &= 3, 3); 4 subplot(2,2,1) 5 boxplot(x) 6 axis([0 2 500 5000]) 7 subplot(2,2,2) 8 boxplot(y) 9 axis([0 2 500 5000]) 10 subplot(2,2,3:4) 11 ksdensity(x) 12 hold on 13 [fy, ty] = ksdensity(y); 14 plot(ty, fy, 'r') 15 hold off Vad betyder plotarna? Vilka slutsatser kan ni dra? Problem 6 - Bootstrap (gör i mån av tid) Namnet bootstrap syftar till metaforen att dra sig upp ur ett knivig situation genom att ta tag i sina stövelskaft. Ett klassiskt exempel är historien om Baron von Münchausen i vilken han ska ha räddat sig och sin häst ur ett träsk genom att dra ur de båda genom att lyfta sig själv i håret. Detta förfarande beskriver idén bakom den statistiska varianten av metoden mycket väl: Man har observerat en begränsad mängd data och man vill bilda sig en uppfattning om vad som hade hänt om man hade haft fler observationer. I vårt fall innebeär det att vi gör upprepade slumpvisa dragningar från vårt observerade data med funktionen randsample. Vi ska börja med att titta på ett simulerat exempel där vi vet vad som borde hända och fortsätter sedan i nästa laboration med att titta på riktiga data, vilket är det som vi huvudsakligen är intresserade av. Sida 8 av 10

Simulering av summerade exponential-fördelade variabler Om X 1, X 2,..., X n alla är oberoende och exponentialfördelade med intensitet λ så gäller det att Y n = n k=1 X k Γ(n, 1 ). (3) λ Med andra ord, summan av de exponentialfördelade variablerna är gammafördelad. (Specialfallet när Γ-fördelningen har ett positivt heltal n som första parameter kallas mer specifikt för Erlang-fördelning.) Vi ska nu simulera M stycken summor av typen (3), med n noterat som n_sum i koden nedan, och studera ett histogram för dem. Börja med att studera koden nedan. Läs help randsample och testa hur funktionen fungerar. Kommandot reshape används nedan för att omforma matrisen x till en vektor så att den ska kunna användas i randsample. Notera att vi använder väntevärdet µ = 1 λ i koden nedan. Sida 9 av 10

1 %% Bootstrap - Simulering 2 % lambda = 1/5; 3 mu = 5; 4 M = 1e3; 5 n_sum = 5; 6 X = exprnd(mu, M, n_sum); 7 g = sum(x, 2); 8 subplot(211) 9 hist_density(g) 10 hold on 11 t = 0:0.01:mu*10; 12 plot(t, gampdf(t, n_sum, mu), 'r') 13 hold off 14 B = 1e3; % Antal bootstrapreplikat 15 totalnosamples = M*n_sum; 16 X = reshape(x, totalnosamples, 1); % Gor om X till vektor 17 yboot = zeros(b, 1); 18 for j = 1:B 19 sampledraws = X(randsample(totalNoSamples, n_sum, 1)); 20 yboot(j) = sum(sampledraws); 21 end 22 subplot(212) 23 hist_density(yboot) 24 hold on 25 plot(t, gampdf(t, n_sum, mu), 'r') 26 hold off Förklara vad de två raderna i for-loopen gör! Justera B, M, respektive mu. Vad händer? Varför? Referenser [1] Eckhardt, Roger (1987) Stan Ulam, John Von, Neumann, and the Monte Carlo, Method Los Alamos Sci., Vol 15, p. 131-43. [2] Blom, G., Enger, J., Englund, G., Grandell, J., och Holst, L., (2005). Sannolikhetsteori och statistikteori med tillämpningar. Sida 10 av 10