SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Relevanta dokument
SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Demonstration av laboration 2, SF1901

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

SF1910 Tillämpad statistik, HT 2018 Laboration 2 för CSAMH

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Datorövning 1: Fördelningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Datorövning 1 Fördelningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Datorövning 1: Fördelningar

SF1901 Sannolikhetsteori och statistik I

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 3: Parameterskattning och Fördelningsanpassning

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

SF1901 Sannolikhetsteori och statistik I

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

SF1911: Statistik för bioteknik

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

TMS136. Föreläsning 4

4 Diskret stokastisk variabel

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Datorövning 1 Introduktion till Matlab Fördelningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

0 om x < 0, F X (x) = c x. 1 om x 2.

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

Introduktion till statistik för statsvetare

Grundläggande matematisk statistik

Datorövning 3 Bootstrap och Bayesiansk analys

Matematisk statistik TMS064/TMS063 Tentamen

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Projekt 1: Om fördelningar och risker

Datorövning 3 Bootstrap och Bayesiansk analys

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Laboration 1: Mer om Matlab samt Deskriptiv statistik

Miniprojektuppgift i TSRT04: Femtal i Yatzy

Kap 2. Sannolikhetsteorins grunder

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

TAIU07 Matematiska beräkningar med Matlab

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

F9 Konfidensintervall

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

3 Jämförelse mellan Polyas urna och en vanlig urna

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

SF1901: Sannolikhetslära och statistik

Lektionsanteckningar 11-12: Normalfördelningen

TMS136. Föreläsning 7

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1901: Sannolikhetslära och statistik

1.1 Diskret (Sannolikhets-)fördelning

(x) = F X. och kvantiler

Matematisk statistik för B, K, N, BME och Kemister

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

SF1901: Sannolikhetslära och statistik

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Datorövning 6 Extremvärden och Peak over Threshold

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Lärmål Sannolikhet, statistik och risk 2015

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

1 Inledning. 2 Att logga in och ta sig in i MATLAB. 3 MATLABs grundfunktioner

Laboration med Minitab

Föreläsning 8 för TNIU23 Integraler och statistik

Datorövning 6 Extremvärden och Peaks over Threshold

Tentamen TANA17 Matematiska beräkningar Provkod: DAT1 Godkänd: 8p av totalt 20p Tid: 21:a April klockan

Transkript:

Matematisk Statistik Introduktion SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI Detta är handledningen till Laboration 1, ta med en en utskriven kopia av den till laborationen. Läs handledningen två gånger. Försäkra dig om att du förstår hur de MATLAB-kommandon som finns i den bifogade koden fungerar. Laborationen bedöms som godkänd eller ej godkänd. För att få deltaga i laborationen skall svar på förberedelseuppgifter kunna redovisas individuellt. Arbete i grupp är tillåtet (och uppmuntras) med högst två personer per grupp. Godkänd laboration ger 3 poäng på ordinarie tentamenstillfälle. Förberedelseuppgifter 1. Definiera begreppen sannolikhet, fördelningsfunktion, och täthetsfunktion. Skriv upp sambandet mellan dem. 2. Den stokastiska variabeln X har täthetsfunktion för ett specifikt λ. f X (x) = λe x λ + λ, x [1, 10] (1) x (a) Bestäm (med ett närmevärde) λ så att f X blir en täthetsfunktion. (b) Bestäm fördelningsfunktionen för X. (c) Bestäm sannolikheten att X är mindre än 7. Använd λ = 0.4267. (d) Bestäm E[X].

3. Låt U vara likformigt fördelad över intervallet [0,2π], beräkna (a) E[cos(U)] (b) E[sin(U) 2 ] 4. Redogör för Stora talens lag. 5. Redogör för Centrala gränsvärdessatsen. 6. Läs sid. 272-273 om bootstrap i läroboken. Syfte och vidare introduktion Börja laborationen med att ladda ner följande filer från kurshemsidan. plot_mvnpdf.m hist_density.m birth.dat birth.txt - beskrivning av datat birth.dat Se till att de ligger i den mapp du kommer att arbeta i. För att kontrollera att du har lagt filerna rätt, skriv ls och se om filerna ovan listas. Du kan skriva dina kommandon direkt i MATLAB-prompten men det är absolut att föredra att arbeta i editorn. Om den inte är öppen så kan du öppna den och skapa ett nytt dokument genom att skriva edit lab1.m. Koden som ges nedan är skriven i celler. En ny cell påbörjas genom att skriva två procenttecken. Ctrl+Enter exkeverar innehållet i en cell. Temat för den här datorlaborationen är simulering. Sannolikhetsteoridelen av kursen handlar om hur man genom beräkningar kan ta fram olika storheter som sannolikheter, väntevärden osv, för en given stokastisk modellen. För mer komplicerade system är det ibland inte alls möjligt att göra exakta beräkningar, eller så är de så tidskrävande att man avstår. I sådana sammanhang kan simulering vara ett alternativ. Simulering innebär att man med hjälp av en dator drar ett antal replikeringar av det stokastiska systemet, och sedan använder t ex medelvärden eller empiriska kvantiler (mer om det nedan) för att uppskatta de storheter man söker. I den här laborationen skall vi göra detta för några enkla problem, men grundprinciperna går att använda på långt mer komplicerade problem som vi inte kan lösa med enkla beräkningar. Sida 2 av 9

Problem 0 - Beräkna sannolikheter Läs help för funktionerna binocdf, binopdf, normcdf, normpdf, expcdf och exppdf. Observera att MATLABs exprnd har väntevärdet µ som parameter i motsats till [2] som har 1/µ som parameter. Låt X 1 vara Bin(10,0.3), X 2 N(5,3), X 3 Exp(7) och bestäm (med hjälp av funktionerna ovan) för k = 1, 2, 3 1. P(X k 3) Svar:...... 2. P(X k > 7) Svar:...... 3. P(3 < X k 4) Svar:...... Problem 1 - Täthetsfunktioner Plotta täthetsfunktionen för en exponentialfördelad stokastisk variabel med väntevärde µ. 1 %% Problem 1: exp-pdf 2 dx = 0.1; 3 x = 0:dx:15; % Skapar en vektor med dx som inkrement 4 mu = 1; 5 y = exppdf(x, mu); % exponential-fordelningen 6 plot(x,y) Gör nu samma sak för täthetsfunktionen i förberedelseuppgift 2. 1 %% Problem 1: lambda-plot 2 lambda = 0.4267; 3 f=(lambda*exp(-x/lambda)+lambda./x).*(x > = 1 & x < = 10); 4 plot(x, f) Diskutera skillnaden mellan fördelningarna. Sida 3 av 9

Problem 2 - Multivariat Normalfördelning Täthetsfunktionen för den multivariata normalfördelningen ritas upp av funktionen plot_mvnpdf. Undersök hur funktionen fungerar och testa med lite olika parametervärden. Parametrarna mux och muy kan anta alla reella värden, parametrarna sigmax och sigmay kan anta alla positiva värden och parametern rho kan anta alla värden på intervallet [ 1, 1]. Observera att plotfönstret i funktionen plot_mvnpdf är fixt, så för parametervärden som är av storleksordningen tio eller större, så kommer merparten av täthetsfunktionen att hamna utanför plotfönstret. 1 %% Problem 2: Multivariat normal 2 mux = 0; muy = -2; sigmax = 1; sigmay = 4; rho = 0.7; 3 plot_mvnpdf(mux, muy, sigmax, sigmay, rho) Hur påverkar olika parametervärden utseendet på plotten? Problem 3 - Simulering av slumptal I denna övning så genererar vi ett stort antal slumptal, ritar upp deras histogram och plottar slutligen den sanna täthetsfunktionen ovanpå. 1 %% Problem 3: Simulering av slumptal 2 mu = 10; 3 N = 1e4; 4 y = exprnd(mu, N, 1); % Genererar N exp-slumptal 5 hist_density(y); % Skapar ett normaliserat histogram 6 t = linspace(0, 100, N/10); % Vektor med N/10 punkter 7 hold on 8 plot(t, exppdf(t, mu), 'r') % 'r' betyder rod linje 9 hold off Upprepa simuleringarna och studera hur histogrammet förändras. Hur förhåller sig histogrammet till den röda linjen och hur förklaras variationen kring denna linje? Sida 4 av 9

Problem 4 - Stora talens lag, Monte Carlo och CGS I detta avsnitt kommer vi igen att generera stora mängder slumptal, nu för att beräkna väntevärden och sannolikheter. Antag att man vill veta väntevärdet på en tärning, det är inte svårt att beräkna för hand men det går också att kasta tärningen många gånger och sedan räkna ut medelvärdet på dessa kast. Om X 1,X 2,...,X n är likafördelade med väntevärde µ så gäller enligt stora talens lag i [2] att ( 1 P n n ) X i µ < ε 1 (2) i=1 för varje ε > 0 när n. Sannolikheten att skillnaden mellan medelvärdet och det sanna väntevärdet är mindre än ε går alltså mot ett när antalet observationer går mot oändligheten. Att använda detta för att beräkna väntevärden kallas för Monte Carlo-metoder. Idén bakom Monte Carlo är gammal och har funnits inom matematiken åtminstone sedan 1700-talet, men synen kom att förändras under andra halvan av 1900-talet då det på allvar blev möjligt att utföra stora beräkningar. Under 1940-talet utvecklade Stanislaw Ulam och John von Neumann metoder för att göra dessa tärningskast med hjälp av dator enligt [1]. Arbetet var kopplat till Manhattanprojektet vars syfte var att ta fram den första atombomben. Metoden namngavs efter casinot Monte Carlo i Monaco. Illustration av Stora talens lag Koden nedan simulerar exponentialfördelade stokastiska variabler och plottar medelvärdet efter hand. Plotten som visas är alltså din skattning av medelvärdet upp till och med variabel nummer k. Om du tröttnar på att vänta, så kan du kommentera bort pause-raden. 1 %% Problem 4: Stora talens lag 2 mu = 0.5; 3 M = 500; 4 X = exprnd(mu, M, 1); 5 plot(ones(m, 1)*mu, 'r-.') 6 hold on 7 for k = 1:M 8 plot(k, mean(x(1:k)), '.') 9 if k == 1 10 legend('sant \mu', 'Skattning av \mu') 11 end 12 xlabel(num2str(k)), pause(0.001) 13 end 14 hold off Sida 5 av 9

Ser det ut som förväntat? Illustration av Centrala Gränsvärdessatsen Koden nedan simulerar exponentialfördelade slumptal och summerar sedan dessa. Studera koden och förklara vad N representerar. 1 %% Problem 4: CGS 2 M = 1e3; 3 N = 4; 4 mu = 5; 5 X = exprnd(mu, M, N); 6 S = cumsum(x, 2); 7 for k = 1:N 8 hist(s(:, k), 30) 9 xlabel(num2str(k)) 10 pause(0.1) 11 end Justera N, vad händer när du ökar respektive minskar värdet? Varför? Vid vilket N ser det ut som att det inte gör någon skillnad att öka N? Vilken fördelning verkar summorna ha? Varför har de denna fördelning? Väntevärden Uppgiften är nu att beräkna samma väntevärden som i förberedelseuppgift 3. Det första väntevärdet kan du beräkna enligt nedan. 1 %% Problem 4: Monte Carlo 2 N = 1e5; 3 U = rand(n, 1)*2*pi; 4 mean(sin(u).^2); Sida 6 av 9

Kontrollera att resultatet stämmer med vad du förväntade dig i båda fallen. Låt nu X och Y vara oberoende stokastiska variabler där X Exp(4) och Y N(0,1). Använd Monte Carlo-metoden för att beräkna E[(e X ) cos(y) ]. Problem 5 - Deskriptiv statistik Vi skall nu gå vidare till att studera skillnaden mellan väntevärden i två populationer, t ex skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten. (Om ni vill kan ni ta två andra populationer, och/eller andra variabler att studera!). I filen birth.txt ser man att kolonn 20 i birth.txt innehåller rökvanor, och att värdena 1 och 2 betyder att mamman inte röker under graviditeten, medan värdet 3 betyder att hon gör det. Ni kan skapa två variabler x och y för födelsevikter hörande till icke-rökande respektive rökande mammor enligt >> x = birth(birth(:, 20) < 3, 3); >> y = birth(birth(:, 20) == 3, 3); Vad som händer här är att birth(:, 20) < 3 returnerar en vektor av sant och falskt, och att bara de rader av kolonn 3 (födelsevikterna) i birth för vilka jämförelsen är sann, väljs ut. Använd koden nedan för att visuellt inspektera datat. 1 %% Problem 5: Deskriptiv statistik 2 load lab2data/birth.dat 3 x = birth(birth(:, 20) < 3, 3); 4 y = birth(birth(:, 20) == 3, 3); 5 subplot(2,2,1) 6 boxplot(x) 7 axis([0 2 500 5000]) 8 subplot(2,2,2) 9 boxplot(y) 10 axis([0 2 500 5000]) 11 subplot(2,2,3:4) 12 ksdensity(x) 13 hold on 14 [fy, ty] = ksdensity(y); 15 plot(ty, fy, 'r') 16 hold off Vad betyder plotarna? Vilka slutsatser kan ni dra? Sida 7 av 9

Problem 6 - Bootstrap (gör i mån av tid) Namnet bootstrap syftar till metaforen att dra sig upp ur ett knivig situation genom att ta tag i sina stövelskaft. Ett klassiskt exempel är historien om Baron von Münchausen i vilken han ska ha räddat sig och sin häst ur ett träsk genom att dra ur de båda genom att lyfta sig själv i håret. Detta förfarande beskriver idén bakom den statistiska varianten av metoden mycket väl: Man har observerat en begränsad mängd data och man vill bilda sig en uppfattning om vad som hade hänt om man hade haft fler observationer. I vårt fall innebeär det att vi gör upprepade slumpvisa dragningar från vårt observerade data med funktionen randsample. Vi ska börja med att titta på ett simulerat exempel där vi vet vad som borde hända och fortsätter sedan i nästa laboration med att titta på riktiga data, vilket är det som vi huvudsakligen är intresserade av. Simulering av summerade exponentialfördelade variabler Om X 1,X 2,...,X n alla är oberoende och exponentialfördelade med intensitet λ så gäller Y n = n k=1 X k Γ(n, 1 ). (3) λ Med andra ord är summan av de exponentialfördelade variablerna gammafördelad. (Specialfallet när Γ-fördelningen har ett positivt heltal n som första parameter kallas mer specifikt för Erlang-fördelning.) Vi ska nu simulera M stycken summor av typen (3), med n noterat som n_sum i koden nedan, och studera ett histogram för dem. Börja med att studera koden nedan. Läs help randsample och testa hur funktionen fungerar. Kommandot reshape används nedan för att omforma matrisen x till en vektor så att den ska kunna användas i randsample. Notera att vi använder väntevärdet µ = 1 λ i koden nedan. Sida 8 av 9

1 %% Problem 6: Bootstrap - Simulering 2 % lambda = 1/5; 3 mu = 5; 4 M = 1e3; 5 n_sum = 5; 6 X = exprnd(mu, M, n_sum); 7 g = sum(x, 2); 8 subplot(211) 9 hist_density(g) 10 hold on 11 t = 0:0.01:mu*10; 12 plot(t, gampdf(t, n_sum, mu), 'r') 13 hold off 14 B = 1e3; % Antal bootstrapreplikat 15 totalnosamples = M*n_sum; 16 X = reshape(x, totalnosamples, 1); % Gor om X till vektor 17 yboot = zeros(b, 1); 18 for j = 1:B 19 sampledraws = X(randsample(totalNoSamples, n_sum, 1)); 20 yboot(j) = sum(sampledraws); 21 end 22 subplot(212) 23 hist_density(yboot) 24 hold on 25 plot(t, gampdf(t, n_sum, mu), 'r') 26 hold off Förklara vad de två raderna i for-loopen gör! Justera B, M, respektive mu. Vad händer? Varför? Referenser [1] Eckhardt, Roger (1987) Stan Ulam, John von Neumann and the Monte Carlo, Method Los Alamos Sci., Vol 15, p. 131-43. [2] Blom, G., Enger, J., Englund, G., Grandell, J., och Holst, L., (2005). Sannolikhetsteori och statistikteori med tillämpningar. Sida 9 av 9